RLHF nedir?

İnsan geri bildiriminden pekiştirmeli öğrenme (RLHF), ML modellerini kendi kendine daha verimli bir şekilde öğrenmek için optimize etmek üzere insan geri bildirimini kullanan bir makine öğrenimi (ML) tekniğidir. Pekiştirmeli öğrenme (RL) teknikleri, ödülleri en üst düzeye çıkaran ve sonuçlarını daha doğru hale getiren kararlar almak için yazılımı eğitir. RLHF, ödül işlevine insan geri bildirimini dahil eder, böylece ML modeli insan hedefleri, istekleri ve ihtiyaçlarıyla daha uyumlu görevler gerçekleştirebilir. RLHF, büyük dil modelleri (LLM) dahil olmak üzere üretici yapay zeka (üretici AI) uygulamalarında kullanılır.

Makine öğrenimi hakkında bilgi edinin

Pekiştirmeli öğrenme hakkında bilgi edinin

Üretici yapay zeka hakkında bilgi edinin

Büyük dil modelleri hakkında bilgi edinin

RLHF neden önemlidir?

Yapay zekanın (AI) uygulamaları, sürücüsüz otomobillerden doğal dil işlemeye (NLP), borsa tahminlerine ve perakende kişiselleştirme hizmetlerine kadar geniş kapsamlıdır. Verilen uygulama ne olursa olsun yapay zekanın amacı nihayetinde insan tepkilerini, davranışlarını ve karar vermesini taklit etmektir. ML modeli, yapay zekanın karmaşık görevleri tamamlarken insanları daha yakından taklit etmesi için insan girdisini eğitim verileri olarak kodlamalıdır.

RLHF, denetimli ve denetimsiz öğrenme gibi diğer tekniklerin yanı sıra yapay zeka sistemlerinin daha insana yakın görünmesi için eğitmede kullanılan özel bir tekniktir. İlk olarak, modelin tepkileri bir insanın tepkileriyle karşılaştırılır. Daha sonra bir insan, makineden gelen farklı tepkilerin kalitesini değerlendirir ve hangi tepkilerin daha insani göründüğünü belirler. Skor; dostluk, doğru bağlamsallaştırma derecesi ve ruh hali gibi doğuştan insani niteliklere dayanabilir. 

RLHF, doğal dil anlayışında öne çıksa da diğer üretici yapay zeka uygulamalarında da kullanılır.

Yapay zeka hakkında bilgi edinin

Doğal dil işleme hakkında bilgi edinin

Denetimli ve denetimsiz öğrenme arasındaki fark nedir?

Yapay zeka performansını artırır

RLHF, ML modelini daha doğru hale getirir. Önceden oluşturulmuş insan verileri üzerinde eğitilebilen bir modeli eğitebilirsiniz ancak ek insan geri bildirim döngülerine sahip olmak, model performansını başlangıç durumuna kıyasla önemli ölçüde artırır.

Örneğin, metin bir dilden diğerine çevrildiğinde model, teknik olarak doğru olmasına rağmen okuyucuya doğal olmayan bir metin üretebilir. Profesyonel bir çevirmen önce çeviri yapabilir, makine tarafından oluşturulan çeviri ona göre puanlanır ve ardından makine tarafından oluşturulan bir dizi çeviri, kalite açısından puanlanabilir. Modele daha fazla eğitim eklenmesi, doğal sesli çeviriler üretmeyi daha iyi hale getirir.

Karmaşık eğitim parametrelerini sunar

Bazı durumlarda üretici yapay zekanın modeli belirli parametreler için doğru bir şekilde eğitmesi zor olabilir. Örneğin, bir müzik parçasının hissettirdiklerini nasıl tanımlarsınız? Belirli bir ruh halini gösteren anahtar ve tempo gibi teknik parametreler olasa da bir müzik parçasının hissettirdikleri, bir dizi teknik özellikten daha özneldir ve daha az tanımlanmıştır. Bunun yerine, bestecilerin bunalımlı parçalar ürettiği durumlarda insan rehberliği kullanabilir ve ardından makine tarafından oluşturulan parçaları karamsarlık seviyelerine göre etiketleyebilirsiniz. Bu, bir makinenin bu parametreleri çok daha hızlı öğrenmesini sağlar.

Kullanıcı memnuniyetini artırır

Bir ML modeli doğru olsa dahi insan gibi görünmeyebilir. Modeli insan kullanıcılar için en iyi, en ilgi çekici yanıta yönlendirmek için RL gereklidir.

Örneğin, bir sohbet robotuna dışarıda havanın nasıl olduğunu sorarsanız, "Bulutlu ve yüksek nemle birlikte 30 santigrat derece" yanıtını veya "Sıcaklık şu anda 30 derece civarında. Hava bulutlu ve nemli, bu yüzden hava daha basık gelebilir!” yanıtını verebilir. Her iki yanıt da aynı şeyi söylese de ikinci yanıt daha doğal gelir ve daha fazla bağlam sağlar. 

İnsan kullanıcılar hangi model yanıtlarını tercih ettiklerini değerlendirirken, insan geri bildirimlerini toplamak ve gerçek insanlara en iyi şekilde hizmet etmek için modelinizi geliştirmek üzere RLHF'yi kullanabilirsiniz.

RLHF nasıl çalışır?

RLHF, model hazır olarak kabul edilmeden önce dört aşamada gerçekleştirilir. Burada, iyileştirme için RLHF kullanan bir dil modeli (şirket içi bilgi tabanı sohbet botu) örneğini kullanıyoruz.

Sadece öğrenme sürecine genel bir bakış sunuyoruz. Modelin eğitiminde ve RLHF için politika iyileştirilmesinde önemli matematiksel karmaşıklık vardır. Bununla birlikte, karmaşık süreçler RLHF'de iyi tanımlanmıştır ve genellikle benzersiz girdilerinize ihtiyaç duyan önceden oluşturulmuş algoritmalara sahiptir.

Veri toplama

Dil modeliyle ML görevlerini gerçekleştirmeden önce eğitim verileri için insan tarafından oluşturulan bir dizi istem ve yanıt oluşturulur. Bu set daha sonra modelin eğitim sürecinde kullanılır.

İstemler şunlar olabilir:

  • "Boston'daki İK departmanı nerede?"
  • "Sosyal medya gönderileri için onay süreci nasıldır?"
  • "Birinci çeyrek raporu, önceki üç aylık raporlara kıyasla satışlara dair ne anlatıyor?

Şirketteki bir bilgi işçisi daha sonra bu soruları doğru, doğal yanıtlarla yanıtlar.

Bir dil modelinin denetimli ince ayarı

RLHF için temel model olarak önceden eğitilmiş ticari bir modeli kullanabilirsiniz. Geri alma artırımlı üretim (RAG) gibi teknikleri kullanarak modeli şirketin dahili bilgi tabanına göre ince ayar yapabilirsiniz. Modele ince ayar yapıldığında önceden belirlenmiş istemlere verdiği yanıtı önceki adımda toplanan insan tepkileriyle karşılaştırırsınız. Matematiksel teknikler ikisi arasındaki benzerlik derecesini hesaplayabilir. 

Örneğin, makine tarafından oluşturulan yanıtlara 0 ile 1 arasında bir puan atanabilir; 1 en doğru ve 0 en az doğrudur. Bu puanlarla, model artık insan tepkilerine daha yakın puan alan yanıtlar oluşturmak için tasarlanmış bir politikaya sahip olur. Bu politika, model için gelecekteki tüm kararların temelini oluşturur.

RAG hakkında bilgi edinin

Ayrı bir ödül modeli oluşturma

RLHF'nin özü, insan geri bildirimlerine dayalı ayrı bir yapay zeka ödül modeli eğitmek ve ardından bu modeli RL aracılığıyla politikayı optimize etmek için bir ödül işlevi olarak kullanmaktır. Aynı istemi yanıtlayan modelden birden fazla yanıt geldiğinde insanlar her yanıtın kalitesiyle ilgili tercihlerini belirtebilirler. Bu yanıt derecelendirme tercihlerini, bir insanın herhangi bir hızlı yanıtı ne kadar yüksek puanlayacağını otomatik olarak tahmin eden ödül modelini oluşturmak için kullanırsınız. 

Ödül tabanlı modelle dil modelini optimize etme

Ardından, dil modeli istemlere yanıt vermeden önce politikasını otomatik olarak iyileştirmek için ödül modelini kullanır. Ödül modelini kullanarak, dil modeli dahili bir dizi yanıtı değerlendirir ve ardından en büyük ödülle sonuçlanma olasılığı en yüksek olan yanıtı seçer. Bu, insan tercihlerini daha optimize edilmiş bir şekilde karşıladığı anlamına gelir.

Aşağıdaki resim, RLHF öğrenme sürecine genel bir bakış sunmaktadır.


 

RLHF, üretici yapay zeka alanında nasıl kullanılır?

RLHF, LLM'lerin doğru, zararsız ve yararlı içerik üretmesini sağlamak için endüstri standardı bir teknik olarak kabul edilmektedir. Bununla birlikte, insan iletişimi öznel ve yaratıcı bir süreçtir ve LLM çıktısının yararlılığı, insani değerlerden ve tercihlerden derinden etkilenir. Her model farklı şekilde eğitilir ve farklı insan yanıtlayıcıları kullanır, bu nedenle çıktılar rekabetçi LLM'ler arasında bile farklılık gösterir. Her modelin insani değerleri içerme derecesi tamamen yaratıcıya bağlıdır.

RLHF'nin uygulamaları, LLM'lerin sınırlarının ötesine, diğer üretici yapay zeka türlerine kadar uzanır. Aşağıda birkaç örnek verilmiştir:

  • RLHF, sanat eserinin gerçekçilik derecesini, teknikliğini veya ruh halini ölçmek gibi bir AI görüntüsü oluştururken kullanılabilir
  • RLHF müzik üretiminde belirli ruh hallerini ve film müziklerini etkinliklerle eşleştiren müzik yaratmaya yardımcı olabilir
  • RLHF, sesin daha samimi, meraklı ve güvenilir görünmesini sağlayan bir ses asistanında kullanılabilir

AWS, RLHF gereksinimleriniz konusunda nasıl yardımcı olur?

Amazon SageMaker Ground Truth, model doğruluğunu ve alaka düzeyini iyileştirmek için ML yaşam döngüsü boyunca insan geri bildirimlerini dahil etmeye yönelik en kapsamlı insan özellikleri kümesini sunar. Self servis veya AWS tarafından yönetilen bir teklif aracılığıyla veri oluşturma ve ek açıklamalardan ödül modeli oluşturmaya, model incelemesine ve özelleştirmeye kadar çeşitli insan özellikleri görevlerini tamamlayabilirsiniz.

SageMaker Ground Truth, RLHF yetenekleri için bir veri açıklayıcı içerir. Bir modelin RL sonuçları için yanıtlarını sıralayarak, sınıflandırarak veya her ikisini de yaparak oluşturduğu çıktı hakkında doğrudan geri bildirim ve rehberlik sağlayabilirsiniz. Karşılaştırma ve sıralama verileri olarak adlandırılan veriler, etkili bir şekilde bir ödül modeli veya ödül işlevidir ve daha sonra modeli eğitmek için kullanılır. Mevcut bir modeli kullanım durumunuza göre özelleştirmek veya sıfırdan oluşturduğunuz bir modele ince ayar yapmak için karşılaştırma ve sıralama verilerini kullanabilirsiniz.

Hemen bir hesap oluşturarak AWS'de RLHF tekniklerini kullanmaya başlayın.

AWS'de Sonraki Adımlar

Ücretsiz bir hesap açmak için kaydolun

AWS Ücretsiz Kullanım için anında erişim elde edin.

Kaydolun 
Konsolda oluşturmaya başlayın

AWS Yönetim Konsolu'nda oluşturmaya başlayın.

Oturum açın