Yapay zeka destekli sohbet botları, sınıflardan ofislere ve günlük yaşantımıza kadar pek çok alanda karşımıza çıkmaya devam ediyor. Ancak bu araçların önemli bir sorunu bulunuyor: Bazen tamamen yanlış ve uydurma bilgiler üretebiliyorlar. Bu duruma “halüsinasyon” deniyor. OpenAI, bu sorunun kaynağını çözdüğüne ve gelecekteki yapay zeka sistemlerini daha güvenilir hale getirecek bir çözüm bulduğuna inanıyor. İşte konuyla ilgili ayrıntılar.
Sorun yapay zekanın değerlendirme yönteminde
OpenAI, Georgia Tech’ten Santosh Vempala ve diğer bilim insanları ile birlikte yayımladığı 36 sayfalık çalışmada bu meseleyi detaylı bir şekilde ele aldı. Araştırmacılar, halüsinasyonların model tasarımındaki bir eksiklikten değil, yapay zekâ sistemlerinin test edilme ve sıralama yöntemlerinden kaynaklandığını iddia ediyor.

Mevcut değerlendirme yöntemleri, bir sohbet botunun her durumda cevap vermesi nedeniyle ödüllendirilmesine dayanıyor. Ancak belirsizlik durumlarında sessiz kalan sistemler cezalandırılıyor. Bu durumu, tüm sorulara cevap vermek zorunda kalan bir öğrencinin uyguladığı çoktan seçmeli bir sınavla karşılaştırabiliriz. Bilmediği soruları boş bırakmak yerine rastgele cevaplar veren bir öğrencinin ödüllendirilmesi gibi bir sonuç ortaya çıkıyor.
Bu sorunun çözümü için önerilen yeni puanlama sistemi, mevcut yaklaşımın tersine döndürülmesini içeriyor. Yanlış cevaplar verip bunları kesin bir şekilde sunan modellerin cezalandırılması gerektiği belirtiliyor. Aynı zamanda belirsizliklerini ifade eden veya “bilmiyorum” diyen sistemlerin ödüllendirilmesi gerektiği ifade ediliyor.
Yeni yöntemle elde edilen ilk örnekler oldukça dikkate değer. Bir testte temkinli bir model, soruların sadece yarısına cevap verirken, bu yanıtların %74’ünün doğru olduğu görülüyor. Diğer bir model ise neredeyse tüm soruları yanıtlıyor ama bu cevapların üçte biri halüsinasyon içeriyor.
Eğer bu yaklaşım benimsenirse, yapay zeka asistanlarının davranışları önemli ölçüde değişebilir. Artık sahte kaynaklar veya yanlış istatistikler üretmek yerine “Bu konuda emin değilim” ya da “Bilmiyorum” gibi yanıtlar vermeleri daha olası hale gelecek.
Bu durum ilk bakışta daha az etkileyici görünse de, kullanıcıların verilen cevapları sürekli kontrol etme zorunluluğunu ortadan kaldırarak daha güvenilir bir deneyim sunabilir. OpenAI için bu araştırma, gösterişli ama güvenilir olmayan bir özgüven yerine, doğruluk ve güven tesis eden bir yapay zeka sistemine doğru kayda değer bir ilerleme olarak değerlendiriliyor.
Leave a comment