Yapay zekâların halüsinasyon sorunu devam ediyor

Yapay zeka teknolojilerindeki baş döndürücü gelişmelere rağmen, sektörün büyük problemlerinden biri olan "halüsinasyon" (yanlış bilgi üretme) sorunu çözülebilmiş değil. Artificial Analysis tarafından yayınlanan son rapor, modellerin büyük çoğunluğunun bilmedikleri konularda sessiz kalmak yerine "uydurmayı" tercih ettiğini ortaya koydu

yapay zeka halüsinasyon benchmarkı

Büyük Dil Modellerinin (LLM) yeteneklerini ölçen standart testlerin aksine, Artificial Analysis tarafından geliştirilen "AA-Omniscience Benchmark", modelleri sadece bilgisiyle değil, dürüstlüğüyle de sınadı. Finans, hukuk ve tıp gibi 6 farklı uzmanlık alanını kapsayan testte, modellere tam 6.000 zorlu soru yöneltildi.

"Bilmiyorum" Demenin Ödüllendirildiği Test
Bu araştırmayı diğerlerinden ayıran en önemli özellik, uygulanan puanlama sistemi oldu. Modellerin güvenilirliğini ölçmek adına şu yöntem izlendi:

  • Doğru Cevap: Pozitif Puan (+)
  • "Bilmiyorum" / Cevapsız: 0 Puan (Nötr)
  • Yanlış Cevap (Halüsinasyon): -1 Puan (Ceza)

Bu sistemle, modelin emin olmadığı durumlarda risk alıp uydurması yerine, "bilmiyorum" diyerek pas geçmesi teşvik edildi.

Sonuçlar Endişe Verici: Modeller Sınıfta Kaldı


Test sonuçları, yapay zekanın "haddini bilme" konusunda hala çok yolu olduğunu gösteriyor. Test edilen modellerin çok büyük bir kısmı, yanlış cevap cezası (-1) nedeniyle eksi puana düşerek sıralamanın altında kaldı.

Veriler, modellerin bir soruyla karşılaştıklarında cevabı bilmeseler bile, 0 puan alıp güvenli alanda kalmak yerine, yanlış cevap vererek kullanıcıyı yanıltma eğiliminde olduklarını kanıtladı. 40'a yakın modelin yer aldığı listede sadece 4 model pozitif skor üreterek "güvenilir" sınıfına girebildi.

Neden Önemli?
Bu tablo, özellikle kurumsal hayatta ve kritik karar alma süreçlerinde yapay zeka kullanımının risklerini bir kez daha gözler önüne seriyor. Bir yapay zeka asistanının her soruya cevap vermesi değil, sadece "doğru bildiği" sorulara cevap vermesi, bilmediği noktalarda ise kullanıcıyı uyarması hayati önem taşıyor.

Görünen o ki, yapay zeka yarışında firmaların artık "daha zeki" modellerden ziyade, "daha dürüst" modellere odaklanması gerekecek.

 

Ahmet Oğuz Koca
Ahmet Oğuz Koca

Üretken yapay zeka araçları ve yazılım uzmanı.

Paylaş