Google: Suni zekanın 3 sözünden minimum 1’i yanlış

0 1 dakika okuma süresi

Google: Yapay zekanın 3 sözünden en az 1'i yanlış

Google’ın yeni benchmark emek harcaması, AI söyleşi botlarının en iyi senaryoda bile yalnızca %69 doğruluk sunduğunu ve hata riskinin hâlâ yüksek bulunduğunu gösteriyor.

Google DeepMind tarafınca geliştirilen FACTS Benchmark Suite, suni zekâ söyleşi botlarının gerçek dünyadaki doğruluk seviyesini ölçmek için hazırlandı. Testler; informasyon tabanlı sorular, uzun metinler, web verileri ve görsel yorumlama benzer biçimde alanları kapsıyor.

Sonuçlar oldukça çarpıcı: En iyi performansı gösteren modeller bile en fazla %69 doğruluk oranına ulaşabiliyor. Kısaca suni zekâların verdiği her üç yanıttan biri yanlış, tamamlanmamış ya da yanıltıcı olabiliyor.

Bu tablo, AI’ın son yıllarda hızla yaygınlaşmasına karşın bilhassa sıhhat, hukuk ve finans benzer biçimde eleştiri alanlarda hâlâ ciddi riskler taşıdığını gösteriyor. Akıcı ve ikna edici yanıtlar, devamlı doğru informasyon anlamına gelmiyor.

Geçmişte de “halüsinasyon” sorunlarıyla gündeme gelen AI modelleri için bu emek verme mühim bir hatırlatma durumunda. Uzmanlara bakılırsa suni zekâ, kuvvetli bir destek olmaya devam edecek sadece yakın gelecekte de insan denetimi olmadan tam güvenilir bir kaynak hâline gelmesi zor görünüyor.

0 1 dakika okuma süresi