GPT-5, GPT-4o’dan Daha Fazla Halüsinasyon Görüyor

Yeni bir halüsinasyon testine bakılırsa OpenAI’ın yeni modeli GPT-5, GPT-4o’ya kıyasla daha çok halüsinasyon görüyor. En oldukca halüsinasyon gören model de pek şaşırtıcı değil.
OpenAI, geçtiğimiz hafta yeni modeli GPT-5‘i kullanıma sunmuştu. CEO Sam Altman, bu yeni modelin bugüne kadarki en kuvvetli, süratli ve güvenilir sürüm bulunduğunu söylerken, “halüsinasyon” dediğimiz, suni zekânın uydurmuş olduğu bilgilerin de bu modelle oldukca daha azca olacağının altı çizilmişti.
Vectara adlı bir platform ise bu iddiaları kontrol etti. Sonuçlara bakılırsa GPT-5, halüsinasyon oranında GPT-4’ten daha iyi olsa da fark oldukca ufak. Teste bakılırsa GPT-4’ün %1,8’lik oranı, GPT-5’te %1,4’e düşmüş. GPT-4o ise %0,09 farkla GPT-5’in önünde. En iyi netice ise %0,795 ile OpenAI’nin o3-mini High Reasoning modelinde.
En oldukca halüsinasyon gören model ise Grok-4
Gene de GPT-5 hâlâ rakiplerinden oldukca daha güvenilir durumda. Mesela Google’ın Gemini-2.5-pro’su %2,6, Grok-4 ise %4,8 oranında halüsinasyon görüyor.
Grok’un arkasındaki şirket xAI, son zamanlarda ünlülerin uygunsuz deepfake videolarını kolayca üretebilen “Spicy” modu yüzünden eleştirilerin odağında. Ek olarak verileri X’e dayalı olduğundan halüsinasyon oranını düşürmekte zorlanıyor.
Peki sizce en düşük halüsinasyon oranı hangi modelde? Düşüncelerinizi aşağıdaki yorumlar kısmından bizimle paylaşabilirsiniz.



