Meta’nın Llama 4 Modeli Testte Değişik, Gerçekte Değişik Çıktı!

Meta’nın Llama 4 modeliyle yapmış olduğu testlerde kullanılan sürüm ile halka açık sürüm içinde fark olduğu ortaya çıktı.
Meta, yeni suni zekâ modellerini tanıttı fakat sonrasında işler birazcık karıştı. Firmanın, modellerini rakiplerinden daha başarıya ulaşmış göstermek için kontrol neticelerini birazcık “kendi lehine” oynadığı iddia edildi. Kısacası, Meta’nın suni zekâsı daha parlak zeka benzer biçimde görünüyordu fakat bunun arkasında ufak bir oyun varmış.
Firmanın Llama 4 serisinden Maverick modeli, testlerde yüksek puan almasına karşın bu sonucun halka açık versiyonu yansıtmadığı ortaya çıktı.
Testte görünen Maverick ile halka sunulan model aynı değil
Meta, hafta sonu gerçekleştirdiği duyuruyla Llama 4 çatısı altındaki iki yeni suni zekâ modelini tanıttı. Scout ve Maverick isminde bu modellerden bilhassa Maverick’in, GPT-4o ve Gemini 2.0 Flash benzer biçimde rakiplerini geçmiş olduğu açıklandı. LMArena isminde popüler karşılaştırma platformunda ikinci sıraya yükselen Maverick, 1417 ELO puanıyla dikkat çekti.
Sadece kısa süre sonrasında ortaya çıkan detaylar, kontrol edilen Maverick’in kamuya açık versiyondan değişik bulunduğunu gösterdi. Meta’nın belgelerinde, LMArena’da kullanılan modelin “konuşma kabiliyetleri için hususi olarak optimize edilmiş deneysel bir sürüm” olduğu açıklandı. Patform yöneticilerinin de tepkisini çekti ve kuralların güncelleneceği açıklandı.
Meta, bu hususi sürümün kullanımını savunurken, geliştiricilerin açık kaynaklı versiyonu kendi gereksinimlerine bakılırsa özelleştirebileceğini belirtti. Sadece kontrol platformunda gösterilen performans ile halka sunulan modelin değişik olması, gerçek dünyada alınabilecek verimin sorgulanmasına yol açtı. Firmanın modeli beklenen performansı gösteremediği için daha ilkin birkaç kez ertelediği de biliniyor.
Yaşanmış olan bu gelişme, suni zekâ karşılaştırma testlerinin şeffaflık ve güvenilirlik açısından önemini bir kez daha gündeme taşıdı. Bununla birlikte modellerin kontrol koşulları ile kullanıcıya sunulan hâli içinde fark olması, geliştiricilerin karar alma süreçlerini de etkileyebiliyor.


