Suni Zekâ Modelleri, Super Mario Bros.’ta Kontrol Ediliyor!

ABD’den araştırmacılar; Google, OpenAI, Anthropic şeklinde şirketlerin suni zekâ modellerini Super Mario Bros. ile kontrol etmeye başladı. İşte sonuçlar.
Suni zekâ modelleri her geçen gün oldukça daha iyi hâle geliyor. Doğal ki her teknolojide olduğu şeklinde suni zekânın da piyasaya sürülmeden ilkin ve sonrasında kontrol edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Mesela Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.
Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab adlı organizasyondan araştırmacılar, yepyeni bir oyunla suni zekâyı kontrol etmeye başladı. Bu oyun, ikonik yapım Super Mario Bros. olarak karşımıza çıktı.
Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı
Testlerde Super Mario Bros. kullanılarak birçok değişik suni zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar içinde OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.
Sonuçlarda, en iyi performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak aralarında en fena performansı gösteren dil modeli oldu.
Kullanılan Super Mario Bros. 1985’teki orijinalinden birazcık daha farklıydı. Testler için emülatörden yararlanıldı. Ek olarak GamingAgent adı verilen bir framework ile entegre çalıştı. Bu, oyunun suni zekâ modelleri tarafınca denetim edilmesini sağlamış oldu.
Oyunda her bir modelin iyi mi tepkiler vereceği, karışık manevraları öğrenmeleri, oyun stratejileri geliştirmeleri şeklinde şeyler kontrol edildi. Daha da garip olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o şeklinde mantık yürüten kategorisine sokulmayan modellerden daha fena performans göstermesiydi.
Bu biçim modeller, problemleri adım adım düşünüp çözmeleriyle genel anlamda öteki modellere kıyasla daha iyi performans gösteriyordu sadece Super Mario Bros.’ta bu olmadı. Bunun sebebi muhtemelen mantık modellerinin eylemleri için birazcık süreye ihtiyacı olması ve düşünmesi. Bu yüzden düzgüsel dil modelleri şeklinde gerçek zamanlı olarak süratli aksiyon alamıyorlar.


