ChatGPT’nin Yeni Sürümleri, Eskilerinden Daha Fena!

Bilim adamları, OpenAI’ın söyleşi botu ChatGPT hakkında çarpıcı sonuçlara yer veren bir araştırma yayınladı. Botun geliştikçe daha fena cevaplar verdiği ortaya kondu.
OpenAI’ın Kasım 2022’de piyasaya sürdüğü söyleşi botu ChatGPT, yapabildikleriyle tüm dünyada viral olmayı başarmıştı. ChatGPT, günümüzde birçok mobil uygulamada kullanılmaya, bilhassa satın alan temsilciliğinde erkek oyuncu olarak yer almaya başladı.
ChatGPT’nin her güncellemeyle beraber geliştiğini varsayıyor olsak da 18 Temmuz’da gösterilen bir araştırma, ortaya garip sonuçlar koydu. Stanford ve Kaliforniya Üniversitelerinden bilim adamları, ChatGPT’nin her yeni dil modeliyle daha fena cevaplar vermeye başladığını deklare etti.
Son sürüm GPT modellerinde başarısızlık oranı daha yüksek:
Araştırma ekibinde yer edinen Lingjiao Chen, Matei Zaharia ve James Zou, ChatGPT’yi oluşturan dil modeli GPT’nin iki değişik versiyonunu ve ikişer sürümünü teste soktu: GPT-3.5 Mart/Haziran ve GPT-4 Mart/Haziran.
Testte, dil modeline birkaç matematik problemi ile kırılgan sorular soruldu. Kod yazımı ve girdiye yönelik muhakeme yürütmesi istendi. Bilhassa sürümler arasındaki fark, fazlasıyla şaşırtıcıydı.
GPT-4’ün Mart sürümü, kendisine sunulan bir sayının asal sayı olup olmadığını %97,6 doğruluk oranıyla bilmeyi başardı. Aynı versiyonun Haziran sürümünde ise bu oran yalnız %2,4 ile sınırı olan kaldı.

Asal sayılarda GPT-3.5’in başarısı ise GPT-4 Mart’tan da daha iyiydi. GPT-3.5 Mart sürümü, asal sayıları aynı süre içinde daha yüksek doğrulukta biliyordu. Geliştikçe yaşanmış olan benzer düşüşler kod yazımında da kendisini gösterdi.
İş kırılgan sorulara vardığında ise acayip bir tablo oluştu. Mart sürümlerinde bot, kullanıcıya bir suali niçin cevaplayamayacağını detaylı bir halde anlatıyordu. Haziran sürümlerinde ise yalnız kullanıcıdan özür diliyor ve suali cevaplayamayacağını söylüyor.
ChatGPT’nin kabiliyetlerindeki düşüşün ardındaki sebebi, araştırmayı meydana getiren ekip de belirleyemedi.


