OpenAI, Suni Zekâyı Bilim İnsanlarıyla Yarıştıracak Yeni Kontrol Aracı FrontierScience’ı Duyurdu: İşte İlk Sonuçlar!

0 2 dakika okuma süresi

OpenAI, Yapay Zekâyı Bilim İnsanlarıyla Yarıştıracak Yeni Test Aracı FrontierScience'ı Duyurdu: İşte İlk Sonuçlar!

OpenAI, FrontierScience ile suni zekâ modellerinin bilimsel kabiliyetlerini ölçmeye hazırlanıyor. Fizik, kimya ve biyoloji alanlarında uzmanlarca hazırlanan bu sıkıntılı testte GPT-5.2 rakiplerine fark attı. Peki yeni sistem iyi mi çalışıyor ve bilim dünyası için ne anlama geliyor?

Suni zekâ dünyasında rekabet artık yalnız “kim daha iyi şiir yazar” yada “kim daha güzel kod yazar” seviyesinden çıkıp, “kim laboratuvarda bilim adamlarına taş çıkartır” seviyesine geldi. Hâl bu şekilde olunca OpenAI, modellerin bilimsel muhakeme kabiliyetlerini ölçmek için “FrontierScience” adını verdiği yeni ve oldukça kapsamlı bir karşılaştırma aracını resmen duyurdu.

Daha önceki testlerin artık günümüzün süper kuvvetli modellerine hafifçe gelmeye başladığı bir dönemdeyiz. O şekilde ki, “Google-Proof” olarak malum GPQA testinde bile GPT-5.2 modelinin yüzde 92 başarı oranına ulaştığını görüyoruz. Bu doygunluk noktası, OpenAI’ı daha sıkıntılı, uzman seviyesinde bir imtihan yapmaya itti. Peki fizik, kimya ve biyoloji alanlarında suni zekâyı terletecek bu yeni sistem neler sunuyor? Gelin detaylara bakalım.

FrontierScience nedir ve niçin gereksinim duyuldu?

FrontierScience, suni zekâ modellerinin uzman düzeyinde bilimsel akıl yürütme becerilerini değerlendirmek için tasarlanmış yeni bir standart. OpenAI bu aracı geliştirirken tek başına hareket etmemiş; fizik, kimya ve biyoloji alanlarında uzmanlaşmış doktoralı bilim adamları ve internasyonal olimpiyat madalyalı kişilerle iş birliği yapmış.

Mevcut testlerin bir çok çoktan seçmeli sorulara odaklanırken yada artık modeller için oldukça kolay hâle gelirken FrontierScience, bu boşluğu doldurmayı hedefliyor. Amaç yalnız informasyon dağarcığını ölçmek değil, modellerin karmaşık bilimsel problemleri çözerken iyi mi bir yol izlediğini ve araştırmacıların iş akışlarına ne kadar entegre olabileceğini görmek.

İki değişik kulvar: Olimpiyat ve Araştırma

Başlıksız-1

FrontierScience, modelleri iki ana kategoride sınıyor: Olimpiyat ve Araştırma. Bu fark, suni zekânın hem kuramsal bilgisini hem de ergonomik araştırma kabiliyetini ayrı ayrı ölçmek için tehlikeli sonuç bir öneme haiz.

Olimpiyat kategorisi: Bu bölümde internasyonal bilim olimpiyatlarında madalya kazanmış kişiler tarafınca hazırlanan 100 tane kısa cevaplı sual bulunuyor. Sorular kuramsal informasyon ve üst düzey akıl yürütme gerektiriyor.
Araştırma kategorisi: İşlerin aslolan zorlaştığı kısım burası. Doktoralı bilim adamları tarafınca hazırlanan 60 emsalsiz araştırma görevi içeriyor. Bu görevler çoktan seçmeli değil, tamamen ucu açık ve 10 puanlık bir rubrik sistemiyle değerlendiriliyor.

Sonuçlar ne söylüyor? GPT-5.2 ve Gemini 3 Pro kapışması

Başlıksız-1

OpenAI, bu yeni araçla beraber piyasadaki en kuvvetli modelleri de teste doğal olarak tuttu. Sonuçlar, suni zekânın yapılandırılmış problemlerde ne kadar ilerlediğini sadece emsalsiz araştırmalarda hâlâ ne kadar yolu bulunduğunu net bir halde gösteriyor.

GPT-5.2 hem Olimpiyat hem de Araştırma pistinde şu an için liderliği elinde tutuyor. Model, Olimpiyat sorularında yüzde 77, Araştırma görevlerinde ise yüzde 25 başarı oranı elde etti. Rakip cephesine baktığımızda ise Gemini 3 Pro’nun Olimpiyat testinde yüzde 76 ile GPT-5.2’nin ensesinde bulunduğunu görüyoruz. Sadece mevzu ucu açık araştırmaya vardığında tüm modellerde ciddi bir performans düşüşü yaşanıyor.

Bu sonuçlar bizlere şunu konu alıyor: Suni zekâ, ders kitaplarında yazan sıkıntılı problemleri çözmekte artık neredeyse bir uzman kadar iyi. Sadece iş, sıfırdan bir hipotez üretip bunu karmaşık bir araştırma sürecine dökme noktasına vardığında, insan zekâsına ve denetimine hâlâ muhtaçlar. FrontierScience, tam da bu gelişimi izlemek için “şimal yıldızı” olmayı hedefliyor.

0 2 dakika okuma süresi