Yeni Araştırmaya Bakılırsa Suni Zekâ Hâlâ Ofis İşleri İçin Kafi Değil! Peki Niçin?

Mercor adlı bir şirket, suni zekânın data gerektiren ofis işlerinde insan yerine geçip geçemeyeceğini kontrol etti. Sanılanın aksine suni zekâ modellerinin hâlâ fazlaca geride olduğu görüldü.
Her geçen gün daha da gelişmiş hâle gelen suni zekâ teknolojilerinin ilerleyen dönemde birçok insanoğlunun işini elinden alacağı konuşuluyordu. Günümüzde bilhassa data gerektiren işlerde hâlâ insan gücünün öne çıktığını görüyoruz. Peki birkaç yıl içinde bu değişip ofislerde suni zekâ mı kullanılacak?
Veri şirketi Mercor tarafınca piyasaya çıkan yeni bir araştırma, suni zekâ için kullanılan tüm “mantık yürütme” yada “planlama” şeklinde özelliklere karşın hâlâ bu hızla gelişen teknolojinin insan yerine geçmesinin mümkün olmadığını gösterdi.
Suni zekâ hâlâ hakkaten işlerin karmaşıklığıyla başa çıkacak seviyede değil
Mercor, APEX-Agenst adlı bir karşılaştırma testi yayımladı. Suni zekâdan şiir yazmasını yada matematik problemi çözmesini isteyen alışılagelmiş testlerin aksine bu testte avukatlar, danışmanlar ve bankacılardan gelen gerçek sorular kullanıldı. Modellerden, değişik data türleri içinde geçiş yapmayı gerektiren, fazlaca adımlı, eksiksiz görevler gerçekleştirmeleri istendi.
Sonuçlar ise şaşırtıcıydı. Gemini 3 Flash’ten GPT-5.2’ye kadar piyasadaki en iyi modeller bile testte** %25 doğruluk oranını aşamadı**. En öne çıkan model, %24 oran yakalayan Google modeli Gemini oldu. GPT-5.2, %23 ile onu takip etti. Öteki modellerde ise averaj %10 civarı başarı oranı yakalandı.
Mercor yetkilileri, yaptıkları açıklamada gerçek dünyada cevapların altın tepside sunulmadığını, suni zekânın bu biçim mevzularda hâlâ kafi seviyede olmadığını söylüyor. Doğrusu gerçek dünyadaki işlerin karmaşıklığıyla başa çıkacak seviyede değiller. Bir avukatın bir suali yanıtlamak için iş ortamındaki yazışmaları okuması, ilgili belgeleri incelemesi, tecrübelerini kullanımı ve arkasından tüm bu detayları sentezlemesi gerekiyor. Sadece suni zekâ bunu yapamıyor.
İnsanlar bağlam değişiklik yapma işini kolayca yapabiliyorlar sadece suni zekâ bu mevzuda iyi değil. Modelleri dağınık kaynaklardan data aramaya zorladığınızda ya kafaları karışıyor ya yanlış yanıt veriyorlar ya da tamamen pes ediyorlar. Bu yüzden bazı işlerde insanların yerine geçmeleri için hâlâ erken bulunduğunu söyleyebiliriz.


