Suni Zekâ Modellerinin İnsanları Kandırabildiği Ortaya çıkarıldı

0 1 dakika okuma süresi

Yapay Zekâ Modellerinin İnsanları Kandırabildiği Keşfedildi

Anthropic tarafınca meydana gelen bir araştırma, suni zekâ modellerinin insanları kandırabildiğini gösterdi. Modeller, kimi zaman değişik görüşlere haizmiş şeklinde davranabiliyorlar sadece orijinal tercihlerinden vazgeçmiyorlar.

En önde gelen suni zekâ şirketlerinden olan Anthropic, bu araçlarla ilgili oldukça garip sonuçlar çıkaran bir araştırmaya imza attığı. Araştırmada, suni zekâ modellerinin insanları âdeta “kandırdığı” görüldü.

Şirket tarafınca paylaşılan bir blog gönderisiyle piyasaya çıkan sonuçlara gore suni zekâ araçları, eğitim esnasında değişik görüşlere haizmiş şeklinde davranabiliyorlar sadece gerçekte orijinal tercihlerini koruyorlar. Kısaca bağlı oldukları düşünce asla değişmiyor, bir tek öyleymiş şeklinde davranıyorlar.

Şimdilik endişelencek bir şey yok sadece gelecek için lüzumlu güvenlik önlemlerinin alınması gerekiyor

Çalışmanın arkasındaki ekip, şu an için bu durum hakkında endişelenmemek icap ettiğinin altını çizdi. Sadece gelecekte daha da gelişmiş suni zekâ modellerinin gelmesiyle beraber durumun potansiyel riskler oluşturabileceğini de eklemeden geçmedi.

Araştırmacılara gore bu bulgular suni zekânın iyi mi davrandığının daha derinlemesine incelenmesi ve uygun güvenlik önlemleri için bir teşvik olabilir: “Modeller daha yetenekli ve yaygın hâle geldikçe onları zararı olan davranışlardan uzaklaştıran güvenlik önlemleri gerekiyor.”

Yapay Zekâ Modellerinin İnsanları Kandırabildiği Keşfedildi: Rol Yapıyorlar!

Çalışmada, kuvvetli bir suni zekâ sisteminin yapmak “istemediği”, kısaca geliştirilme ilkelerine aykırı bir görevi yerine getirmek suretiyle eğitilmesi ve bunun iyi mi sonuçlar oluşturabileceği incelendi. Sadece sonuçlarda yeni prensiplere uyumlu şeklinde görünerek âdeta “rol yapmış olduğu” görüldü. Aslına bakarsak hep eski davranışına bağlı kalıyordu, zorunda olduğundan istenen yanıtları veriyordu. Bu duruma, “uyum sahtekârlığı” adı verildi. Modellerin testlerde zararı olan soruları cevaplamak için eğitilmeye çalışıldığını belirtelim.

Araştırmacılara gore emek verme, suni zekânın fena niyetli hedefler geliştirdiğini yada yüksek oranda sahtekârlık yaptığını göstermiyor. Hatta oran bir çok testte %15’i geçmemiş, GPT-4o şeklinde bazı gelişmiş modellerde kimi zaman asla olmadığı bile görülmüş.

O yüzden şimdilik endişelenmenin bir manası yok. Doğal modellerin zaman içinde daha karmaşık hâle gelmesi onlarla başa çıkmayı zorlaştırabilir. İşte o vakit endişelenmeye başlayabiliriz. Bu yüzden de önlemlerin alınması koşul.

0 1 dakika okuma süresi