Yapay Zeka

Suni Zekâ Araştırmacıları, Oyuncuların Zaaflarını Tarıyor

Google’ın ana şirketi Alphabet bünyesindeki suni zekâ şirketi olan DeepMind’dan araştırmacılar, oyuncuların zaaflarını araştırarak bunlara en iyi karşılığı verecek suni zekâyı geliştirmeyi hedefliyorlar. ‘Güçlendirilmiş öğrenme’ adında olan yöntemle oyunlardaki oyuncuların zafiyetleri tespit edilerek uygun karşılıklar verilmesi sağlanıyor.

Gerçek dünyadaki problemlerin çözümüne yönelik olarak geliştirmek istenen algoritmalar söz mevzusu olduğunda, bilgisayar oyunları gerçek hayata uyarlanıp algoritmaların geliştirilmesinde bilim adamlarına elverişli bir zemin sağlayabilir. Bunun yardımıyla, suni genel zekâ (AGI) için zemin hazırlanmış olabilir. AGI, yalnızca veri girişi benzer biçimde bayağı ve tekrarlanan görevleri değil, kendi çevresi hakkında da akıl yürütebilen bir karar verici suni zekâ sistemine işaret ediyor.

Google’ın ana şirketi Alphabet bünyesindeki suni zekâ şirketi DeepMind’daki araştırmacılar tarafınca gösterilen yeni bir makaleye nazaran bazı oyunlardaki oyuncuların hamlelerine yönelik en iyi karşılıkları öğrenen bir sistem oluşturuldu. Satranç ve Go’nun da içinde yer almış olduğu oyunlarda, bu yapının ‘en fena durumdaki rakiplerde’ tutarlı bir halde yüksek performans gösterdiği belirtiliyor. ‘En fena durumdaki rakipler’, iyi olmayan sadece oyunu kuralına nazaran oynayıp bitiren oyuncular için kullanılan bir terim.

Zafiyetlerden öğrenen suni zekâ:

Oyunculara karşı gösterilen performansın seviyesi, projede ‘zafiyet’ olarak adlandırılıyor. Bu zafiyeti hesaplamak, oyuncunun yapabileceği hareketlerin toplamı fazlaca büyük olduğundan dolayı fazlaca yoğun bir işlem gerektiriyor. Mesela Texas Hold’em adlı oyunun bir versiyonu olan Heads-Up Limit Texas Hold’em oyununda 10 üstü 14 karar noktası varken Go’da bu sayı 10 üstü 170’e çıkıyor. Bu işlemlerden kaçınmanın bir yolu, güçlendirilmiş öğrenme adında olan bir yöntemi kullanmak. Bu yöntemle verilebilecek en iyi karşılık hesaplanabiliyor.

DeepMind araştırmacılarının önerilmiş olduğu yapı, Ortalama En İyi Karşılık Data Durum Monte Carlo Ağaç Araştırması (ABR IS-MCTS) adını almış. Bu yapı, data/durum temelinde en iyi karşılığa yakınsıyor. Yapı içindeki erkek oyuncular, bir oyunu oynamak için bir algoritmayı takip ederlerken öğreniciyse bir hareket seçimi geliştirmek için çeşitli oyunların neticelerinden yola çıkıyor. ABR IS-MCTS sezgisel olarak doğru ve istismar edebilir bir karşı strateji yaratabilmeyi öğrenmeyi deniyor. Zaafiyetleri arayan sistem, rakibin stratejisine sınırsız bir erişim sağlıyor ve birinin seneler süresince rakibinin zaaflarını kullanımı için eğitilmesi durumunda nasıl biteceğini simüle ediyor.

Araştırmacıların verilerine nazaran, 200 oyunculu (4 işlemcili ve 8 GB RAM’li bir bilgisayarda eğitildiler) ve bir öğrenicili (10 işlemcili ve 20 GB RAM’li bir bilgisayarda eğitildi) deneylerde, ABR IS-MCTS her oyunda %50’nin üstünde bir kazanma oranı elde etti. Buna ek olarak Hex yada Go dışındaki oyunlarda (Connect Four ve Breakthrough benzer biçimde) bu oran %70’in üstüne çıkarken 1 milyon bölüm için eğitildikten sonrasında tavlada %80 başarı sağlamış oldu.

DeepMind’ın Yapay Zekâ Araştırmacıları, Oyuncuların Zaafları Üzerine Çalışıyor

Bununla beraber ABR IS-MCTS’nin bazı örneklerde fazlaca yavaş olduğu kaydediliyor. Mesela iki oyunculu pokerin basitleştirilmiş bir versiyonu olan Kuhn Poker’de belirli bir tür stratejinin zafiyetini hesaplamak averaj 150 saniye sürdü. Gelecekteki araştırmalarda, daha karmaşık oyunlar için stratejiler geliştirmesi hedefleniyor.

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu