Microsoft’tan İnsan Seslerini Yansılamak Edebilen Suni Zekâ

Microsoft, yeni suni zekâ modeli VALL-E’yi tanıttı. Sistem, yalnızca üç saniyelik örneklerden yola çıkarak bir insanoğlunun sesini yansılamak edebiliyor.
Son zamanlarda suni zekânın ciddi oranda geliştiğini ve popülerlik kazandığını biliyoruz. Midjourney, DALL-E benzer biçimde metinlerden görsel oluşturan sistemler ve ne sorarsak soralım cevap veren ChatGPT benzer biçimde modeller tüm dünyada ses getirmişti. Şimdi ise Microsoft’tan yepyeni bir suni zekâ hamlesi geldi.
ABD’li teknoloji devi, metinden ses oluşturabilen suni zekâ modeli ‘VALL-**E’**yi tanıttı. Suni zekâ mevzusunda çığır açabilecek sistemin, insan seslerini oldukça kolay bir halde yansılamak edebildiği ifade edildi. Doğal bu biçim bir teknoloji bazı endişeleri de bununla beraber getirdi.
Yalnızca 3 saniyelik bir örneği kullanarak sesleri yansılamak edebiliyor
Ars Technica’nın bildirdiğine bakılırsa VALL-E, yalnızca üç saniyelik bir ses örneğini kulanarak bir insanoğlunun sesini yansılamak edebiliyor. Hatta yapabildiklerinin bununla sınırı olan kalmadığı, suni zekânın konuşmacının duygusuna bakılırsa çıkan ses tonuyla eşleşen neticeleri bile çıkarabildiği söyleniyor.
Microsoft, bir dil modeli olan VALL-E’nin Meta’nın Ekim 2022’de tanıttığı ‘EnCodec’ adı verilen teknolojiden yararlandığını aktarıyor. Model, normalde gördüğümüz benzer sistemlerin aksine metinden ve seslerden faydalanarak sonuçlar çıkarıyor. Temel olarak, bir kişinin iyi mi ses çıkardığını çözümleme ediyor, EnCodec yardımıyla bu bilgiyi ayrı bileşenlere bölüyor ve eğitim verilerini eşleştiriyor. Bunun sonucunda da örnekteki ses yansılamak edilerek değişik cümleler ortaya çıkarılıyor.
Suni zekâya ilişkin paylaşılan bir yazı de araştırmacıların VALL-E’yi, 7.000’den fazla konuşmacıdan 60.000 saatlik İngilizce dilindeki ses kayıtları ile eğittiğini aktarıyor. Sistemin iyi bir netice çıkarması için de örneklerdeki sesin, eğitim verilerindeki bir sese yakın olması gerektiği söyleniyor.
Microsoft, VALL-E’den çıkan bazı örnekleri GitHub üstünden gösterildi. Örnekler incelendiğinde, suni zekânın bazı yerlerde robot sesiyle karşımıza çıkmış olduğu görülse de bazılarında ise şaşırtıcı derecede gerçekçi olduğu görülüyor. Ek olarak örneklerde VALL-E’nin konuşmacının tonunu koruduğu; hatta ortama bakılırsa netice çıkardığı da görülebiliyor. Mesela, aslolan konuşmacı yankı icra eden bir yerden konuşuyorsa, sistem de buna bakılırsa ses üretiyor.
Bu biçim bir hızla gelişen teknolojinin riskleri de yok değil

Doğal ki bu biçim bir teknoloji birazcık kaygı verici. Fena amaçlı kişiler, bir insanoğlunun söylemediği bir şeyi söylemiş benzer biçimde göstermesini sağlayabilir, onların kimliğine bürünebilir ve dolandırıcılık benzer biçimde olayların artmasına niçin olabilir. Son zamanlarda iyice popülerleşen deepfake’in barındırdığı riskler benzer biçimde düşünebilirsiniz. Microsoft, risklerden dolayı kodu açık kaynaklı yapmamayı seçse de benzer teknolojilerin bu riskleri bununla beraber getirebileceğini söyleyebiliriz.



