Microsoft’un Suni Zekâ Aracı Fotoğrafları “Dile Getiriyor”

0 1 dakika okuma süresi

Microsoft'un Yapay Zekâ Aracı Fotoğrafları "Dile Getiriyor"

Microsoft, suni zekâ aracı ile fotoğrafları gerçekçi videolara dönüştürebiliyor, hatta fotoğraflara şarkı söyletebiliyor.

Üretken suni zekâların çıkışından oldukça daha ilkin fotoğraflara şarkılar söyletilmeye, animasyonlar yapılmaya başlanmıştı. Microsoft’un suni zekâ aracı ise artık fotoğrafları daha gerçekçi videolara çeviriyor. Böyle de kalmayan vasıta, fotoğraflara istenilen şeyi istenilen tarzda söyletebiliyor: buna şarkılar da dahil.

Microsoft Asya Araştırma tarafınca tanıtılan ve VASA-1 adında olan suni zekâ aracı, herhangi bir fotoğrafı ya da çizimi alıp mevcud bir ses dosyası ile birleştirebiliyor. Yeni suni zekâ aracı yüz ifadeleri ve kafa hareketleri oluşturabiliyor. Ek olarak konuşmalara uygun ağız hareketleri de üretiyor.

Görsellerin suni zekâ eseri olduğu “şimdilik” belli oluyor

Her ne kadar VASA-1’in oluşturduğu görsellerde ağız ve baş hareketleri birazcık robotik gözükürken yakından baktığımızda da ses ve dudak senkronizasyonunda kaymalar oluyor. Gene de bu teknolojilerin süre içinde düzmece görüntüler oluşturmak ya da deepfake videolar üretmek için kullanılabileceği de akıllara geliyor. Araştırmacılar da bu durumun bilincinde ve o yüzden de kullanılabilir bir demo ya da API paylaşmadılar. Bu değişen teknolojinin de “mesuliyet sahibi şekilde” kullanılacağından güvenilir olmak istediklerini belirtti.

Araştırmacılar gene de bu değişen teknolojinin iyi amaçlarla kullanılabileceğine inanıyor. VoxCeleb2 adlı veri seti ile, 6112 ünlüye ilişkin görsellerle eğitilen suni zekâ aracı yardımıyla suni zekâ ile iletişimin güçlenebileceği, eğitim alanında yeni araçlar geliştirilebileceği ve kontakt zorluklarının çözülebileceği ifade ediliyor.

Microsoft’un yayımladığı araştırmaya ve demo görsellere buradan ulaşabilirsiniz.

0 1 dakika okuma süresi