Metinden Video Üreten Suni Zekâ: Stable Video Diffusion

Stability AI, metinlerden video üretmeye yarayan suni zekâ modeli “Stable Video Diffusion”ı duyurdu. Şirket, bu suni zekâ modelini bazı sektörler için tasarladı.
Tıpkı OpenAI şeklinde suni zekâ destekli teknolojiler üreten firmaların başlangıcında gelen Stability AI, bugün oldukça mühim bir duyuru gerçekleştirmiş oldu. Bu duyuruda, firmanın yeni suni zekâ modeli “Stable Video Diffusion” tanıtıldı. Firmanın metinden görsel üretmeye yarayan suni zekâ modeli “Stable Diffusion” üstüne inşa edilen yeni model, metinleri ilkin görüntülere, peşinden da videolara dönüştürüyor.
Stable Video Diffusion, hemen hemen erken aşamada olan bir suni zekâ modeli. Hâl bu şekilde olunca her insanın kullanımına açık değil. Sadece Stability AI’ın talihli bireysel ve ticari lisans sahibi kullanıcıları, firmanın yeni suni zekâ modelini şimdiden deneyebiliyorlar. Ayrıca; Stable Video Diffusion için paylaşılan örnekler, hızla gelişen teknolojinin {hiç de} kötü olmadığını gözler önüne seriyor.
İşte Stable Video Diffusion ile üretilen bazı örnek videolar:
Stability AI tarafınca meydana getirilen açıklamalara gore yeni suni zekâ modeli, SVD ve SVD-XT şeklinde iki değişik çıktı formatı üretebiliyor. SVD formatı, 14 kareyi 576×1024 px çözünürlükte video hâline getiriyor. SVD-XT ise bir içerik için 24 kare kullanabiliyor. Her iki formatta da 3 ila 30 fps içinde görüntü alınabiliyor.
Stable Video Diffusion, milyonlarca videonun eğitim için kullanıldığı bir model. Şirket, bu şekilde devasa bir veri seti ile eğittiği modeli, ikinci aşamada ortalama bir milyon video kullanarak yine eğitti. İkinci eğitim, Stable Video Diffusion tarafınca üretilen görüntülere ince ayar yapılmasını sağlamış oldu. Sadece şirket, veri setlerinde kullandığı videoları nereden temin ettiğine ilişkin bir izahat yapmadı. Aslına bakarsak şirket, eğitim verilerinin telifsiz ve kamuya açık veri tabanlarından alındığını söylüyor sadece bunun iyi mi yapıldığını bilen yok.
Stability AI’ın açıklamasına gore yeni suni zekâ modeli, aslen ticari kullanım için tasarlandı. Şirket, geliştirdiği hızla gelişen teknolojinin reklamcılık, eğitim ve eğlence şeklinde bazı sektörlerde işleri kolaylaştıracağını söylüyor. Sadece bunun bireysel açıdan kullanımının yol açabileceği bazı problemler bulunduğunu atlamamak gerek. Neticede deepfake teknolojisinin neticelerini tamamımız biliyoruz…
İşte Stable Video Diffusion, bireysel kullanım risklerini ortadan kaldırmak için bazı engellemeler içeriyor. Meydana getirilen açıklamalara gore bu suni zekâ modeli, tekrardan düzenlemeye izin vermiyor. Ek olarak bir kişinin yüzü, metindekiyle uyumlu olmayabiliyor. Tüm bunlara ek olarak yeni suni zekâ modeli, büyük oranda hareketsiz yada yavaş kamera efektleri içeren görüntüler de üretmiyor. Ekibin bu yöntemlerle tüketicileri koruyup koruyamayacakları şimdilik belirsiz.



