İddia: OpenAI, GPT-4’ü Eğitmek İçin YouTube’u Kullandı!

0 1 dakika okuma süresi

The New York Times’ın iddiasına bakılırsa OpenAI, telif hakkı ihlali olabileceğini bile bile GPT-4’ü eğitmek için bir milyondan fazla YouTube videosunu kullanmış.

Suni zekâ modelleri devamlı ağzımızı açık bıraksa da bu araçların bununla beraber getirmiş olduğu bazı sual işaretleri var. Bunlardan biri de eğitilmeleri için kullanılan veriler. İzinsiz verilerin kullanımı bazı telif haklarının ihlal edilmesine yol açabiliyor.

The New York Times tarafınca paylaşılan bir rapor da tam bu noktaya dikkat çekiyor. Haberde paylaşılan iddiaya bakılırsa OpenAI, suni zekâ modelini eğitmek için Google verilerini kullanmış.

Bir milyon saatten fazla YouTube videosu, GPT-4’ü eğitirken kullanılmış

NYT’nin iddiası, OpenAI’ın oldukça büyük oranda YouTube verisinden yararlandığını ortaya koydu. Buna bakılırsa suni zekâ devi, Whisper isminde ses tanıma aracıyla bir milyon saatten fazla YouTube videosunu yazıya döktü ve bu tarz şeyleri en gelişmiş dil modeli olan GPT-4’ü eğitirken kullandı.

Ek olarak firmanın, bu durumun yasal olarak sual işaretleri doğurabileceğini bilmiş olduğu sadece kullanmanın problem yaratmayacağını düşündüğü de bildirildi. Şirkette başkan olarak vazife icra eden Greg Brockman’ın da videoları toplamada vazife almış olduğu öne sürüldü. Times makalesi, OpenAI’ın 2021’de eğitmek için kullandığı kaynakları tükettiğini, sonrasında ise YouTube içeriklerini yazıya dökme planını münakaşaya başladığını da ekliyor. Şirket o zamana kadar Github’dan kodlar, satranç veri tabanları ve Quizlet’ten okul içerikleri benzer biçimde yerlerden yararlanıyormuş.

YouTube’un sahibi Google’ın sözcüsü Matt Bryant The Verge’e yapmış olduğu açıklamada mevzuya ilişkin “doğrulanmamış raporları” gördüğünü, bu biçim izinsiz kullanımların yasak bulunduğunu belirtti. Ek olarak bizim de sizlerle paylaştığımız suretiyle birkaç gün ilkin YouTube CEO’su Neal Mohan, platformun verilerini kullanmanın ihlal olacağını belirtmişti. Mohan, OpenAI’ın yeni modeli Sora’nın YouTube ile eğitildiğine dair iddialar sebebiyle bu şekilde bir izahat yapmıştı.

Google’ın kendisi de YouTube verileriyle modelleri eğitmiş

OpenAI’ın, GPT-4 Modelini Eğitmek İçin Bir Milyon Saatten Fazla YouTube Videosunu Kullandığı Ortaya Çıktı

Bunların haricinde Google’ın kendisinin de YouTube’dan veri toplamış olduğu detayları var. Sözcü Bryant, Google’ın içerik üreticileri ile olan anlaşmaları doğrultusunda kendi modellerini eğitmek için YouTube içerikleri kullandığını açıkladı. Bu yüzden OpenAI’a karşı harekete geçmediği de iddialar içinde yer aldı.

Tüm bu iddialar, suni zekânın bir başka yüzünü gözler önüne seriyor. İzinsiz veri kullanımı, telif hakkı ihlali mevzusunda büyük problemler yaratma potansiyeline haiz. Mevzu hakkında neler yaşanacağını bekleyip göreceğiz.

0 1 dakika okuma süresi