Yapay zeka alanında metin üretimi yapabilen ChatGPT, Gemini ve Claude gibi büyük dil modelleri, geniş veri setleriyle eğitiliyor. Bu veri setleri kitaplar, makaleler ve internet içeriklerinden derlenirken, son dönemde kullanıcıların çevrim içi davranışlarının da bu sürece dahil olduğu tartışılıyor. İnternette erişilen pek çok hizmet, kullanıcıların doğrudan fark etmediği biçimde veri üretimine katkı sunuyor. Böylece gündelik dijital etkileşimler, yapay zeka sistemlerinin gelişiminde dolaylı bir rol üstleniyor.

CAPTCHA testleri yalnızca güvenlik aracı değil

İnternette sıkça karşılaşılan CAPTCHA ve reCAPTCHA testleri, kullanıcıların insan olduğunu doğrulamak amacıyla kullanılıyor. Ancak bu testlerde yapılan işaretleme ve doğrulama işlemlerinin, yapay zeka sistemlerinin eğitimi için veri sağladığı uzun süredir tartışılıyor. Özellikle görsellerdeki nesnelerin seçilmesi gibi görevler, makine öğrenimi modellerinin nesne tanıma yeteneklerinin geliştirilmesine katkı sunabilecek nitelikte görülüyor.

Google tarafından yapılan açıklamada ise reCAPTCHA verilerinin yalnızca hizmetin iyileştirilmesi amacıyla kullanıldığı ve bu durumun kullanıcı sözleşmelerinde açıkça belirtildiği ifade ediliyor.

Oyunlar da veri üretim sürecine dahil

Gündelik kullanımın yapay zeka eğitimine katkısı, oyun sektöründe de dikkat çekiyor. 2016 yılında yayımlanan Pokemon Go, kullanıcıların gerçek dünyadaki konumlarını ve çevresel görüntüleri dijital ortama taşımasına olanak tanıyor. Oyuncuların GPS ve kamera aracılığıyla topladığı veriler, geniş bir görsel veri havuzunun oluşmasını sağladı.

MIT Technology Review’e göre, Niantic Spatial adlı yapay zeka şirketi, bu kapsamda biriktirilen milyarlarca görselden yararlanarak gerçek dünyanın detaylı bir sanal modelini oluşturdu. Şirket, bu teknolojinin özellikle GPS’in sınırlı olduğu alanlarda robotların hareket kabiliyetini artırmayı hedeflediğini belirtiyor. Ayrıca kullanıcıların veri paylaşımının isteğe bağlı olduğu da vurgulanıyor.

Sosyal medya ve arama verileri de katkı sağlıyor

Lozan Üniversitesinden Prof. Christian Peukert, yapay zekanın eğitiminde kullanılan verilerin önemli bir bölümünün kullanıcıların günlük internet faaliyetlerinden elde edildiğini ifade ediyor. Sosyal medya platformlarında paylaşılan içerikler, dil modellerinin eğitilmesinde önemli bir kaynak oluşturuyor.

Bunun yanı sıra, arama motorlarında yapılan sorgular dil anlama sistemlerini geliştirirken, navigasyon uygulamaları hareket verileri üzerinden tahmin modellerine katkı sunuyor. Görsel platformlarda kullanılan etiketler ve açıklamalar da görüntü tanıma sistemlerinin doğruluğunu artıran unsurlar arasında yer alıyor.

Gizlilik ve güvenlik tartışmaları sürüyor

Uzmanlar, bu veri toplama süreçlerinin gizlilik ve güvenlik açısından çeşitli riskler barındırdığına dikkat çekiyor. Büyük veri birikiminin kullanıcıların izlenmesi, yanlış bilgi üretimi ve bireylerin kendi yerini alabilecek sistemleri beslemesi gibi sonuçlar doğurabileceği ifade ediliyor.

Prof. Peukert’e göre, kullanıcıların bireysel önlemleri veri kullanımını sınırlamak için yeterli olmayabiliyor. Çünkü verilerin önemli bir kısmı halihazırda toplanmış, paylaşılmış veya farklı sistemler arasında çoğaltılmış durumda bulunuyor. Bu nedenle veri kontrolünün geri kazanılması giderek zorlaşıyor.

Kaynak: AA