Sağlıkla ilgili bilgi arayışında yapay zeka tabanlı sohbet botlarına yönelim hızla artarken, yeni bir araştırma bu sistemlerin güvenilirliğine ilişkin ciddi soru işaretleri ortaya koydu. BMJ Open’da yayımlanan çalışmaya göre, popüler yapay zeka araçlarının verdiği tıbbi yanıtların önemli bir kısmı hatalı, eksik veya doğrulanamaz nitelik taşıyor.

Beş Büyük Yapay Zeka Modeli Test Edildi

Yedi araştırmacı tarafından yürütülen çalışmada, ChatGPT, Gemini, Grok, Meta AI ve DeepSeek olmak üzere beş farklı sohbet botu incelendi. Bu sistemlere kanser, aşılar, kök hücre tedavileri, beslenme ve atletik performans gibi alanları kapsayan 50’şer soru yöneltildi. Yanıtlar iki uzman tarafından bağımsız olarak değerlendirildi.

Yanıtların Büyük Bölümü Sorunlu

Araştırma sonuçlarına göre:

  • Yanıtların yaklaşık %20’si ciddi derecede sorunlu
  • Yaklaşık %50’si sorunlu
  • %30’u ise kısmen sorunlu

olarak sınıflandırıldı. Hiçbir yapay zeka sistemi, eksiksiz ve güvenilir bir kaynakça sunamadı. Toplam 250 sorudan yalnızca ikisine yanıt vermekten kaçınıldı. Performans açısından modeller arasında büyük farklar görülmezken, en yüksek hata oranı %58 ile Grok’ta tespit edildi. Onu %52 ile ChatGPT ve %50 ile Meta AI izledi.

Konuya Göre Başarı Değişiyor

Yapay zeka sistemlerinin performansı, sorulan konuya göre farklılık gösterdi. Aşılar ve kanser gibi geniş veri tabanına sahip alanlarda daha iyi sonuçlar elde edilse de bu alanlarda bile yanıtların yaklaşık dörtte biri sorunlu bulundu. Buna karşılık beslenme ve atletik performans gibi çelişkili bilgilerin yoğun olduğu alanlarda hata oranı belirgin şekilde arttı.

Açık Uçlu Sorular Daha Riskli

Araştırma, açık uçlu soruların hata riskini ciddi şekilde artırdığını ortaya koydu. Bu tür sorulara verilen yanıtların %32’si ciddi derecede sorunlu olarak değerlendirilirken, kapalı uçlu sorularda bu oran %7’de kaldı. Uzmanlara göre, kullanıcıların genellikle açık uçlu sorular sorması, yapay zekanın hatalı ama ikna edici yanıtlar üretme riskini artırıyor.

Referanslar Güven Vermiyor

Araştırmanın en dikkat çekici bulgularından biri de kaynakça sorunu oldu. Yapay zeka sistemlerinden istenen bilimsel referansların doğruluk oranı ortalama %40’ta kaldı. Tespit edilen hatalar arasında:

  • Yanlış yazar isimleri
  • Bozuk bağlantılar
  • Tamamen uydurulmuş makaleler

yer aldı. Bu durum, kullanıcıların referanslara güvenerek yanlış bilgiye yönelme riskini artırıyor.

Sorunun Temelinde Sistem Yapısı Var

Uzmanlara göre yapay zekanın hata yapmasının temel nedeni, bu sistemlerin bilgi “bilmemesi”, yalnızca olasılıklara dayalı metin üretmesi. Eğitim verilerinin bilimsel makalelerin yanı sıra forumlar, bloglar ve sosyal medya içeriklerini de kapsaması, doğruluk sorununu daha da artırıyor. Araştırmada kullanılan “red teaming” yöntemiyle sistemler özellikle zorlayıcı ve yanıltıcı sorularla test edildi. Bu durum hata oranlarını yükseltmiş olsa da, gerçek kullanıcı davranışlarını büyük ölçüde yansıttığı belirtiliyor.

Diğer Araştırmalar da Aynı Sonuca İşaret Ediyor

Benzer bulgular farklı akademik çalışmalarda da ortaya kondu. Nature Medicine’de yayımlanan bir araştırma, yapay zekanın doğru yanıt verme oranının yüksek olmasına rağmen kullanıcıların bu yanıtları doğru yorumlayamadığını gösterdi. JAMA Network Open’da yayımlanan bir başka çalışma ise yapay zeka modellerinin sınırlı veriyle doğru teşhis üretmekte zorlandığını ortaya koydu. Ayrıca Nature Communications Medicine’de yer alan bir araştırma, yapay zekanın kullanıcıların verdiği hatalı veya uydurma bilgileri sorgulamadan kabul edebildiğini gösterdi.

Uzmanlardan Kritik Uyarı

Uzmanlar, yapay zeka araçlarının tamamen dışlanması yerine doğru konumlandırılması gerektiğini vurguluyor. Bu sistemlerin bilgiye hızlı erişim, özetleme ve araştırma süreçlerinde faydalı olabileceği, ancak tek başına bir tıbbi otorite olarak görülmemesi gerektiği ifade ediliyor. Sağlıkla ilgili konularda yapay zekadan alınan bilgilerin mutlaka doğrulanması, özellikle kesinlik içeren ve uyarı barındırmayan yanıtlar karşısında dikkatli olunması gerektiği belirtiliyor.

Kaynak: Oksijen