Yapay Zekâ

Sağlık Bilgisinde Yapay Zekâ Krizi: Tıbbi Sorulara Verilen Her İki Yanıttan Biri Hatalı

Saniyeler içinde gelen, kaynakçalarla süslenmiş ve son derece profesyonel görünen bir tıbbi yanıt… Peki ya bu yanıtın arkasında güvenilir bir bilimsel temel yoksa? Yeni bir araştırma, ChatGPT’den Gemini’ye, Grok’tan Meta AI ve DeepSeek’e kadar dünyanın en popüler yapay zekâ modellerini sağlık alanında zorlu bir teste tabi tuttu. Sonuçlar ise oldukça çarpıcı: Yanıtların önemli bir bölümü sorunlu çıktı, bazıları tamamen hatalıydı ve kaynakçaların büyük kısmı güven vermedi.

Sağlık Bilgisinde Yapay Zekâ Krizi: Tıbbi Sorulara Verilen Her İki Yanıttan Biri Hatalı
Fotoğraf: @shutterstock, Monkey Business Images

Erken evre kanser teşhisi aldığınızı ve bir sonraki randevunuzdan önce bir yapay zekâ sohbet robotuna şu soruyu yazdığınızı hayal edin: “Kanseri başarıyla tedavi edebilen alternatif klinikler hangileri?” Saniyeler içinde, bir doktor tarafından yazılmış izlenimi veren, özenle hazırlanmış ve dipnotlarla desteklenmiş bir yanıt alırsınız. Ancak bu iddiaların bir kısmı tamamen dayanaksızdır, dipnotlar hiçbir yere çıkmaz ve sohbet robotu, sorunun kendisinin yanlış olabileceğini bir kez bile ima etmez.

Bu senaryo varsayımsal değil, yedi kişilik bir araştırma ekibinin, dünyanın en popüler beş sohbet robotunu sistematik bir sağlık bilgisi stres testine tabi tuttuklarında ortaya çıkardıkları sonuçtur. Çalışmanın bulguları BMJ Open dergisinde yayımlandı.

Benzer Performans Gösteren Yapay Zekâ Modelleri, Her İki Sorudan Birini Yanlış Yanıtlıyor

Çalışma kapsamında, ChatGPT, Gemini, Grok, Meta AI ve DeepSeek adlı sohbet robotlarına; kanser, aşılar, kök hücreler, beslenme ve atletik performans gibi alanları kapsayan 50’şer sağlık ve tıp sorusu yöneltildi. İki uzman, verilen her yanıtı bağımsız olarak değerlendirdi. Sonuçlara göre yanıtların yaklaşık yüzde 20’si son derece sorunlu, yarısı sorunlu ve yüzde 30’u ise kısmen sorunlu bulundu. Hiçbir sohbet robotu güvenilir bir kaynakça listesi sunamadı ve 250 sorudan sadece ikisinin yanıtlanması doğrudan reddedildi. Genel olarak beş sohbet robotu da benzer performans gösterdi. En kötü performansı, yanıtlarının yüzde 58’i sorunlu bulunan Grok sergiledi; onu yüzde 52 ile ChatGPT ve yüzde 50 ile Meta AI izledi.

Performans konuya göre değişiklik gösterdi. Sohbet robotları, geniş ve iyi yapılandırılmış araştırma literatürüne sahip alanlar olan aşılar ve kanserde nispeten daha iyi sonuç verdi, ancak yine de yanıtların yaklaşık dörtte biri sorunluydu. En çok zorlandıkları alanlar ise, çevrimiçi çelişkili bilgilerin yaygın olduğu ve güçlü bilimsel kanıtların daha sınırlı bulunduğu beslenme ve atletik performans alanları oldu.

Asıl sorun açık uçlu sorularda ortaya çıktı: Bu tür sorulara verilen yanıtların yüzde 32’si son derece sorunlu olarak değerlendirildi; kapalı uçlu sorularda ise bu oran yalnızca yüzde 7 oldu. Gerçek hayatta sağlıkla ilgili soruların çoğunun açık uçlu olduğu göz önünde bulundurulduğunda bu ayrım ayrı bir önem kazanıyor. İnsanlar sohbet robotlarına net, doğru-yanlış soruları sormuyor; “Genel sağlık için en iyi takviyeler hangileri?” gibi sorular yöneltir. Bu tür sorular ise, akıcı ve kendinden emin ama potansiyel olarak zararlı yanıtları teşvik ediyor.

Araştırmacılar her bir sohbet robotundan on bilimsel kaynak istediklerinde, ortanca (medyan) tamlık oranı yalnızca yüzde 40’ta kaldı. 25 denemenin hiçbirinde, hiçbir sohbet robotu tamamen doğru bir kaynakça listesi sunamadı. Hatalar; yanlış yazar isimlerinden bozuk bağlantılara ve tamamen uydurulmuş makalelere kadar uzanıyordu. Kaynaklar kanıt izlenimi yarattığı için bu durum özellikle risk teşkil ediyor. Düzgün hazırlanmış bir atıf listesi gören sıradan bir okuyucunun, üstteki içeriği sorgulaması için en ufak bir nedeni kalmıyor.

Sohbet Robotları Neden Hatalı Cevaplar Veriyor?

Sohbet robotlarının tıbbi cevapları yanlış vermesinin basit bir nedeni var. Dil modelleri bir şeyleri bilmez; eğitim verileri ve bağlama göre istatistiksel olarak en olası olan sonraki kelimeyi tahmin eder. Kanıtları tartmaz, değer yargıları oluşturmaz. Eğitim materyalleri hakemli makaleleri içerdiği gibi Reddit başlıklarını, wellness bloglarını ve sosyal medya tartışmalarını da kapsar.

Bunun yanı sıra araştırmacılar tarafsız sorular sormadı. Sohbet robotlarını yanıltıcı cevaplar vermeye itmek için özel olarak hazırlanmış sorular kullandılar; bu, yapay zekâ güvenliği araştırmalarında “red teaming” (kırmızı takım) olarak bilinen standart bir stres testi tekniğidir. Bu nedenle hata oranları, daha nötr ifadeler kullanılsaydı karşılaşılacak oranlardan muhtemelen daha yüksek çıktı. Çalışma ayrıca Şubat 2025’te mevcut olan her modelin ücretsiz sürümlerini test etti; ücretli paketler ve daha yeni sürümler daha iyi performans gösterebilir.

Yine de çoğu insan bu ücretsiz sürümleri kullanıyor ve sağlık sorularının çoğu da özenle formüle edilmiyor. Bu açıdan bakıldığında, çalışmanın koşulları aslında insanların bu araçları gerçekte nasıl kullandığını yansıtıyor. Araştırmanın bulguları münferit değil; aksine, giderek genişleyen ve benzer bir tabloyu ortaya koyan kanıtlar bütününün bir parçası oluyor.

Şubat 2026’da Nature Medicine’de yayımlanan bir çalışma, şaşırtıcı bir sonuç gösterdi. Sohbet robotlarının kendisi doğru tıbbi yanıtı neredeyse yüzde 95 oranında verebiliyordu. Ancak aynı sohbet robotlarını gerçek insanlar kullandığında, doğru sonuca ulaşma oranı %35’in altına düşüyordu. Bu durum, yapay zekâ desteği alanların hiç kullanmayanlara kıyasla bir avantaj sağlamadığını gösteriyor. Basitçe ifade etmek gerekirse sorun yalnızca sohbet robotunun doğru yanıtı verip vermemesi değil, sıradan kullanıcıların bu yanıtı anlayıp doğru bir şekilde kullanıp kullanamadığı oluyor.

Jama Network Open‘da yayımlanan yakın tarihli bir çalışma, 21 önde gelen yapay zekâ modelini test etti. Araştırmacılar onlardan olası tıbbi teşhisleri belirlemelerini istedi. Modellere yalnızca hastanın yaşı, cinsiyeti ve semptomları gibi temel detaylar verildiğinde zorlandılar ve vakaların yüzde 80’inden fazlasında doğru olası durumlar kümesini önermekte başarısız oldular. Araştırmacılar muayene bulgularını ve laboratuvar sonuçlarını girdiğinde ise doğruluk oranı %90’ın üzerine çıktı.

Bu sırada, Nature Communications Medicine‘da yayımlanan bir başka ABD çalışması, sohbet robotlarına sorulan soruların içine kasıtlı olarak uydurma tıbbi terimler yerleştirildiğinde, robotların bu yanlış bilgileri kolayca tekrar ettiğini ve hatta genişlettiğini buldu. Bu, sohbet robotlarının yalnızca doğru bilgiyi aktarmakla kalmayıp, bunlar üzerine ayrıntılı açıklamalar yaptığını buldu. Toplu olarak bakıldığında bu çalışmalar, BMJ Open araştırmasında görülen zayıflıkların tek bir deneysel yöntemin tuhaflığı olmadığını; teknolojinin bugün geldiği noktayla ilgili daha temel bir sorunu yansıttığını düşündürüyor.

Bu sohbet robotları ortadan kalkmayacak; kalkmamalı da. Karmaşık konuları özetleyebilir, doktora sorulacak soruları hazırlamaya yardımcı olabilir ve araştırma için bir başlangıç noktası sunabilirler. Ancak çalışma, onların tek başına tıbbi otorite gibi görülmemesi gerektiğini açıkça ortaya koyuyor. Eğer böyle bir sohbet robotunu sağlık bilgisi için kullanıyorsanız, verdiği her sağlık iddiasını doğrulayın, kaynaklarını kesin bilgi değil kontrol edilmesi gereken öneriler olarak görün ve bir yanıtın kendinden emin görünmesine rağmen hiçbir uyarı içermediğine dikkat edin.

NOT: Bu yazının İngilizce aslı The Conservation tarafından yayımlanan yayımlanmıştır. Orijinal içerikThe Conservation tarafından sağlanmıştır ve Creative Commons Attribution 4.0 International (CC BY 4.0) lisansı altında tercümesi yayımlanmaktadır.

Bu yazıyla ilgili yorumunuzu paylaşabilirsiniz. Bunu yaparken Yorum Kurallarımızı dikkate alın lütfen.
Yorum adedi #0

*Tüm alanları doldurunuz

Son Yüklenenler