Yapay zekanın insan davranışlarını ne ölçüde taklit edebildiğine ilişkin tartışmalar sürerken, yeni bir araştırma büyük dil modellerinin belirli koşullar altında Turing testinde insanlardan daha başarılı olabildiğini ortaya koydu.
Stony Brook Üniversitesi ve UC San Diego araştırmacıları tarafından hazırlanan çalışma, bazı yapay zeka modellerinin kısa süreli metin tabanlı sohbetlerde insan gibi algılanma konusunda yüksek başarı oranına ulaştığını gösterdi. Araştırmaya göre OpenAI’ın GPT-4.5 modeli, katılımcıları yüzde 73 oranında yanıltarak insan sanıldı.
Araştırmacılar, sonuçların belirli deney koşulları altında elde edildiğini ve gerçek dünyadaki tüm iletişim senaryolarına doğrudan genellenemeyeceğini vurguladı.
Araştırmanın yöntemi ve sonuçları
İlk kez 1950 yılında Alan Turing tarafından ortaya konulan Turing testi, bir makinenin insan davranışlarını ne kadar başarılı biçimde taklit edebildiğini ölçmeyi amaçlıyor. Klasik üç taraflı testte bir insan değerlendirici, metin mesajları aracılığıyla hem bir bilgisayar sistemi hem de başka bir insanla iletişim kuruyor. Daha sonra hangi katılımcının insan, hangisinin makine olduğunu belirlemeye çalışıyor.
Çalışma kapsamında araştırmacılar, önceden belirlenmiş parametrelerle iki rastgele kontrollü Turing testi gerçekleştirdi. Deneylerde insan değerlendiriciler, büyük dil modelleri ve UC San Diego öğrencileri ya da gönüllülerle beş dakikalık yazışmalar yaptı. Ardından hangi katılımcının insan olduğunu seçmeleri istendi.
Araştırmaya yüzlerce kişi katılırken toplam dört yapay zeka modeli test edildi.
Sonuçlara göre GPT-4.5 modeli, değerlendiricileri yüzde 73 oranında yanıltarak en yüksek başarıyı elde etti. LLaMa-3.1-405B modeli yüzde 56 ile şans seviyesinin biraz üzerinde performans gösterdi. ELIZA yüzde 23, GPT-4o ise yüzde 21 oranında insan olarak değerlendirildi.
Araştırmadaki önemli sınırlamalar
Araştırmacılar, Turing testinin tamamen nesnel bir yöntem olmadığına dikkat çekti. Testin sonuçları büyük ölçüde insan değerlendiricilerin yorumlarına ve diğer insan katılımcıların verdiği yanıtlara dayanıyor. Ayrıca test, yalnızca makinenin tek bir insan değerlendiriciyi kandırıp kandıramadığına ilişkin ikili bir sonuç sunuyor.
Çalışmada en yüksek başarı oranlarının, modellerin “genç, içe dönük ve yoğun şekilde çevrim içi yaşayan” bir kişiliği benimsemesi yönünde yönlendirildiği senaryolarda elde edildiği belirtildi. Araştırmacılar, bunun yapay zekanın başarısının genel zekadan ziyade belirli bir konuşma tarzını taklit etme becerisiyle ilişkili olabileceğini ifade etti.
Çalışmanın temel sonucunun, kısa metin tabanlı sohbetlerde ve belirli deney tasarımları altında büyük dil modellerinin insan sanılma ihtimalinin, bazı durumlarda gerçek insanlardan daha yüksek olabileceği olduğu kaydedildi.
Araştırmacılar ayrıca bu durumun aldatma, güven ve insanların yapay zekayı gündelik iletişimde ayırt etme kapasitesi konusunda yeni riskler doğurduğunu belirtti. Çalışmada, yapay zekanın insan beynine etkilerine ilişkin daha önce yayımlanan araştırmalara da atıfta bulunuldu.
Öte yandan, bir yapay zeka sisteminin Turing testini geçtiğine ilişkin ilk iddiaların geçen yıl gündeme geldiği, o tarihten bu yana modellerin daha da geliştiği ifade edildi.