Yüzde 73 oranında yanılttı: Yapay zeka Turing testinde insanları geride bıraktı

Yeni bir araştırma, bazı yapay zeka modellerinin kısa metin sohbetlerinde insanlardan daha ikna edici bulunabildiğini ortaya koydu. Çalışmada GPT-4.5 modeli, insan katılımcılardan daha yüksek “insan sanılma” oranına ulaştı

Yazı Boyutu

Yapay zekanın insan davranışlarını ne ölçüde taklit edebildiğine ilişkin tartışmalar sürerken, yeni bir araştırma büyük dil modellerinin belirli koşullar altında Turing testinde insanlardan daha başarılı olabildiğini ortaya koydu.

Stony Brook Üniversitesi ve UC San Diego araştırmacıları tarafından hazırlanan çalışma, bazı yapay zeka modellerinin kısa süreli metin tabanlı sohbetlerde insan gibi algılanma konusunda yüksek başarı oranına ulaştığını gösterdi. Araştırmaya göre OpenAI’ın GPT-4.5 modeli, katılımcıları yüzde 73 oranında yanıltarak insan sanıldı.

Araştırmacılar, sonuçların belirli deney koşulları altında elde edildiğini ve gerçek dünyadaki tüm iletişim senaryolarına doğrudan genellenemeyeceğini vurguladı.

Araştırmanın yöntemi ve sonuçları

İlk kez 1950 yılında Alan Turing tarafından ortaya konulan Turing testi, bir makinenin insan davranışlarını ne kadar başarılı biçimde taklit edebildiğini ölçmeyi amaçlıyor. Klasik üç taraflı testte bir insan değerlendirici, metin mesajları aracılığıyla hem bir bilgisayar sistemi hem de başka bir insanla iletişim kuruyor. Daha sonra hangi katılımcının insan, hangisinin makine olduğunu belirlemeye çalışıyor.

Çalışma kapsamında araştırmacılar, önceden belirlenmiş parametrelerle iki rastgele kontrollü Turing testi gerçekleştirdi. Deneylerde insan değerlendiriciler, büyük dil modelleri ve UC San Diego öğrencileri ya da gönüllülerle beş dakikalık yazışmalar yaptı. Ardından hangi katılımcının insan olduğunu seçmeleri istendi.

Araştırmaya yüzlerce kişi katılırken toplam dört yapay zeka modeli test edildi.

Sonuçlara göre GPT-4.5 modeli, değerlendiricileri yüzde 73 oranında yanıltarak en yüksek başarıyı elde etti. LLaMa-3.1-405B modeli yüzde 56 ile şans seviyesinin biraz üzerinde performans gösterdi. ELIZA yüzde 23, GPT-4o ise yüzde 21 oranında insan olarak değerlendirildi.

Araştırmadaki önemli sınırlamalar

Araştırmacılar, Turing testinin tamamen nesnel bir yöntem olmadığına dikkat çekti. Testin sonuçları büyük ölçüde insan değerlendiricilerin yorumlarına ve diğer insan katılımcıların verdiği yanıtlara dayanıyor. Ayrıca test, yalnızca makinenin tek bir insan değerlendiriciyi kandırıp kandıramadığına ilişkin ikili bir sonuç sunuyor.

Çalışmada en yüksek başarı oranlarının, modellerin “genç, içe dönük ve yoğun şekilde çevrim içi yaşayan” bir kişiliği benimsemesi yönünde yönlendirildiği senaryolarda elde edildiği belirtildi. Araştırmacılar, bunun yapay zekanın başarısının genel zekadan ziyade belirli bir konuşma tarzını taklit etme becerisiyle ilişkili olabileceğini ifade etti.

Çalışmanın temel sonucunun, kısa metin tabanlı sohbetlerde ve belirli deney tasarımları altında büyük dil modellerinin insan sanılma ihtimalinin, bazı durumlarda gerçek insanlardan daha yüksek olabileceği olduğu kaydedildi.

Araştırmacılar ayrıca bu durumun aldatma, güven ve insanların yapay zekayı gündelik iletişimde ayırt etme kapasitesi konusunda yeni riskler doğurduğunu belirtti. Çalışmada, yapay zekanın insan beynine etkilerine ilişkin daha önce yayımlanan araştırmalara da atıfta bulunuldu.

Öte yandan, bir yapay zeka sisteminin Turing testini geçtiğine ilişkin ilk iddiaların geçen yıl gündeme geldiği, o tarihten bu yana modellerin daha da geliştiği ifade edildi.

Kaynağa Git

Yüzde 73 oranında yanılttı: Yapay zeka Turing testinde insanları geride bıraktı

Yeni bir araştırma, bazı yapay zeka modellerinin kısa metin sohbetlerinde insanlardan daha ikna edici bulunabildiğini ortaya koydu. Çalışmada GPT-4.5 modeli, insan katılımcılardan daha yüksek “insan sanılma” oranına ulaştı

Araştırmanın yöntemi ve sonuçları

Araştırmadaki önemli sınırlamalar

İlgili Haberler

Matematikçilerden yapay zeka uyarısı: Göründüğü kadar başarılı değil

Çin'den yapay zeka yarışında dev hamle: 295 milyar dolarlık plan

Çin rüzgar destekli yapay zeka altyapısını su altına taşıdı

OpenAI'den sürpriz adım: Halka arz için gizli başvuru yaptı

iOS 27 duyuruldu: İşte yeni gelen tüm özellikler

WWDC 2026 başladı: Tim Cook son kez sahnede, Apple neler duyuracak?

Google'ın Intel'e 3 milyondan fazla çip siparişi vermesiyle hisselerde sert yükseliş yaşandı

Siri için geri sayım: Apple'ın yapay zeka zamanı geldi mi?