Ana içeriğe geç

Claude Fable 5'in güvenlik korumalarının kırıldığı iddia edildi

Yapay zeka ve siber güvenlik araştırmacısı "Pliny the Liberator", Anthropic'in yeni modeli Claude Fable 5'in güvenlik korumalarını lansmanından 48 saat içinde aştığını iddia etti.

Claude Fable 5'in güvenlik korumalarının kırıldığı iddia edildi
Haberler.com
16

Araştırmacı sosyal medya hesabından, Fable 5'i "özgürleştirdiğini" öne sürdü. Model, Anthropic'in geniş çapta yayımlanamayacak kadar tehlikeli bulduğu daha güçlü Mythos modelinin güvenlik ayarlı sürümü olarak duyurulmuştu.

Pliny, modelin uyuşturucu yapımı veya hackleme talimatları gibi zararlı bilgileri vermesini engelleyen korumaları aşmak için çeşitli teknikler kullandığını söyledi. Bunların arasında Unicode ve homogliflerin kullanımı, uzun bağlam ile kurgu çerçevelemesi, akademik tarzda parçalama-yeniden birleştirme ve jailbreak yapılmış bir Claude Opus 4.8 sürümü yer alıyor.

Araştırmacıya göre en etkili yöntem, talebin arka planda parçalanıp yeniden birleştirilmesine dayanıyor. Bu yaklaşım bir isteği tek tek masum görünen küçük parçalara bölüyor. Her parça güvenlik filtresine sorunsuz görünse de yanıtlar birleştirildiğinde daha işlevsel ya da tehlikeli bir bütün ortaya çıkabiliyor. Pliny, modelin güvenlik katmanını eleştirerek "düşünce polisinin gözden kaçırdığı delikleri ustaca buluyoruz." ifadesini kullandı.

Bazı kripto kullanıcıları, Fable 5 ve Mythos'un bu yıl yapılan lansmanları sırasında modelin kripto protokollerine ve yazılımlarına saldırmak için kullanılabileceğinden endişe etmişti. Fable 5'in aşıldığı iddiası, bu tehdidi beklenenden daha yakına taşıyor.

FABLE 5'E ELEŞTİRİLER ARTIYOR

Fable 5, ağır kısıtlamaları yüzünden lansmanından bu yana eleştirilerin hedefinde yer alıyor. Model, biyolojik silah ya da siber güvenlik gibi hassas konularda bir uyarı gösterip konuşmayı daha az yetenekli eski bir modele yönlendirecek şekilde tasarlandı. Princeton Üniversitesi'nden yapay zeka araştırmacısı Sayash Kapoor, bunun bir yapay zeka şirketinin ilk kez böyle bir koruma katmanı devreye aldığı durumlardan biri olduğunu belirtti. Kapoor, tepkinin neredeyse tümüyle olumsuz olduğunu ve "haklı bir öfkeye" yol açtığını söyledi.

ANTHROPIC 1.000 SAATTE AÇIK BULAMADI

Anthropic, Fable 5 lansmanı sırasında modeli aşma yollarını bulmak için harici bir hata ödül programı yürüttüğünü açıkladı. Şirket, 1.000 saati aşan testte hiçbir evrensel jailbreak tespit edilmediğini bildirdi.

Kaynağa Git

İlgili Haberler