Claude Fable 5'in güvenlik korumalarının kırıldığı iddia edildi

Yapay zeka ve siber güvenlik araştırmacısı "Pliny the Liberator", Anthropic'in yeni modeli Claude Fable 5'in güvenlik korumalarını lansmanından 48 saat içinde aştığını iddia etti.

Yazı Boyutu

Araştırmacı sosyal medya hesabından, Fable 5'i "özgürleştirdiğini" öne sürdü. Model, Anthropic'in geniş çapta yayımlanamayacak kadar tehlikeli bulduğu daha güçlü Mythos modelinin güvenlik ayarlı sürümü olarak duyurulmuştu.

Pliny, modelin uyuşturucu yapımı veya hackleme talimatları gibi zararlı bilgileri vermesini engelleyen korumaları aşmak için çeşitli teknikler kullandığını söyledi. Bunların arasında Unicode ve homogliflerin kullanımı, uzun bağlam ile kurgu çerçevelemesi, akademik tarzda parçalama-yeniden birleştirme ve jailbreak yapılmış bir Claude Opus 4.8 sürümü yer alıyor.

Araştırmacıya göre en etkili yöntem, talebin arka planda parçalanıp yeniden birleştirilmesine dayanıyor. Bu yaklaşım bir isteği tek tek masum görünen küçük parçalara bölüyor. Her parça güvenlik filtresine sorunsuz görünse de yanıtlar birleştirildiğinde daha işlevsel ya da tehlikeli bir bütün ortaya çıkabiliyor. Pliny, modelin güvenlik katmanını eleştirerek "düşünce polisinin gözden kaçırdığı delikleri ustaca buluyoruz." ifadesini kullandı.

Bazı kripto kullanıcıları, Fable 5 ve Mythos'un bu yıl yapılan lansmanları sırasında modelin kripto protokollerine ve yazılımlarına saldırmak için kullanılabileceğinden endişe etmişti. Fable 5'in aşıldığı iddiası, bu tehdidi beklenenden daha yakına taşıyor.

FABLE 5'E ELEŞTİRİLER ARTIYOR

Fable 5, ağır kısıtlamaları yüzünden lansmanından bu yana eleştirilerin hedefinde yer alıyor. Model, biyolojik silah ya da siber güvenlik gibi hassas konularda bir uyarı gösterip konuşmayı daha az yetenekli eski bir modele yönlendirecek şekilde tasarlandı. Princeton Üniversitesi'nden yapay zeka araştırmacısı Sayash Kapoor, bunun bir yapay zeka şirketinin ilk kez böyle bir koruma katmanı devreye aldığı durumlardan biri olduğunu belirtti. Kapoor, tepkinin neredeyse tümüyle olumsuz olduğunu ve "haklı bir öfkeye" yol açtığını söyledi.

ANTHROPIC 1.000 SAATTE AÇIK BULAMADI

Anthropic, Fable 5 lansmanı sırasında modeli aşma yollarını bulmak için harici bir hata ödül programı yürüttüğünü açıkladı. Şirket, 1.000 saati aşan testte hiçbir evrensel jailbreak tespit edilmediğini bildirdi.

Kaynağa Git

Claude Fable 5'in güvenlik korumalarının kırıldığı iddia edildi

Yapay zeka ve siber güvenlik araştırmacısı "Pliny the Liberator", Anthropic'in yeni modeli Claude Fable 5'in güvenlik korumalarını lansmanından 48 saat içinde aştığını iddia etti.

FABLE 5'E ELEŞTİRİLER ARTIYOR

ANTHROPIC 1.000 SAATTE AÇIK BULAMADI

İlgili Haberler

Bernstein Dünya Kupası'ndan tahmin piyasalarına 10 milyar dolar hacim bekliyor

Japonya kripto vergisinde büyük indirimin önünü açıyor

Güney Kore polisi, Bithumb CEO'su hakkında rüşvet soruşturması başlattı

BlackRock'ın getiri sağlayan yeni Bitcoin ETF'si için lansman yakınlaştı

Tom Lee'nin BitMine'ı zarara rağmen Ethereum alımını hızlandırdı

Polymarket ve Kalshi'nin beklediği çerçeve CFTC'den geldi

Finansal danışmanların kripto gözdesi değişti: Bitcoin artık ilk sırada değil

Bitcoin'deki düşüşün yeni şüphelisi Elon Musk olabilir