Constitutional Classifiers: Jailbreak Savunması

Genel Bakış

Constitutional Classifiers, büyük dil modellerini "jailbreak" saldırılarına — güvenlik korkuluklarını aşmak ve zararlı çıktılar elde etmek için tasarlanmış saldırgan girdilere — karşı savunmak için geliştirilmiş bir makine öğrenimi yaklaşımıdır.

Savunma Mekanizması

Sistem, sentetik veriler üzerinde eğitilmiş giriş ve çıkış sınıflandırıcıları kullanır. Bu sınıflandırıcılar, aşırı reddetmeleri minimize ederek jailbreak'lerin ezici çoğunluğunu filtreler.

Eğitim Süreci

İzin verilen/verilmeyen içerik kategorilerini tanımlayan bir anayasa oluşturma
İçerik sınıfları boyunca sentetik prompt'lar ve model tamamlamaları üretme
Dil çevirisi ve jailbreak tarzı dönüşümler yoluyla verileri artırma
Yanlış pozitifleri minimize ederek zararlı içeriği işaretleyen sınıflandırıcılar eğitme

Sonuçlar

İnsan Kırmızı Takım Testi (Prototip)

183 aktif katılımcı, iki ay boyunca 3.000+ saat jailbreak denemesi yaptı
Başarılı evrensel jailbreak için 15.000 $'a kadar ödül teklif edildi
Sonuç: Kapsamlı çabaya rağmen evrensel jailbreak bulunamadı

Otomatik Değerlendirmeler

Metrik	Savunmasız	Savunmalı
Jailbreak başarı oranı	%86	%4.4
Gelişmiş saldırı engelleme	—	%95+
Yanlış reddetme artışı	—	%0.38
Hesaplama maliyeti artışı	—	%23.7

Canlı Demo (3-10 Şubat 2025)

339 jailbreak'çi, ~3.700 saat boyunca 300.000+ etkileşim gerçekleştirdi
4 katılımcı tüm 8 zorluk seviyesini başarıyla geçti
1 kişi gerçek bir evrensel jailbreak keşfetti
En etkili stratejiler: şifreler/kodlamalar, rol yapma senaryoları, anahtar kelime değiştirme, prompt enjeksiyonu

Sınırlılıklar

Sistem tüm jailbreak'leri önleyemeyebilir. Anthropic, Constitutional Classifiers'ın tamamlayıcı savunmalarla birleştirilmesini önerir. Anayasa, güvenlik açıkları keşfedildikçe hızla uyarlanabilir.