Genel Bakış
Constitutional Classifiers, büyük dil modellerini "jailbreak" saldırılarına — güvenlik korkuluklarını aşmak ve zararlı çıktılar elde etmek için tasarlanmış saldırgan girdilere — karşı savunmak için geliştirilmiş bir makine öğrenimi yaklaşımıdır.
Savunma Mekanizması
Sistem, sentetik veriler üzerinde eğitilmiş giriş ve çıkış sınıflandırıcıları kullanır. Bu sınıflandırıcılar, aşırı reddetmeleri minimize ederek jailbreak'lerin ezici çoğunluğunu filtreler.
Eğitim Süreci
- İzin verilen/verilmeyen içerik kategorilerini tanımlayan bir anayasa oluşturma
- İçerik sınıfları boyunca sentetik prompt'lar ve model tamamlamaları üretme
- Dil çevirisi ve jailbreak tarzı dönüşümler yoluyla verileri artırma
- Yanlış pozitifleri minimize ederek zararlı içeriği işaretleyen sınıflandırıcılar eğitme
Sonuçlar
İnsan Kırmızı Takım Testi (Prototip)
- 183 aktif katılımcı, iki ay boyunca 3.000+ saat jailbreak denemesi yaptı
- Başarılı evrensel jailbreak için 15.000 $'a kadar ödül teklif edildi
- Sonuç: Kapsamlı çabaya rağmen evrensel jailbreak bulunamadı
Otomatik Değerlendirmeler
| Metrik | Savunmasız | Savunmalı |
|---|---|---|
| Jailbreak başarı oranı | %86 | %4.4 |
| Gelişmiş saldırı engelleme | — | %95+ |
| Yanlış reddetme artışı | — | %0.38 |
| Hesaplama maliyeti artışı | — | %23.7 |
Canlı Demo (3-10 Şubat 2025)
- 339 jailbreak'çi, ~3.700 saat boyunca 300.000+ etkileşim gerçekleştirdi
- 4 katılımcı tüm 8 zorluk seviyesini başarıyla geçti
- 1 kişi gerçek bir evrensel jailbreak keşfetti
- En etkili stratejiler: şifreler/kodlamalar, rol yapma senaryoları, anahtar kelime değiştirme, prompt enjeksiyonu
Sınırlılıklar
Sistem tüm jailbreak'leri önleyemeyebilir. Anthropic, Constitutional Classifiers'ın tamamlayıcı savunmalarla birleştirilmesini önerir. Anayasa, güvenlik açıkları keşfedildikçe hızla uyarlanabilir.