Temel Taahhüt
Anthropic temel bir ilkeyi sürdürür: güvenlik önlemleri riskleri kabul edilebilir seviyelerin altında tutmadıkça modeller dağıtılmayacaktır.
Çerçeve: AI Güvenlik Seviyesi Standartları (ASL)
Politika, model yetenekleriyle birlikte yoğunlaşan kademeli güvenlik önlemleri kullanır:
ASL-1: Temel
Çok temel yetenekler (örn. satranç botları). Minimal güvenlik gereksinimi.
ASL-2: Mevcut Standart
Mevcut endüstri temel çizgisi. Tüm mevcut Anthropic modelleri bu seviyede çalışmaktadır.
ASL-3: Gelişmiş Güvenlik
Daha yüksek riskli yetenekler için artırılmış güvenlik ve dağıtım güvenceleri.
ASL-4 ve Üzeri
Otonom AI araştırma ve geliştirme yetenekleri için ek güvenlik güvenceleri.
İki Kritik Yetenek Eşiği
1. Otonom AI Araştırma ve Geliştirme
Bir model, tipik olarak insan uzmanlığı gerektiren karmaşık AI araştırmalarını bağımsız olarak yürütebiliyorsa — geliştirmeyi öngörülemez şekilde hızlandırma potansiyeli taşır — ASL-4 veya daha yüksek standartlar gereklidir.
2. KBRN Silah Yardımı
Bir model, temel teknik bilgiye sahip birine kimyasal, biyolojik, radyolojik veya nükleer silah oluşturma/dağıtımında anlamlı yardım sağlayabiliyorsa — ASL-3 standartları gereklidir.
Uygulama Mekanizmaları
- Yetenek Değerlendirmeleri — Tanımlanmış eşikleri kullanan rutin değerlendirmeler
- Güvence Değerlendirmeleri — Güvenlik ve dağıtım önlemlerinin düzenli etkinlik incelemeleri
- Dokümantasyon — Yüksek güvenilirlikli endüstrilerden güvenlik vakası metodolojileri
- Yönetişim — Dahili stres testi artı harici uzman geri bildirimi