← Belgeler
🤖

Güvenilir AI Ajanları

Otonom AI ajanlarının güvenilir şekilde nasıl inşa edileceğine dair Anthropic'in çerçevesi.

Orijinal belge ↗

Genel Bakış

AI ajanları — kendi süreçlerini ve araç kullanımını yöneten otonom sistemler — temel sohbet botlarından önemli bir geçişi temsil eder. Sabit betikleri takip etmek yerine "planlar, harekete geçer, sonucu gözlemler, ayarlar ve tekrarlar".

Dört Katmanlı Mimari

Model

Muhakeme ve davranışı şekillendiren eğitim yoluyla temel zekayı sağlar.

Araç Takımı (Harness)

Operasyonları yöneten talimatlar ve korkuluklardan oluşur.

Araçlar

E-posta, takvim, yazılım gibi harici hizmetlerle etkileşimi sağlar.

Ortam

Claude Code veya Claude Cowork gibi belirli ürünler içindeki operasyonel bağlamı belirler.

Beş Temel İlke

1. İnsan Kontrolü

Kullanıcılar, ajanların hangi araçlara erişeceğini seçerek ve izinleri yapılandırarak gözetimi sürdürür. Claude Code'un Plan Modu, bireysel adımlar için onay istemek yerine tam eylem planlarını önceden gösterir.

2. Kullanıcı Hedefleriyle Uyum

Ajanlar, niyet varsaymak yerine ne zaman durup açıklama isteyeceğini bilmelidir. Eğitim, Claude'un rehberlik aradığı belirsiz durumları vurgular.

3. Saldırılara Karşı Güvenlik

Prompt enjeksiyonları — ajanların işlediği içeriğe gömülmüş kötü niyetli talimatlar — artan riskler sunar. Anthropic katmanlı savunmalar kullanır: enjeksiyon kalıplarını tanımak için model eğitimi, üretim trafiği izleme ve harici kırmızı takım testi.

4. Şeffaflık

Tüm ürün kararlarına nüfuz eden bir ilkedir.

5. Gizlilik

Her uygulama detayında yer alan temel prensiptir.

Alt-Ajanlar: Yeni Karmaşıklık

Ajanlar işi paralel "alt-ajanlara" devrettikçe yeni gözetim zorlukları ortaya çıkar. Tek-iş parçacığı görünürlüğü kaybolur ve kullanıcı anlayışını sürdürmek için yeni koordinasyon kalıpları gerektirir.

Ekosistem Gereksinimleri

Bireysel şirketler tek başına ajan güvenliğini sağlayamaz:

  • Standartlaştırılmış Ölçütler — Prompt enjeksiyonlarına direnci ölçmek için bağımsız doğrulama yöntemleri
  • Kanıt Paylaşımı — Geliştiricilerin kullanım verilerini ve başarısızlık modlarını yayımlaması
  • Açık Standartlar — Anthropic'in Model Context Protocol'ü (artık Linux Foundation'a bağışlanmış) altyapı seviyesinde güvenlik tasarımı sağlar