AI Güvenliğine Bakışımız

Ana Tez

Anthropic, AI'ın önümüzdeki on yıl içinde endüstri ve bilimsel devrimlere eş değer dönüştürücü bir etkiye sahip olabileceğine inanmaktadır. Bu durum, birden fazla yaklaşımda acil güvenlik araştırması gerektirmektedir.

Hızlı AI İlerlemesi Öngörülebilir

Ölçeklendirme yasaları, artan hesaplama kaynaklarının AI yeteneklerini güvenilir şekilde geliştirdiğini göstermektedir
Eğitim hesaplaması yılda 10 kat büyümektedir — Moore Yasası'nın yedi katı hızında
Çeşitli görevlerde insan seviyesine yaklaşan sistemler, büyük bilimsel projelerden daha düşük maliyetle geliştirilebilmektedir

Güvenlik Zorlukları Ciddi

İki temel endişe bulunmaktadır:

Teknik hizalama sorunu — Yaratıcılarından daha yetenekli, yönlendirilebilir sistemler inşa etmek
Toplumsal bozulma — İstihdam, ekonomik ve jeopolitik altüst oluşlar güvenlik konusunda köşelerin kesilmesine yol açabilir

Deneysel Yaklaşım

Anthropic, yalnızca teorik çalışma yerine sınır modelleriyle uygulamalı araştırmayı önceliklendirir. Gelecekteki riskleri anlamanın, yetenekli sistemlerle doğrudan etkileşim gerektirdiğini savunurlar.

Araştırma Portföyü

Üç kategoride organize edilmiştir:

Yetenekler — Genel AI performansını iyileştirme
Hizalama Yetenekleri — Daha güvenli sistemler için eğitim algoritmaları geliştirme (Constitutional AI, RLHF)
Hizalama Bilimi — Hizalama etkinliğini değerlendirme ve anlama

Üç Senaryo

Anthropic, AI güvenliğinin çözülebilirliği konusundaki belirsizliği kabul eder:

İyimser — Güvenlik zorlukları mevcut tekniklerle yönetilebilir
Orta — Önemli araştırma çabası hizalama sorunlarını çözebilir
Kötümser — AI güvenliği temelden çözülemez olabilir

Mevcut Araştırma Odağı

Mekanistik yorumlanabilirlik — Sinir ağlarının tersine mühendisliği
Ölçeklenebilir gözetim — AI yardımıyla insan geri bildiriminin güçlendirilmesi
Süreç odaklı öğrenme — Anlaşılabilir adımları vurgulayan eğitim yöntemleri
Genelleme anlayışı — Model davranışlarının eğitim verilerine kadar izlenmesi
Tehlikeli başarısızlık modlarının test edilmesi
Toplumsal etki değerlendirmesi