Ana Tez
Anthropic, AI'ın önümüzdeki on yıl içinde endüstri ve bilimsel devrimlere eş değer dönüştürücü bir etkiye sahip olabileceğine inanmaktadır. Bu durum, birden fazla yaklaşımda acil güvenlik araştırması gerektirmektedir.
Hızlı AI İlerlemesi Öngörülebilir
- Ölçeklendirme yasaları, artan hesaplama kaynaklarının AI yeteneklerini güvenilir şekilde geliştirdiğini göstermektedir
- Eğitim hesaplaması yılda 10 kat büyümektedir — Moore Yasası'nın yedi katı hızında
- Çeşitli görevlerde insan seviyesine yaklaşan sistemler, büyük bilimsel projelerden daha düşük maliyetle geliştirilebilmektedir
Güvenlik Zorlukları Ciddi
İki temel endişe bulunmaktadır:
- Teknik hizalama sorunu — Yaratıcılarından daha yetenekli, yönlendirilebilir sistemler inşa etmek
- Toplumsal bozulma — İstihdam, ekonomik ve jeopolitik altüst oluşlar güvenlik konusunda köşelerin kesilmesine yol açabilir
Deneysel Yaklaşım
Anthropic, yalnızca teorik çalışma yerine sınır modelleriyle uygulamalı araştırmayı önceliklendirir. Gelecekteki riskleri anlamanın, yetenekli sistemlerle doğrudan etkileşim gerektirdiğini savunurlar.
Araştırma Portföyü
Üç kategoride organize edilmiştir:
- Yetenekler — Genel AI performansını iyileştirme
- Hizalama Yetenekleri — Daha güvenli sistemler için eğitim algoritmaları geliştirme (Constitutional AI, RLHF)
- Hizalama Bilimi — Hizalama etkinliğini değerlendirme ve anlama
Üç Senaryo
Anthropic, AI güvenliğinin çözülebilirliği konusundaki belirsizliği kabul eder:
- İyimser — Güvenlik zorlukları mevcut tekniklerle yönetilebilir
- Orta — Önemli araştırma çabası hizalama sorunlarını çözebilir
- Kötümser — AI güvenliği temelden çözülemez olabilir
Mevcut Araştırma Odağı
- Mekanistik yorumlanabilirlik — Sinir ağlarının tersine mühendisliği
- Ölçeklenebilir gözetim — AI yardımıyla insan geri bildiriminin güçlendirilmesi
- Süreç odaklı öğrenme — Anlaşılabilir adımları vurgulayan eğitim yöntemleri
- Genelleme anlayışı — Model davranışlarının eğitim verilerine kadar izlenmesi
- Tehlikeli başarısızlık modlarının test edilmesi
- Toplumsal etki değerlendirmesi