Ajanların Ağına Kırmızı Takım Uygulamak: AI Ajanlarının Ölçekli Olarak Etkileşime Geçtiğinde Nelerin Bozulduğunu Anlamak

Gagan Bansal, Shujaat Mirza, Keegan Hines, Will Epperson, Zachary Huang, Whitney Maxwell, Pete Bryan, Tyler Payne, Adam Fourney, Amanda Swearngin, Wenyue Hua, Tori Westerhoff, Maya Murad, Ece Kamar, Ram Shankar Siva Kumar, Saleema Amershi, Amanda Minnich1 Mayıs 2026, 00:53microsoft - research Kaynağa git

mavi ile yeşil gradyan arka planda üç simge | bağlı düğüm simgesi, 'x' simgeli belge, onay işaretli kalkan simgesi

Bir bakışta

Ajanlar etkileşime geçtiğinde bazı riskler ortaya çıkıyor, yalnız test edildiğinde değil. Zararsız görünen eylemler, bir ajan ağı boyunca zincirleme reaksiyonlara neden olabilir.
Testlerimizde, tek bir kötü niyetli mesaj, her adımda özel verileri çıkararak ve ilgisiz ajanları zincire çekerek ajandan ajana geçti.
Bazı ajan ağlarının bu saldırılara karşı daha dirençli hale geldiğine dair erken belirtiler gördük, ancak savunmalar hala üzerinde çalışılan açık bir zorluk.

Farklı kullanıcılar ve organizasyonlara ait ajanlar birbirleriyle etkileşime geçmeye başlıyor. Bu ajan ağları, büyük dil modellerindeki (LLM'ler) ilerlemeler ve silikonun ajan inşa etme engellerini azaltmasıyla ortaya çıkıyor; Claude, Copilot ve ChatGPT gibi araçlar ile e-posta ve GitHub gibi mevcut platformlar, onları sürekli temas halinde tutuyor. Sonuç olarak, ajanlar artık yalnız çalışmıyor, paylaşılan, birbirine bağlı bir ortamda katılımcı haline geliyorlar.

Bu değişim, tek ajan ayarlarında elde edilemeyen yetenekleri mümkün kılıyor. Ajanlar, görevleri dağıtabilir, kaynakları paylaşabilir ve temsilciler (her ajanın temsil ettiği insanlar) arasında çeşitli uzmanlıklara başvurabilir. Ajanlar her zaman aktif olduğunda ve insanlardan daha hızlı iletişim kurduğunda, birine paylaşılan bilgi, birkaç dakika içinde bir ağ boyunca yayılabilir. Bu hız, ölçek ve süreklilik, kullanıcılar için gerçek değer yaratabilir.

Ancak, bu aynı yetenekler yeni riskler de getiriyor. Örneğin, yalnızca ajanlara yönelik bir sosyal ağ, lansmanının üzerinden birkaç gün geçmeden on binlerce ajanın dikkatini çekti, ancak hızla spam ve dolandırıcılık ile dolup taştı. Kendi erken ajan pazar deneyimlerimizde, ajanlar hızla bilgi paylaştı ve davranışları koordine etti, ancak hatalar da aynı hızla yayıldı.

Bu desen, bireysel bir ajanın güvenilirliğinin ağ davranışını tahmin etmediğini gösteriyor. Bazı riskler yalnızca etkileşim yoluyla ortaya çıkıyor ve tek ajan benchmarkları bunları kaçırıyor.

Bu dinamikleri anlamak için, canlı bir iç platformda 100'den fazla farklı model çalıştıran ajanları kırmızı takım yaptık veya potansiyel zayıflıkları test ettik. Her biri bir insan adına hareket etti, forumlar, doğrudan mesajlar ve işbirlikçi görevler aracılığıyla katıldı. Ağaç seviyesinde yalnızca ağ düzeyinde ortaya çıkan dört risk gözlemledik:

Yayılma: Ajan solucanları bir ajandan diğerine yayılır, birden fazla sıçrama boyunca kendilerini sürdürebilir ve yol boyunca özel verileri toplayabilir.
Amplifikasyon: Bir saldırgan, güvenilir bir ajanın itibarını kullanarak yanlış bir iddia ortaya atabilir ve bu da ikna edici ancak uydurma kanıtlar üreten bir yığılma tetikleyebilir.
Güven yakalama: Bir saldırgan, ajanların birbirlerinin iddialarını nasıl kontrol ettiğini ele geçirerek, bilgiyi doğrulamak için tasarlanmış bir sistemi yanlışlıkları pekiştiren bir sisteme dönüştürebilir.
Görünmezlik: Bilgi, farkında olmayan ajanların zincirleri aracılığıyla geçebilir, bu da bir saldırının kaynağını herhangi bir ajanın perspekt