
Kısaca
- Problem: AI ajan hatalarını ayıklamak zordur çünkü yollar uzun, stokastik ve genellikle çok ajandalıdır, bu nedenle gerçek kök neden gömülür.
- Çözüm: AgentRx (yeni sekmede açılır), araç şemalarından ve alan politikalarından korumalı, yürütülebilir kısıtlar sentezleyerek ilk kurtarılamaz (“kritik hata”) adımı belirler ve ardından kanıta dayalı ihlalleri adım adım kaydeder.
- Benchmark + taksonomi: AgentRx Benchmark (yeni sekmede açılır), τ-bench, Flash ve Magentic-One üzerinde 115 manuel olarak anotasyon yapılmış başarısız yol ile birlikte, temellendirilmiş dokuz kategorili hata taksonomisi sunar.
- Sonuçlar + yayın: AgentRx, hata yerelleştirmesini (+23.6%) ve kök neden atamasını (+22.9%) artırır ve çerçeveyi ve veri setini açık kaynak yapıyoruz.
AI ajanları basit sohbet botlarından bulut olaylarını yönetebilen, karmaşık web arayüzlerinde gezinip çok adımlı API iş akışlarını yürütebilen otonom sistemlere geçerken, yeni bir zorluk ortaya çıkmıştır: şeffaflık.
Bir insan hata yaptığında, genellikle mantığı izleyebiliriz. Ancak bir AI ajanı başarısız olduğunda, belki bir araç çıktısını hayal ederek veya elli adımlık bir görevde on adım sonra bir güvenlik politikasından saparak, nerede ve neden yanlış gittiğini tam olarak belirlemek zor bir manuel süreçtir.
Bugün, ajan yollarındaki “kritik hata adımını” belirlemek için tasarlanmış otomatik, alan bağımsız bir çerçeve olan AgentRx (yeni sekmede açılır)'nin açık kaynak sürümünü duyurmaktan heyecan duyuyoruz. Çerçeve ile birlikte, topluluğun daha şeffaf, dayanıklı ajans sistemleri inşa etmesine yardımcı olmak için 115 manuel olarak anotasyon yapılmış başarısız yol içeren AgentRx Benchmark (yeni sekmede açılır) veri setini yayımlıyoruz.







