
Kısaca
- Günümüz AI ajanı benchmarkları bir seferde bir görev test ederken, gerçek işyeri verimliliği birden fazla bağımlı görevi aynı anda yönetmeyi gerektirir. Bunu yansıtmak için, Çok Ufuklu Görev Ortamları (MHTE'ler) adında bir ayar oluşturduk.
- Çoklu görev yükleri altında, önde gelen bilgisayar kullanan ajanlar keskin bir şekilde kötüleşir ve tamamlama oranları %16.7'den %8.7'ye düşer.
- CORPGEN, hiyerarşik planlama, bellek izolasyonu ve deneyimsel öğrenme ile dijital çalışanlar sunarak, üç bağımsız ajan arka ucu arasında temel oranlardan %3.5 kat daha yüksek tamamlama oranları sağlar.
- CORPGEN mimari bağımsız ve modüler olduğu için kazançları herhangi bir temel modelden değil, sistem tasarımından gelir ve temel modeller geliştikçe doğrudan fayda sağlar.
Sabah ortalarında, tipik bir bilgi çalışanı zaten bir müşteri raporu, bir bütçe elektronik tablosu, bir sunum dosyası ve bir e-posta birikimi ile ilgileniyor; hepsi birbirine bağımlı ve hepsi aynı anda dikkat gerektiriyor. AI ajanlarının bu ortamda gerçekten yararlı olabilmesi için aynı şekilde çalışmaları gerekecek, ancak günümüzün en iyi modelleri bir seferde bir görevi değerlendiriyor, birden fazlasını değil.
“CORPGEN: Çok Ufuklu Görev Ortamlarında Otonom Dijital Çalışanlarla Kurumsal Ortamları Simüle Etme” başlıklı makalemizde, AI'yi bu boşluğu kapatacak bellek, planlama ve öğrenme yetenekleri ile donatan bir ajan çerçevesi öneriyoruz.
Çok Ufuklu Görev Ortamlarını Tanıtma
İşyerindeki çoklu görev gerçekliğini kopyalamak, yeni bir değerlendirme ortamı gerektirir. Bu yanıt olarak, bir ajanın aynı anda birden fazla karmaşık görevi yönetmesi gereken Çok Ufuklu Görev Ortamları (MHTE'ler) geliştirdik. Her görev, beş saatlik bir oturumda 10 ila 30 bağımlı adım gerektirir.
Bir benchmarkın neyi test etmesi gerektiğini belirlemek için, günümüzün önde gelen AI ajanları üzerinde MHTE'leri ölçekli olarak çalıştırdık ve dört zayıflığı ortaya çıkardık. İlk olarak, bellek doluyor. Bir ajan, birden fazla aktif görevin ayrıntılarını aynı anda tutamaz. İkincisi, bir görevden gelen bilgiler diğerini düşünmeyi engelliyor. Üçüncüsü, görevler basit dizilerde birbirine bağımlı değildir. Karmaşık ağlar oluştururlar; burada bir ajan, aşağıdaki herhangi bir şey üzerinde ilerlemeden önce yukarıdaki işin tamamlanıp tamamlanmadığını sürekli kontrol etmelidir. Dördüncüsü, her eylem döngüsü, ajanın bıraktığı yerden devam etmesinin yanı sıra, tüm aktif görevler arasında önceliklendirme gerektirir.
Ayrıca, artan yükler altında üç bağımsız ajan sistemini de test ettik. Eş zamanlı görev sayısı 12'den 46'ya çıktıkça, tüm sistemlerde tamamlama oranları %16.7'den %8.7'ye düştü.
CORPGEN'in Mimarisi
CORPGEN, sürekli kimliklere, rol spesifik uzman







