AI Delegasyonu ve Uzun Vadeli Güvenilirlik Üzerine Son Araştırmalarımız Hakkında Ek Notlar

Son makalemiz, “Delegasyon Yaptığınızda LLM'ler Belgelerinizi Bozar”, delegasyonlu iş akışlarındaki AI sistemlerinin güvenilirliği hakkında tartışmalara yol açtı. Bu çalışmaya olan ilginizi takdir ediyoruz ve makalenin neyi iddia ettiğine ve neyi iddia etmediğine dair birkaç önemli noktayı netleştirmek istiyoruz.

Araştırmanın amacı, uzun vadeli delegasyonlu ve işbirlikçi görevler için sağlam değerlendirme yöntemleri geliştirmektir. Daha geniş bir çerçevede, bu çalışma güçlü referans performansı ile bazı gerçek dünya görevleri arasındaki boşluğu daha iyi anlamaya yönelik devam eden bir çabayı yansıtmaktadır. Kontrol edilen bir değerlendirme metodolojisi kullanarak, bu genişletilmiş iş akışları boyunca bilginin ne kadar iyi korunduğunu inceliyoruz. Bu sınırlı ortamda, modellerin tekrar eden düzenlemelerle sadakat kaybı biriktirebileceğini gözlemliyoruz. Ancak, mevcut üretim sistemlerinin bu etkileri doğrulama döngüleri, orkestrasyon ve alan spesifik araçlar aracılığıyla hafifletebileceğini belirtmek gerekir.

Amacımız, profesyonel iş akışlarında AI sistemlerinin kullanımına karşı bir argüman geliştirmek değil, mevcut sistemlerin daha güvenilir işbirlikçileri haline gelmelerine yardımcı olmak için daha fazla araştırma ve mühendislik gerektiren alanları belirlemektir. Bu referans, delegasyon kalıplarını incelemek için bir tanı aracı olarak tasarlanmıştır, genel model yeteneği, görev başarısı veya kullanıcı sonuçlarının bir ölçüsü değildir.

Ana sonuçlar

Makalede, bir kullanıcının AI sistemine önemli belgeler, tablolar, kod veya sınırlı insan doğrulaması ile çok adımlı değişiklikler yaptırdığı durumları “delegasyonlu çalışma” olarak adlandırdığımız belirli bir etkileşim kalıbı değerlendirilmektedir.

Uzun vadeli delegasyonlu iş akışları boyunca anlamsal içeriğin doğru bir şekilde korunup korunmadığını değerlendiren zincirli dönüşüm ve tersine çevirme görevleri kullanıyoruz. Değerlendirmemiz, yüzeysel biçimlendirme veya stil farklılıkları yerine, temel nesne üzerindeki anlamlı değişikliklere odaklanmak için alan spesifik anlamsal ayrıştırma kullanmaktadır. Bu nedenle raporladığımız hatalar, temel anlamsal içerikteki bozulmalara karşılık gelmektedir; ancak “bozulma” ölçümümüz, görev tamamlama veya kullanıcı memnuniyetini içermemektedir.

Bu metodolojiyi kullanarak, mevcut öncü modellerin uzun vadeli iş akışları sırasında seyrek ancak önemli hatalar ortaya çıkarabileceğini ve bu hataların tekrar eden etkileşimler boyunca birikme eğiliminde olduğunu buluyoruz. Değerlendirilen ayarlar arasında, güçlü en son teknoloji modellerin 20 delegasyonlu iterasyonda nesne sadakatinde yaklaşık %19–34 oranında bir bozulma gösterdiği görülmüştür. Özellikle, Python iş akışları genellikle uzatılmış delegasyonlu etkileşimler altında daha güçlü bir dayanıklılık sergilemekte ve ortalama %1'den daha az bir bozulma göstermektedir.

Ana sonuçlar

Microsoft Araştırma Bülteni