ADeLe: Görevler Arasında AI Performansını Tahmin Etme ve Açıklama

ADeLe | Üç beyaz çizgi simgesi, mavi-yeşil gradyan arka planda bir onay işareti olan bir daire, bir belge arama ve bir takım araçları gösteriyor.

Bir bakışta

Yapay zeka kıyaslamaları, belirli görevlerdeki performansı rapor eder ancak temel yetenekler hakkında sınırlı bilgi sağlar; ADeLe, görevleri ve modelleri 18 temel yetenek üzerinden puanlayarak doğrudan görev talepleri ile model yetenekleri arasında karşılaştırma yapar.
Bu yetenek puanlarını kullanarak, yöntem yeni görevlerde ~%88 doğrulukla performansı tahmin eder, GPT-4o ve Llama-3.1 gibi modeller için de geçerlidir.
Yetenek profilleri oluşturur ve modellerin nerelerde başarılı veya başarısız olabileceğini belirler, görevler arasındaki güçlü ve zayıf yönleri vurgular.
Sonuçları görev talepleriyle ilişkilendirerek, ADeLe performanstaki farklılıkları açıklar ve görev karmaşıklığı arttıkça nasıl değiştiğini gösterir.

Yapay zeka kıyaslamaları, büyük dil modellerinin (LLM'ler) belirli görevlerde nasıl performans gösterdiğini rapor eder ancak performanslarını etkileyen temel yetenekler hakkında çok az bilgi sağlar. Başarısızlıkları açıklamaz veya yeni görevlerde sonuçları güvenilir bir şekilde tahmin etmez. Bunu ele almak için, Microsoft araştırmacıları Princeton Üniversitesi ve Universitat Politècnica de València ile işbirliği içinde ADeLe (yeni sekmede açılır) (Talep Seviyeleri ile Yapay Zeka Değerlendirmesi) yöntemini tanıttı; bu yöntem, akıl yürütme ve alan bilgisi gibi geniş bir yetenek seti kullanarak hem modelleri hem de görevleri karakterize eder, böylece yeni görevlerde performans tahmin edilebilir ve bir modeldeki belirli güçlü ve zayıf yönlerle ilişkilendirilebilir.

Nature dergisinde yayımlanan bir makalede, “Genel Ölçekler, Açıklayıcı ve Tahmin Gücüne Sahip AI Değerlendirmesini Açığa Çıkarıyor (yeni sekmede açılır),” ekip, ADeLe'nin toplu kıyaslama puanlarının ötesine geçtiğini açıklıyor. Değerlendirmeyi izole testlerin bir koleksiyonu olarak ele almak yerine, hem kıyaslamaları hem de LLM'leri aynı yetenek puanları setini kullanarak temsil eder. Bu puanlar, bir modelin daha önce karşılaşmadığı görevlerde nasıl performans göstereceğini tahmin etmek için kullanılabilir. Araştırma, Microsoft’un Temel Modeller Araştırmasını Hızlandırma (AFMR) hibe programı tarafından desteklenmiştir.

ADeLe tabanlı değerlendirme

ADeLe, dikkat, akıl yürütme, alan bilgisi gibi 18 temel yetenek üzerinden görevleri puanlar ve her bir göreve, her yeteneği ne kadar gerektirdi