AI modellerine "Emin değilim" demeyi öğretmek

Güven ikna edicidir. Yapay zeka sistemlerinde ise genellikle yanıltıcıdır.

Bugünün en yetenekli akıl yürütme modelleri, odadaki en yüksek sesle benzer bir özelliği paylaşır: Doğru olup olmadıklarına bakılmaksızın her yanıtı aynı sarsılmaz kesinlikle verirler. MIT Bilgisayar Bilimleri ve Yapay Zeka Laboratuvarı (CSAIL) araştırmacıları, bu aşırı güvenin bu modellerin nasıl eğitildiğine dair belirli bir hatadan kaynaklandığını tespit etti ve bunu düzeltmeden herhangi bir doğruluk kaybı yaşamadan çözebilen bir yöntem geliştirdi.

RLCR (Kalibrasyon Ödülleri ile Pekiştirme Öğrenimi) adı verilen bu teknik, dil modellerini yanıtlarıyla birlikte kalibre edilmiş güven tahminleri üretmeye eğitiyor. Model, bir yanıt bulmanın yanı sıra, o yanıtla ilgili belirsizliğini de düşünür ve bir güven puanı çıkarır. Birden fazla ölçüt üzerindeki deneylerde, RLCR kalibrasyon hatasını yüzde 90'a kadar azaltırken, modelin eğitildiği görevlerde ve daha önce hiç görmediği tamamen yeni görevlerde doğruluğu korudu veya artırdı. Bu çalışma, bu ayın ilerleyen günlerinde Uluslararası Temsili Öğrenme Konferansı'nda sunulacak.

Sorun, şaşırtıcı derecede basit bir kaynağa dayanıyor. Yapay zeka akıl yürütmesindeki son dönüm noktalarının arkasındaki pekiştirme öğrenimi (RL) yöntemleri, OpenAI'nin o1 gibi sistemlerde kullanılan eğitim yaklaşımını da içeren, doğru yanıtı veren modellere ödül verirken, yanlış yanıt verenleri cezalandırıyor. Arada hiçbir şey yok. Dikkatli bir akıl yürütme ile doğru sonuca ulaşan bir model, şans eseri doğru tahminde bulunan bir modelle aynı ödülü alıyor. Zamanla, bu modelleri, güçlü kanıtları olup olmadığını ya da aslında bir madeni para atıyormuş gibi olup olmadığını umursamadan her soruya güvenle yanıt vermeye eğitiyor.

Bu aşırı güvenin sonuçları var. Modeller tıp, hukuk, finans veya kullanıcıların yapay zeka çıktısına dayanarak kararlar aldığı herhangi bir ortamda kullanıldığında, gerçek kesinliğinden bağımsız olarak yüksek güven ifade eden bir sistem, dışarıdan tespit edilmesi zor olan şekillerde güvenilmez hale gelir. "Ben yüzde 95 eminim" diyen bir model, doğru olduğu zamanların sadece yarısında daha tehlikeli bir hale gelir; çünkü kullanıcıların ikinci bir görüş aramak için bir sinyali yoktur.

"Standart eğitim yaklaşımı basit ve güçlüdür, ancak modele belirsizlik ifade etme veya 'bilmiyorum' deme konusunda hiçbir teşvik vermez," diyor MIT doktora öğrencisi ve makalenin ortak yazarı Mehul Damani. "Bu nedenle model, belirsiz olduğunda tahminde bulunmayı doğal olarak öğreniyor."

RLCR, ödül fonksiyonuna tek bir terim ekleyerek bu durumu ele alıyor: bir Brier skoru, bir modelin belirttiği güven ile gerçek doğruluğu arasındaki farkı cezalandıran iyi bilinen bir ölçü. Eğitim sırasında, modeller hem problemi hem de kendi belirsizliklerini düşünmeyi öğrenir, bir yanıt ve bir güven tahmini birlikte üretir. Güvenle yanlış yanıtlar cezalandırılır. Gereksiz yere belirsiz doğru yanıtlar da öyle.

Matematik bunu destekliyor: ekip, bu tür bir ödül yapısının hem doğru hem de iyi kalibre edilmiş modelleri garanti ettiğini resmi olarak kanıtladı. Ardından, 7 milyar parametreli bir model üzerinde, modelin daha önce hiç eğitilmediği altı veri seti de dahil olmak üzere, çeşitli soru-cevap ve matematik ölçütleri üzerinde yaklaşımı test ettiler.

Sonuçlar tutarlı bir desen gösterdi. Standart RL eğitimi, temel modele göre kalibrasyonu aktif olarak bozdu ve modellerin kendi belirsizliklerini tahmin etme yeteneklerini kötüleştirdi. RLCR bu etkiyi tersine çevirerek kalibrasyonu önemli ölçüde artırdı ve doğruluk kaybı yaşatmadı. Yöntem ayrıca, bir ayrı sınıflayıcının güven puanlarını sonradan atamak için eğitildiği post-hoc yaklaşımlarını da geride bıraktı. "Dikkat çekici olan, sıradan RL eğitiminin kalibrasyona yardımcı olmayı başaramadığı değil, aktif olarak zarar verdiğidir," diyor MIT doktora öğrencisi ve ortak yazar Isha Puri. "Modeller aynı anda daha yetenekli ve daha aşırı güvenli hale geliyor."

Ekip ayrıca, RLCR tarafından üretilen güven tahminlerinin