Aşırı genelleştirilmiş makine öğrenimi ölçütlerinin ötesine geçmenin neden kritik öneme sahip olduğu

Yeni araştırmalar, hatalı korelasyonlara dair gizli kanıtları ortaya çıkarıyor ve doğruluğu artırmak için bir yöntem sunuyor.

MIT araştırmacıları, makine öğrenimi modellerinin eğitildikleri verilerden farklı verilere uygulandıklarında önemli model başarısızlık örnekleri tespit ettiler ve bu durum, bir model yeni bir ortamda her kullanıldığında test edilmesinin gerekliliği konusunda soruları gündeme getirdi.

MIT Elektrik Mühendisliği ve Bilgisayar Bilimleri Bölümü'nde (EECS) doçent, Tıp Mühendisliği ve Bilim Enstitüsü üyesi ve Bilgi ve Karar Sistemleri Laboratuvarı'nda baş araştırmacı olan Marzyeh Ghassemi, "Büyük miktarda veri üzerinde modeller eğittiğinizde ve en iyi ortalama modeli seçtiğinizde bile, yeni bir ortamda bu 'en iyi modelin' yeni verilerin yüzde 6-75'i için en kötü model olabileceğini gösteriyoruz" diyor.

Aralık ayında düzenlenen Sinirsel Bilgi İşleme Sistemleri (NeurIPS 2025) konferansında sunulan bir makalede araştırmacılar, örneğin bir hastanede göğüs röntgenlerinde hastalık teşhisini etkili bir şekilde yapacak şekilde eğitilmiş modellerin, ortalama olarak farklı bir hastanede de etkili kabul edilebileceğine dikkat çekiyor. Bununla birlikte, araştırmacıların performans değerlendirmesi, ilk hastanede en iyi performans gösteren modellerin bazılarının, ikinci hastanedeki hastaların %75'ine kadarında en kötü performansı gösterdiğini ortaya koydu; ancak ikinci hastanedeki tüm hastalar bir araya getirildiğinde, yüksek ortalama performans bu başarısızlığı gizliyor.

Bulguları, yanıltıcı korelasyonların (örneğin, bir makine öğrenme sisteminin, sahilde çekilmiş birçok ineğin fotoğrafını "görmemiş" olması ve sadece arka planına bakarak sahildeki bir ineğin fotoğrafını katil balina olarak sınıflandırması gibi basit bir örnek) gözlemlenen veriler üzerinde model performansını iyileştirerek azaltılabileceği düşünülse de, aslında hala meydana geldiğini ve yeni ortamlarda modelin güvenilirliği için bir risk oluşturduğunu göstermektedir. Birçok durumda -araştırmacıların incelediği alanlar arasında göğüs röntgenleri, kanser histopatoloji görüntüleri ve nefret söylemi tespiti gibi- bu tür yanıltıcı korelasyonları tespit etmek çok daha zordur.

Örneğin, göğüs röntgenleri üzerinde eğitilmiş bir tıbbi teşhis modelinde, model bir hastanenin röntgenlerinde yer alan belirli ve alakasız bir işaretlemeyi belirli bir patolojiyle ilişkilendirmeyi öğrenmiş olabilir. Bu işaretlemenin kullanılmadığı başka bir hastanede ise bu patoloji gözden kaçabilir.

Ghassemi'nin grubunun daha önceki araştırmaları, modellerin yaş, cinsiyet ve ırk gibi faktörleri tıbbi bulgularla yanlış bir şekilde ilişkilendirebileceğini göstermiştir. Örneğin, bir model daha çok yaşlı kişilerin zatürreye yakalanmış göğüs röntgenleri üzerinde eğitilmişse ve genç kişilere ait röntgenleri yeterince "görmemişse", yalnızca yaşlı hastaların zatürreye yakalandığını tahmin edebilir.

MIT'de doktora sonrası araştırmacı ve makalenin baş yazarı Olawale Salaudeen, "Modellerin hastanın anatomik özelliklerine bakmayı ve buna dayanarak karar vermeyi öğrenmesini istiyoruz," diyor, "ancak aslında verilerde kararla ilişkili olan her şey model tarafından kullanılabilir. Ve bu korelasyonlar, çevredeki değişikliklerle birlikte aslında sağlam olmayabilir, bu da model tahminlerini karar verme için güvenilmez kaynaklar haline getirir."

Yanlış korelasyonlar, yanlı karar verme risklerine katkıda bulunur. NeurIPS konferansında sunulan bildiride araştırmacılar, örneğin, genel tanı performansını iyileştiren göğüs röntgeni modellerinin, plevra rahatsızlıkları veya genişlemiş kardiyomediastinumu (yani kalbin veya merkezi göğüs boşluğunun büyümesi) olan hastalarda aslında daha kötü performans gösterdiğini ortaya koymuştur.

Makalenin diğer yazarları arasında doktora öğrencileri Haoran Zhang ve Kumail Alhamoud, EECS Yardımcı Doçenti Sara Beery ve Ghassemi yer almaktadır.

Önceki çalışmalar genel olarak, performansa göre en iyiden en kötüye doğru sıralanan modellerin yeni ortamlarda uygulandığında bu sıralamayı koruyacağını (doğruluk testi olarak adlandırılır) kabul ederken, araştırmacılar bir ortamda en iyi performansı gösteren modellerin başka bir ortamda en kötü performansı gösterdiği örnekleri ortaya koymayı başardılar.

Salaudeen, doğruluk oranının bozulduğu örnekleri bulmak için OODSelect adlı bir algoritma geliştirdi. Temelde, dağılım içi verileri kullanarak (yani veriler ilk ortamdan geliyordu) binlerce model eğitti ve doğruluk oranlarını hesapladı. Ardından modelleri ikinci ortamdaki verilere uyguladı. İlk ortamdaki verilerde en yüksek doğruluğa sahip olanların, ikinci ortamdaki örneklerin büyük bir yüzdesine uygulandığında yanlış sonuç vermesi, sorunlu alt kümeleri veya alt popülasyonları belirledi. Salaudeen ayrıca, model performansıyla ilgili daha ayrıntılı ve sonuç doğurucu bilgileri gizleyebilen toplu istatistiklerin değerlendirme için tehlikelerini de vurguluyor.

Araştırmacılar, çalışmalarının seyrinde, bir veri kümesi içindeki yanıltıcı korelasyonları, sınıflandırılması zor olan durumlarla karıştırmamak için "en çok yanlış hesaplanan örnekleri" ayırdılar.

NeurIPS makalesi, araştırmacıların kodlarını ve gelecekteki çalışmalar için belirlenmiş bazı alt kümeleri yayınlıyor.

Bir hastane veya makine öğrenimi kullanan herhangi bir kuruluş, bir modelin düşük performans gösterdiği alt kümeleri belirledikten sonra, bu bilgiler modelin belirli görevi ve ortamı için iyileştirilmesinde kullanılabilir. Araştırmacılar, gelecekteki çalışmalarda değerlendirme hedeflerini vurgulamak ve performansı daha tutarlı bir şekilde iyileştirmeye yönelik tasarım yaklaşımları oluşturmak için OODSelect'in kullanılmasını önermektedir.

Araştırmacılar, "Yayınlanan kodun ve OODSelect alt kümelerinin, yanıltıcı korelasyonların olumsuz etkileriyle mücadele eden kıyaslama ölçütleri ve modeller için bir basamak taşı olmasını umuyoruz" diye yazıyorlar.

Diğer Haberler