"Whac-a-mole ikilemini çözmek: AI görsel modellerini tarafsızlaştırmanın daha akıllı bir yolu"

Günümüzdeki hastanelerde ve kliniklerde, bir dermatolog, deri lezyonlarını sınıflandırmak için bir yapay zeka modelinden yararlanarak lezyonun kanser gelişme riski taşıyıp taşımadığını veya iyi huylu olup olmadığını değerlendirebilir. Ancak model belirli cilt tonlarına karşı önyargılıysa, yüksek riskli bir hastayı tanımlamada başarısız olabilir.

Yapay zeka araştırmalarının sürekli olarak başa çıkmaya çalıştığı en iyi bilinen ve en kalıcı zorluklardan biri önyargıdır. Önyargı genellikle eğitim verileri ile ilgili olarak tartışılır, ancak model mimarisi de önyargı içerebilir ve bunu artırabilir, bu da modelin gerçek dünya ortamlarındaki performansını olumsuz etkileyebilir. Yüksek riskli tıbbi senaryolarda, kötü performansın çok gerçek sonuçları, önyargıyı temel bir güvenlik meselesi haline getirmiştir.

MIT, Worcester Politeknik Enstitüsü ve Google'dan araştırmacıların 2026 Uluslararası Temsili Öğrenme Konferansı'na kabul edilen yeni bir makalesi, OpenAI'nin OpenCLIP'i gibi görsel dil modellerine (VLM'ler) uygulanabilecek “Ağırlıklı Dönüşsel Önyargı Giderme” (yani, WRING) adlı yeni bir önyargı giderme yaklaşımını önermektedir.

VLM'ler, video, görüntü ve metin gibi farklı veri modlarını aynı anda anlayabilen çok modlu modellere sahiptir. VLM'ler için önyargı giderme yaklaşımları mevcut olsa da, en yaygın kullanılan yaklaşım “projeksiyon önyargı giderme” olarak bilinir ve bu, 2023'te yapay zeka araştırmalarına resmi olarak tanıtılan “Whac-A-Mole ikilemi” olarak adlandırılan bir ampirik gözlemle sonuçlanır.

Projeksiyon önyargı giderme, model gömme katmanlarından istenmeyen, önyargılı bilgileri “projeksiyon” yöntemiyle bir ilişki uzayından çıkararak önyargıyı ortadan kaldıran bir son işlem yaklaşımıdır. Ancak bu yaklaşımın dezavantajları vardır.

“Bunu yaptığınızda, istemeden etrafındaki her şeyi sıkıştırıyorsunuz,” diyor bu makalenin ilk yazarı Walter Gerych, geçen yıl MIT'de doktora sonrası araştırmacı olarak bu araştırmayı gerçekleştirdi. “Modelin öğrendiği diğer tüm ilişkiler, bunu yaptığınızda değişiyor.”

Gerych, şu anda Worcester Politeknik Enstitüsü'nde bilgisayar bilimi yardımcı doçenti olarak görev yapmaktadır ve makalede MIT lisansüstü öğrencileri Cassandra Parent ve Quinn Perian; Google'dan Rafiya Javed; ve MIT elektrik mühendisliği doçentleri Justin Solomon ve Marzyeh Ghassemi ile birlikte yer almaktadır. Ghassemi, Abdul Latif Jameel Makine Öğrenimi ve Sağlık Kliniği ve Bilgi ve Karar Sistemleri Laboratuvarı'nın bir üyesidir.

Projeksiyon önyargı giderme, modelin çıkarılan önyargıya dayanarak hareket etmesini engeller, ancak diğer önyargıları artırabilir ve yaratabilir; bu da Whac-A-Mole ikilemidir. Ghassemi'ye göre, model önyargılarının istenmeyen şekilde artması “hem teknik hem de pratik bir zorluktur. Örneğin, klinik personelin görüntülerini elde eden bir VLM'yi önyargıdan arındırırken — eğer ırksal önyargı kaldırılırsa — bu, cinsiyet önyargısını artırma gibi istenmeyen bir sonuca yol açabilir.”

WRING, bir modelin yüksek boyutlu uzayında önyargıdan sorumlu olduğu görünen belirli koordinatları farklı bir açıya hareket ettirerek çalışır, böylece model belirli bir kavram içindeki farklı grupları ayırt edemez hale gelir. Bu, belirli bir alandaki temsili değiştirirken, modelin diğer ilişkilerini sağlam tutar. Ve projeksiyon önyargı giderme gibi, WRING de bir son işlem yaklaşımıdır, bu da önceden eğitilmiş bir VLM'ye “anlık” olarak uygulanabileceği anlamına gelir.

“İnsanlar zaten bu büyük modelleri eğitmek için çok fazla kaynak ve para harcadı ve eğitim sırasında bir şeyi değiştirmek istemiyoruz çünkü o zaman sıfırdan başlamak zorunda kalıyorsunuz,” diye açıklıyor Gerych. “[WRING] çok verimli. Modelin daha fazla eğitilmesini gerektirmiyor ve