MIT araştırmacıları tarafından geliştirilen yeni bir yöntem, gizliliği koruyan yapay zeka eğitim yöntemini yaklaşık %81 oranında hızlandırabilir. Bu ilerleme, kullanıcı verilerini güvenli tutarken, sensörler ve akıllı saatler gibi kaynak kısıtlı kenar cihazlarının daha doğru yapay zeka modelleri dağıtmasını mümkün kılabilir.
MIT araştırmacıları, bağlı cihazların birlikte çalışarak paylaşılan bir yapay zeka modelini eğittiği federated learning (federatif öğrenme) adı verilen bir tekniğin verimliliğini artırdı.
Federatif öğrenmede, model merkezi bir sunucudan kablosuz cihazlara iletilir. Her cihaz, yerel verilerini kullanarak modeli eğitir ve ardından model güncellemelerini sunucuya geri aktarır. Veriler, her cihazda kaldığı için güvenli bir şekilde saklanır.
Ancak ağdaki tüm cihazlar, modeli zamanında saklamak, eğitmek ve sunucu ile karşılıklı olarak aktarmak için yeterli kapasiteye, hesaplama yeteneğine ve bağlantıya sahip değildir. Bu durum, eğitim performansını kötüleştiren gecikmelere neden olur.
MIT araştırmacıları, bu bellek kısıtlamalarını ve iletişim darboğazlarını aşmak için bir teknik geliştirdi. Yöntemleri, çeşitli sınırlamalara sahip kablosuz cihazların heterojen bir ağını yönetmek için tasarlandı.
Bu yeni yaklaşım, yapay zeka modellerinin sağlık hizmetleri ve finans gibi sıkı güvenlik ve gizlilik standartlarına sahip yüksek riskli uygulamalarda kullanılmasını daha uygulanabilir hale getirebilir.
“Bu çalışma, bu tür güçlü modellerin şu anda çalıştırılamadığı küçük cihazlara yapay zekayı getirmekle ilgilidir. Bu cihazları günlük yaşamımızda yanımızda taşıyoruz. Yapay zekanın bu cihazlarda çalışabilmesi gerekiyor, sadece dev sunucularda ve GPU'larda değil, bu çalışma bunun sağlanması için önemli bir adım,” diyor elektrik mühendisliği ve bilgisayar bilimi (EECS) yüksek lisans öğrencisi ve bu tekniğin makalesinin baş yazarı Irene Tenison.
Ortak yazarları arasında, Lincoln Laboratuvarı'nda makine öğrenimi mühendisi olan Anna Murphy ’25; İsviçre'deki Ecole Polytechnique Fédérale de Lausanne (EPFL) üniversitesinden misafir öğrenci ve Flower Labs'ta makine öğrenimi mühendisi olan Charles Beauville; ve MIT'deki Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL) baş araştırmacısı Lalana Kagal yer alıyor. Araştırma, IEEE Uluslararası Sinir Ağları Konferansı'nda sunulacak.
Gecikme süresini azaltma
Pek çok federatif öğrenme yaklaşımı, ağdaki tüm cihazların tam yapay zeka modelini eğitmek için yeterli belleğe ve güncellemeleri hızlı bir şekilde sunucuya iletmek için stabil bir bağlantıya sahip olduğunu varsayar.
Ancak bu varsayımlar, akıllı saatler, kablosuz sensörler ve cep telefonları gibi heterojen cihazlardan oluşan bir ağda yetersiz kalır. Bu kenar cihazları sınırlı bellek ve hesaplama gücüne sahiptir ve genellikle kesintili ağ bağlantısıyla karşılaşır.
Merkezi sunucu genellikle tüm cihazlardan model güncellemelerini almak için bekler, ardından eğitim turunu tamamlamak için bunları ortalama alır. Bu süreç, eğitim tamamlanana kadar tekrar eder.
“Bu gecikme süresi, eğitim sürecini yavaşlatabilir veya hatta başarısız olmasına neden olabilir,” diyor Tenison.
Bu sınırlamaları aşmak için MIT araştırmacıları, her mobil cihazın ihtiyaç duyduğu bellek ve iletişim yükünü azaltan FTTE (Federated Tiny Training Engine) adı verilen yeni bir çerçeve geliştirdi.
Bu çerçeve, üç ana yenilik içermektedir.
İlk olarak, tüm modeli tüm cihazlara iletmek yerine, FTTE daha küçük bir model parametreleri alt kümesini gönderir ve bu da her cihaz için bellek gereksinimini azaltır. Parametreler, modelin eğitim sırasında ayarladığı iç değişkenlerdir.
FTTE, belirli bir bellek bütçesi içinde kalırken modelin doğruluğunu maksimize edecek parametreleri tanımlamak için özel bir arama prosedürü kullanır. Bu sınır, en az bellek kapasitesine sahip cihaza göre belirlenir.
İkincisi, sunucu modeli asenkron bir yaklaşım kullanarak günceller. Tüm cihazlardan yanıt beklemek yerine, sunucu gelen güncellemeleri sabit bir kapasiteye ulaşana kadar biriktirir ve ardından eğitim turuna devam eder.
Üçüncüsü, sunucu her cihazdan gelen güncellemeleri aldığı zamana göre ağırlıklandırır. Bu şekilde, daha eski güncellemeler eğitim sürecine daha az katkıda bulunur. Bu eski veriler, modeli geri çekebilir,








