Merkeziyetsiz Eğitim, Yapay Zeka'nın Enerji Sorunlarını Çözmeye Yardımcı Olabilir

Merkeziyetsiz Eğitim, Yapay Zeka'nın Enerji Sorunlarını Çözmeye Yardımcı Olabilir
Yapay zeka, muazzam bir enerji talebine sahiptir. Bu sürekli açlık, yapay zeka patlamasının arkasındaki veri merkezlerinin büyük karbon ayak izinde ve sınır AI modellerinin eğitimi sırasında karbon emisyonlarının zamanla sürekli artışında belirgindir. Bu nedenle büyük teknoloji şirketlerinin nükleer enerjiye yönelmesi ve güvenilir, karbon salınımı olmayan kaynaklarla beslenen bir gelecek hayal etmesi şaşırtıcı değildir. Ancak nükleer enerjili veri merkezleri hala yıllar uzakta olabilirken, araştırma ve sanayi alanındaki bazı kişiler, AI'nın artan enerji taleplerini azaltmak için şu anda harekete geçiyor. Eğitim, bir modelin yaşam döngüsündeki en enerji yoğun aşamalardan biri olarak ele alınıyor ve çabalarını merkeziyetsizleşmeye odaklıyorlar. Merkeziyetsizlik, model eğitimini bağımsız düğümler ağı üzerinden dağıtarak tek bir platform veya sağlayıcıya bağımlı olmaktan kurtarır. Bu, hesaplamanın enerji kaynaklarının bulunduğu yere gitmesini sağlar; bu, bir araştırma laboratuvarında bekleyen bir sunucu veya güneş enerjisiyle çalışan bir evdeki bir bilgisayar olabilir. Altyapı ve kapasiteyi artırmak için elektrik şebekelerine ihtiyaç duyan daha fazla veri merkezi inşa etmek yerine, merkeziyetsizlik mevcut kaynaklardan enerji kullanarak daha fazla gücü karışıma eklemekten kaçınır. Donanım uyumu AI modellerini eğitmek, sıkı bir şekilde bağlı GPU kümeleri arasında senkronize olan büyük bir veri merkezi sporudur. Ancak donanım iyileştirmeleri, büyük dil modellerinin hızla artan boyutuna ayak uydurmakta zorlanırken, devasa tek veri merkezleri artık yeterli olmuyor. Teknoloji firmaları, konumları ne olursa olsun, birden fazla veri merkezinin bir araya getirilmiş gücüne yöneliyor. Örneğin, Nvidia, "coğrafi olarak ayrılmış veri merkezleri arasında büyük ölçekli tek iş AI eğitimi ve çıkarımı için gereken performansı sağlayabilen" Spectrum-XGS Ethernet'i piyasaya sürdü. Benzer şekilde, Cisco, "coğrafi olarak dağılmış AI kümelerini bağlamak" için tasarlanmış 8223 yönlendiricisini tanıttı. Diğer şirketler, sunuculardaki kullanılmayan hesaplama gücünü değerlendiriyor ve GPU-as-a-Service iş modelinin ortaya çıkmasına neden oluyor. Akash Network, kendisini "veri merkezleri için Airbnb" olarak tanıtan bir eşler arası bulut bilişim pazarıdır. Ofislerde ve daha küçük veri merkezlerinde kullanılmayan veya az kullanılan GPU'lara sahip olanlar sağlayıcı olarak kaydolurken, hesaplama gücüne ihtiyaç duyanlar, sağlayıcılar arasında seçim yapabilen ve GPU'larını kiralayabilen kiracılar olarak kabul edilir. Yazılım senkronizasyonu Donanımı düzenlemenin yanı sıra, merkeziyetsiz AI eğitimi, yazılım tarafında da algoritmik değişiklikler gerektirir. İşte burada, dağıtık makine öğreniminin bir biçimi olan federated learning devreye girer. Bu, güvenilir bir varlık, örneğin merkezi bir sunucu tarafından barındırılan bir küresel AI modelinin ilk versiyonu ile başlar. Sunucu, modeli katılımcı kuruluşlara dağıtır; bu kuruluşlar, kendi verileri üzerinde yerel olarak eğitir ve yalnızca model ağırlıklarını güvenilir varlıkla paylaşır. Güvenilir varlık daha sonra ağırlıkları toplar, genellikle bunları ortalama alarak, küresel modele entegre eder ve güncellenmiş modeli katılımcılara geri gönderir. Bu işbirlikçi eğitim döngüsü, model tamamen eğitilmiş olarak kabul edilene kadar tekrar eder. Ancak hem verilerin hem de hesaplamanın dağıtılmasının dezavantajları vardır. Örneğin, model ağırlıklarının sürekli gidip gelmesi yüksek iletişim maliyetlerine yol açar. Hata toleransı başka bir sorundur. AI geliştirme platformu Prime Intellect, beş kıtada yayılan 10 milyar parametreli INTELLECT-1 modelinin önemli bir bileşeni olarak DiLoCo algoritmasının bir varyantını uyguladı. 0G Labs, merkeziyetsiz bir AI işletim sistemi üreticisi, sınırlı bant genişliği ile ayrılmış kümeler ağı altında 107 milyar parametreli bir temel modeli eğitmek için DiLoCo'yu uyarladı. Bu arada, popüler açık kaynaklı derin öğrenme çerçevesi PyTorch, DiLoCo'yu hata toleransı teknikleri deposuna dahil etti. Daha enerji verimli bir AI eğitimi Donanım ve yazılım iyileştirmeleri ile merkeziyetsiz AI eğitimi, AI'nın enerji sorununu çözmek için hazır durumda. Bu yaklaşım, modelleri "daha ucuz, daha kaynak verimli, daha enerji verimli bir şekilde" eğitme seçeneği sunuyor. Ve Douillard, "DiLoCo gibi eğitim yöntemlerinin tartışmasız daha karmaşık olduğunu kabul etse de, sistem verimliliği açısından ilginç bir denge sağlıyor" diyor. Örneğin, artık çok hızlı bant genişliği inşa etmeden, uzak konumlardaki veri merkezlerini kullanabilirsiniz. Dou