Daha İyi Donanım, Sıfırları AI Kahramanlarına Dönüştürebilir

Daha İyi Donanım, Sıfırları AI Kahramanlarına Dönüştürebilir
AI modelleri söz konusu olduğunda, boyut önemlidir. Bazı yapay zeka uzmanları, büyük dil modellerinin (LLM'ler) ölçeklenmesinin azalan performans getirileriyle karşılaştığını uyarırken, şirketler hala her geçen gün daha büyük yapay zeka araçları geliştirmeye devam ediyor. Meta’nın en son Llama sürümü, modeli tanımlayan 2 trilyon parametreye sahip. Modellerin boyutu arttıkça, yetenekleri de artıyor. Ancak enerji talepleri ve modellerin çalıştırılması için gereken süre de artıyor, bu da karbon ayak izlerini büyütüyor. Bu sorunları hafifletmek için insanlar daha küçük, daha az yetenekli modellere ve mümkün olduğunca düşük hassasiyetli sayılar kullanmaya yöneliyor. Ancak, büyük bir modelin yüksek performansını korurken enerji ayak izini azaltmanın başka bir yolu var. Bu yaklaşım, büyük yapay zeka modellerinin içindeki sıfırlarla dost olmayı içeriyor. Birçok modelde, parametrelerin çoğu - ağırlıklar ve aktivasyonlar - aslında sıfırdır ya da sıfıra o kadar yakındır ki, doğruluğu kaybetmeden sıfır olarak kabul edilebilir. Bu özellik, seyreklik olarak bilinir. Seyreklik, hesaplama tasarrufu için önemli bir fırsat sunar: Sıfırları toplamak veya çarpmak için zaman ve enerji harcamak yerine, bu hesaplamalar atlanabilir; bellekte birçok sıfır depolamak yerine, yalnızca sıfır olmayan parametreler depolanabilir. Ne yazık ki, günümüzün popüler donanımları, çok çekirdekli CPU'lar ve GPU'lar, seyrekliği tam anlamıyla avantaja çeviremez. Seyrekliği tam olarak kullanabilmek için, araştırmacılar ve mühendisler, donanım, düşük seviyeli yazılım ve uygulama yazılımı dahil olmak üzere tasarım yığınlarının her bir parçasını yeniden düşünmeli ve yeniden yapılandırmalıdır. Stanford Üniversitesi'ndeki araştırma grubumuz, tüm türde seyrek ve geleneksel iş yüklerini verimli bir şekilde hesaplayabilen ilk (bildiğimiz kadarıyla) donanım parçasını geliştirdi. Enerji tasarrufları iş yüklerine göre geniş bir varyasyon gösterdi, ancak ortalama olarak çipimiz bir CPU'nun enerji tüketiminin yetmişte biri kadar enerji tüketti ve hesaplamayı ortalama sekiz kat daha hızlı gerçekleştirdi. Bunu başarmak için, donanımı, düşük seviyeli yazılımı ve yazılımı sıfırdan inşa etmemiz gerekti. Bunun, daha enerji verimli yapay zeka için donanım ve model geliştirmelerinin sadece başlangıcı olmasını umuyoruz. Seyreklik nedir? Sinir ağları ve onlara beslenen veriler, sayı dizileri olarak temsil edilir. Bu diziler bir boyutlu (vektörler), iki boyutlu (matrisler) veya daha fazlası (tensörler) olabilir. Seyrek bir vektör, matris veya tensör çoğunlukla sıfır elemanlara sahiptir. Seyreklik seviyesi değişir, ancak sıfırlar herhangi bir tür dizinin yüzde 50'sinden fazlasını oluşturduğunda, seyrekliğe özgü hesaplama yöntemlerinden faydalanabilir. Buna karşılık, seyrek olmayan bir nesne - yani toplam eleman sayısına kıyasla az sayıda sıfıra sahip olan - yoğun olarak adlandırılır. Seyreklik doğal olarak mevcut olabilir veya indüklenebilir. Örneğin, bir sosyal ağ grafiği doğal olarak seyrektir. Her bir düğümün (nokta) bir kişiyi temsil ettiği ve her bir kenarın (noktaları bağlayan bir çizgi) bir arkadaşlığı temsil ettiği bir grafiği hayal edin. Çoğu insanın birbirleriyle arkadaş olmadığını düşünürsek, tüm olası kenarları temsil eden bir matris çoğunlukla sıfırlardan oluşacaktır. Diğer popüler yapay zeka uygulamaları, diğer grafik öğrenme biçimleri ve öneri modelleri de doğal olarak meydana gelen seyrekliği içerir. Doğal olarak meydana gelen seyrekliğin ötesinde, seyreklik bir yapay zeka modelinde birkaç şekilde indüklenebilir. İki yıl önce, Cerebras'tan bir ekip, bir LLM'deki parametrelerin yüzde 70 ila 80'inin sıfıra ayarlanabileceğini ve bu durumda doğruluğun kaybedilmeyeceğini gösterdi. Cerebras, bu sonuçları özellikle Meta'nın açık kaynak Llama 7B modelinde gösterdi, ancak bu fikirler ChatGPT ve Claude gibi diğer LLM modellerine de uzanıyor. Seyreklik lehine argüman Seyrek hesaplamanın verimliliği, iki temel özellikten kaynaklanır: sıfırları sıkıştırma yeteneği ve sıfırların uygun matematiksel özellikleri. Seyrek hesaplamada kullanılan algoritmalar ve bunlara ayrılan donanım, bu iki temel fikri kullanır. Öncelikle, seyrek veriler sıkıştırılabilir, bu da "seyrek" olarak depolamak için daha bellek verimli hale getirir - yani, seyrek veri türü denilen bir şeyde. Sıkıştırma ayrıca, büyük miktarlarda veri ile çalışırken verilerin taşınmasını daha enerji verimli hale getirir. Bu en iyi bir örnekle anlaş