Phi-4-akıl yürütme-görüşü ve çok modlu akıl yürütme modelinin eğitiminin dersleri

Phi-4-akıl yürütme-görüşü ve çok modlu akıl yürütme modelinin eğitiminin dersleri
Phi-4-reasoning-vision-15B'yi duyurmaktan mutluluk duyuyoruz; bu, Microsoft Foundry (yeni sekmede açılır), HuggingFace (yeni sekmede açılır) ve GitHub (yeni sekmede açılır) üzerinden erişilebilen 15 milyar parametreli açık ağırlıklı çok modlu akıl yürütme modelidir. Phi-4-reasoning-vision-15B, görüntü başlıklandırma gibi geniş bir yelpazede görsel-dil görevleri için kullanılabilen çok yönlü bir modeldir. […] Bu yazı, Phi-4-reasoning-vision ve çok modlu bir akıl yürütme modelinin eğitimi ile ilgili dersler Microsoft Research'te ilk olarak yayınlandı.
Mavi-yeşil gradyan arka planda beyaz çizgi simgeleri bir mimarlık akış diyagramı oluşturuyor. Diyagramın ortasında yuvarlak köşeli bir kare içinde daireler ve çizgilerden oluşan üçe üç bir matris var. Matrisin üzerinde, bir denklem, masaüstü kullanan bir kişi ve dişlilerle bir kafa simgesi olmak üzere üç simge dizilmiş. Matrisin solunda, matrise işaret eden bir okla bir dosya yığını simgesi var. Matrisin sağında, matrise ve kendisine işaret eden çift yönlü bir okla bir grafik var. Matrisin altında bir belgeyi temsil eden bir simge var. Bu grafiği matrise bağlayan kesik çizgi ok, yönün matristen belgeye doğru aktığını gösteriyor. Belge simgesinin sağında bir kum saati simgesi ve kum saatini listelere bağlayan kesik çizgiyle üç liste simgesi var.

Kısaca

  • Phi-4-reasoning-vision-15B, akıl yürütme gücü, verimlilik ve eğitim verisi ihtiyaçlarını dengeleyen kompakt ve akıllı bir açık ağırlıklı çok modlu akıl yürütme modelidir. Görsel-dil görevleri için doğal etkileşim sağlayan geniş yeteneklere sahip bir modeldir ve matematik ve bilim akıl yürütme ile kullanıcı arayüzlerini anlama konusunda mükemmel bir performans sergiler.
  • Bir çok ders ve en iyi uygulamayı paylaşıyoruz, çok modlu bir akıl yürütme modelinin eğitimi için - dikkatli mimari seçimlerinin, titiz veri derlemesinin ve akıl yürütme ve akıl yürütme olmayan verilerin karışımını kullanmanın faydalarını gösteriyoruz.

15 milyar parametreli açık ağırlıklı çok modlu akıl yürütme modeli Phi-4-reasoning-vision-15B'yi duyurmaktan memnuniyet duyuyoruz. Bu model Microsoft Foundry (yeni sekmede açılır), HuggingFace (yeni sekmede açılır) ve GitHub (yeni sekmede açılır) aracılığıyla mevcuttur. Phi-4-reasoning-vision-15B, görüntü başlıklandırma, görüntüler hakkında sorular sorma, belgeleri ve fişleri okuma, ödevlere yardımcı olma, görüntü dizilerindeki değişiklikleri çıkarım yapma gibi geniş bir yelpazede görsel-dil görevleri için kullanılabilen geniş yeteneklere sahip bir modeldir. Bu genel yeteneklerin ötesinde, matematik ve bilim akıl yürütme ile bilgisayar ve mobil ekranlardaki öğeleri anlama ve temellendirme konularında mükemmel bir performans sergiler. Özellikle, modelimiz popüler açık ağırlıklı modellere göre cazip bir değer sunmakta, doğruluk ve hesaplama maliyetleri arasındaki dengeyi zorlamaktadır. Daha yavaş modellere kıyasla rekabetçi bir performans sergilemekte ve benzer hızda olan modellere göre daha iyi doğruluk sunmaktadır, özellikle