Yapay zekâ ajanlarının büyük dil modellerinden en iyi sonuçları elde etmek için arama yapmalarına yardımcı olmak.

EnCompass, geri izleme ve birden fazla deneme yaparak yapay zeka ajan programlarını yürütür ve bir LLM tarafından üretilen en iyi çıktı kümesini bulur. Bu, kodlayıcıların yapay zeka ajanlarıyla daha verimli çalışmasına yardımcı olabilir.

İster araştırma fikirleri üzerinde beyin fırtınası yapan bir bilim insanı olun, ister insan kaynakları veya finans alanında bir görevi otomatikleştirmeyi uman bir CEO, yapay zeka araçlarının ihtiyaç duyduğunuzu bilmediğiniz yardımcılarınız haline geldiğini göreceksiniz. Özellikle birçok profesyonel, sorunları çözmek ve görevleri tamamlamak için belirli noktalarda yapay zekayı çağırabilen, yapay zeka ajanları adı verilen yarı otonom yazılım sistemlerinin yeteneklerinden yararlanıyor .

Yapay zekâ ajanları, büyük dil modelleri (LLM'ler) kullandıklarında özellikle etkilidirler çünkü bu sistemler güçlü, verimli ve uyarlanabilir özelliktedir. Bu tür bir teknolojiyi programlamanın bir yolu, sisteminizin ne yapmasını istediğinizi ("iş akışı") kodda tanımlamaktır; buna LLM'nin ne zaman kullanılması gerektiği de dahildir. Eski kod tabanınızı daha iyi optimizasyonlar ve güvenlik için daha modern bir programlama dili kullanacak şekilde yenilemeye çalışan bir yazılım şirketiyseniz, kod tabanını tek tek dosyalar halinde çevirmek ve her dosyayı test etmek için bir LLM kullanan bir sistem oluşturabilirsiniz.

Peki ya LLM'ler hata yaptığında ne olur? Ajanın önceki hatalardan öğrendiği dersleri de dahil ederek tekrar denemesi için geri dönmesini isteyeceksiniz. Bunu kodlamak, orijinal ajanı uygulamak kadar çaba gerektirebilir; eğer bir kod tabanını çevirmek için kullandığınız sistem binlerce satır kod içeriyorsa, LLM'ler hata yaptığında geri dönme mantığını desteklemek için binlerce satır kod değişikliği veya ekleme yapmanız gerekecektir.

Programcıların zaman ve emeklerinden tasarruf etmeleri için, MIT Bilgisayar Bilimleri ve Yapay Zeka Laboratuvarı (CSAIL) ve Asari AI'deki araştırmacılar "EnCompass" adlı bir çerçeve geliştirdiler.

EnCompass ile artık bu değişiklikleri kendiniz yapmanıza gerek yok. Bunun yerine, EnCompass programınızı çalıştırdığında, LLM'ler hata yaparsa otomatik olarak geri izleme yapar. EnCompass ayrıca, en iyi çözümü bulmak için paralel olarak birden fazla deneme yapmak üzere program çalışma zamanının kopyalarını da oluşturabilir. Genel olarak, EnCompass, tüm LLM çağrılarının farklı olası çıktıları sonucunda ajanınızın izleyebileceği farklı olası yolları arar ve LLM'nin en iyi çözümü bulduğu yolu bulmaya çalışır.

Sonrasında yapmanız gereken tek şey, program çalışma zamanını geri izlemek veya kopyalamak isteyebileceğiniz konumları işaretlemek ve aracınızın farklı olası yürütme yolları üzerinde arama yapmak için kullanılan stratejiye (arama stratejisi) yararlı olabilecek herhangi bir bilgiyi kaydetmektir. Ardından arama stratejisini ayrı olarak belirtebilirsiniz; EnCompass'ın hazır olarak sunduğu stratejilerden birini kullanabilir veya isterseniz kendi özel arama stratejinizi uygulayabilirsiniz.

MIT Elektrik Mühendisliği ve Bilgisayar Bilimleri (EECS) doktora öğrencisi, CSAIL araştırmacısı ve Asari AI'da araştırma danışmanı olan baş yazar Zhening Li '25, MEng '25, “EnCompass ile arama stratejisini yapay zeka ajanının temel iş akışından ayırdık” diyor. “Çerçevemiz, programcıların yapay zeka ajanının en iyi performansı göstermesini sağlayan stratejiyi bulmak için farklı arama stratejileriyle kolayca denemeler yapmalarını sağlıyor.”

EnCompass, LLM'leri çağıran Python programları olarak uygulanan ajanlar için kullanıldı ve belirgin kod tasarrufu sağladı. EnCompass, kod depolarını çeviren ve dijital şebekelerin dönüşüm kurallarını keşfeden bir ajan gibi ajanlarda arama işlemini uygulama kodlama çabasını %80'e kadar azalttı. Gelecekte EnCompass, ajanların büyük ölçekli görevlerin üstesinden gelmesini sağlayabilir; bunlar arasında büyük kod kütüphanelerini yönetmek, bilimsel deneyler tasarlamak ve yürütmek, roketler ve diğer donanımlar için planlar oluşturmak yer almaktadır.

Yeni alanlara yönelmek

Ajanınızı programlarken, sonuçların değişebileceği belirli işlemleri (örneğin, bir LLM'ye yapılan çağrılar gibi) işaretlersiniz. Bu açıklamalara "dallanma noktaları" denir. Ajan programınızın bir hikayenin tek bir olay örgüsünü oluşturduğunu hayal ederseniz, dallanma noktaları eklemek hikayeyi, olay örgüsünün birden fazla gelecekteki olay örgüsüne ayrıldığı yerlerin bulunduğu, kendi maceranızı seçebileceğiniz bir hikaye oyununa dönüştürür.

Ardından, EnCompass'ın hikaye oyununda en iyi sonuca ulaşmak için kullanacağı stratejiyi belirleyebilirsiniz. Bu, paralel yürütme iş parçacıkları başlatmayı veya çıkmaza girdiğinizde önceki bir dallanma noktasına geri dönmeyi içerebilir.

Kullanıcılar ayrıca EnCompass tarafından sunulan birkaç yaygın arama stratejisini kullanıma hazır olarak kullanabilir veya kendi özel stratejilerini tanımlayabilirler. Örneğin, keşif ve sömürmeyi dengeleyerek bir arama ağacı oluşturan Monte Carlo ağaç aramasını veya her adımdan en iyi birkaç çıktıyı saklayan ışın aramasını tercih edebilirsiniz. EnCompass, görevinizi başarıyla tamamlama olasılığını en üst düzeye çıkarmak için en iyi stratejiyi bulmak amacıyla farklı yaklaşımlarla deneme yapmayı kolaylaştırır.

EnCompass'ın kodlama verimliliği

Peki EnCompass, ajan programlarına arama özelliği eklemek için ne kadar kod verimliliği sağlıyor? Araştırmacıların bulgularına göre, çerçeve, programcıların ajan programlarına arama özelliği eklemek için ihtiyaç duydukları kod miktarını önemli ölçüde azaltarak, en iyi performansı gösteren stratejiyi bulmak için farklı stratejilerle denemeler yapmalarına yardımcı oluyor.

Örneğin, araştırmacılar EnCompass'ı, genellikle uygulama ve kurumsal yazılım programlamada kullanılan Java programlama dilinden Python'a kod deposunu çeviren bir ajana uyguladılar. EnCompass ile arama işlemini uygulamanın (esas olarak dallanma noktası açıklamaları ve her adımın ne kadar iyi performans gösterdiğini kaydeden açıklamalar eklemeyi içeriyor) elle uygulamaya kıyasla 348 satır daha az kod (yaklaşık %82) gerektirdiğini buldular. Ayrıca EnCompass'ın farklı arama stratejilerini kolayca denemelerini nasıl sağladığını da gösterdiler ve en iyi stratejinin iki seviyeli ışın arama algoritması olduğunu belirleyerek, arama yapmadan ajanın yaptığı LLM çağrılarının 16 katı arama bütçesiyle beş farklı depoda %15 ila %40 arasında doğruluk artışı elde ettiler.

MIT Elektrik Mühendisliği ve Bilgisayar Bilimleri Profesörü ve CSAIL baş araştırmacısı olan ortak yazar Armando Solar-Lezama, “LLM'ler günlük yazılımların ayrılmaz bir parçası haline geldikçe, güçlü yönlerinden yararlanan ve sınırlamalarının üstesinden gelen yazılımları verimli bir şekilde nasıl geliştireceğimizi anlamak daha da önem kazanıyor” diyor. “EnCompass bu yönde önemli bir adım.”

Araştırmacılar, EnCompass'ın, bir programın üst düzey iş akışının adımlarını belirlediği ajanları hedeflediğini; çerçevelerinin mevcut sürümünün, tamamen bir LLM tarafından kontrol edilen ajanlar için daha az uygulanabilir olduğunu ekliyor. Li, "Bu ajanlarda, adımları belirleyen bir programa sahip olmak ve ardından bu adımları gerçekleştirmek için bir LLM kullanmak yerine, LLM'nin kendisi her şeye karar veriyor," diyor. "Altta yatan programatik bir iş akışı yok, bu nedenle LLM'nin anında icat ettiği her şey üzerinde çıkarım zamanı araması yürütebilirsiniz. Bu durumda, bir programın arama ve geri izleme ile nasıl çalıştığını değiştiren EnCompass gibi bir araca daha az ihtiyaç duyuluyor."

Li ve meslektaşları, EnCompass'ı yapay zeka ajanları için daha genel arama çerçevelerine genişletmeyi planlıyorlar. Ayrıca, sistemlerini şirketler de dahil olmak üzere gerçek dünya kullanımları için iyileştirmek amacıyla daha karmaşık görevler üzerinde test etmeyi planlıyorlar. Dahası, EnCompass'ın ajanların donanım tasarımları üzerinde beyin fırtınası yapmak veya çok daha büyük kod kütüphanelerini çevirmek gibi görevlerde insanlarla birlikte çalışmasına ne kadar yardımcı olduğunu değerlendiriyorlar. Şimdilik EnCompass, insanların yapay zeka ajanlarıyla daha kolay etkileşim kurmasını ve performanslarını iyileştirmesini sağlayan güçlü bir yapı taşıdır.

Carnegie Mellon Üniversitesi'nden, araştırmaya dahil olmayan Profesör Yiming Yang, “EnCompass, yapay zeka destekli ajanlar ve arama tabanlı tekniklerin yazılım mühendisliğindeki iş akışlarını yeniden şekillendirmeye başladığı bir dönemde ortaya çıkıyor” diyor. “Bir ajanın programlama mantığını çıkarım zamanındaki arama stratejisinden net bir şekilde ayırarak, çerçeve, yapılandırılmış aramanın kod üretimi, çevirisi ve analizini nasıl geliştirebileceğini keşfetmek için ilkeli bir yol sunuyor. Bu soyutlama, yazılım geliştirmeye yönelik daha sistematik ve güvenilir arama odaklı yaklaşımlar için sağlam bir temel sağlıyor.”

Li ve Solar-Lezama, makaleyi Asari AI'dan iki araştırmacıyla birlikte yazdılar: Şirketin danışmanı olan Caltech Profesörü Yisong Yue ve kurucu ve CEO olan kıdemli yazar Stephan Zheng. Çalışmaları Asari AI tarafından desteklendi.

Ekibin çalışması Aralık ayında Sinirsel Bilgi İşleme Sistemleri Konferansı'nda (NeurIPS) sunuldu.

Diğer Haberler