Dokunsal algılamanın model performansını nasıl artırdığı

Dokunsal algılamanın model performansını nasıl artırdığı
Görsel-dil-eylem modelleri, robotik manipülasyonda mevcut en ileri düzeydir. Yine de bir patates cipsini ezmeden almakta başarısızlar. Bu, Video Taktik Eylem Modeli (VTAM) ekibi tarafından bu yılın başlarında yayımlanan bir sonuç. Patates cipsi alma ve yerleştirme görevinde — yüksek hassasiyetli kuvvet farkındalığı gerektiren, görmenin yalnızca ezici bir kavrayışı tutmaktan ayırt edemediği bir görev — VTAM, π0.5 temelini %80 oranında geride bıraktı. Daha geniş temas zenginliği benchmark setinde, VTAM %90 ortalama başarı oranı elde etti.¹ Cips, düşmanca bir örnektir ve bu nedenle doğru bir testtir. Kavrama anında, yalnızca temas dinamikleri faydalı sinyaller taşır. Basınç, titreşim ve kuvvet/torque, politikaya ne olduğunu bildirir, görsel tahmin hatalarını düzeltir; görsel modellerin kendi başlarına tespit edemediği hatalar. Ancak, ne kadar yüksek çözünürlüklü olursa olsun bir kamera bu işi yapamaz.

Görsel-dil-eylem modelleri, robotik manipülasyonda mevcut en ileri teknoloji durumundadır. Yine de bir cipsi ezmeden almakta başarısızlar.

Bu yılın başlarında, Video Tactile Action Model (VTAM) ekibi tarafından yayımlanan sonuç budur. Bir cipsi alma ve yerleştirme görevinde — yüksek hassasiyetli kuvvet farkındalığı gerektiren, görselin tek başına ezici bir kavramayı tutmaktan ayırt edemediği bir görev — VTAM, π0.5 temelini %80 oranında geride bıraktı. Daha geniş temas zenginliği benchmark setinde, VTAM %90 ortalama başarı oranına sahipti.¹

Cips, karşıt bir örnektir ve bu nedenle doğru testtir. Kavrama noktasında, yalnızca temas dinamikleri faydalı sinyaller taşır. Basınç, titreşim ve kuvvet/torque, politikanın ne olduğunu anlamasını sağlar ve görsel tahmin hatalarını düzeltir; görsel modeller bunu kendi başlarına tespit edemez. Ancak, ne kadar yüksek çözünürlüklü olursa olsun bir kamera bu işi yapamaz.

Taktik, tak-çalıştır değildir

Taktik sensörler, model performansını kendi başlarına artırmaz. Günümüzdeki çoğu öğrenme süreci, en büyük veri setlerine ve en olgun mimarilere sahip olan görsel ve dil etrafında inşa edilmiştir. Taktik sinyaller, kasıtlı bir tasarım olmadan görsel öncelikli bir sürece eklendiğinde, genellikle ağırlıkları azaltılır, bastırılır veya eğitim sırasında kaybolur. VTAM, mimarinin modeli görsel ve taktik dinamikleri bir arada tahmin etmeye zorlaması nedeniyle çalışır; böylece taktik sinyal, öğrenilen politikayı doğrudan şekillendirir, görsel ve dilin içine emilmek yerine. Taktik veriler, akıllıca entegre edildiğinde yalnızca değerini sunar.

Desen artık literatürde tutarlı

Cips, spektrumun bir ucudur; görselin tamamen başarısız olduğu ve taktiğin sinyali tek başına taşıdığı bir durumdur. Çoğu gerçek dünya görevi, bu spektrumda daha ileri bir noktada yer alır; burada görsel ve taktik her biri katkıda bulunur ve aralarındaki sinerji, eğitim verimliliğini artırır. Desen artık literatürde tutarlıdır.

VTAM yalnız değildir. ManiSkill-ViTac 2025 benchmark'ı, yerleştirme, alet kullanımı ve hassas montaj görevleri boyunca taktik artırılmış değerlendirmeyi resmileştirir. Taktik sensör konfigürasyonları ve kavrama öğrenme verimliliği² üzerine bağımsız araştırmalar aynı artışı göstermektedir. Görsel ile taktik geri bildirimini birleştiren politikalar, temas zenginliği görevlerinde sürekli olarak yalnızca görsel olan eşdeğerlerini geride bırakmakta ve daha az gösterimle aynı başarı eşiğine ulaşma eğilimindedir.

Başarısızlık tespiti ikinci ödüldür

Taktik koşullu bir politika, nesne gerçekten hareket etmeden önce, kayma başlangıcını titreşim imzası olarak ondan onlarca ila yüzlerce milisaniye önce kaydeder. Bu pencere, yeniden kavrama ile tam bir yeniden başlatma arasındaki farktır — aynı hat üzerindeki %95 ile %99 çalışma süresi arasındaki farktır. Bir filoda, operasyonel durum göz ardı edilemeyecek hale gelir.

Başarısızlık tespiti, daha büyük bir yeteneğin bir örneğidir: kavrama sırasında gerçekten ne olduğuna dair doğru, yüksek çözünürlüklü etiketler üretmek. İkili bir başarı/başarısızlık etiketi, eğitim sürecinin kullanabileceği bilgileri çökertebilir. Kavrama temiz bir şekilde mi başarılı oldu, yoksa kontrol cihazının toparlandığı iç kayma ile mi başarılı oldu? Nesne kararlı bir şekilde mi yerleşti, yoksa taşınma sırasında mı kaydı? Taktik algılama bu durumları ayırt edebilir ve gömülü temas algısı bunları cihazda etiketleyebilir, her bölümü yalnızca başarısız olanlar değil, daha bilgilendirici bir eğitim örneğine dönüştürür.