
Dokunsal algılamanın model performansını nasıl artırdığı
Görsel-dil-eylem modelleri, robotik manipülasyonda mevcut en ileri düzeydir. Yine de bir patates cipsini ezmeden almakta başarısızlar. Bu, Video Taktik Eylem Modeli (VTAM) ekibi tarafından bu yılın başlarında yayımlanan bir sonuç. Patates cipsi alma ve yerleştirme görevinde — yüksek hassasiyetli kuvvet farkındalığı gerektiren, görmenin yalnızca ezici bir kavrayışı tutmaktan ayırt edemediği bir görev — VTAM, π0.5 temelini %80 oranında geride bıraktı. Daha geniş temas zenginliği benchmark setinde, VTAM %90 ortalama başarı oranı elde etti.¹ Cips, düşmanca bir örnektir ve bu nedenle doğru bir testtir. Kavrama anında, yalnızca temas dinamikleri faydalı sinyaller taşır. Basınç, titreşim ve kuvvet/torque, politikaya ne olduğunu bildirir, görsel tahmin hatalarını düzeltir; görsel modellerin kendi başlarına tespit edemediği hatalar. Ancak, ne kadar yüksek çözünürlüklü olursa olsun bir kamera bu işi yapamaz.













.jpg)

