Sadece görsel manipülasyon bir duvara çarpıyor

2016 yılında, o dönemde robotiklerin gittiği yöne karşı bir şey söyledim: görme tek başına kavrama için işe yaramaz.

“Geliştirilmesi gerekiyor” değil. “Teknoloji henüz orada değil” değil. Problemin içine uymuyor.

Kavrama fiziksel bir eylemdir. Temas, kuvvet, sürtünme. Görme yaklaşımı yönlendirebilir. Sonrasında ne olduğunu hissedemez.

O zamanlar bunu laboratuvarda gördük. Dokunsal titreşim verileri, kavrama hatasını %83 doğrulukla tahmin etti ve kaymayı %92 oranında tespit etti. Erken sonuçlar, ama yeterince net. Önemli sinyaller görüntülerde görünmüyor.

On yıl sonra, alanın geri kalanı aynı sınıra çarpıyor.

Görme sizi yaklaştırır

Görme hâlâ önemlidir. Tespit, konumlandırma ve planlama ile ilgilenir. Robotu doğru yere, doğru şekilde hizalar.

Bunu iyi yapar, ama kavrama nesneye ulaştığında manipülasyon durmaz.

İşte burada işler bozulur.

Temas anında olanlar görünmez

Temas öncesinde, robot görüntülere dayanarak çalışır.

Temas sonrası, kuvvetlerle başa çıkmak zorundadır.

Kötü bir kavrama, görsel bir değişimle başlamaz. Kuvvetteki bir kayma olarak ortaya çıkar. Kayma, parmak uçlarında başlar, bir şeyin hareket etmesi için yeterince görsel değişim olmadan. Aşırı baskı, nesne deforme olmadan önce bile bileklerde görünür.

Bir kamera bir problemi tespit ettiğinde, o zaten gerçekleşmektedir.

Görme sonuçları görür. Temas algılama, etkileşimi gerçekleştiği anda ölçer.

Ve faydalı veriler tam da orada, temas anında yaşar.

Kanıtlar zaten mevcut

Bu artık bir teori değil.

Dokunsal odaklı politikalar, kuvvet içeren görevlerde yalnızca görme odaklı olanları geride bırakıyor. ManiSkill-ViTac gibi kıyaslamalar, görme ile dokunsal girişi birleştirdiğinizde daha iyi performans gösteriyor, özellikle yerleştirme ve montajda. π0, OpenVLA ve Octo gibi modeller, birden fazla sensörden senkronize girişlere dayanıyor. Kuvvet veya dokunsal veriyi kaldırırsanız, performans düşer.

Hiç kimse görmeyi değiştirmiyor. Eksik olanı ekliyorlar.

Bugünün en güçlü sistemleri, görme, propriosepsiyon, kuvvet ve dokunuşu tek bir modelde birleştiriyor.

Bu, performansı artıran şeydir.

Görme, yapabileceği çoğu şeyi zaten verdi

Görme hâlâ sistemin büyük bir kısmını taşır. Ama zor kısmı çözmez.

Fiziksel AI, daha fazla veri ile gelişir, ama tüm veriler aynı şekilde önemli değildir. Kuvvet ve dokunsal sinyaller, bir sistemin gerçek temasla nasıl başa çıktığı üzerinde büyük bir etkiye sahiptir.

Çoğu veri seti hâlâ görme ve eklem verilerine büyük ölçüde dayanıyor.

Bu yüzden aynı desen tekrar tekrar görülüyor. Robotlar doğru pozisyona ulaşıyor. Sonra yerleştirme, montaj ve uyuma gerektiren her şeyle mücadele ediyorlar.

Eksik bilgi fiziksel olandır.