Residual Cross-Modal Fusion Networks for Audio-Visual Navigation

від

у

Резервуарні крос-модальні мережі злиття для аудіо-візуальної навігації

Аудіо-візуальна втілена навігація має на меті дозволити агенту автономно локалізувати і досягати джерела звуку в невідомих 3D-середовищах, використовуючи слухові сигнали. Ключовим викликом цього завдання є ефективне моделювання взаємодії між гетерогенними ознаками під час мультимодального злиття, щоб уникнути домінування одно-модальності чи деградації інформації, особливо у крос-доменних сценаріях. Для вирішення цієї проблеми ми пропонуємо мережу крос-модального резервуарного злиття, яка вводить двосторонні резервуарні взаємодії між аудіо- та візуальними потоками для досягнення комплементарного моделювання та тонкого вирівнювання, зберігаючи при цьому незалежність їхніх представлень. На відміну від традиційних методів, які покладаються на просту конкатенацію або увагу, CRFN явно моделює крос-модальні взаємодії через резервуарні з’єднання та інтегрує стабілізаційні техніки для покращення збіжності та стійкості. Експерименти на датасетах Replica та Matterport3D демонструють, що CRFN суттєво перевершує найкращі базові рішення злиття та досягає кращої крос-доменної генералізації. Важливо, що наші експерименти також виявляють, що агенти виявляють диференційовану залежність від модальності на різних датасетах. Відкриття цього явища надає нову перспективу для розуміння механізму крос-модальної співпраці втілених агентів.

January 15, 2026 at 04:25AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *