Reliability-Aware Geometric Fusion for Robust Audio-Visual Navigation

від

у

Надійність-усвідомлена геометрична фузія для надійної аудиовізуальної навігації

https://ift.tt/DnZe3IW

Аудіовізуальна навігація (AVN) вимагає від впровадженого агента орієнтуватися на джерело звуку, використовуючи як зір, так і бинауральний звук. Основна проблема виникає в складних акустичних середовищах, де бинауральні сигнали стають періодично ненадійними, особливо під час перенавчання на раніше невідомих категоріях звуків. Щоб вирішити це, ми пропонуємо RAVN (Reliability-Aware Audio-Visual Navigation) — рамку, яка обмежує міжмодальне злиття за рахунок надійних ознак з аудіо, динамічно калібруючи інтеграцію аудіо та зорових входів. RAVN вводить Розумник Акустичної Геометрії (AGR), який навчається за допомогою геометричної проксі-нагляду. Використовуючи об’єктивність нульової дисперсії з гетероскедастичною гаусовою NLL-ціллю, AGR вивчає дисперсію, залежну від спостереження, як практичну ознаку надійності, що усуває потребу у геометричних мітках під час інференсу. Додатково, ми вводимо Надійність-Усвідомлювану Геометричну Модуляцію (RAGM), яка перетворює вивчену ознаку на м’яку вхідну ворота, щоб модулявати візуальні ознаки, тим самим зменшуючи конфлікти між модальностями. Ми оцінюємо RAVN на SoundSpaces використовуючи середовища Replica та Matterport3D, і результати демонструють стабільні покращення в продуктивності навігації, з помітною стійкістю в складному режимі незнаних звуків.

HI-FI News

через штучний інтелект https://ift.tt/itfKhw8

6 квітня 2026 р. о 05:10
Перекладено українською. Відображено лише текст, що підлягає перекладу.

April 6, 2026 at 05:10AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *