JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Лют 24, 2026

—

від

JAEEGER: спільне 3D-візуально-audio сприйняття та міркування в симульованих фізичних середовищах

https://ift.tt/rVjQRJE

Поточні великі мовні моделі з аудіо-відео (AV-LLMs) переважно обмежені 2D-сприйняттям, користуючись RGB-видео та моновокальним звуком. Цей дизайн створює фундаментальне розходження вимірів, яке перешкоджає надійному локалізуванню джерела й просторовому міркуванню у складних 3D-середовищах. Ми вирішуємо цю проблему, представляючи JAEGER, рамку, що розширює AV-LLMs до 3D-простору, щоб забезпечити спільне просторове узгодження та міркування через інтеграцію RGB-D спостережень та багатоканального першорядного амбіфонічного звуку. Основним внеском нашої роботи є нейронний вектор інтенсивності (Neural IV), навчене просторове аудіо-представлення, яке кодує надійні напрямкові сигнали для поліпшення оцінки напрямку надходження, навіть за несприятливих акустичних умов з перетинанням джерел. Щоб полегшити масштабоване навчання та систематичну оцінку, ми пропонуємо SpatialSceneQA — бенчмарк з 61 тис. прикладів підгонки за інструкціями, відібраних із симульованих фізичних середовищ. Розширені експерименти демонструють, що наш підхід стабільно перевершує бази, орієнтовані на 2D, у різноманітних завданнях з просторового сприйняття та міркування, підкреслюючи потребу явного 3D-моделювання для просування штучного інтелекту у фізичних середовищах. Наш вихідний код, контрольні точки попередньо навченої моделі та набори даних буде оприлюднено після прийняття.

HI-FI News

через Штучний Інтелект https://ift.tt/mcL7Tug

22 лютого 2026 року о 04:49 ранку

February 24, 2026 at 04:49AM

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Коментарі

Залишити відповідь Скасувати коментар