Spatial-Omni: Інтеграція розуміння просторового звуку в мультимодальні LLM через кодування FOA
https://ift.tt/Y4NtUTJ
Нещодавні мультимодальні великі мовні моделі в основному обробляють звук як монaurальний сигнал, тому втрачають просторові підказки, які містяться в просторовому звуці для локалізації звуку, розуміння просторових відносин та розуміння просторової сцени. Ми пропонуємо Spatial-Omni, легкий метод, який реалізує SO-Encoder для введення просторового звуку FIRST-ORDER AMBISONICS (FOA) у існуючі Omni LLM як незалежну модальність, без модифікації їхніх оригінальних аудіо енкодерів. SO-Encoder забезпечує просторові токени з обмеженою додатковою вартістю контексту та покращує розуміння просторового звуку за допомогою ефективного стадійного навчання. З метою підтримки навчання та оцінювання ми створили SO-Dataset, SO-QA та SO-Bench із відкритих даних, реальних записів та симуляцій, що містять 400 тис. FOA-зіграних просторових аудіокліпів та 2,1 млн пар запитань-відповідей за просторові питання. SO-Bench включає 16 підзадач з розуміння просторового звуку, в тому числі базове виявлення та оцінку місця розташування, розуміння просторових відносин та складне просторове мислення. Експерименти показують, що Spatial-Omni перевершує існуючі відкриті моделі Large Audio-Language Models (LALMs) та Omni LLM за завданнями з розуміння просторового звуку, водночас зберігаючи розуміння загального аудіо на прийнятному рівні. Код та дані доступні за адресою https://ift.tt/G2elzxT.
HI-FI News
через штучний інтелект https://ift.tt/b2YOR49
10 червня 2026 року о 05:11 ранку
June 10, 2026 at 05:11AM

Залишити відповідь