AudioScene: Integrating Object-Event Audio into 3D Scenes

від

у

Аудіосцена: Інтеграція об’єктно-подієвого аудіо в 3D сцени

Швидкі досягнення в аудіоаналізі підкреслюють його величезний потенціал для взаємодії людини з комп’ютером, моніторингу навколишнього середовища та громадської безпеки; однак існуючі набори даних лише з аудіо часто не мають просторового контексту. Щоб заповнити цей розрив, ми представляємо два нові аудіопросторові набори даних, AudioScanNet та AudioRoboTHOR, розроблені для дослідження завдань, що залежать від аудіо, в 3D-середовищах. Інтегруючи аудіокліпи з просторово вирівняними 3D-сценами, наші набори даних дозволяють дослідження того, як аудіосигнали взаємодіють з просторовим контекстом. Щоб асоціювати аудіоподії з відповідною просторовою інформацією, ми використовуємо здатність до здорового глузду великих мовних моделей і доповнюємо їх ретельною перевіркою людьми. Цей підхід пропонує більшу масштабованість в порівнянні з виключно ручним анотуванням, зберігаючи при цьому високі стандарти точності, повноти і різноманітності, які кількісно оцінюються через угоду між анотаторами та результати на двох еталонних завданнях: аудіо основане 3D візуальне закріплення та аудіо основане роботизоване нульове навігаційне завдання. Результати підкреслюють обмеження сучасних аудіоцентрованих методів і підкреслюють практичні виклики та значущість наших наборів даних у просуванні навчання супутнього аудіо просторового навчання.

HI-FI Новини

через Штучний Інтелект

10 грудня 2025 року о 03:58 AM

December 10, 2025 at 03:58AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *