Аудіосцена: Інтеграція об’єктно-подієвого аудіо в 3D сцени
Швидкі досягнення в аудіоаналізі підкреслюють його величезний потенціал для взаємодії людини з комп’ютером, моніторингу навколишнього середовища та громадської безпеки; однак існуючі набори даних лише з аудіо часто не мають просторового контексту. Щоб заповнити цей розрив, ми представляємо два нові аудіопросторові набори даних, AudioScanNet та AudioRoboTHOR, розроблені для дослідження завдань, що залежать від аудіо, в 3D-середовищах. Інтегруючи аудіокліпи з просторово вирівняними 3D-сценами, наші набори даних дозволяють дослідження того, як аудіосигнали взаємодіють з просторовим контекстом. Щоб асоціювати аудіоподії з відповідною просторовою інформацією, ми використовуємо здатність до здорового глузду великих мовних моделей і доповнюємо їх ретельною перевіркою людьми. Цей підхід пропонує більшу масштабованість в порівнянні з виключно ручним анотуванням, зберігаючи при цьому високі стандарти точності, повноти і різноманітності, які кількісно оцінюються через угоду між анотаторами та результати на двох еталонних завданнях: аудіо основане 3D візуальне закріплення та аудіо основане роботизоване нульове навігаційне завдання. Результати підкреслюють обмеження сучасних аудіоцентрованих методів і підкреслюють практичні виклики та значущість наших наборів даних у просуванні навчання супутнього аудіо просторового навчання.
HI-FI Новини
через Штучний Інтелект
10 грудня 2025 року о 03:58 AM
December 10, 2025 at 03:58AM

Залишити відповідь