StereoFoley: Object-Aware Stereo Audio Generation from Video

Кві 29, 2026

—

від

StereoFoley: об’єктно-орієнтована стерео-аудіогенерація з відео

https://ift.tt/OmfoSiE

Ми представляємо StereoFoley, фреймворк генерації відео‑до‑аудіо, який виробляє семантично узгоджене, тимчасово синхронізоване та просторово точне стерео‑звучання з частотою 48 кГц. Хоча нещодавні генеративні моделі відео‑до‑аудіо досягають сильної семантичної та тимчасової відповідності, вони здебільшого залишаються на рівні моно або не забезпечують об’єктно‑свідому стереоіну, обмежені відсутністю professionally змішаних, просторово точних датасетів відео‑до‑аудіо. По-перше, ми розробляємо та навчaємо базову модель, яка генерує стерео‑аудіо з відео, досягаючи передових результатів як за семантичною точністю, так і за синхронізацією. Далі, з метою подолання обмежень датасету, ми запроваджуємо конвеєр синтетичної генерації даних, який поєднує аналіз відео, відстеження об’єктів та синтез аудіо з динамічним пануванням та керуванням гучністю за відстанню, забезпечуючи просторово точне об’єкт‑орієнтоване звучання. Нарешті, ми тонко піднастройюємо базову модель на цьому синтетичному датасеті, що дає чітке відповідність об’єкта та аудіо. Оскільки існують відсутні усталені метрики, ми запроваджуємо міри об’єктової стерео‑aware‑ності та валідовуємо їх через дослідження з людським прослуховуванням, що демонструє сильну кореляцію з перцепцією. Ця робота встановлює першу наскрізну рамку для стерео‑об’єкт‑aware генерації відео‑до‑аудіо, заповнює критичну прогалину та встановлює новий стандарт у цій галузі.

† Університет Каліфорнії в Сан-Дієго
** Робота виконана під час перебування в Apple

HI-FI News

через Apple Machine Learning Research https://ift.tt/8PDWwdB

29 квітня 2026 р. о 01:07 GMT

April 29, 2026 at 01:07AM

StereoFoley: Object-Aware Stereo Audio Generation from Video

Коментарі

Залишити відповідь Скасувати коментар