Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection

від

у

Звукові акценти: аудіокодери з подвійним шляхом для аудіовізуального виявлення найяскравіших моментів у відео

Аудіовізуальне виділення найяскравіших моментів у відео має на меті автоматично визначати найпомітніші фрагменти відео за допомогою як візуальних, так і аудіальних підказок. Однак існуючі моделі часто не повноцінно використовують аудіоділянку, зосереджуючись на семантичних ознаках високого рівня, водночас не повністю використовуючи багаті динамічні характеристики звуку. Щоб подолати це обмеження, ми пропонуємо нову рамкову концепцію — аудіокодери з подвійним шляхом для виявлення виділень у відео (DAViHD). Двохшляховий аудіокодер складається з семантичного шляху для розуміння змісту та динамічного шляху, який фіксує спектро-тимпову динаміку. Семантичний шлях вилучає інформацію високого рівня, визначаючи зміст аудіо, такий як мова, музика або конкретні звукові події. Динамічний шлях застосовує механізм, адаптивний за частотою, у міру розвитку часу, щоб спільно моделювати ці динаміки, дозволяючи виявляти швидкоплинні акустичні події через помітні спектральні смуги та швидкі зміни енергії. Ми інтегруємо новий аудіокодер у повноцінну аудіовізуальну систему і досягаємо нових передових результатів на великомасштабному бенчмарку Mr.HiSum. Наші результати демонструють, що витончене подвійне аудіопредставлення є ключем до прогресу у галузі виділення моментів.

HI-FI News

через штучний інтелект

5 лютого 2026 р. о 04:11

February 5, 2026 at 04:11AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *