VidAudio-Bench: Benchmarking V2A and VT2A Generation across Four Audio Categories

від

у

VidAudio-Bench: Бенчмаркування V2A та VT2A генерації за чотирма аудіо категоріями

https://ift.tt/yq6Bg1L

Генерація Video-to-Audio (V2A) є суттєвою для занурюваних мультимедійних вражень, однак її оцінювання залишається досі недостатньо вивченим. Існуючі бенчмарки зазвичай оцінюють різні типи аудіо в рамках єдиного протоколу, нехтуючи докладними вимогами окремих аудіокатегорій. Щоб заповнити цю прогалину, ми пропонуємо VidAudio-Bench, багатозадаковий бенчмарк для оцінки V2A з чотирма ключовими характеристиками: (1) Широке охоплення: він охоплює чотири репрезентативні аудіокатегорії — звукові ефекти, музика, мова та спів — як у налаштуваннях V2A, так і Video-Text-to-Audio (VT2A). (2) Розширена оцінка: містить 1 634 пари відео-тексту та оцінює 11 передових моделей генерації. (3) Комплексні метрики: вводить 13 задачно-специфічних, безопорівкових метрик для систематичної оцінки якості аудіо, узгодженості відео-audio та узгодженості текст-audio. (4) Людська відповідність: валідовані всі метрики за допомогою суб’єктивних досліджень, демонструючи високу відповідність вподобанням людей. Експериментальні результати показують, що сучасні моделі V2A погано справляються з мовою та співом порівняно зі звуковими ефектами. Наші результати VT2A додатково підкреслюють фундаментальну напругу між дотриманням інструкцій та візуально обґрунтованим генеруванням: сильніша візуальна умова допомагає вирівнюванню відео-аудіо, але часто за рахунок створення бажаної аудіокатегорії. Ці висновки встановлюють VidAudio-Bench як всебічну та масштабовану рамку для діагностики систем V2A та надають нові інсайти у мультимодальне аудіогенерування.

HI-FI News

через штучний інтелект https://ift.tt/OsDap2u

14 квітня 2026 року о 05:27 ранку

April 14, 2026 at 05:27AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *