VidAudio-Bench: Бенчмаркування V2A та VT2A генерації за чотирма аудіо категоріями
https://ift.tt/yq6Bg1L
Генерація Video-to-Audio (V2A) є суттєвою для занурюваних мультимедійних вражень, однак її оцінювання залишається досі недостатньо вивченим. Існуючі бенчмарки зазвичай оцінюють різні типи аудіо в рамках єдиного протоколу, нехтуючи докладними вимогами окремих аудіокатегорій. Щоб заповнити цю прогалину, ми пропонуємо VidAudio-Bench, багатозадаковий бенчмарк для оцінки V2A з чотирма ключовими характеристиками: (1) Широке охоплення: він охоплює чотири репрезентативні аудіокатегорії — звукові ефекти, музика, мова та спів — як у налаштуваннях V2A, так і Video-Text-to-Audio (VT2A). (2) Розширена оцінка: містить 1 634 пари відео-тексту та оцінює 11 передових моделей генерації. (3) Комплексні метрики: вводить 13 задачно-специфічних, безопорівкових метрик для систематичної оцінки якості аудіо, узгодженості відео-audio та узгодженості текст-audio. (4) Людська відповідність: валідовані всі метрики за допомогою суб’єктивних досліджень, демонструючи високу відповідність вподобанням людей. Експериментальні результати показують, що сучасні моделі V2A погано справляються з мовою та співом порівняно зі звуковими ефектами. Наші результати VT2A додатково підкреслюють фундаментальну напругу між дотриманням інструкцій та візуально обґрунтованим генеруванням: сильніша візуальна умова допомагає вирівнюванню відео-аудіо, але часто за рахунок створення бажаної аудіокатегорії. Ці висновки встановлюють VidAudio-Bench як всебічну та масштабовану рамку для діагностики систем V2A та надають нові інсайти у мультимодальне аудіогенерування.
HI-FI News
через штучний інтелект https://ift.tt/OsDap2u
14 квітня 2026 року о 05:27 ранку
April 14, 2026 at 05:27AM

Залишити відповідь