AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

від

у

AVBench: людяно орієнтований та автоматизований бенчмарк оцінки для аудіо-відеопродукції генеративних моделей

https://ift.tt/WTBwj9l

Швидкі темпи розвитку генерації аудіо-відео (AV) дозволяють отримувати високодеталізований синтез зі синхронізованим звуком, зокрема у людських сценаріях, що включають мову та взаємодії. Проте оцінювання AV-генерації залишається на ранньому етапі: існують лише декілька грубих бенчмаркiв для людських сценаріїв і покладено на обмежені попередньо задані оцінювання з використанням загальних мультимодальних LLM, що призводить до неточних висновків про можливості моделей. Щоб вирішити ці питання, ми представляємо AVBench — повністю автоматизований бенчмарк, адаптований під генерацію AV, орієнтований на людей. AVBench ґрунтується на двох ключових концепціях для всебічної та точної оцінки: (i) Людяно-центричні та дрібномасштабні метрики. AVBench інтегрує десять оцінних вимірів, розроблених для реальних світових сценаріїв з акцентом на людину, охоплюючи візуальну якість, якість аудіо та багаторівневу узгодженість між модальностями. Ці практичні метрики capture деталі, пов’язані з людиною, які часто ігноруються у поточних бенчмарках. (ii) Спеціалізовані оцінювачі за навчанням за перевагами. Через відсутність спеціалізованих навчальних даних ми формуємо великомасштабне наглядове навчання, перетворюючи реальні відео на різноманітні пари для навчання з контрольованимиperturbаціями. Після донавчання на цьому високоякісному наборі даних оцінювачі навчаються надійно виявляти тонкі міжмодальні невідповідності. Важливо, AVBench не формує дискретні текстові висновки, а отримує неперервні оцінювальні бали з довіри до прогнозу моделі на двійкових рішеннях. Ця ймовірнісна система оцінки дозволяє більш надійну оцінку, ніж традиційна оцінка у стилі VQA, та тісно узгоджується з людською оцінкою. Разом узяті, AVBench пропонує автоматизовану оцінку для AV-генерації, демонструє великий потенціал для відбору даних та служить як диференціюючий сигнал для навчання з підкріпленням від людської оцінки (RLHF).

HI-FI News

через штучний інтелект https://ift.tt/k7hrTuC

26 травня 2026 р. о 06:17 AM

May 26, 2026 at 06:17AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *