MTAVG-Bench 2.0: діагностика режимів несправності кінематографічної виразності у багатоколовому аудіо-відеогенераторі з кількома учасниками розмови
https://ift.tt/lOXH6jn
У останні роки моделі багатоколової аудіо-відеогенерації (MTAVG) демонструють обіцяючі результати за базовими метриками, такими як синхронізація губ та аудіо-візуальна відповідність. Проте ці метрики залишаються недостатніми для оцінки кінематографічної виразності на рівні сцени. У сценах з кількома персонажами генераційні моделі мають виходити за рамки аудіовізуальної реалістичності, щоб передати послідовну акторську гру та інші більш високорівневі кінематографічні якості. Щоб заповнити цю прогалину, ми представляємо MTAVG-Bench 2.0, бенчмарк для діагностики режимів несправності кінематографічної виразності у багатоколовій аудіо-відеогенерації з кількома учасниками розмови. На відміну від попередніх налаштувань, які переважно зосереджувалися на якості базового багатокола діалогу, MTAVG-Bench 2.0 спрямовано на короткометражні драми та генерацію на рівні сцен, і встановлює високорівневу таксономію несправностей, що охоплює акторську гру, сюжет, атмосферу та аудіовізуальну мову. Відповідно до цієї таксономії ми створили понад 10 000 оцінювальних інстанцій з питаннями-відповідями, а також піднабори для оцінки на рівні короткометражної драми та тимчасової локалізації режимів несправностей, щоб систематично оцінити здатність всіх лінійних мовних моделей діагностувати високорівневі аудіовізуальні збої. Експериментальні результати показують, що комерційні однолінійні моделі на кшталт Gemini значно перевершують інших оцінювачів, проте навіть наймогутніші моделі продовжують мати труднощі з складними несправностями у нашому бенчмарку. Ці результати свідчать, що MTAVG-Bench 2.0 забезпечує систематичний бенчмарк для діагностики збоїв у кінематографічній багатоколовій аудіо-відеогенерації з кількома учасниками розмови.
HI-FI News
через штучний інтелект https://ift.tt/C06M1Os
22 травня 2026 року о 05:46 (за місцевим часом)
May 28, 2026 at 05:46AM

Залишити відповідь