Тимчасово вирівняна оцінка для аудіо-елагентованої генерації говорячої голови
https://ift.tt/E1oY9lX
Генерація говорячої голови за допомогою аудіо швидко розвивається, але існуючі протоколи оцінювання здебільшого спираються на покрокові (frame-wise) метрики, які передбачають суворе тимчасове співвідношення між згенерованими та опорними відео. Це припущення не відповідає рухам обличчя, що зумовлені мовою, які природно включають незначні зсуви часу, різні темпи мовлення та стилістичні варіації. В результаті звичайні метрики можуть розглядати нешкідливі часові відмінності як помилки якості, ускладнюючи справедливе порівняння методів та розуміння їх компромісів. У цій роботі ми стверджуємо, що оцінювання динамічних генеративних моделей має формуватися як задача вирівнювання послідовностей, а не як порівняння окремих кадрів. Ми вводимо уніфіковану реформулювання на рівні послідовності, що інтегрує Soft Dynamic Time Warping у встановлені конвеєри оцінювання. Вирівнявши траєкторії ознак із збереженням тиммового порядку, запропонована рамка забезпечує надійність щодо обмежених тимчасових неточностей без зміни базових перцепційних, ідентичних або синхронізаційних енкодерів. Ми показуємо, що оцінювання по кадрах можна розглядати як частковий випадок за жорсткого вирівнювання, тоді як вирівнювання на рівні послідовності забезпечує більш стабільність, меншу чутливість до часових різниць та чіткіше розмежування між парадигмами моделювання. Розбудовуючись на цьому принциповому формулюванні, ми провели масштабний бенчмарк 20 методів по 7 датасетах, що охоплюють канонічні, природні та стилістично різноманітні сценарії у стандартизованих протоколах. Ретельні експерименти показують, що тимчасово вирівняні метрики більш стійкі до різниць у темпах, дають більш узгоджені результати між датасетами і краще розкривають систематичні компроміси між парадигмами моделювання, такими як синхронізація проти реалістичності та виразність проти стабільності.
HI-FI News
через Штучний інтелект https://ift.tt/JkYaqeg
2 червня 2026 р. о 06:16 AM
into ukrainian. Only returned the text that has been translated.
June 2, 2026 at 06:16AM

Залишити відповідь