MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning

Січ 6, 2026

—

від

MM-Соната: Мультимодальна контрольована генерація аудіо-відео з нульовим клонуванням голосу

Синхронна генерація аудіо та відео має на меті синтезувати синхронізований мультисенсорний контент, однак сучасні об’єднані моделі мають проблеми з тонким акустичним контролем, особливо для збереження ідентичності мови. Існуючі підходи або страждають від тимчасової невідповідності через каскадну генерацію, або не мають можливості виконувати нульове клонування голосу в рамках спільного синтезу. У цій роботі ми представляємо MM-Сонату, мультимодальну фреймворк потокового співвідношення, яка об’єднує контрольовану генерацію аудіо-відео з можливостями нульового клонування голосу. На відміну від попередніх робіт, які покладаються на грубі семантичні описи, MM-Соната використовує єдиний вхідний інструктивно-фонемний формат для забезпечення суворої лінгвістичної та тимчасової відповідності. Щоб дозволити нульове клонування голосу, ми вводимо механізм ін’єкції тембру, який ефективно відокремлює ідентичність спікера від лінгвістичного контенту. Крім того, враховуючи обмеження стандартного некласифікованого управління в мультимодальних налаштуваннях, ми пропонуємо стратегію негативного умовлення на основі шуму, яка використовує природні шумові пріоритети для значного підвищення акустичної правдоподібності. Емпіричні оцінки демонструють, що MM-Соната встановлює новий рекорд продуктивності в тестах спільної генерації, значно перевершуючи базові показники в синхронізації губ і зрозумілості мови, досягаючи при цьому точності клонування голосу, що порівнянна зі спеціалізованими системами Text-to-Speech.

January 6, 2026 at 04:30AM

MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning

Коментарі

Залишити відповідь Скасувати коментар