LPIPS-AttnWav2Lip: універсальна аудіодрайвана синхронізація губ для генерації говорячих голів у природних умовах
Дослідники виявляють зростаючий інтерес до аудіо-керованої генерації говорячих голов. Основним викликом у генерації говорячих голов є досягнення аудіовізуальної узгодженості між рухами губ та аудіо, відоме як синхронізація губ. У цій роботі пропонується універсальний метод LPIPS-AttnWav2Lip для відтворення зображень обличчя будь-якого мовця на основі аудіо. Ми використали архітектуру U-Net на основі резидуального CBAM для кращого кодування та злиття аудіо- та візуальних модальних даних. Крім того, модуль семантичного вирівнювання розширює прийомну область генераторної мережі, щоб ефективно отримати просторову та канальну інформацію візуальних ознак; та узгоджує статистичні характеристики візуальних ознак з латентним вектором аудіо, щоб досягти регулювання та введення аудіоконтентної інформації до візуальної інформації. Щоб досягти точної синхронізації губ та згенерувати реалістичні високоякісні зображення, наш підхід використовує LPIPS-втрату, яка імітує людське судження щодо якості зображення та знижує ймовірність нестабільності під час навчального процесу. Запропонований метод демонструє відмінні результати за точністю синхронізації губ та якістю зображення, що підтверджується як суб’єктивними, так і об’єктивними оцінками. Код до статті доступний за наступним посиланням:
HI-FI News
через штучний інтелект
3 лютого 2026 р. об 05:42
February 3, 2026 at 05:42AM

Залишити відповідь