A$^2$-LLM: Енд-ту-енд розмовна аудіо-аватарна велика мовна модель
https://ift.tt/89M75u0
Розробка виразних та чуйних розмовних цифрових людей є краеугольним каменем взаємодії людини з комп’ютером наступного покоління. Хоча великі мовні моделі (LLMs) значно підвищили можливості діалогу, більшість сучасних систем все ще спираються на каскадні архітектури, які з’єднують незалежні модулі. Такі конвеєри часто страждають від накопичених помилок, високої затримки та поганої продуктивності в реальному часі. Не маючи доступу до базового контексту розмови, ці конвеєри за визначенням надають перевагу жорсткій синхронізації руху губ над емоційною глибиною. Щоб подолати ці виклики, ми пропонуємо A$^2$-LLM, енд-ту-енд розмовну аудіо-аватарну велику мовну модель, яка спільно розглядає мову, просодію та 3D-рух обличчя у єдиній рамці. Для полегшення навчання ми вводимо FLAME-QA, високоякісний мультимодальний набір даних, розроблений для узгодження семантичного наміру з виразною динамікою обличчя у форматі питання-відповіді (QA). Використовуючи глибоке семантичне розуміння, A$^2$-LLM генерує емоційно насичені рухи обличчя, що виходять за межі простої синхронізації губ. Експериментальні результати демонструють, що наша система досягає вищої емоційної виразності при збереженні реального часу (затримка 500 мс, коефіцієнт реального часу 0,7).
HI-FI News
через штучний інтелект https://ift.tt/6TiUVn2
6 лютого 2026 р. о 04:13 ранку
February 6, 2026 at 04:13AM

Залишити відповідь