За межі монологу: інтерактивна генерація асоційованого з говоріння та слухання аватара з контексту аудіо під час розмови з використанням каналів з урахуванням контексту аудіо
https://ift.tt/AtawF1X
Генерація відео людини за аудіо досягла значного успіху у монологічних сценаріях, значною мірою завдяки прогресу в потужних базових моделях генерації відео. Виходячи за рамки монологів, справжня людська комунікація за своєю суттю є повнодуплексним інтерактивним процесом, що вимагає від віртуальних агентів не лише висловлювати власну мову, але й природно реагувати на вхідний розмовний аудіо потік. Більшість існуючих методів просто розширюють традиційні аудіо-орієнтовані парадигми до режимів слухання. Проте, опора на суворе зсування кадр за кадром робить реакцію моделі на довготривалу розмовну динаміку жорсткою, тоді як пряме введення глобальної уваги катастрофічно погіршує синхронізацію губ. Визнаючи унікальну тимчасову масштабну невідповідність між розмовлянням та слуханням, ми вводимо багатоголовкове гауссівське ядро, щоб явно впровадити цю фізичну інтуїцію в модель як поступовий часовий індуктивний надсередник. На основі цього ми створюємо повнодуплексного інтерактивного віртуального агента, здатного одночасно обробляти дво потоки аудіо входів як для говоріння, так і для слухання. Крім того, ми представляємо строго очищений датасет Talking-Listening VoxHear з ідеально розділеними розмовною мовою та фоном аудіо. Розгорнуті експерименти демонструють, що наш підхід успішно поєднує сильну тимчасову синхронізацію з глибоким контекстуальним семантичним змістом, встановлюючи новий стан-о-арт у генерації сильно природних та чутливих до контексту повнодуплексних інтерактивних цифрових людей. Сторінка проекту доступна за адресою https://warmcongee.github.io/beyond-monologue/.
HI-FI News
через Штучний Інтелект https://ift.tt/OsDap2u
14 квітня 2026 року о 05:27 AM
April 14, 2026 at 05:27AM

Залишити відповідь