InfiniteTalk: I Gave a Portrait a Voice. It Took One Audio File and Zero Cloud Services.

InfiniteTalk: Я надав портрету голос. Потрібен був лише один аудіофайл і нуль сервісів у хмарі.

https://ift.tt/HCBQMLy

InfiniteTalk: Я надав портрету голос. Це зайняло один аудіофайл та нуль хмарних сервісів.

Cover image…

Минулого місяця клієнт попросив мене зробити демо-відео продукту з реальним ведучим.

Оцінка аутсорсингу: 1 100 доларів.

Що я насправді витратив: три дні і електроенергію.

Ось як.

Проблема з кожним інструментом «AI-аватар», який я пробував

Я випробував більшість провідних гравців: HeyGen, D-ID, Synthesia, Runway.

Вони працюють. Але з ними пов’язані проблеми:

– Вони дорогі. Вам дають кілька хвилин генерації, а потім знову оплата. Добре для одного разу. Жах для будь-якого обсягу.
– Вони зберігають усе. Кожен завантажений портрет, кожен введений сценарій — усе на їхніх серверах. Я дізнався про це не дуже приємним способом, коли рольова ситуація, над якою я працював, була позначена їхньою системою модерації контенту. Нічого незаконного. Просто «не в межах допустимого використання».
– Вихід виглядає мляво. Рот рухається. Усьому іншому — ні. Немає мікро-рухів голови. Ні моргання. Ні природного руху плечей. Це схоже на розмовну світлину, а не на людину.

Мені потрібне було щось локальне.

Знайдено на GitHub о 1:00 ночі

Я переглядав трендові репозиторії на GitHub, коли знайшов InfiniteTalk від MeiGen-AI.

Три рядки у README зупинили мене:

– «Безмежна за тривалістю генерація відео з розмовою»
– «синхронізація руху губ + рух голови + поза тіла + вираз обличчя»
– «працює локально на побутовому обладнанні»

Модель побудована на Wan2.1 — тій самій лінійці моделей, яка тихо домінує у сфері відкритого відео-генерування.

Я клонув репозиторій.

Перша версія зупинила мене на місці

Один портрет. Один аудіокліп. Тридцять секунд генерації.

Губи рухались. Я очікував цього.

Що я не очікував: голова трохи нахилилась. Очі мигнули. Плечі піднялися та опустилися, як у реальній розмові.

Не механічний «бит» або заздалегідь готовий анімований цикл. Та мікро-рух, який трапляється, коли тіло людини реагує на те, що вони говорять.

Я згенерував знову з іншим аудіо. Та сама природна якість.

Чому це працює, коли інші ні

Традиційні інструменти синхронізації губ — SadTalker, MuseTalk, більшість того, що знайдете на GitHub — мають фундаментальний підхід: вони торкаються тільки рота.

Возьміть відео, ізолюйте область рота, замініть її рухом губ, що регулюється аудіо, залишивши все інше без змін.

Проблема очевидна: коли справжня людина говорить, нічого не стоїть на місці. Голова киває. Лоб рухається. Плечі відстежують дихання.

Лише рот — і ви отримуєте ефект «антропофобний долині», який важко пояснити, але відразу помітно.

InfiniteTalk підходить по-іншому. Він не патчить відео. Він генерує нове.

Вхід: портрет + аудіо.
Вихід: відео, згенероване з нуля, де аудіо керує не тільки рухами губ, а й повною мобільністю тіла.

Порівняльні цифри підтверджують це:

– помилка губ InfiniteTalk: 1.8 мм
– MuseTalk: 2.7 мм
– SadTalker: 3.2 мм

Цей розрив у 0.9 мм між InfiniteTalk та MuseTalk — різниця між «переконливим» і «майже переконливим».

Що означає «Безмежна довжина»

За замовчуванням генерація триває 81 кадр — близько 3 секунд за 25 кадрів на секунду.

Але 3 секунди — не межа. Це одиниця.

InfiniteTalk використовує розріджений контекст кадрів: після кожного чанку згенеруєні кадри передаються вперед як довідковий матеріал для наступного чанку. Результат — безшовна непрерывність — та сама особа, та сама стабільність фону, та той самий згуртований синхрон з аудіо, на довільно довгих відео.

Я тестував тримінутне відео. Жодного зсуву особи. Жодного мерехтіння фону. Синхрон губ утримувався протягом всього часу.

Ось другий приклад:

Вимоги до апаратного забезпечення

Вам не потрібна найдорожча GPU.

– 480p: мінімум 6 ГБ VRAM
– 720p: рекомендується 16 ГБ+

Я використовую RTX 3090. Тричасове 480p-відрізок займає 30–60 секунд для генерації. Не миттєво, але цілком придатно для якості.

Моделі, які вам знадобляться:

– Wan2.1_I2V_14B_FusionX-Q4_0.gguf (квантизована основна модель, дружня до VRAM)
– wan2.1_infiniteTalk_single_fp16.safetensors (патч InfiniteTalk)
– wav2vec2-chinese-base_fp16.safetensors (аудіо-енкодер)
– Підтримуючі ваги VAE, CLIP, LoRA

Усі доступні на Hugging Face або регіональні дзеркала.

One-Click Setup, Ні коду не потрібно

Ми обгорнули робочий процес ComfyUI у інтерфейс Gradio для зручності використання.

Запуск: двічі клацніть по 01-run.bat. Браузер автоматично відкриється за адресою http://localhost:7860.

Лівий панель: вхідні дані

– Портретне зображення (будь-який формат)
– Аудіофайл (WAV або MP3)
– Текстовий запит (впливає на стиль руху, а не на зміст)

Права панель: згенерований MP4, готовий до відтворення та збереження.

Розширені налаштування дозволяють регулювати роздільну здатність (256–1024 пікселів), кількість кадрів та кроки зразкування. За замовчуванням підійдуть для більшості випадків.

Те, що, ймовірно, ви думаєте зараз

Це працює повністю на локальному обладнанні.

Жодної хмарної обробки. Жодних журналів використання. Жодної системи модерації контенту, що стежить за тим, що ви генеруєте.

Яку портретну зображення ви використаєте, який аудіо ви надасте, що ви створите з цього —

Ваше обладнання. Ваш вибір.

Я залишу роздуми над цим вашій уяві.

Післямова

Клієнт отримав своє відео. Вони запитали, яку продакшн-компанію я використовував.

Я сказав, що згенерував вдома, на моєму власному комп’ютері.

Дві секунди мовчання.

«А чи можете ви зробити другий епізод також?»

Так.

Одне натискання для завантаження: https://ift.tt/wkt2Sxv

HI-FI News

через DEV Community https://dev.to

21 лютого 2026 року, 04:36 AM

February 21, 2026 at 04:36AM

InfiniteTalk: I Gave a Portrait a Voice. It Took One Audio File and Zero Cloud Services.

Коментарі

Залишити відповідь Скасувати коментар