Edityourself Achieves Seamless Audio-Driven Video Editing with DiT and Precise Lip Sync

EditYourself забезпечує безшовне редагування відео за допомогою аудіодрайву з використанням DiT та точною синхронізацією губ

https://ift.tt/G3SRtkr

Дослідники вирішують завдання безшовного редагування попередньо записаних відео-чуб або говорячих голів, чим нинішні генеративні відео-моделі не справляються. Джон Флінн, Вольфганг Паєр та Дімітeр Дінев з Pipio AI у співавторстві з Сам Нгхут Нгуєн, Хайк Погосьян, Мануель Торібіо та ін., представляють EditYourself — нову рамку, що використовує Diffusion Transformers для модифікації існуючого матеріалу за транскрипцією. Ця інновація дозволяє додавання, видалення та перенесення часу сказаного матеріалу з одночасним збереженням таких важливих елементів, як рух, ідентичність говорячого та точна синхронізація губ. Завдяки точному та послідовному переформатуванню відео-виступів EditYourself є значним кроком до практичних інструментів генеративного відео для професійних робочих процесів постпродакшну.

Завдяки забезпеченню точного та послідовного переформатування відео-виступів EditYourself представляє собою значний крок до практичних інструментів генеративного відео для професійних постпродакшн-робочих процесів.

Редагування відео за допомогою аудіо із збереженням узгодженості

Вчені представили EditYourself — нову рамку для редагування відео за допомогою аудіо (V2V), що заповнює критичний розрив у технологіях генеративного відео. Нинішні генеративні моделі добре справляються зі створенням нового відеоконтенту з тексту та зображень, але їм важко виконувати нюансоване редагування попередньо записаних відео, де зміни сказаного сценарію вимагають збереження руху, часової узгодженості, ідентичності спікера та точної синхронізації губ. Ключовим внеском є розробка двокрокової схеми тренування, що дозволяє інференс за мовним аудіо з різноманітними вхідними даними з тексту, зображень та відео, забезпечуючи точну синхронізацію губ без потреби зменшення частоти аудіо або обмежень за частотою кадрів відео. Експерименти демонструють, що EditYourself запроваджує механізм орієнтованого на зразок ідентичності conditioning, названии Forward, Backward RoPE Conditioning, у поєднанні з TeaCache-aware inference, що стабілізує зовнішній вигляд та часову узгодженість у довгих відео.

Оцінки порівняно із сучасними стандартами Image-to-Video та V2V синхронізації губ показують, що метод досягає вищої якості зображення та точності синхронізації. Дослідження вирішує проблему редагування візуального діалогу, V2V-редагування, яке керується змінами в сказаному діалозі, виходячи за межі простої синхронізації губ, із можливістю повної заміни аудіо та підтримки основних операцій постпродакшну. Використовуючи роботу за транскрипцією, творці отримують інтуїтивно зрозумілий та виразний інтерфейс для точних змін на рівні слів, таких як видалення зайвих слів або оновлення фактів після запису, що відкриває можливості для інтеграції з агентами ШІ для автоматичного редагування відео. У результаті це прагнення відкриває шлях до швидких оновлень контенту, персоналізованих варіантів відео та більш плавного виробничого процесу.

Редагування відео з використанням дифузійного навчання обіцяє перспективи

Дослідження започаткувало двокрокову схему навчання для забезпечення інференсу за мовним аудіо за різними текстовими, зображувальними та відео входами, зберігаючи точну синхронізацію губ разом із покроковою стратегією умовлення аудіо. Ця стратегія точно узгоджує мовлення та відео без зменшення частоти аудіо-ознакових можливостей, демонструючи стійкість при різних частотах кадрів відео. Щоб вирішити проблеми згенерування довгих відео, вчені розробили механізм conditioning идентичності на основі опори, названий Forward, Backward RoPE Conditioning, у поєднанні з inference з урахуванням TeaCache. Це інноваційне поєднання стабілізує зовнішній вигляд та часову узгодженість протягом тривалих відрізків, запобігаючи візуальним розбіжностям.

Оцінки на основі останніх I2V та V2V benchmarks синхронізації губ продемонстрували, що метод досягає найкращої у галузі якості зображення та точності синхронізації. У цій роботі використано редагування в латентному просторі, підтримуючи основні постпродакшн-операції, такі як вставлення, видалення та перенайменування відео-сегментів, з при цьому збереженням візуальної безперервності. Підхід дозволяє перейти від парадигми «сценарій досконалий перед зйомкою» до моделі «зйомка один раз — вдосконалення пізніше», що сприяє швидким оновленням та персоналізованим варіантам, а також інтеграції з агентами на базі великих мовних моделей для автоматичного редагування відео.

Аудіо-орієнтоване редагування з використанням дифузійного навчання обіцяє перспективи

Дослідження запровадило двоступеневу схему навчання для забезпечення інференсу за мовним аудіо за різними текстовими, зображувальними та відео входами, зберігаючи точну синхронізацію губ одночасно з використанням стратегії умовлення аудіо у вікнах. Це дозволяє точно узгоджувати мовлення та відео без зниження роздільної здатності аудіо-такування, забезпечуючи надійну роботу за різних частот кадрів відео. Задля подолання труднощів із довгими відео, вчені розробили механізм condicionування ідентичності на основі довідки, названий Forward, Backward RoPE Conditioning, у поєднанні з inference, з TeaCache. Ця інноваційна пара стабілізує зовнішній вигляд та часову узгодженість протягом тривалих відрізків, запобігаючи візуальним несумісностям.

Оцінки проти нещодавніх I2V та V2V benchmarks синхронізації губ показали, що метод досягає найсучаснішої візуальної якості та точності синхронізації. Робота використовувала латентний простір для редагування, підтримуючи основні операції постпродакшну, такі як вставлення, видалення та перенайменування відео-сегментів, з збереженням візуальної безперервності. Підхід дозволяє перейти від парадигми «сценарій безпомилковий до зйомки» до моделі «знімайте раз, виправляйте пізніше», що сприяє швидким оновленням та персоналізованим варіантам, а також інтеграції з агентами ШІ на основі великих мовних моделей для автоматичного редагування відео.

Аудіо-наведення точного редагування відео за транскриптом спрощує постпродакшн

Дослідження вирішує критичну проблему в існуючих технологіях генеративного відео: вони добре створюють новий контент, але часто погано справляються з редагуванням попередньо записаних відео. Базова мережева система використовує LTX-0.9.7 DiT та відповідний Video-VAE, працюючи з 14 мільярдами параметрів у стисненому латентному простірі, досягнутому через стиск 32×32×8. Відео генеруються у двох проходах: спочатку денойсінг за більш грубим поданням, потім навчена збільшення роздільної здатності та денойсінг на більшій роздільній здатності. Важливо, що модель LTX-Video було попередньо навчено за багатьма завданнями, зокрема T2V, I2V, генерацією ключових кадрів та просторовим і часовим заповненням, досягається шляхом маскування токенів та наданням їм різних умовних часових кроків.

Ця стратегія попереднього навчання забезпечує надійну основу для подальших можливостей аудіодрайвного редагування. Дослідники застосували парадигму Flow Matching, кодування відео зразків у латентне представлення x0 та визначення лінійного ймовірнісного шляху для інтерполяції між цим представленням та розподілом шуму x1. Модель DiT, vθ, навчалася прогнозувати поле швидкості, яке перетворює шум назад у дані, мінімізуючи базову навчальну ціль LFM = E t,x1,x0,c[∥vθ(xt, t, c) − (x1 − x0)∥2 2]. Для включення аудіо- та ідентичні conditioning об’єкт було змінено: розгорнута втрата навчання описана в Рівнянні 8 роботи.

На інференсі нові відео генеруються шляхом розв’язання ODE потоку ймовірностей, інтегруючи поле швидкості від t = 1 до t = 0 за допомогою методу Ейлера з 40 кроками. Щоб полегшити аудіо-умовність, команда додала додаткові слої перехресного самоконтексту у блоки трансформера, використовуючи попередньо витягнуті ознаки Whisper-small caudio ∈ R L×B×C. Ці ознаки обробляються навченою проекційно-пулинговою модулем, що формує ембеддинги для синхронізації губ на латентній частоті кадрів відео. Модуль Audio Projection та відповідні слої cross-attention додають приблизно 2 мільярди додаткових навчальних параметрів. Для запобігання можливому розбіжному відповідному злагодженню аудіо та відео впроваджено фазово-зсувну сітчасту зразкування, що забезпечує узгодженість вікон у відео з різними частотами кадрів та зберігає початкову частоту аудіо. Цей підхід дозволяє уникати недоліків інтерполяції, яка може викидати високо-частотну інформацію та вводити часові розбіжності.

EditYourself забезпечує аудіо-орієнтоване керування відео з вражаючою точністю

Учені розробили EditYourself, нову рамку для редагування попередньо записаних відео за допомогою аудіо. Ця система на базі DiT дозволяє здійснювати транскрипційні зміни до відео з говорячими головами, плавно додавати, видаляти або переналаштовувати сказане, зберігаючи природний рух та ідентичність спікера. Forward-Backward RoPE Conditioning підтримує стабільність ідентичності та зовнішнього вигляду протягом тривалих правок, працюючи ефективно в латентному просторі. Дослідники визнають потенціал зловживань цією технологією, особливо щодо візуальних підробок та дезінформації. Вони закликають до багаторівневого підходу до відповідального розгортання, включаючи законодавчі рамки для володіння контентом та технічні засоби захисту, такі як перевірка ідентичності та цифровий водяний знак. Майбутні роботи повинні зосередитися на походженні контенту та виявленні синтетичних медіа для зменшення цих ризиків. Автори також відзначають цінний внесок команди Lightricks LTX-Video, чьи відкриті ваги моделі допомогли розробці.

👉 Більше інформації

🗞 EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers
🧠 ArXiv: https://ift.tt/I2cBFgD

HI-FI News

через Quantum Zeitgeist https://ift.tt/F41BVEh

31 січня 2026 р. об 13:45

January 31, 2026 at 01:45PM

Edityourself Achieves Seamless Audio-Driven Video Editing with DiT and Precise Lip Sync

Коментарі

Залишити відповідь Скасувати коментар