AI Finally Learned That Movies Need Audio Too

AI нарешті дізнався, що фільмам потрібне також аудіо

https://ift.tt/6NQp8q5

Це переказ праці Plain English Papers про дослідницьку роботу під назвою LTX-2: Efficient Joint Audio-Visual Foundation Model. Якщо вам подобаються такі аналізи, приєднуйтесь до AIModels.fyi або слідкуйте за нами у Твіттері.

Проблема мовчазного фільму

Генерація відео з тексту стала надзвичайно досконалою. Сучасні моделі можуть відтворювати складні сцени з послідовними рухами персонажів, реалістичним освітленням та деталізованими візуальними елементами протягом десятків кадрів. Проте коли ви натискаєте відтворення, звучання відсутнє. Напружена сутичка не має музичного підкреслення. У лісовій сцені немає шелесту листя або пташиного співу. Персонаж говорить, але без голосу.

Проблема не в технічному недоліку, а в самій суті. Генерація аудіо та відео у синхронному партнерстві в рази складніша за будь-яку з задач самостійно. Відео потребує масивних обчислювальних ресурсів для відтворення візуальної інформації високої роздільності. Аудіо вимагає семантичної точності, де одна неправильно підігнана фонема або звуковий ефект зриває занурення. Більшість систем генерації відео з тексту розглядають аудіо як післязавтра або додають його після створення за допомогою окремих моделей, які не мають контексту для створення справжньої когерентності.

Це залишає розрив між тим, що технічно можливо, і тим, що насправді працює. Сцена здається неповною, коли відсутні її емоційні та атмосферні виміри. Мозок глядача відчуває, що щось не так, навіть якщо глядач не може пояснити чому. Звук — це половина того, що робить кіно реальним.

Чому об’єднана генерація потребує іншого підходу до архітектури

Наївний підхід до мультимодальної генерації був би простим: побудувати одну велетенську модель, яка генерує аудіо й відео з однаковою потужністю. Проблема в тому, що аудіо та відео — це не однакові завдання.

Відео потребує багатоbandwidth та дещо прощає недосконалості. Кадр трохи розмитий або часово неконсистентний може виглядати прийнятно; це потребує величезних обчислювальних ресурсів через величезний простір виходу — пікселі на високій роздільності протягом часу. Аудіо навпаки має меншу пропускну здатність, але семантично крихке: одна помилкова нота, неправильно підігнаний звуковий ефект або невчасно промовлений діалог руйнують усе враження. Не можна почути фонему й потім відрегулювати — момент вже зіпсований.

Ця асиметрія означає, що рівномірний розподіл обчислень є марнотратством. Вкласти 14 мільярдів параметрів в аудіогенерацію означає розв’язувати проблеми, які взагалі не потребують такого рішення, створюючи надмірно складні моделі, що вчаться помилковим залежностям. Недогляд аудіо обчисленням — і модель не зможе створити узгоджені звукові ландшафти. Жоден з підходів не працює.

Але є й глибша проблема. Аудіо та відео мають бути семантично пов’язаними між собою. Коли рот персонажа відкривається, діалог має починатися в тому самому кадрі. Коли двері скриплять у аудіотреку, відео має показати рух дверей. Якщо генерувати їх окремо та потім «зшивати» — синхронізація стає завданням постобробки без надійного розв’язання.

Ідея, що рухає LTX-2, полягає в тому, що це не обмеження для обходу, а дизайн-принцип, який робить об’єднану генерацію досяжною. Розподіляйте ресурси асиметрично, водночас будуючи двосторонні механізми уваги, які підтримують семантичну синхронізацію потоків. Дайте відео потрібну йому можливість, дайте аудіо потрібну йому можливість і змусьте їх постійно перевіряти один одного під час генерації.

Асиметрична архітектура з подвійним потоком

Основа LTX-2 в принципі витончено проста. Два паралельні потоки-трансформери одночасно обробляють відео й аудіо, але один значно більший за інший. Потік відео містить 14 мільярдів параметрів, а потік аудіо — 5 мільярдів. Це відношення 2,7 до 1 не є випадковим — воно відображає обчислювальні вимоги кожної модальності.

Але розмір сам по собі не вирішує проблему синхронізації. Реальна інновація архітектури полягає в тому, як потоки спілкуються між собою.

Огляд архітектури LTX-2, що демонструє обробку подвійного потоку з двостороннім крос-уваженням. Сирі відео та аудіо кодуються за допомогою причинних VAEs, тоді як текст проходить через конвеєр виділення ознак. Потоки зберігають синхронність через шари крос-уваження та спільне кондиціювання за часовими кроками.

Між потоком відео та потоком аудіо протікають двосторонні шари крос-уваження. Це не вузькі місця, через які щось проштовхують, а спеціалізовані канали зв’язку. Під час генерації потік відео формує проміжні подання й звертається до того, що згенерував потік аудіо на відповідних часових позначках. Одночасно потік аудіо звертає увагу на прогрес потоку відео. Це відбувається повторювано протягом всього процесу генерації, а не лише наприкінці. Потоки знаходяться в постійному діалозі один з одним.

Обидва потоки всередині однакові за архітектурою, різняться лише розміром. Кожен використовує структуру трансформера, детально описану на Рисунку A2, застосовану до відповідних модальностей.

Детальний вигляд архітектури одного потоку. Потоки аудіо та відео мають однакову внутрішню структуру, різниця полягає в кількості параметрів.

Механізми синхронізації включають часові позиційні вбудування, які кодують, де кожен крок розміщений у послідовності. При генерації 10-секундного кліпу модель має знати, чи знаходиться на позначці 2 секунди чи 8 секунд, аби синхронізувати рухи рота в відео з таймінгом діалогу в аудіо. Ці вбудування надають обом потокам спільне відчуття тимчасового положення.

Перехресне адаптивне нормалізування за модальностями забезпечує одночасне отримання обома потоками одного й того ж_conditional_ по часовому кроку. Уявіть це як метроном, якому слухають обидва музиканти під час виступу. Коли процес деноїзування робить крок деноїзингу, обидва потоки корегуються разом, підтримуючи злагоджений прогрес. Це спільне умовлення запобігає відхиленням у довгих послідовностях генерації.

Асиметрія здається контрінтуїтивною, доки не зрозумієш її витонченість. Ви не примушуєте дві різні проблеми помістити в одну однакову коробку. Ви будуєте дві коробки, розмір яких відповідає фактичним проблемам, а потім розробляєте надійні канали зв’язку між ними. Результат — система, яка зберігає синхронізацію, водночас залишаючись обчислювально ефективною.

Навчання для синхронізації

Архітектура дозволяє досягати синхронізації, але саме навчання навчає моделю дійсно її досягати. Процес вчить дві дуже різні задачі розвиватися разом.

LTX-2 обробляє текст через багатомовний текстовий енкодер Gemma3, який розуміє підказки на різних мовах. Але чисті ембеддинги тексту не працюють. Текст має бути уточнений через процес виділення ознак та текстовий конектор, який готує його до роботи з компонентами, специфічними для модальностей.

Пайплайн розуміння тексту показує, як сирі підказки кодуються та уточнюються для модальностно-специфічного кондиціювання. Ознаки витягуються та зʼєднуються, щоб відповідно направляти генерацію як аудіо, так і відео.

Цей пайплайн є ключовим, бо один й той самий текст має керувати двома генераторами з дуже різними вимогами до інформації. Коли підказка говорить «темний та містичний», для відео це означає інше (низьке освітлення, тіні, приглушені кольори), а для аудіо — мінорна тональність, рідкісна інструментація, тривожні тони. Виділювач ознак навчається, які аспекти тексту мають значення для кожної модальності, а текстовий конектор транслює це в сигнали кондиціювання, які кожен потік може ефективно використовувати.

Під час навчання обидва потоки деноїзують шумні аудіо-відео пари на одному й тому ж часовому кроці паралельно. Якщо вони обрали різні шляхи або отримували різне кондиційне сигналювання, вони б природно відхилилися в ході генераційної послідовності. Спільне використання інформації про часові кроки через AdaLN та вимагання звертати увагу один на одного в кількох точках створює обмеження, які навчають синхронізації за потреби. Модель вчиться, що залишатися вирівняними не опціонально — це спосіб, як зменшується втрата.

Перед тим як потоки щось обробляють, сигнали стискуються. Аудіо та відео кодуються в латентні представлення за допомогою причинних варіаційних автоенкодерів. «Caуsal» означає, що кодування поважає часовий порядок: попередні кадри не залежать від майбутньої інформації. Це критично для стабільного навчання, оскільки запобігає витоку інформації через час. Обидва потоки далі працюють у стислих латентних просторах, а не у сирих пікселях та хвилях, що знижує обчислювальне навантаження та полегшує вивчення закономірностей.

Керування генерацією за допомогою подібного до модальностей керування

Під час генерації користувачі хочуть мати контроль. «Зробити діалог більш помітним.» «Збільшити амбієнтну музику.» «Зробити аудіо більш прив’язаним до дій на екрані.» Але наївні механізми керування не працюють у мультимодальних умовах.

Якщо намагатися керувати аудіо та відео разом одним сигналом керування, вони часто сперечаються між собою. Накладати більше відповідності тексту може зробити аудіо надто буквальним, тоді як відео залишатиметься природним, або навпаки. Рішенням є модальност-орієнтоване керівництво без класифікатора, яке розглядає керівництво як кілька незалежних компонентів.

Мультимодальне керівництво без класифікатора об’єднує три компоненти: базову генерацію, відповідність тексту та крос-модальну синхронізацію. Кожен з них можна контролювати independently, щоб формувати як якість, так і вирівнювання виходу.

Механізм працює шляхом поєднання трьох сигналів. Перший — повністю умовне,… модельне вихід, згенерований з текстовою та крос-модальною інформацією. Другий — напрям керування текстом, який приштовхує вихід ближче до слідування опису. Третій — напрям міжмодального керівництва, який ставить аудіо та відео в кращу синхронізацію між собою.

Остаточний прогноз поєднує всі три компоненти з незалежними вагами керування. Саме така роздільність надає механізму потужності. Ви можете збільшити керівництво текстом, не впливаючи на те, як тісно аудіо та відео координуються. Або збільшити міжмодальне керівництво, щоб аудіо точніше слідувало за візуальними діями, зберігши константність дотримання тексту.

Без цієї незалежності посилення керівництва може фактично зменшити аудіовізуальне узгодження, оскільки одна модальність перевищує потрібне. Modality-CFG запобігає цьому, розглядаючи узгодження як окрему оптимізаційну мету, окремо від дотримання тексту. Користувач може мислити на високому рівні: «Нехай аудіо більш тісно слідує за візуальною дією» або «Нехай аудіо розвиває власну емоційну атмосферу, водночас підтримуючи візуальне», і механізм керівництва перетворює це на зміни до процесу генерації.

Що насправді означає синхронізована аудіовізуальна генерація

Інженерна складність має сенс не лише як технічна новизна. LTX-2 генерує аудіодоріжки так, ніби їх створила людина, яка спочатку переглянула відео.

Це йдеться не лише про діалоги. Хоча мова важлива, справжнє досягнення — скоординований фоновий звук. Коли герой відчиняє двері у відео, аудіо містить реалістичний звук відкриття дверей у той момент, коли двері рухаються. Коли вони заходять у ліс, аудіо переходить до атмосферного звучання довкілля — вітер між деревами та віддалений спів птахів. Коли вони взаємодіють з предметами, фолій-звукові елементи реагують на їхні дії.

Семантична когерентність виникає природно. Модель навчається, що дії відео повинні викликати відповідні аудіо-відповіді. Удар кулаком повинен супроводжуватися зусиллям повітря та відгуком удару. Персонаж, що біжить, має кроки, які відповідають довжині кроку та поверхні. Розмова має відповідати рухам губ та емоційному підтексту.

Емоційна улагодженість виходить за межі окремих звуків. Темні, тіністi сцени отримують напружений аудіоряд. Яскраві, відкриті простори — більш світлий, просторовий звуковий ландшафт. Модель вчиться, що емоційна арка відео повинна відображатися у прогресії аудіо. Сцена, що наближається до кульмінації, отримує аудіо, яке нарощує напругу. Розв’язка супроводжується аудіо, що розв’язує його разом із ним.

Тимчасова синхронізація — там, де обмеження архітектури дають результат. Рухи рота узгоджуються з фонемами діалогу. Звуки кроків лягають точно в момент торкання землі. Музика наростає та координується з зростанням візуальної інтенсивності. Це важко досягти за допомогою постобробки, але випливає природно з архітектури, розробленої для синхронізації в реальному часі.

Рисунок 3 надає докази того, що це дійсно відбувається під час генерації.

Візуалізація карт перехресного уваги аудіо-відео, що показує, на які частини відео під час різних стадій генерації звертає увагу потік аудіо, і навпаки. Карти демонструють навчені взаємозв’язки синхронізації.

Уважність карт усереднюється по головах уваги та шарах, показуючи, які регіони аудіо обирає відеопотік, а які регіони відеопотік обирає аудіопотік. Ранні етапи прогнозування (показані карти V2A та A2V) свідчать, що потоки вчаться відчутним відповідностям, а не випадковим паттернам уваги.

Практична ефективність

Створення єдиної аудіовізуальної моделі може здаватися обчислювально витратним. Результат полягає в тому, що LTX-2 насправді є більш ефективним за окремі моделі, водночас досягаючи якості, порівнянної з пропрієтарними системами, які використовують значно більше обчислювальних ресурсів.

Кількість параметрів становить 14 мільярдів для відео та 5 мільярдів для аудіо, всього 19 мільярдів. Це значно, але не надмірно для фундаментальної моделі. Асиметричне розподілення запобігає марнотратству потужності на будь-яку з модальностей. Сіметричний підхід вимагав би або дублікації 19 мільярдів параметрів для обох модальностей, або запуск двох повністю окремих моделей з власним резервом.

Інференс практичний. Модель генерує аудіовізуальний контент зі швидкістю, що конкурує з пропрієтарними рішеннями або перевищує їх, використовуючи менше обчислювальних ресурсів. Це означає, що систему можна розгорнути, а не це лише науковий артефакт, який потребує спеціального обладнання або непомірної затримки.

Усі ваги моделі та код публічно випущені, що означає, що ефективність переходить у доступність. Дослідники можуть будувати на основі цього фундаменту, донастроювати для конкретних застосувань та розгортати без обмежень ліцензій. Обчислювальна досяжність робить експерименти можливими.

Асиметричний дизайн з двостороннім крос-уваженням дає кращі результати з меншою надлишковою копією, ніж альтернативи. Ви не розв’язуєте одне й те саме завдання двічі або не дублюєте зусилля. Ви спеціалізуєте кожен потік під його реальні потреби, з одночасною тісною синхронізацією. Цей принцип — розподіл ресурсів асиметрично з підтримкою тісної синхронізації модальностей — виходить за межі цієї конкретної праці. Це корисна евристика для будь-якої мультимодальної генераційної задачі, де різні модальності мають принципово різні вимоги.

Оригінальний допис: Читайте на AIModels.fyi

Доказ корисності

Хакатон Proof of Usefulness — глобальний шестимісячний виклик для розробників, спрямований на винагороду реальних корисних для світу проектів та ініціатив. З призовим фондом понад 150 000 доларів США у грошових призах та кредитами на програмне забезпечення для переможців, а також понад 1 500 доларів США вартості програмного забезпечення та запасів для учасників, це беззаперечно найбільший конкурс року. Дізнайтеся більше тут.

HI-FI News

через HackerNoon – ai https://ift.tt/ENYedfw

26 січня 2026 р. о 03:01

January 26, 2026 at 03:01AM

AI Finally Learned That Movies Need Audio Too

Коментарі

Залишити відповідь Скасувати коментар