Lightricks Released the First Open-Source Audio-Video Model That Generates Synchronized 4K at 50…

від

у

Lightricks випустила першу відкриту аудіовізуальну модель з відкритим кодом, яка генерує синхронізований 4K при 50 кадрах за секунду.

Lightricks випустила першу відкриту аудіовізуальну модель з відкритим кодом, яка генерує синхронізований 4K при 50 кадрах за секунду (19 млрд параметрів).

Я згенерував відео за допомогою штучного інтелекту, і існує постійна «нічна» проблема синхронізації: або ви генеруєте відео та аудіо окремо (ручне вирівнювання виснажує), або отримуєте аудіо як пізніше додаток з проблемами ліп-скінгу та атмосферними звуками, які не відповідають діям на екрані. Існуючі моделі розглядають аудіо як постобробку — накладають його поверх візуального контенту, а не генерують разом з ним. Ви або приймаєте несинхронізований звук, або витрачаєте години в редакторському програмному забезпеченні на виправлення часових проблем.

Натисніть Enter або клацніть, щоб переглянути зображення у повному розмірі.

Lightricks щойно оприлюднила відкритий код LTX-2, і це перша модель на базі DiT, яка генерує синхронізоване аудіо та відео за один прогін. 20-секундні кліпи у нативному 4K роздільній здатності, 50 кадрів за секунду, з діалогами, атмосферними звуками та музикою, природно узгодженими з рухами на екрані. Розглядаючи архітектуру та бенчмарки, це не просто швидше генерування — це принципово інший підхід, де аудіо та відео використовують взаємну увагу один до одного, що робить синхронізацію невід’ємною частиною процесу генерації, а не завданням постфактум.

Що насправді робить

LTX-2 генерує повноцінні аудіовізуальні враження з текстових підказок або зображень. Ви описуєте сцену, і воно створює відео з синхронізованим аудіо — кроки збігаються з дією на екрані.

HI-FI News

через машинне навчання на Medium

21 січня 2026 р. о 04:29 ранку

January 21, 2026 at 04:29AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *