
Lightricks випустила першу відкриту аудіовізуальну модель з відкритим кодом, яка генерує синхронізований 4K при 50 кадрах за секунду.
Lightricks випустила першу відкриту аудіовізуальну модель з відкритим кодом, яка генерує синхронізований 4K при 50 кадрах за секунду (19 млрд параметрів).
Я згенерував відео за допомогою штучного інтелекту, і існує постійна «нічна» проблема синхронізації: або ви генеруєте відео та аудіо окремо (ручне вирівнювання виснажує), або отримуєте аудіо як пізніше додаток з проблемами ліп-скінгу та атмосферними звуками, які не відповідають діям на екрані. Існуючі моделі розглядають аудіо як постобробку — накладають його поверх візуального контенту, а не генерують разом з ним. Ви або приймаєте несинхронізований звук, або витрачаєте години в редакторському програмному забезпеченні на виправлення часових проблем.
Натисніть Enter або клацніть, щоб переглянути зображення у повному розмірі.
Lightricks щойно оприлюднила відкритий код LTX-2, і це перша модель на базі DiT, яка генерує синхронізоване аудіо та відео за один прогін. 20-секундні кліпи у нативному 4K роздільній здатності, 50 кадрів за секунду, з діалогами, атмосферними звуками та музикою, природно узгодженими з рухами на екрані. Розглядаючи архітектуру та бенчмарки, це не просто швидше генерування — це принципово інший підхід, де аудіо та відео використовують взаємну увагу один до одного, що робить синхронізацію невід’ємною частиною процесу генерації, а не завданням постфактум.
Що насправді робить
LTX-2 генерує повноцінні аудіовізуальні враження з текстових підказок або зображень. Ви описуєте сцену, і воно створює відео з синхронізованим аудіо — кроки збігаються з дією на екрані.
HI-FI News
через машинне навчання на Medium
21 січня 2026 р. о 04:29 ранку
January 21, 2026 at 04:29AM

Залишити відповідь