
LTX-2.3 Відкритий код! Синхронізація аудіо-відео, 20 с 4K-відео на GPU
https://ift.tt/bzr0sBQ
LTX-2.3 Відкритий код! Синхронізація аудіо-відео, 20-секундне 4K-відео на GPU
Коротко: Lightricks нещодавно відкрили вихідний код LTX-2.3, покращеної версії LTX-2. Аудіо-відео синхронізоване генерування, підтримка 4K, тривалість 20 секунд, працює на локальному GPU, у 18 разів швидше WAN 2.2!
🎬 Ера „Аудіо-відео синхронізація” для моделей відкритого коду відео
Якщо ви слідкуєте за генерацією відео за допомогою штучного інтелекту, напевно бачили „продукцію” від великих гравців, таких як Sora та Veo. Але сьогоднішній герой — компанія Lightricks — вони нещодавно відкрили вихідний код LTX-2.3, відеопрод model, що дійсно працює локально та генерує аудіо-відео синхронно.
Це не «іграшка» — це інструмент виробничої якості, яким ви можете користуватися одразу.
🔥 Основна перевага: Синхронізований аудіо-відео генератор
Проблема старого часу
Будь-хто, хто використовував моделі генерації відео, знає загальну проблему:
- Відео згенероване, аудіо потрібно додавати окремо
- Ліп-сінк не відповідає (лип-синхронізація хаотична)
- Звукові ефекти та фонову музику потрібно доробляти у постійно
Рішення LTX-2.3
Аудіо та відео генеруються одночасно в одній моделі:
- ✅ Дії, діалоги, навколишні звуки, музика синхронізовані
- ✅ До 20 секунд безперервного відео (з синхронізованим аудіо)
- ✅ Перший у відкритому коді діти DiT-базованої основи аудіо-відео моделі
Це фактично відкриття основної можливості Sora.
📊 Дані продуктивності: 18x швидше
Продуктивність у дата-центрі (H100)
Джерело: Офіційний блог Lightricks — Research → Performance
| Метрика | LTX-2 | WAN 2.2 14B |
|---|---|---|
| Кроки/хв (H100) | ≈18x | 1x |
| Роздільна здатність | 1080p/1440p/4K | – |
| FPS | 24/25/48/50 | – |
| Тривалість | До 20 с | – |
| Витрати на обчислення | Зменшення на 50% | – |
Що означає 18x швидкість? Те, що іншим потрібно 1 годину, у вас виходить за 3 хвилини.
⚠️ Дані зауваження: дані швидкості 18x основані на тестуванні LTX-2.3. Як оновлена версія, LTX-2.3 має подібні або кращі показники.
🎮 Два режими: Fast vs Pro
Fast Flow
Для швидкої ітерації та швидкого зворотнього зв’язку:
- Роздільна здатність: 1080p/1440p/4K
- FPS: 24/25/48/50
- Тривалість: До 20 секунд
- Низьке обчислювальне навантаження, швидка рендеринг
Pro Flow
Для сценаріїв, що потребують високої якості:
- Роздільна здатність: 1080p/1440p/4K
- FPS: 24/25/48/50
- Тривалість: До 20 секунд
- Покращена деталізація та стабільність
🛠️ Контрольні можливості: Точність на рівні кадру
1. Генерація з врахуванням глибини
Керування структурою сцени та просторовою глибиною.
Промпт: Широкий кінематографічний аерий знімок гірської пустелі під час золотої години. Вежа з пісковику ловить тепле помаранчеве світло, оглядає безмежну посушливу котловину та шарасті кам’янисті пагорби під м’яким, туманним пастельним небом.
2. OpenPose-зумовлена рухомість
Керівництво позою людини та рухом для точного контролю.
Промпт: 3D анімований середній кадр юнакового астронавта з блондинистим волоссям у червоному космічному костюмі, що стоїть всередині стильного білого шатла. Він впевнено дивиться на велике панорамне вікно, яке відкриває яскраву галактику.
3. Контроль камери
- Статичні кадри
- Доллі в/на вийти
- Доллі вліво/право
- 3D-логіка камери
🎨 LoRA-навчання: користувацькі стилі та персонажі
Style LoRA
- Style LoRA: навчайте конкретні стилі за кілька хвилин
- Character LoRA: підтримуйте послідовність персонажа
- Час навчання: зазвичай менше 1 години
📦 Версії моделі
| Версія | Опис |
|---|---|
| ltx-2.3-22b-dev | Повна модель, гнучка та навчальна (bf16) |
| ltx-2.3-22b-distilled | Згущена версія, 8 кроків, CFG=1 |
| ltx-2.3-22b-distilled-lora-384 | LoRA-версія для повної моделі |
| ltx-2.3-spatial-upscaler-x2 | 2x просторове збільшення роздільної здатності |
| ltx-2.3-spatial-upscaler-x1.5 | 1.5x просторове збільшення |
| ltx-2.3-temporal-upscaler-x2 | 2x тимчасове збільшення |
💻 Локальне розгортання: працює на GPU
Системні вимоги
- Python >= 3.12
- CUDA > 12.7
- PyTorch ≈ 2.7
Кроки встановлення
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
# Синхронізація середовища з uv
uv sync
source .venv/bin/activate
Інтеграція ComfyUI
Рекомендовано: використовуйте вбудовані вузли LTXVideo у менеджері ComfyUI для зручної роботи в GUI — для початківців зручніше.
🌐 Онлайн-досвід
Не хочете розгортати локально? Спробуйте онлайн:
- API Playground: https://console.ltx.video/playground/
- LTX Desktop: https://ltx.io/ltx-desktop
📝 Підсумок
Ключові особливості LTX-2.3:
- ✅ Генерація аудіо-відео синхронізації – перша відкрито-орієнтована основна модель на базі DiT
- ✅ Підтримка 4K-роздільної здатності – варіанти 1080p/1440p/4K
- ✅ 20-секундна тривалість – безперервні кліпи (з синхронізованим аудіо)
- ✅ 18x швидкість – LTX-2 приблизно в 18 разів швидший за WAN 2.2 на H100*
- ✅ Локальне розгортання – працює на GPU, без залежності від хмари
- ✅ Open Source та безкоштовність – Open-Weights License
*Джерело: Офіційний блог Lightricks — Дані по продуктивності в дата-центрі (H100)
Якщо ви працюєте з відео на базі ШІ, короткими відео або створенням контенту, ця модель варта вашої уваги.
Пов’язані посилання:
- GitHub: https://github.com/Lightricks/LTX-2
- HuggingFace: https://huggingface.co/Lightricks/LTX-2.3
- Офіційна документація: https://docs.ltx.video/
- Технічний звіт: https://huggingface.co/papers/2601.03233
- Офіційний блог: https://ltx.video/blog/introducing-ltx-2
Джерело: Офіційний GitHub Lightricks, HuggingFace, Технічний звіт, Офіційний блог
HI-FI News
через DEV Community https://dev.to
8 березня 2026 р. о 16:48
March 8, 2026 at 04:48PM

Залишити відповідь