LTX-2.3 Open Source! Audio-Video Sync, 20s 4K Video on GPU

від

у

LTX-2.3 Відкритий код! Синхронізація аудіо-відео, 20 с 4K-відео на GPU

https://ift.tt/bzr0sBQ

LTX-2.3 Відкритий код! Синхронізація аудіо-відео, 20-секундне 4K-відео на GPU

Коротко: Lightricks нещодавно відкрили вихідний код LTX-2.3, покращеної версії LTX-2. Аудіо-відео синхронізоване генерування, підтримка 4K, тривалість 20 секунд, працює на локальному GPU, у 18 разів швидше WAN 2.2!

🎬 Ера „Аудіо-відео синхронізація” для моделей відкритого коду відео

Якщо ви слідкуєте за генерацією відео за допомогою штучного інтелекту, напевно бачили „продукцію” від великих гравців, таких як Sora та Veo. Але сьогоднішній герой — компанія Lightricks — вони нещодавно відкрили вихідний код LTX-2.3, відеопрод model, що дійсно працює локально та генерує аудіо-відео синхронно.

Це не «іграшка» — це інструмент виробничої якості, яким ви можете користуватися одразу.

🔥 Основна перевага: Синхронізований аудіо-відео генератор

Проблема старого часу

Будь-хто, хто використовував моделі генерації відео, знає загальну проблему:

  • Відео згенероване, аудіо потрібно додавати окремо
  • Ліп-сінк не відповідає (лип-синхронізація хаотична)
  • Звукові ефекти та фонову музику потрібно доробляти у постійно

Рішення LTX-2.3

Аудіо та відео генеруються одночасно в одній моделі:

  • ✅ Дії, діалоги, навколишні звуки, музика синхронізовані
  • ✅ До 20 секунд безперервного відео (з синхронізованим аудіо)
  • ✅ Перший у відкритому коді діти DiT-базованої основи аудіо-відео моделі

Це фактично відкриття основної можливості Sora.

📊 Дані продуктивності: 18x швидше

Продуктивність у дата-центрі (H100)

Джерело: Офіційний блог Lightricks — Research → Performance

Метрика LTX-2 WAN 2.2 14B
Кроки/хв (H100) ≈18x 1x
Роздільна здатність 1080p/1440p/4K
FPS 24/25/48/50
Тривалість До 20 с
Витрати на обчислення Зменшення на 50%

Що означає 18x швидкість? Те, що іншим потрібно 1 годину, у вас виходить за 3 хвилини.

⚠️ Дані зауваження: дані швидкості 18x основані на тестуванні LTX-2.3. Як оновлена версія, LTX-2.3 має подібні або кращі показники.

🎮 Два режими: Fast vs Pro

Fast Flow

Для швидкої ітерації та швидкого зворотнього зв’язку:

  • Роздільна здатність: 1080p/1440p/4K
  • FPS: 24/25/48/50
  • Тривалість: До 20 секунд
  • Низьке обчислювальне навантаження, швидка рендеринг

Pro Flow

Для сценаріїв, що потребують високої якості:

  • Роздільна здатність: 1080p/1440p/4K
  • FPS: 24/25/48/50
  • Тривалість: До 20 секунд
  • Покращена деталізація та стабільність

🛠️ Контрольні можливості: Точність на рівні кадру

1. Генерація з врахуванням глибини

Керування структурою сцени та просторовою глибиною.

Промпт: Широкий кінематографічний аерий знімок гірської пустелі під час золотої години. Вежа з пісковику ловить тепле помаранчеве світло, оглядає безмежну посушливу котловину та шарасті кам’янисті пагорби під м’яким, туманним пастельним небом.

2. OpenPose-зумовлена рухомість

Керівництво позою людини та рухом для точного контролю.

Промпт: 3D анімований середній кадр юнакового астронавта з блондинистим волоссям у червоному космічному костюмі, що стоїть всередині стильного білого шатла. Він впевнено дивиться на велике панорамне вікно, яке відкриває яскраву галактику.

3. Контроль камери

  • Статичні кадри
  • Доллі в/на вийти
  • Доллі вліво/право
  • 3D-логіка камери

🎨 LoRA-навчання: користувацькі стилі та персонажі

Style LoRA

  • Style LoRA: навчайте конкретні стилі за кілька хвилин
  • Character LoRA: підтримуйте послідовність персонажа
  • Час навчання: зазвичай менше 1 години

📦 Версії моделі

Версія Опис
ltx-2.3-22b-dev Повна модель, гнучка та навчальна (bf16)
ltx-2.3-22b-distilled Згущена версія, 8 кроків, CFG=1
ltx-2.3-22b-distilled-lora-384 LoRA-версія для повної моделі
ltx-2.3-spatial-upscaler-x2 2x просторове збільшення роздільної здатності
ltx-2.3-spatial-upscaler-x1.5 1.5x просторове збільшення
ltx-2.3-temporal-upscaler-x2 2x тимчасове збільшення

💻 Локальне розгортання: працює на GPU

Системні вимоги

  • Python >= 3.12
  • CUDA > 12.7
  • PyTorch ≈ 2.7

Кроки встановлення

git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2

# Синхронізація середовища з uv
uv sync
source .venv/bin/activate

Інтеграція ComfyUI

Рекомендовано: використовуйте вбудовані вузли LTXVideo у менеджері ComfyUI для зручної роботи в GUI — для початківців зручніше.

🌐 Онлайн-досвід

Не хочете розгортати локально? Спробуйте онлайн:

📝 Підсумок

Ключові особливості LTX-2.3:

  • Генерація аудіо-відео синхронізації – перша відкрито-орієнтована основна модель на базі DiT
  • Підтримка 4K-роздільної здатності – варіанти 1080p/1440p/4K
  • 20-секундна тривалість – безперервні кліпи (з синхронізованим аудіо)
  • 18x швидкість – LTX-2 приблизно в 18 разів швидший за WAN 2.2 на H100*
  • Локальне розгортання – працює на GPU, без залежності від хмари
  • Open Source та безкоштовність – Open-Weights License

*Джерело: Офіційний блог Lightricks — Дані по продуктивності в дата-центрі (H100)

Якщо ви працюєте з відео на базі ШІ, короткими відео або створенням контенту, ця модель варта вашої уваги.

Пов’язані посилання:

Джерело: Офіційний GitHub Lightricks, HuggingFace, Технічний звіт, Офіційний блог

HI-FI News

через DEV Community https://dev.to

8 березня 2026 р. о 16:48

March 8, 2026 at 04:48PM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *