LTX-2 Brings Open-Source Audio-Visual Generation that Finally Catches Up to Sora and VEO

LTX-2 принесе генерацію аудіо-візуального контенту з відкритим вихідним кодом, яка нарешті наздожене Sora і VEO

Протягом минулого року генерація відео стала одним з найбільш обіцяючих застосувань технології штучного інтелекту. З поширенням відео від OpenAI Sora, Google VEO та Kling AI в соціальних мережах, генерація відео за допомогою ШІ стала майже невідворотною у сучасному онлайн середовищі. Це має багато довгострокових наслідків, але корисність цієї технології не слід недооцінювати або ігнорувати.

Технології з відкритим вихідним кодом відставали від цих власницьких моделей вже деякий час. Хоча вони могли генерувати відео високої якості в різних стилях з хорошим дотриманням запитів, як у випадку з Wan2.2, їм бракувало спареного аудіо. Хоча моделі Wan’s Sound-to-Video зробили крок у правильному напрямку, використання цих моделей для чогось на зразок створення контенту вимагало занадто багато зусиль через крутість навчальної кривої. Це суттєве обмеження утримувало ці технології з відкритим вихідним кодом від досягнення більш широкої, не технічної аудиторії і для корпоративного світу.

Це все готове змінитися з LTX-2. Справжній крок вперед для генерації відео з відкритим вихідним кодом, LTX-2 безперечно є найпотужнішою технологією генерації відео, яка коли-небудь була відкрита. Просто кажучи, “LTX-2 — це модель аудіо-відео на основі DiT, призначена для генерації синхронізованого відео та аудіо в рамках однієї моделі.” Це потужне поєднання разом з ефективним дизайном моделі, який робить її можливим запускати на споживчих GPU, робить LTX-2 вражаючим інструментом для створення відео.

У цьому посібнику ми розглянемо, як працює LTX-2, досліджуючи його архітектурний конвеєр, а потім покажемо, як запустити LTX-2 на DigitalOcean Gradient, використовуючи ComfyUI.

LTX-2 — справжній крок вперед для генерації відео, об’єднуючи моделювання аудіо та відео в одному конвеєрі.

LTX-2 легко запустити на Gradient AI, використовуючи NVIDIA GPU.

LTX-2 вже зараз доступний для безкоштовного запуску на Hugging Face.

LTX-2 — це об’єднана модель генерації відео та аудіо. В її основі лежить асиметричний двострімний трансформер, який має окремі відео- та аудіопотоки, спарені з “двобічними крос-підбірками аудіо-відео з часовими позиційними вкладаннями та крос-модальним AdaLN для спільної умовної обробки в один момент часу.” Це об’єднання дозволяє більш ефективно генерувати обидва потоки, з більшим виділенням потужності для генерації відео, ніж для генерації аудіо.

Ми можемо бачити архітектуру моделі вище. На практиці сирі відео- та аудіосигнали кодуються в специфічні для модальності латентні токени через причинні VAE, в той час як текст обробляється через вдосконалену вкладану конвеєра. Двострімний дифузійний трансформер потім спільно очищає аудіо- та відеолатенти, використовуючи двобічну аудіовізуальну крос-підбірку та текстову корекцію для генерації синхронізованих аудіовізуальних виходів.

Щоб це зробити можливим, команда Lightricks зробила кілька досягнень у технології комп’ютерного зору та генерації аудіо. Зокрема, документ про LTX-2 містить чотири основні внески, зроблені для цього випуску:

– Ефективна асиметрична архітектура двострімного трансформера: основа на основі трансформера з модальностями, що пов’язані через двобічну крос-підбірку та крос-модальний AdaLN для спільної умовної обробки в один момент часу.

– Блоки обробки тексту з токенами роздумів: вони також розробили новий модуль умовної обробки тексту, який використовує багато токенів для передбачення, щоб покращити розуміння запитів і семантичну стабільність.

– Компактне нейронне подання аудіо: для обробки аудіо вони створили ефективний причинний аудіо-вариаційний автоенкодер (VAE), який виробляє високоякісний 1D латентний простір, оптимізований для обробки та інференції на основі дифузії.

– Модальність-обізнаний класіфікатор без керівництва: нова бімодальна схема налаштування, яка дозволяє незалежно контролювати масштаб крос-модальної корекції, значно покращуючи узгодженість аудіо та відео.

Всі ці досягнення роблять LTX-2 найбільш ефективною моделлю відео з відкритим вихідним кодом, яка об’єднує генерацію відео та аудіо в одному конвеєрі.

Тепер, коли ми розглянули, як працює модель, можемо перейти до демонстрації. Щоб розпочати, увійдіть у DigitalOcean Gradient і створіть GPU Droplet. Ми рекомендуємо використовувати NVIDIA H100 або H200 GPU для запуску LTX-2, але він також повинен працювати на NVIDIA A6000. Як тільки ваш Droplet буде налаштовано, отримайте до нього доступ через SSH у терміналі вашого комп’ютера.

Налаштування GPU Droplet

Дотримуйтесь інструкцій у цьому посібнику, щоб налаштувати ваш GPU Droplet, якщо ви ще цього не зробили. Потім ви використаєте SSH для доступу до GPU Droplet на вашій локальній машині за допомогою VS Code або Cursor. Тримайте вікно терміналу та відкритим вікно VS Code/Cursor для подальшої роботи.

Налаштування ComfyUI та завантаження моделей

Використовуючи вікно терміналу, підключене до GPU Droplet, перейдіть до вибраної директорії. Як тільки ви там опинитеся, вставте наступний код, щоб встановити ComfyUI на GPU Droplet, завантажити необхідні моделі для LTX-2, після чого запустіть ComfyUI та отримайте до нього доступ з допомогою простого браузера VS Code/Cursor:

git clone https://ift.tt/cK1WFyP
cd ComfyUI
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
cd models/text_encoders
wget https://ift.tt/9If0ntH
cd ../checkpoints
wget https://ift.tt/kuEBILK
cd ../latent_upscale_models
wget https://ift.tt/z8Q65OJ
cd ../loras
wget https://ift.tt/TCje637
cd ../custom_nodes
git clone https://ift.tt/7oqgu9d
cd ComfyUI-LTXVideo/
pip install -r requirements.txt
cd ../..
python main.py

Якщо це завершено, візьміть URL-адресу, яка виводиться (за замовчуванням це http://127.0.0.1:8188) та використовуйте просту функцію браузера VS Code/Cursor для доступу до нього у вашому локальному браузері.

Запуск LTX-2

Тепер, щоб запустити робочий процес LTX-2, ми можемо перейти до лівого боку вікна, щоб отримати доступ до значка шаблонів на панелі інструментів. Клікніть на нього, а потім шукайте та виберіть шаблон “LTX-2 Text to Video”. Це завершить нашу налаштування. Тепер, якщо ми натиснемо “run”, ми отримаємо стандартне відео ляльки, яка співає про дощ. Ми не можемо поділитися відео на цій платформі, але ось гіфка з відео без звуку.

З цього моменту ми можемо натиснути вікно запиту, щоб змінити відео виходу, а також змінити розмір/довжину відео. Рекомендуємо експериментувати з усіма вашими ідеями. Модель відзначається створенням відео зі звуком, тому обов’язково включайте запити з “цитованими” мовленнями, звуковими сигналами та музикою.

Для генерації відео з зображенням повертайтеся до меню вибору шаблонів і шукайте шаблон “LTX-2 Image to Video”. Ви можете ввести будь-яке зображення, яке ви створили або зробили в реальному житті, і анімувати їх за допомогою запиту. Наприклад, ми можемо сказати статичному зображенню пляжної сцени перетворитися на повну анімацію відео з розбиваються хвилями, крикуючими чайками та вітряним пляжем. Ось приклад саме цього:

З наших експериментів очевидно, що, принаймні, для цього першого випуску LTX-2, можливості тексту в відео значно перевершують можливості зображення в відео. Це трохи прикро, але ми очікуємо, що в майбутніх версіях моделі, на що команда LTX-2 від Lightricks уже пообіцяла.

LTX-2, можливо, є найвражаючою моделлю, з якою ми мали можливість грати у сфері відео. Навіть більш ніж VEO-3 і Sora 2, ми вражені швидкістю та доступністю моделі з відкритим вихідним кодом. Ми заохочуємо всіх спробувати цю модель на Gradient сьогодні!

HI-FI Новини

через DigitalOcean Community Tutorials

January 14, 2026 at 01:39AM

LTX-2 Brings Open-Source Audio-Visual Generation that Finally Catches Up to Sora and VEO

Коментарі

Залишити відповідь Скасувати коментар