Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

від

у

Echoes Over Time: Розкриття довготривалої узгодженості в моделях генерації з відео в аудіо
https://ift.tt/J6GHIkX

Засноване на масштабуванні мультимодальної узгодженості між відео та аудіо, це завдання є складним, зокрема через обмежені дані та різницю між текстовими описами та кадрами відео. У цій роботі ми розглядаємо проблему масштабу в мультимодальній-до-Audio генерації, досліджуючи, чи можуть моделі, навчальні на коротких прикладах, узагальнюватися на довші під час тестування. Щоб подолати цю проблему, ми представляємо мультимодальні ієрархічні мережі так звані MMHNet, поліпшене розширення сучасних моделей з відео в аудіо. Наш підхід поєднує ієрархічний метод та не causальну Mamba для підтримки довгоформатного аудіо. Запропонований нами метод значно покращує генерацію довгого аудіо більш ніж до 5 хвилин. Ми також доводимо, що тренування на коротких тривалах і тестування на довших можливе у задачах відео-до-аудіо без навчання на довших тривалостях. У наших експериментах ми показуємо, що запропонований метод може досягати вражаючих результатів на довгих відео-до-аудіо бенчмарках, випереджаючи попередні роботи у задачах відео-до-аудіо. Більше того, ми демонструємо здатність нашої моделі генерувати більш ніж 5 хвилин, тоді як попередні методи відео-до-аудіо не досягають довготривалої генерації.

HI-FI News

через Штучний інтелект https://ift.tt/mcL7Tug

25 лютого 2026 року, 04:13 AM

February 25, 2026 at 04:13AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *