Echoes Over Time: Розкриття довготривалої узгодженості в моделях генерації з відео в аудіо
https://ift.tt/J6GHIkX
Засноване на масштабуванні мультимодальної узгодженості між відео та аудіо, це завдання є складним, зокрема через обмежені дані та різницю між текстовими описами та кадрами відео. У цій роботі ми розглядаємо проблему масштабу в мультимодальній-до-Audio генерації, досліджуючи, чи можуть моделі, навчальні на коротких прикладах, узагальнюватися на довші під час тестування. Щоб подолати цю проблему, ми представляємо мультимодальні ієрархічні мережі так звані MMHNet, поліпшене розширення сучасних моделей з відео в аудіо. Наш підхід поєднує ієрархічний метод та не causальну Mamba для підтримки довгоформатного аудіо. Запропонований нами метод значно покращує генерацію довгого аудіо більш ніж до 5 хвилин. Ми також доводимо, що тренування на коротких тривалах і тестування на довших можливе у задачах відео-до-аудіо без навчання на довших тривалостях. У наших експериментах ми показуємо, що запропонований метод може досягати вражаючих результатів на довгих відео-до-аудіо бенчмарках, випереджаючи попередні роботи у задачах відео-до-аудіо. Більше того, ми демонструємо здатність нашої моделі генерувати більш ніж 5 хвилин, тоді як попередні методи відео-до-аудіо не досягають довготривалої генерації.
HI-FI News
через Штучний інтелект https://ift.tt/mcL7Tug
25 лютого 2026 року, 04:13 AM
February 25, 2026 at 04:13AM

Залишити відповідь