Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

від

у

Посилання-залежна генерація аудіо сцени з кількома спікерами із використанням пріорів із референсів з-поза лабораторії

https://ift.tt/xUCvi2b

Існуючі системи мультимовного діалогу для кількох спікерів прив’язують мовців до висловлювань через структурований нагляд: теги на кожному кроці, транскрипції з кількома потоками або навчальні ембеддинги спікера. Ці системи працюють у рамках лише для мови, що генерують чисті вокальні послідовності без атмосфери реальної розмови. Ми обертаємося іншим шляхом. Наш метод ScenA стабілізує основу текст-до-аудіо з поточною відповідністю (flow-matching), попередньо навченою на великомасштабних даних із реальним середовищем, безпосередньо на кількох референсних голосах і вільному природному запиті, який описує цілісну сцену аудіо з кількома спікерами. Використання такої фундаментальної моделі дозволяє успадкувати її здатність до природного, не студійного аудіо: фоновий шум, акустику приміщення, перетин діалогів та спонтанні паролагічні події, одночасно додаючи контроль за кількістю спікерів без будь-якої структурної прив’язки до кожного кроку. Конкретно, референсні латенти конкатенуються у послідовність токенів моделі та розрізняються за допомогою легких позиційних кодувань, пов’язаних із особистістю. Проте ми виявляємо критичну перешкоду цьому підходу: \textit{Референсна обхідна шляха} (Reference Shortcut). Під час навчання за звичайних графіках шуму модель може виявити відповідний референс за акустичною подібністю до шумної цілі, обходячи текстовий запит взагалі. Ми вирішуємо це за допомогою розподілу тимпстепів з високим зворотним зсуненням за шумом, який примушує модель покладатися на текстовий запит для призначення спікера. Ми оцінюємо ScenA на наборі CoVoMix2-Dialogue, де показуємо, що вона перевищує існуючі системи з кількома спікерами за метриками прив’язки спікера, водночас генеруючи багатий розмовний аудіо з перетинанням мовлення, емоційними вокалізаціями та фоновим звучанням. Наші результати демонструють перевагу використання загальнодоступної аудіо-моделі з умовою за вільним описом сцени, а не передачі структурованих діалогових сценаріїв через пайплайн лише з мовлення.

HI-FI News

через Штучний Інтелект https://ift.tt/aO5ujiA

18 червня 2026 р. о 05:11 AM

June 18, 2026 at 05:11AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *