Посилання-залежна генерація аудіо сцени з кількома спікерами із використанням пріорів із референсів з-поза лабораторії
https://ift.tt/xUCvi2b
Існуючі системи мультимовного діалогу для кількох спікерів прив’язують мовців до висловлювань через структурований нагляд: теги на кожному кроці, транскрипції з кількома потоками або навчальні ембеддинги спікера. Ці системи працюють у рамках лише для мови, що генерують чисті вокальні послідовності без атмосфери реальної розмови. Ми обертаємося іншим шляхом. Наш метод ScenA стабілізує основу текст-до-аудіо з поточною відповідністю (flow-matching), попередньо навченою на великомасштабних даних із реальним середовищем, безпосередньо на кількох референсних голосах і вільному природному запиті, який описує цілісну сцену аудіо з кількома спікерами. Використання такої фундаментальної моделі дозволяє успадкувати її здатність до природного, не студійного аудіо: фоновий шум, акустику приміщення, перетин діалогів та спонтанні паролагічні події, одночасно додаючи контроль за кількістю спікерів без будь-якої структурної прив’язки до кожного кроку. Конкретно, референсні латенти конкатенуються у послідовність токенів моделі та розрізняються за допомогою легких позиційних кодувань, пов’язаних із особистістю. Проте ми виявляємо критичну перешкоду цьому підходу: \textit{Референсна обхідна шляха} (Reference Shortcut). Під час навчання за звичайних графіках шуму модель може виявити відповідний референс за акустичною подібністю до шумної цілі, обходячи текстовий запит взагалі. Ми вирішуємо це за допомогою розподілу тимпстепів з високим зворотним зсуненням за шумом, який примушує модель покладатися на текстовий запит для призначення спікера. Ми оцінюємо ScenA на наборі CoVoMix2-Dialogue, де показуємо, що вона перевищує існуючі системи з кількома спікерами за метриками прив’язки спікера, водночас генеруючи багатий розмовний аудіо з перетинанням мовлення, емоційними вокалізаціями та фоновим звучанням. Наші результати демонструють перевагу використання загальнодоступної аудіо-моделі з умовою за вільним описом сцени, а не передачі структурованих діалогових сценаріїв через пайплайн лише з мовлення.
HI-FI News
через Штучний Інтелект https://ift.tt/aO5ujiA
18 червня 2026 р. о 05:11 AM
June 18, 2026 at 05:11AM

Залишити відповідь