Випаровування розмов: абстрактне ущільнення контексту розмовного аудіо для ASR на основі LLM
https://ift.tt/3WKL2mP
Стандартні системи розпізнавання мови на основі великих мовних моделей зазвичай обробляють висловлювання ізольовано, обмежуючи їх здатність використовувати контекст розмови. У цій роботі ми вивчаємо, чи покращує мультимодальний контекст із попередніх реплік ASR на основі LLM, і як ефективно його представити. Ми виявили, що після навчання з наглядом за кількома раундами контекст розмови здебільшого допомагає з розпізнавання контекстуальних сутностей. Проте використання сирого контексту є витратним, оскільки послідовність аудіо-токенів попередніх реплік швидко зростає із тривалістю розмови. Із цієї причини ми запропонували Абстрактне ущільнення, яке заміщає аудіо-частину попередніх реплік фіксованою кількістю навчених латентних токенів при збереженні відповідних транскриптів явним чином. На вбудованих та поза доменних тестових наборах компресована модель відновлює частину переваг умовного використання сирого контексту з меншою аудіо-частиною попередніх реплік. Також ми надаємо цілеспрямовані аналізи налаштувань компресії та їх компромісів.
HI-FI News
через Штучний інтелект https://ift.tt/QUVfdDN
30 березня 2026 року о 06:37
USDT українською:
March 30, 2026 at 06:37AM

Залишити відповідь