Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

від

у

Випаровування розмов: абстрактне ущільнення контексту розмовного аудіо для ASR на основі LLM

https://ift.tt/3WKL2mP

Стандартні системи розпізнавання мови на основі великих мовних моделей зазвичай обробляють висловлювання ізольовано, обмежуючи їх здатність використовувати контекст розмови. У цій роботі ми вивчаємо, чи покращує мультимодальний контекст із попередніх реплік ASR на основі LLM, і як ефективно його представити. Ми виявили, що після навчання з наглядом за кількома раундами контекст розмови здебільшого допомагає з розпізнавання контекстуальних сутностей. Проте використання сирого контексту є витратним, оскільки послідовність аудіо-токенів попередніх реплік швидко зростає із тривалістю розмови. Із цієї причини ми запропонували Абстрактне ущільнення, яке заміщає аудіо-частину попередніх реплік фіксованою кількістю навчених латентних токенів при збереженні відповідних транскриптів явним чином. На вбудованих та поза доменних тестових наборах компресована модель відновлює частину переваг умовного використання сирого контексту з меншою аудіо-частиною попередніх реплік. Також ми надаємо цілеспрямовані аналізи налаштувань компресії та їх компромісів.

HI-FI News

через Штучний інтелект https://ift.tt/QUVfdDN

30 березня 2026 року о 06:37
USDT українською:

March 30, 2026 at 06:37AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *