TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

від

у

TLDR: Стиснення аудіо токенів для ефективного автокодового текстово-напіврозмовного синтезу мови (TTS)

https://ift.tt/5dg1y3M

Codec-основні автокодові мовні моделі для мови (AR) досягли сильної якості TTS, моделюючи мову як послідовності дискретних аудіо-токенів із великими попередньо навченою базою. Однак така токен-орієнтована формулювання створює структурний вузол ефективності: послідовності аудіо-токенів набагато довші за тексові послідовності, тож AR-бекбону потрібно виконувати причинне обчислення на кожній позиції токена та підтримувати KV- кеш, що зростає із довжиною послідовності. Ми представляємо TLDR, багатокастерну автокодову систему, що пришвидшує AR-TTS за рахунок перенесення причинного моделювання від токен-до речовидних патчів. TLDR групує послідовні кодек-токени в компактні латентні патчі за допомогою легкого компресора, моделює отриману коротшу послідовність патчів за допомогою замороженого попередньо навченного AR-TTS базового модуля, адаптованого за допомогою LoRA, та відтворює дрібніші аудіо токени всередині кожного патчу за допомогою витягувача, який залежить від спікера. При розмірі патчу 4 TLDR досягає 1.8x швидкості виведення порівняно з базовою моделлю AR-TTS і зменшує глобальну пам’ять KV-кеш на до 75%. Експериментальні результати свідчать, що глобальне причинне моделювання на рівні патчів може бути практичним способом зменшити витрати на інференс попередньо навченої(codec-based) AR-TTS систем без заміни існуючих модулів.

HI-FI News

через Штучний Інтелект https://ift.tt/J5UnS14

9 червня 2026 р. о 05:20 за ранковим часом

June 9, 2026 at 05:20AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *