F3-Tokenizer: Taming Audio Autoencoder Latents for Understanding and Generation

від

у

F3-Tokenizer: приборкання латентів аудіо-автоенкодера для розуміння та генерації

https://ift.tt/1Ji8v4K

Не перериваючи тексту:
Безперервні автоенкодери аудіо добре відновлюють хвильові форми, але часто створюють латентні простори з слабкою структурою для розуміння, тоді як само‑навчені аудіо‑кодери захоплюють семантику, але не підлягають прямому розшифруванню. Це розбіжність ускладнює створення єдиного аудіо‑токенізатора, який повинен підтримувати як розуміння, так і генерацію. Ми адаптуємо латенти непрерывного автоенкодера до цього середовища за допомогою двох компонентів: вузький автоендоер із регуляризацією шуму та енкодер латентного простору. Вузький вузол використовує нормалізацію каналів та стохастичне збурення замість варіаційного навчання на основі KL, що дає масштаб‑контрольовані безперервні латенти для відтворення та авторегресійної генерації. Енкодер представлення навчається на заморожених латентах автоенкодера з RQ‑MTP та замороженим наглядом від LLM. Отриманий токенізатор надає високорозмірні представлення для розуміння, водночас зберігаючи нормалізовані безперервні латенти як цілі генерації.

HI-FI News

через штучний інтелект https://ift.tt/45HOzIN

5 червня 2026 р. о 08:47

into український. Only returned the text that has been translated.

June 5, 2026 at 08:47AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *