Exploring Token-Space Manipulation in Latent Audio Tokenizers

від

у

Дослідження маніпуляцій із простором токенів у латентних аудіо-токенізаторах

https://ift.tt/gxYCh16

Нейронні аудіокоди забезпечують компактні дискретні представлення для генерування та маніпуляції мовленням. Однак більшість кодеків організовують токени як послідовності на рівні кадрів, що ускладнює вивчення або втручання у глобальні фактори варіації. У цій роботі ми пропонуємо латентний аудіо-токенізатор для редагування простору токенів (LATTE), який додає фіксований набір навчальних латентних токенів до послідовності аудіо-функцій і зберігає лише ці токени для квантизації та декодування. Такий дизайн створює компактний, нечасово узгоджений вузький бурднок, де кожен токен може агрегувати глобальну інформацію по всій вимові. Ми показуємо, що отриманий токенізатор зберігає конкурентну якість реконструкції у настройках кодування мовлення з низьким бітрейтами, водночас дозволяючи прості втручання в простір токенів. Зокрема, ми виявляємо, що обмін вибраними позиціями латентних токенів між вимовами може змінювати глобальні атрибути, такі як ідентичність говорителя та фоновий шум, і ми оцінюємо ці втручання у задачах конвертації голосу та деноїзингу. Наші результати натякають на те, що компактні латентні аудіо-токенізатори можуть підтримувати контрольовану маніпуляцію аудіо без нагляду в спеціалізованих моделях редагування завдань.

HI-FI News

через Штучний Інтелект https://ift.tt/5b4wZGf

13 травня 2026 р. о 05:20 за ранковим часом

May 13, 2026 at 05:20AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *