Підсилювач: впровадження декомпозиції форми та амплітуди у нейронних аудіокодеках
Нейронні аудіокодеки (NAC) зазвичай кодують короткочасну енергію (амплітуду) та нормалізовану структуру (форму) мовлення/аудіо сигналів спільно у тому самому латентному просторі. В результаті вони мають низьку стійкість до глобальної варіації рівня вхідного сигналу: така варіація сильно впливає на вектори вбудовування на виході кодувателя та їх квантизацію. Ця методологія заganо неефективна, призводячи до надмірності таблиць кодів та субоптимальної продуктивності за бітрейт-спотворення. Щоб подолати ці обмеження, ми пропонуємо впровадити декомпозицію форми та амплітуди, широко використану в класичному кодуванні мовлення/аудіо, у рамковій NAC. Принцип запропонованої методики Equalizer полягає у розбитті вхідного сигналу — перед NAC-кодером — на вектор амплітуди та нормалізовану форму за короткостроковим принципом. Вектор форми обробляється NAC, тоді як амплітуда квантується скалярною квантизацією та передається окремо. Вихідний (розкодований) сигнал відтворюється з нормалізованого виходу NAC та квантизованої амплітуди. Наші експерименти на базі мовних сигналів показують, що ця загальна методологія, легко застосовна до будь-якого NAC, забезпечує суттєве підвищення бітрейт-спотворення, а також значне зниження складності.
February 18, 2026 at 04:15AM

Залишити відповідь