PoDAR: Power-Disentangled Audio Representation for Generative Modeling

від

у

PoDAR: Розділення за потужністю в аудіо-представленнях для генеративного моделювання

https://ift.tt/WTiY4hm

Продуктивність аудіо латентних моделей дифузії в основному визначається виразністю генератора та моделюваністю базового латентного простору. Хоча останні дослідження здебільшого зосереджувалися на першому, а також на покращенні відтворювальної точності аудіокодеків, ми показуємо, що моделюваність латентного простору можна значно покращити за рахунок явного факторного розділення. Ми представляемо PoDAR (Power-Disentangled Audio Representation), рамку, яка використовує випадковий аугментацію потужності та об’єктив консистентності латентного простору для розділення сигналу за потужністю від незмінного семантичного змісту. Це факторизація полегшує моделювання латентного простору, що як прискорює збіг downstream-генеративних моделей, так і покращує кінцеву загальну продуктивність. При застосуванні до Stable Audio 1.0 VAE з генератором F5-TTS PoDAR досягає приблизно в 2 рази більшого прискорення збігу з базовою продуктивністю, водночас збільшуючи кінцеву подібність мовця на 0.055 та UTMOS на 0.22 на датасеті LibriSpeech-PC. Крім того, ізоляція потужності в окремі канали дозволяє застосовувати CFG виключно до контенту, інваріантного щодо потужності, effectively розширюючи режим стабільного керування на вищі масштаби.

HI-FI News

via Artificial Intelligence https://ift.tt/5b4wZGf

12 травня 2026 р. о 06:29 ранку

May 12, 2026 at 06:29AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *