PoDAR: Розділення за потужністю в аудіо-представленнях для генеративного моделювання
https://ift.tt/WTiY4hm
Продуктивність аудіо латентних моделей дифузії в основному визначається виразністю генератора та моделюваністю базового латентного простору. Хоча останні дослідження здебільшого зосереджувалися на першому, а також на покращенні відтворювальної точності аудіокодеків, ми показуємо, що моделюваність латентного простору можна значно покращити за рахунок явного факторного розділення. Ми представляемо PoDAR (Power-Disentangled Audio Representation), рамку, яка використовує випадковий аугментацію потужності та об’єктив консистентності латентного простору для розділення сигналу за потужністю від незмінного семантичного змісту. Це факторизація полегшує моделювання латентного простору, що як прискорює збіг downstream-генеративних моделей, так і покращує кінцеву загальну продуктивність. При застосуванні до Stable Audio 1.0 VAE з генератором F5-TTS PoDAR досягає приблизно в 2 рази більшого прискорення збігу з базовою продуктивністю, водночас збільшуючи кінцеву подібність мовця на 0.055 та UTMOS на 0.22 на датасеті LibriSpeech-PC. Крім того, ізоляція потужності в окремі канали дозволяє застосовувати CFG виключно до контенту, інваріантного щодо потужності, effectively розширюючи режим стабільного керування на вищі масштаби.
HI-FI News
via Artificial Intelligence https://ift.tt/5b4wZGf
12 травня 2026 р. о 06:29 ранку
May 12, 2026 at 06:29AM

Залишити відповідь