Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models

Чер 10, 2026

—

від

Усередині латентного потоку: причинний розшифрування динаміки уваги в базових моделях розділення аудіо
Foundation Models
https://ift.tt/N3H7BWb

Flow-matching трансформери досягають сильного розділення аудіо, але їхня динаміка уваги непрозора. Ми адаптуємо встановлені принципи причинного втручання до детерміністичного протоколу діагностики під час інференсу для SAM Audio. Ортогональне дослідження виявляє двопутову механізм текстового умовлення: додаткові ін’єкції контролюють семантичну ідентичність, тоді як крос-увага уточнює акустичну структуру. Ми спостерігаємо асинхронну покрокову конвергенцію: стабільні шари швидко будують тимпові каркаси на ранніх етапах, тоді як швидкі шари продовжують вирішувати артефакти під час семплування. Модель також ослаблює сигнали тимчасової сегментації, щоб підтримати стабільність безперервного потоку. Використовуючи ці висновки, ми пропонуємо Layer-Selective Attention Caching (LSAC), метод прискорення без навчання, який кешує увагу в стабільних шарах. Попри акустичні складності, LSAC зменшує обчислення самоконтексту приблизно на ~25% із незначною втратою якості і дає до 6.7x вищу збереженість якості порівняно з наївним зменшенням кроку.

HI-FI News

через штучний інтелект https://ift.tt/b2YOR49

10 червня 2026 року о 05:11 АМ

into українську. Тільки поверніть текст, який перекладено.

June 10, 2026 at 05:11AM

Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models

Коментарі

Залишити відповідь Скасувати коментар