Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models

від

у

Усередині латентного потоку: причинний розшифрування динаміки уваги в базових моделях розділення аудіо
Foundation Models
https://ift.tt/N3H7BWb

Flow-matching трансформери досягають сильного розділення аудіо, але їхня динаміка уваги непрозора. Ми адаптуємо встановлені принципи причинного втручання до детерміністичного протоколу діагностики під час інференсу для SAM Audio. Ортогональне дослідження виявляє двопутову механізм текстового умовлення: додаткові ін’єкції контролюють семантичну ідентичність, тоді як крос-увага уточнює акустичну структуру. Ми спостерігаємо асинхронну покрокову конвергенцію: стабільні шари швидко будують тимпові каркаси на ранніх етапах, тоді як швидкі шари продовжують вирішувати артефакти під час семплування. Модель також ослаблює сигнали тимчасової сегментації, щоб підтримати стабільність безперервного потоку. Використовуючи ці висновки, ми пропонуємо Layer-Selective Attention Caching (LSAC), метод прискорення без навчання, який кешує увагу в стабільних шарах. Попри акустичні складності, LSAC зменшує обчислення самоконтексту приблизно на ~25% із незначною втратою якості і дає до 6.7x вищу збереженість якості порівняно з наївним зменшенням кроку.

HI-FI News

через штучний інтелект https://ift.tt/b2YOR49

10 червня 2026 року о 05:11 АМ

into українську. Тільки поверніть текст, який перекладено.

June 10, 2026 at 05:11AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *