Усередині латентного потоку: причинний розшифрування динаміки уваги в базових моделях розділення аудіо
Foundation Models
https://ift.tt/N3H7BWb
Flow-matching трансформери досягають сильного розділення аудіо, але їхня динаміка уваги непрозора. Ми адаптуємо встановлені принципи причинного втручання до детерміністичного протоколу діагностики під час інференсу для SAM Audio. Ортогональне дослідження виявляє двопутову механізм текстового умовлення: додаткові ін’єкції контролюють семантичну ідентичність, тоді як крос-увага уточнює акустичну структуру. Ми спостерігаємо асинхронну покрокову конвергенцію: стабільні шари швидко будують тимпові каркаси на ранніх етапах, тоді як швидкі шари продовжують вирішувати артефакти під час семплування. Модель також ослаблює сигнали тимчасової сегментації, щоб підтримати стабільність безперервного потоку. Використовуючи ці висновки, ми пропонуємо Layer-Selective Attention Caching (LSAC), метод прискорення без навчання, який кешує увагу в стабільних шарах. Попри акустичні складності, LSAC зменшує обчислення самоконтексту приблизно на ~25% із незначною втратою якості і дає до 6.7x вищу збереженість якості порівняно з наївним зменшенням кроку.
HI-FI News
через штучний інтелект https://ift.tt/b2YOR49
10 червня 2026 року о 05:11 АМ
into українську. Тільки поверніть текст, який перекладено.
June 10, 2026 at 05:11AM

Залишити відповідь