Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

Чер 16, 2026

—

від

Спектро-часова інтерференція заплутує фазове кодування в базових моделях просторового аудіо

https://ift.tt/yhDaNz5

Нещодавні просторові самонавчаючі аудіо-моделі досягають високої продуктивності в задачах локалізації, що підвищує питання щодо їх кодування мікросекундних міжвушних фазових структур. Ми пропонуємо психоакустичний бенчмарк на основі різниці рівнів бінурального заглушення для оцінки цього. Використовуючи базовий лінійний еквалізаційно-скасувальний підхід та позитивний контроль GCC PHAT, ми оцінюємо дев’ять заморожених аудіо-моделей, що охоплюють бінуральний SSL, моноуральний SSL та нейронні аудіо-кодеки. Чотири моноуральні негативні контрольні зразки дають нульовий BMLD, підтверджуючи бінуральну специфічність. Дві загальнокористувацькі моделі бінурального SSL демонструють мінімальну чутливість до фази, тоді як спеціалізовані бінуральні просторові SSL-моделі досягають BMLD, порівнянного з аналітичною базою. Прогресивні фізичні абляції показують, що загальноцільові моделі бінурального SSL покладаються на текстури спектро-часової інтерференції, а не на обчислення фази між каналами. Високі показники в розпізнаванні мови відображають заплутану залежність від широкосмугових огорток, а не від справжнього кодування фази.

HI-FI News

через Штучний інтелект https://ift.tt/io90GuB

16 червня 2026 р. о 06:14 за годинником

в українську. Повністю повернути тільки текст, який було перекладено.

June 16, 2026 at 06:14AM

Spectro-Temporal Interference Confounds Phase Encoding in Spatial Audio Foundation Models

Коментарі

Залишити відповідь Скасувати коментар