Спектро-часова інтерференція заплутує фазове кодування в базових моделях просторового аудіо
https://ift.tt/yhDaNz5
Нещодавні просторові самонавчаючі аудіо-моделі досягають високої продуктивності в задачах локалізації, що підвищує питання щодо їх кодування мікросекундних міжвушних фазових структур. Ми пропонуємо психоакустичний бенчмарк на основі різниці рівнів бінурального заглушення для оцінки цього. Використовуючи базовий лінійний еквалізаційно-скасувальний підхід та позитивний контроль GCC PHAT, ми оцінюємо дев’ять заморожених аудіо-моделей, що охоплюють бінуральний SSL, моноуральний SSL та нейронні аудіо-кодеки. Чотири моноуральні негативні контрольні зразки дають нульовий BMLD, підтверджуючи бінуральну специфічність. Дві загальнокористувацькі моделі бінурального SSL демонструють мінімальну чутливість до фази, тоді як спеціалізовані бінуральні просторові SSL-моделі досягають BMLD, порівнянного з аналітичною базою. Прогресивні фізичні абляції показують, що загальноцільові моделі бінурального SSL покладаються на текстури спектро-часової інтерференції, а не на обчислення фази між каналами. Високі показники в розпізнаванні мови відображають заплутану залежність від широкосмугових огорток, а не від справжнього кодування фази.
HI-FI News
через Штучний інтелект https://ift.tt/io90GuB
16 червня 2026 р. о 06:14 за годинником
в українську. Повністю повернути тільки текст, який було перекладено.
June 16, 2026 at 06:14AM

Залишити відповідь