When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Бер 6, 2026

—

від

Коли денойзинг заважає: повторний розгляд нуль–shot ASR із SAM-Audio та Whisper

https://ift.tt/qwNECAi

Недавні досягнення в автоматичному розпізнаванні мови (ASR) та покращенні якості звуку призвели до широко розповсюдженої думки, що покращення перцепційної якості аудіо повинно безпосередньо підвищувати точність розпізнавання. У цій роботі ми суворо досліджуємо, чи дійсно це припущення справедливе для сучасних систем нуль-shot ASR. Ми представляємо систематичне емпіричне дослідження впливу Audio сегментною моделлю SAM-Audio від Meta AI, останньої моделі покращення якості мовлення на масштабі фундаменту, запропонованої Meta, коли її використовують як препроцесінг для нуль-Shot транскрипції з Whisper. Експерименти проводяться на кількох варіантах моделі Whisper та двох лінгвістично відмінних зашумлених наборах даних із мовою: реальний корпус бенгалійської мови з YouTube та відкритий англомовний зашумлений набір даних. Натомість від поширеної інтуїції наші результати показують, що попередня обробка SAM-Audio послідовно погіршує продуктивність ASR, збільшуючи як показники помилок слів (WER), так і помилки символів (CER) порівняно з сирим зашумленим мовленням, незважаючи на суттєве покращення якості сигналу на рівні сигналу. Об’єктивний аналіз пікової відношення сигналу до шуму (PSNR) англомовного набору підтверджує, що SAM-Audio створює акустично чистіші сигнали, але це покращення не перетворюється на виграші в розпізнаванні. Тому ми провели детальний аналіз на рівні окремих висловлювань, щоб зрозуміти цей контрінтуїтивний результат. Ми виявили, що погіршення розпізнавання є системною проблемою, яка стосується більшості аудіо, а не лише відокремлених винятків, і що помилки погіршуються зі збільшенням розміру моделі Whisper. Ці висновки виявляють фундаментальне несумісність: аудіо, яке перцепційно чистіше для людського слухача, не обов’язково є надійним для машинного розпізнавання. Це висвітлює ризик беззастережного застосування передових методів денойзингу як препроцесінгу у пайплайнах нуль-Shot ASR.

HI-FI News

через штучний інтелект https://ift.tt/65VgcjM

6 березня 2026 р. о 04:17AM into ukrainian. Only returned the text that has been translated.

March 6, 2026 at 04:17AM

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Коментарі

Залишити відповідь Скасувати коментар