Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Бер 6, 2026

—

від

Підвищення стійкості ASR за рахунок адаптації під час тесту з використанням навчання з підкріпленням та аудіо-текстовими семантичними винагородами

https://ift.tt/NjEAvTx

Нещодавно системи автоматичного розпізнавання мови (ASR) (наприклад, Whisper) досягли значного покращення точності, але залишаються дуже чутливими до реальних незнайомих даних (дані з великим зсувом розподілу), включаючи шумні середовища та різноманітні акценти. Для вирішення цієї проблеми адаптація під час тесту (TTA) демонструє великий потенціал у підвищенні адаптивності моделі під час інференсу без опорних міток, а існуючі методи TTA часто покладаються на псевдоміткування або зменшення ентропії. Проте, розглядаючи впевненість моделі як навчальний сигнал, ці методи можуть посилювати помилки з високою впевненістю, що призводить до підтверджувального підсвідомого упередження, яке підриває адаптацію. Щоб подолати ці обмеження, ми презентуємо ASR-TRA, нову рамку адаптації під час тесту з навчанням з підкріпленням, натхненну causal intervention. Більш точно, наш метод запроваджує навчальний декодер-промпт і використовує стохастичне декодування з контролем температури для генерування різноманітних кандидатів транскрипцій. Ці кандидати оцінюються моделлю винагороди, яка вимірює семантичне узгодження між аудіо та текстом, а отриманий зворотний зв’язок використовується для оновлення параметрів як моделі, так і промпта за допомогою навчання з підкріпленням. Повномасштабні експерименти на LibriSpeech з синтетичним шумом та наборами даних англійської мови з другим мовним впливом L2 Arctic демонструють, що наш метод досягає більшої точності при збереженні нижчої затримки порівняно з існуючими базовими методами TTA. Абляційні дослідження підтверджують ефективність поєднання аудіо- та лінгвістичних винагород, підкреслюючи вдосконалену стабільність та інтерпретованість нашого методу. Загалом, наш підхід пропонує практичне та надійне рішення для розгортання систем ASR у складних реальних умовах.

HI-FI News

via Artificial Intelligence https://ift.tt/65VgcjM

6 березня 2026 р. о 04:17 (AM)

March 6, 2026 at 04:17AM

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Коментарі

Залишити відповідь Скасувати коментар