Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

від

у

Очистка перед злиттям: до безмаскового підвищення якості мовлення для надійного аудіовізуального розпізнавання мовлення

https://ift.tt/1y9MGNh

Аудіовізуальне розпізнавання мовлення (AVSR) зазвичай підвищує точність розпізнавання в шумних умовах, інтегруючи візуальні ознаки, стійкі до шуму, із аудіосигналами. Проте вхідні аудіосигнали з високим рівнем шуму можуть вносити шкідливі перешкоди в процес злиття ознак. Щоб пом’якшити це, нещодавні методи AVSR часто застосовують маскові стратегії для фільтрації шуму під час взаємодії та злиття ознак, однак такі методи ризикують вилучати семантично релевантну інформацію разом із шумом. У цій роботі ми пропонуємо енд-ту-енд рамку AVSR, стійку до шуму, у парі з покращенням мовлення, що позбавляє потреби явної генерації шумової маски. Ця рамка використовує модуль вузькопропускного злиття на базі Conformer, який неявно уточнює шумні аудіоособливості за допомогою відеопідтримки. Зменшуючи надмірність модальностей та підвищуючи міжмодальні взаємодії, наш метод зберігає семантичну цілісність мовлення для досягнення надійної точності розпізнавання. Експериментальні оцінки на публічному бенчмарку LRS3 свідчать, що наш метод перевершує раніше відомі бази на основі масок за умов шуму.

HI-FI News

через штучний інтелект https://ift.tt/oEelRtO

21 січня 2026 року о 05:52 ранку

January 21, 2026 at 05:52AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *