Очистка перед злиттям: до безмаскового підвищення якості мовлення для надійного аудіовізуального розпізнавання мовлення
https://ift.tt/1y9MGNh
Аудіовізуальне розпізнавання мовлення (AVSR) зазвичай підвищує точність розпізнавання в шумних умовах, інтегруючи візуальні ознаки, стійкі до шуму, із аудіосигналами. Проте вхідні аудіосигнали з високим рівнем шуму можуть вносити шкідливі перешкоди в процес злиття ознак. Щоб пом’якшити це, нещодавні методи AVSR часто застосовують маскові стратегії для фільтрації шуму під час взаємодії та злиття ознак, однак такі методи ризикують вилучати семантично релевантну інформацію разом із шумом. У цій роботі ми пропонуємо енд-ту-енд рамку AVSR, стійку до шуму, у парі з покращенням мовлення, що позбавляє потреби явної генерації шумової маски. Ця рамка використовує модуль вузькопропускного злиття на базі Conformer, який неявно уточнює шумні аудіоособливості за допомогою відеопідтримки. Зменшуючи надмірність модальностей та підвищуючи міжмодальні взаємодії, наш метод зберігає семантичну цілісність мовлення для досягнення надійної точності розпізнавання. Експериментальні оцінки на публічному бенчмарку LRS3 свідчать, що наш метод перевершує раніше відомі бази на основі масок за умов шуму.
HI-FI News
через штучний інтелект https://ift.tt/oEelRtO
21 січня 2026 року о 05:52 ранку
January 21, 2026 at 05:52AM

Залишити відповідь