Domain-Agnostic Causal-Aware Audio Transformer for Infant Cry Classification

від

у

Універсальний причинно-обізнаний аудіо-трансформер для класифікації дитячого плачу

Точна та інтерпретована класифікація паралінгвістики дитячого плачу є важливою для раннього виявлення неонатального стресу та підтримки клінічних рішень. Однак багато існуючих методів глибокого навчання покладаються на акустичні представлення, що ґрунтуються на кореляції, що робить їх вразливими до шуму, спонтанних підказок та змін доменів при запису. Ми пропонуємо DACH-TIC, універсальний причинно-обізнаний ієрархічний аудіо-трансформер для надійної класифікації дитячого плачу. Модель інтегрує причинну увагу, навчання ієрархічних представлень, багатозадачне навчання та суперечливу загальну генералізацію в єдиній структурі. DACH-TIC використовує структуровану основу трансформера з локальними токен-уровнями та глобальними семантичними кодувальниками, доповненими маскуванням причинної уваги та контролюючим навчанням з порушеннями для апроксимації контрфактичних акустичних варіацій. Мета діалогового суперництва сприяє стійким до навколишнього середовища представленням, тоді як багатозадачне навчання спільно оптимізує розпізнавання типу плачу, оцінку інтенсивності стресу та прогнозування причинної значущості. Модель оцінюється на наборах даних Baby Chillanto та Donate-a-Cry, з накладеннями екологічного шуму ESC-50 для розширення доменів. Експериментальні результати показують, що DACH-TIC перевершує найсучасніші базові моделі, включаючи HTS-AT та SE-ResNet Transformer, досягаючи покращень на 2.6 відсотка в точності та 2.2 бали в макро-F1 показнику, разом із покращеною причинною точністю. Модель ефективно узагальнює для невидимих акустичних середовищ, з розривом у показниках домену лише 2.4 відсотка, демонструючи свою придатність для систем моніторингу акустики новонароджених у реальному світі.

December 19, 2025 at 03:55AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *