Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

Чер 8, 2026

—

від

Активування акустичних підказок у аудіо-моделях мови для розпізнавання емоцій у мові
https://ift.tt/o8LPWw5

Інструкційно-орієнтовані аудіомовні моделі (ALMs) можна доповнити явними акустичними підказками, проте залишаєтся неясним, чи використовуються такі підказки в обґрунтований спосіб, коли сирий аудіо вже доступне. Ми вивчаємо це питання в розпізнаванні емоцій у мові (SER), шляхом отримання шести інтерпретованих акустичних концептуальних токенів із стандартизованого набору паралінгвістичних ознак eGeMAPS. Ці токени підсумовують енергію, висоту тону, динаміку, яскравість, форманти та якість голосу, і додаються до текстового запиту, тоді як аудіо-вхід залишають без змін. У широко використаних бенчмарках FAU-Aibo та IEMOCAP поєднані токени покращують неконтрольований середній відсоток повторюваності (UAR), тоді як випадково зміщені, конфліктуючі або зіпсовані токени знижують продуктивність порівняно з вирівняними токенами і шуми конфузій зсуває до нейтралу. Важливо, що передбачення не зникають під сильними збуреннями токенів, що свідчить: моделі чутливі до символічного каналу підказок, але залишаються частково прив’язаними до аудіосигналу. Ми вважаємо, що втручання лише за токенами є практичним способом дослідити використання підказок, орієнтованих на аудіо, їх стійкість та інтерпретованість у базі на ALM для афективних обчислень.

HI-FI News

через Штучний Інтелект https://ift.tt/OriNAJZ

8 червня 2026 року о 05:13 (за світовим часом)

June 8, 2026 at 05:13AM

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

Коментарі

Залишити відповідь Скасувати коментар