Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models

від

у

Масштабування неоднозначності: розширення людської розмітки в розпізнаванні емоцій у мовленні за допомогою аудіо-мовних моделей

Моделі розпізнавання емоцій у мовленні зазвичай використовують одну категорійну мітку, пропускаючи внутрішню неоднозначність людських емоцій.

Розпізнавання емоцій із неоднозначністю вирішує це, представляючи емоції як ймовірнісні розподіли, але прогрес обмежується ненадійними розподілами істинних значень, які виводяться з обмеженої кількості людських розміток.

У цій роботі досліджується, чи можуть великі аудіо-мовні моделі (ALMs) пом’якшити вузькість аннотацій шляхом генерування високоякісних синтетичних розміток.

Ми пропонуємо рамку, яка використовує ALMs для створення синтетичних перцепційних проксі, що доповнюють людські розмітки з метою підвищення надійності розподілів істинних значень.

Ми перевіряємо ці проксі за допомогою статистичного аналізу їх відповідності людським розподілам і оцінюємо їх вплив шляхом тонкого донавчання ALMs на оновлених розподілах емоцій.

Крім того, з метою вирішення дисбалансу класів та забезпечення неупередженого оцінювання, ми пропонуємо DiME-Aug, стратегію мультимодального розширення емоцій з урахуванням розподілів.

Експерименти на IEMOCAP та MSP-Podcast показують, що синтетичні розмітки покращують розподіл емоцій, особливо у регіонах з низькою неоднозначністю, де узгодженість між розмітниками висока.

Однак переваги зменшуються для дуже неоднозначних емоцій, де існує більша людська розбіжність.

Ця робота надає перші докази того, що ALMs можуть вирішити проблему дефіциту аннотацій у неоднозначному розпізнаванні емоцій, але підкреслює потребу у більш просунутих підказках або стратегіях генерації для обробки дуже неоднозначних випадків.

Новини HI-FI

через штучний інтелект

22 січня 2026 року о 04:10

January 22, 2026 at 04:10AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *