Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

від

у

Розплутування розумових процесів у великих аудіо-мовних моделях для неоднозначного прогнозування емоцій

https://ift.tt/8JC0yvY

Розпізнавання емоцій за мовленням відіграє важливу роль у різноманітних застосуваннях. Однак більшість існуючих підходів прогнозують одну емоційну мітку, надто спрощуючи внутрішньо неоднозначну природу людського вираження емоцій. Останні великі аудіо-мовні моделі демонструють обіцянку у створенні більш багатих результатів, але їхню здатність до логічного мислення щодо неоднозначного емоційного розуміння залишається обмеженою. У цій роботі ми переформулюємо розпізнавання неоднозначних емоцій як проблему розподільного мислення та представляємо перше систематичне дослідження мислення з урахуванням неоднозначності в LALM. Наша рамка складається з двох взаємодоповнюючих компонентів: об’єктиву з урахуванням неоднозначності, який узгоджує прогнози з людськими перцепційними розподілами, та структурованого нагляду за послідовністю мислення з урахуванням неоднозначності, який орієнтує розуміння на основі емоційних підказок. Експерименти на IEMOCAP та CREMA-D демонструють послідовні покращення за стратегій навчання SFT, DPO та GRPO.

HI-FI News

через Штучний інтелект https://ift.tt/z71eiQf

10 березня 2026 р. о 05:00 за місцевим часом

March 10, 2026 at 05:00AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *