Розплутування розумових процесів у великих аудіо-мовних моделях для неоднозначного прогнозування емоцій
https://ift.tt/8JC0yvY
Розпізнавання емоцій за мовленням відіграє важливу роль у різноманітних застосуваннях. Однак більшість існуючих підходів прогнозують одну емоційну мітку, надто спрощуючи внутрішньо неоднозначну природу людського вираження емоцій. Останні великі аудіо-мовні моделі демонструють обіцянку у створенні більш багатих результатів, але їхню здатність до логічного мислення щодо неоднозначного емоційного розуміння залишається обмеженою. У цій роботі ми переформулюємо розпізнавання неоднозначних емоцій як проблему розподільного мислення та представляємо перше систематичне дослідження мислення з урахуванням неоднозначності в LALM. Наша рамка складається з двох взаємодоповнюючих компонентів: об’єктиву з урахуванням неоднозначності, який узгоджує прогнози з людськими перцепційними розподілами, та структурованого нагляду за послідовністю мислення з урахуванням неоднозначності, який орієнтує розуміння на основі емоційних підказок. Експерименти на IEMOCAP та CREMA-D демонструють послідовні покращення за стратегій навчання SFT, DPO та GRPO.
HI-FI News
через Штучний інтелект https://ift.tt/z71eiQf
10 березня 2026 р. о 05:00 за місцевим часом
March 10, 2026 at 05:00AM

Залишити відповідь