Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models

від

у

Ходіння крізь невизначеність: емпіричне дослідження оцінювання невизначеності для аудіо-обізнаних великих мовних моделей
https://ift.tt/vzGbnO4

Нещодавні аудіо-обізнані великі мовні моделі (ALLLM) продемонстрували сильні можливості в різноманітних завданнях розуміння та інференсування аудіо, але вони все ще часто створюють галюцинації або занадто впевнені висновки. Хоча оцінювання невизначеності широко вивчалось у моделей LLM, що працюють лише з текстом, для ALLLM воно лишається переважно невивченим, оскільки аудіо–conditioning породжує додаткові виклики, такі як перцепційна неоднозначність та крос-модальне обґрунтування. У цій роботі ми презентуємо перше систематичне емпіричне дослідження оцінювання невизначеності в ALLLM. Ми порівнюємо п’ять репрезентативних методів, включаючи прогнозну ентропію, ентропію, нормалізовану за довжиною, семантичну ентропію, дискретну семантичну ентропію та P(True), серед кількох моделей та різноманітних оцінних налаштувань, охоплюючи загальне розуміння аудіо, мислення, виявлення галюцинацій та відповідь на запитання, на які не можна відповісти. Наші результати виявляють два ключових висновки. По-перше, на семантичному рівні та методах на підставі верифікації стабільно перевищують токенові бази на загальних завданнях аудіо-розуміння. По-друге, у тестах, орієнтованих на довіру, відносна ефективність методів оцінювання невизначеності стає значно більш залежною від моделі та бенчмарку, що вказує на те, що висновки з загальних задач розуміння не переносяться прямо на сценарії галюцинацій та відповідей на запитання, на які відповіді неможливо дати. Ми також досліджуємо адаптивне виконання на основі невизначеності як потенційне прикладне застосування. Сподіваємося, що це дослідження закладе основу для майбутніх досліджень щодо надійних, зі свідомістю невизначеності аудіо-мовних систем.

HI-FI News

через штучний інтелект https://ift.tt/DGHp1OL

29 квітня 2026 року, 05:11 AM

April 29, 2026 at 05:11AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *