Ходіння крізь невизначеність: емпіричне дослідження оцінювання невизначеності для аудіо-обізнаних великих мовних моделей
https://ift.tt/vzGbnO4
Нещодавні аудіо-обізнані великі мовні моделі (ALLLM) продемонстрували сильні можливості в різноманітних завданнях розуміння та інференсування аудіо, але вони все ще часто створюють галюцинації або занадто впевнені висновки. Хоча оцінювання невизначеності широко вивчалось у моделей LLM, що працюють лише з текстом, для ALLLM воно лишається переважно невивченим, оскільки аудіо–conditioning породжує додаткові виклики, такі як перцепційна неоднозначність та крос-модальне обґрунтування. У цій роботі ми презентуємо перше систематичне емпіричне дослідження оцінювання невизначеності в ALLLM. Ми порівнюємо п’ять репрезентативних методів, включаючи прогнозну ентропію, ентропію, нормалізовану за довжиною, семантичну ентропію, дискретну семантичну ентропію та P(True), серед кількох моделей та різноманітних оцінних налаштувань, охоплюючи загальне розуміння аудіо, мислення, виявлення галюцинацій та відповідь на запитання, на які не можна відповісти. Наші результати виявляють два ключових висновки. По-перше, на семантичному рівні та методах на підставі верифікації стабільно перевищують токенові бази на загальних завданнях аудіо-розуміння. По-друге, у тестах, орієнтованих на довіру, відносна ефективність методів оцінювання невизначеності стає значно більш залежною від моделі та бенчмарку, що вказує на те, що висновки з загальних задач розуміння не переносяться прямо на сценарії галюцинацій та відповідей на запитання, на які відповіді неможливо дати. Ми також досліджуємо адаптивне виконання на основі невизначеності як потенційне прикладне застосування. Сподіваємося, що це дослідження закладе основу для майбутніх досліджень щодо надійних, зі свідомістю невизначеності аудіо-мовних систем.
HI-FI News
через штучний інтелект https://ift.tt/DGHp1OL
29 квітня 2026 року, 05:11 AM
April 29, 2026 at 05:11AM

Залишити відповідь