SocialOmni: Бенчмарк аудіовізуальної соціальної взаємодії в омні-моделях
https://ift.tt/lvXHUu0
Omni-модальні великі мовні моделі (OLM) переосмислюють взаємодію людини з машиною, інтегруючи аудіо, зір та текст на рівні нативності. Однак існуючі бенчмарки OLM залишаються прив’язаними до статичних, орієнтованих на точність завдань, що створює критичний розрив у оцінці соціальної взаємодії — фундаментальної здатності розпізнавати динамічні сигнали під час природних діалогів. З цією метою ми пропонуємо SocialOmni, всебічний бенчмарк, який операціоналізує оцінювання цієї розмовної взаємодії за три основними вимірами: (i) розділення та ідентифікація спікера (хто говорить), (ii) контроль часу переривань (коли втручатися), та (iii) природне формулювання переривання під час взаємодії (як висловити переривання). SocialOmni включає 2 000 перцептивних зразків та набір діагностичних з 209 інстанцій генерації взаємодії з суворими часовими та контекстуальними обмеженнями, доповнений контрольованими сценаріями аудіовізуальної невідповідності для тестування стійкості моделей. Ми провели бенчмаркінг 12 провідних OLM, що виявило значні відмінності у їхніх здібностях до соціальної взаємодії між моделями. Додатково наш аналіз демонструє виразний розрив між перцепційною точністю моделі та її здатністю генерувати контекстуально відповідні переривання, вказуючи на те, що розуміння як метрика достатня не є для характеристики соціальної компетентності в розмові. Що більш заохочує, ці діагности з SocialOmni дають практичні сигнали для подолання розриву між сприйняттям та взаємодією в майбутніх OLM.
HI-FI News
через штучний інтелект https://ift.tt/GdxBr46
18 березня 2026 року о 04:13 ранку
March 18, 2026 at 04:13AM

Залишити відповідь