SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

від

у

SocialOmni: Бенчмарк аудіовізуальної соціальної взаємодії в омні-моделях

https://ift.tt/lvXHUu0

Omni-модальні великі мовні моделі (OLM) переосмислюють взаємодію людини з машиною, інтегруючи аудіо, зір та текст на рівні нативності. Однак існуючі бенчмарки OLM залишаються прив’язаними до статичних, орієнтованих на точність завдань, що створює критичний розрив у оцінці соціальної взаємодії — фундаментальної здатності розпізнавати динамічні сигнали під час природних діалогів. З цією метою ми пропонуємо SocialOmni, всебічний бенчмарк, який операціоналізує оцінювання цієї розмовної взаємодії за три основними вимірами: (i) розділення та ідентифікація спікера (хто говорить), (ii) контроль часу переривань (коли втручатися), та (iii) природне формулювання переривання під час взаємодії (як висловити переривання). SocialOmni включає 2 000 перцептивних зразків та набір діагностичних з 209 інстанцій генерації взаємодії з суворими часовими та контекстуальними обмеженнями, доповнений контрольованими сценаріями аудіовізуальної невідповідності для тестування стійкості моделей. Ми провели бенчмаркінг 12 провідних OLM, що виявило значні відмінності у їхніх здібностях до соціальної взаємодії між моделями. Додатково наш аналіз демонструє виразний розрив між перцепційною точністю моделі та її здатністю генерувати контекстуально відповідні переривання, вказуючи на те, що розуміння як метрика достатня не є для характеристики соціальної компетентності в розмові. Що більш заохочує, ці діагности з SocialOmni дають практичні сигнали для подолання розриву між сприйняттям та взаємодією в майбутніх OLM.

HI-FI News

через штучний інтелект https://ift.tt/GdxBr46

18 березня 2026 року о 04:13 ранку

March 18, 2026 at 04:13AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *