Do Audio-Visual Large Language Models Really See and Hear?

від

у

Чи справді аудиовізуальні великі мовні моделі бачать та чують?

https://ift.tt/sECRUKO

Аудиовізуальні великі мовні моделі (AVLLMs) з’являються як єдині інтерфейси для багатомодального сприйняття. Ми представляємо перше механістичне дослідження інтерпретованості AVLLMs, аналізуючи, як аудіо та візуальні ознаки еволюціонують та зливаються через різні шари AVLLM для формування кінцевих текстових виводів. Ми виявляємо, що хоча AVLLMs кодують багату аудіо семантику на проміжних шарах, ці можливості значною мірою не з’являються у фінальному генераторі тексту, коли аудіо суперечить зору. Аналізи з розвідки показывают, що корисна латентна аудіо інформація присутня, але глибші шари злиття частіше надають перевагу візуальним поданням, які зазвичай пригнічують аудіо сигнали. Ми далі з’ясовуємо це дисбаланс через навчання: аудіоповедінка AVLLM сильно відповідає базовій моделі з візуально-мовним базисом, що вказує на обмежене додаткове узгодження з аудіо наглядом. Наші висновки виявляють фундаментальну модальну упередженість в AVLLM та надають нові механістичні інсайти щодо того, як мультимодальні LLM інтегрують аудіо та зір.

HI-FI News

через Штучний інтелект https://ift.tt/itfKhw8

6 квітня 2026 р. о 05:10 за ранковим часом

April 6, 2026 at 05:10AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *