Do Audio-Visual Large Language Models Really See and Hear?

Кві 6, 2026

—

від

Чи справді аудиовізуальні великі мовні моделі бачать та чують?

https://ift.tt/sECRUKO

Аудиовізуальні великі мовні моделі (AVLLMs) з’являються як єдині інтерфейси для багатомодального сприйняття. Ми представляємо перше механістичне дослідження інтерпретованості AVLLMs, аналізуючи, як аудіо та візуальні ознаки еволюціонують та зливаються через різні шари AVLLM для формування кінцевих текстових виводів. Ми виявляємо, що хоча AVLLMs кодують багату аудіо семантику на проміжних шарах, ці можливості значною мірою не з’являються у фінальному генераторі тексту, коли аудіо суперечить зору. Аналізи з розвідки показывают, що корисна латентна аудіо інформація присутня, але глибші шари злиття частіше надають перевагу візуальним поданням, які зазвичай пригнічують аудіо сигнали. Ми далі з’ясовуємо це дисбаланс через навчання: аудіоповедінка AVLLM сильно відповідає базовій моделі з візуально-мовним базисом, що вказує на обмежене додаткове узгодження з аудіо наглядом. Наші висновки виявляють фундаментальну модальну упередженість в AVLLM та надають нові механістичні інсайти щодо того, як мультимодальні LLM інтегрують аудіо та зір.

HI-FI News

через Штучний інтелект https://ift.tt/itfKhw8

6 квітня 2026 р. о 05:10 за ранковим часом

April 6, 2026 at 05:10AM

Do Audio-Visual Large Language Models Really See and Hear?

Коментарі

Залишити відповідь Скасувати коментар