Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

від

у

Чи слухають аудіо-моделі з мовленням? Голівудні спеціалісти з аудіо на шляху до адаптивного аудіо-напрямку

https://ift.tt/n9MKSfA

Мультимодальні великі мовні моделі можуть демонструвати домінування тексту, надмірно покладатися на лінгвістичні пріори, замість того щоб обґрунтовувати прогнози на основі не текстових входів. Одним із прикладів є великі аудіо-мовні моделі (LALMs), де вирішальне аудіо-доказування може використовуватися не повністю, навіть якщо воно містить важливу інформацію. Щоб вирішити цю проблему, ми використовуємо механістичну інтерпретацію для виявлення невеликого набору увагових голів, що спеціалізуються на аудіо, чия аудіо-увага дає сигнал «слухання». Ми показуємо, що цей сигнал збільшується, коли аудіо-оточні доказування впливають на вихід моделі, надаючи індикатор аудіо-залучення за стандартного підказування. Використовуючи цю локалізацію, ми формуємо напрямок керування аудіо–тихе (audio–silence steering) і застосовуємо інференційно-часову активаційну інтервенцію до кінцевого уявлення, посилюючи аудіо-ефект моделі. Щоб продемонструвати корисність цієї інтервенції, ми показуємо на MMAU, що це підвищує точність до +8.0 відсоткових пунктів на двох LALMs на базі Qwen, без оновлення параметрів.

HI-FI News

через штучний інтелект https://ift.tt/z71eiQf

10 березня 2026 року о 05:00 за ранковою часом.

March 10, 2026 at 05:00AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *