All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

від

у

Усе, що блищить, не є аудіо: переосмислення текстових передумов та залежності від аудіо в оцінюванні аудіо-мови
https://ift.tt/u4IGfwa

Великі моделі аудіо-мови демонструють стійке підвищення показників на аудіо- та мовних бенчмарках, однак високі оцінки не завжди відображають справжнє слухове сприйняття. Якщо модель може відповісти на запитання, не обробивши акустичний сигнал, бенчмарк не є надійним вимірюванням аудіових understanding. Ми подаємо діагностичну рамку із двома осями: текстові передумови, які вимірюють відповідність з тексту та загальним знанням, та залежність від аудіо, яка оцінює реальну залежність від акустичного сигналу. Оцінюючи вісім LALM на трьох бенчмарках, ми виявляємо, що моделі зберігають 60-72% від своїх повних аудіо-оцінок навіть без будь-якого аудіо входу. Більше того, серед завдань, які потребують аудіо, лише 3.0-4.2% потребують повного аудіокліпу; більшість можна вирішити за допомогою локалізованих фрагментів. Ці висновки кидають виклик припущенню, що продуктивність у бенчмарках дорівнює стійкому аудіо-розумінню, і ми завершуємо практичними рекомендаціями для підвищення надійності оцінювання та дизайну бенчмарків.

HI-FI News

через Штучний інтелект https://ift.tt/JujxGcO

28 квітня 2026 року, 05:21 ранку

April 28, 2026 at 05:21AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *