When Scaling Fails: Mitigating Audio Perception Decay of LALMs via Multi-Step Perception-Aware Reasoning

від

у

Коли масштабування не працює: пом’якшення зниження сприйняття аудіо за допомогою багатоступеневого розуміння, чутливого до сприйняття, для LALMs

https://ift.tt/Kk2i4eg

Тест-часове масштабування продемонструвало значну ефективність у вирішенні складних проблем за рахунок масштабування обчислення під час inference. Проте у великих аудіо-моделях на базі мовлення (LALMs) існує неінтуїтивний феномен: післянавчання моделей для структурованих траєкторій логічного мислення дають малі або навіть негативні вигоди порівняно з післянавчанням для прямої відповіді. Щоб дослідити це, ми запроваджуємо CAFE, рамку оцінювання, розроблену для точного вимірювання помилок у аудіо-розумінні. Результати оцінювання свідчать, що LALMs стикаються з труднощами у сприйнятті під час мислення й стикаються з критичною вузькою ниткою: продуктивність мислення страждає через зниження сприйняття аудіо з збільшенням довжини мислення. Чтобы це виправити, ми пропонуємо MPAR^2, парадигму, що заохочує динамічне перцепційне мислення та декомпозує складні запитання на підзадачі, багаті на сприйняття. Використовуючи навчання з підкріпленням, MPAR^2 підвищує сприйняття на CAFE з 31.74% до 63.51% і ефективно зменшує зниження сприйняття, водночас покращуючи можливості мислення та досягаючи значної точності 74.59% на контрольному наборі MMAU. Додатковий аналіз демонструє, що MPAR^2 підсилює у LALMs увагу до аудіо-входу та динамічно адаптує бюджет мислення відповідно до складності завдання.

HI-FI News

через Штучний Інтелект https://ift.tt/Z5bxUg6

4 березня 2026 року о 04:16 ранку

March 4, 2026 at 04:16AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *