Коли масштабування не працює: пом’якшення зниження сприйняття аудіо за допомогою багатоступеневого розуміння, чутливого до сприйняття, для LALMs
https://ift.tt/Kk2i4eg
Тест-часове масштабування продемонструвало значну ефективність у вирішенні складних проблем за рахунок масштабування обчислення під час inference. Проте у великих аудіо-моделях на базі мовлення (LALMs) існує неінтуїтивний феномен: післянавчання моделей для структурованих траєкторій логічного мислення дають малі або навіть негативні вигоди порівняно з післянавчанням для прямої відповіді. Щоб дослідити це, ми запроваджуємо CAFE, рамку оцінювання, розроблену для точного вимірювання помилок у аудіо-розумінні. Результати оцінювання свідчать, що LALMs стикаються з труднощами у сприйнятті під час мислення й стикаються з критичною вузькою ниткою: продуктивність мислення страждає через зниження сприйняття аудіо з збільшенням довжини мислення. Чтобы це виправити, ми пропонуємо MPAR^2, парадигму, що заохочує динамічне перцепційне мислення та декомпозує складні запитання на підзадачі, багаті на сприйняття. Використовуючи навчання з підкріпленням, MPAR^2 підвищує сприйняття на CAFE з 31.74% до 63.51% і ефективно зменшує зниження сприйняття, водночас покращуючи можливості мислення та досягаючи значної точності 74.59% на контрольному наборі MMAU. Додатковий аналіз демонструє, що MPAR^2 підсилює у LALMs увагу до аудіо-входу та динамічно адаптує бюджет мислення відповідно до складності завдання.
HI-FI News
через Штучний Інтелект https://ift.tt/Z5bxUg6
4 березня 2026 року о 04:16 ранку
March 4, 2026 at 04:16AM

Залишити відповідь