CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation

Січ 26, 2026

—

від

CORD: Подолання розриву між аудіо- та текстовим міркуванням за допомогою зваженої он-полі крос-модальної дистиляції

https://ift.tt/BUJySh6

Великі аудіо-мовні моделі (LALMs) привернули значний інтерес до досліджень. Незважаючи на те, що вони побудовані на текстових великих мовних моделях (LLMs), LALMs часто демонструють зниження рівня знань та можливостей міркування. Ми припускаємо, що ця обмеженість виникає через неефективність існуючих навчальних парадигм у подоланні акустико-семантичного розриву у просторі представленості ознак. Щоб вирішити це завдання, ми пропонуємо CORD, єдину рамку узгодження, яка виконує онлайн-крос-модальну самодистиляцію. Зокрема, вона узгоджує аудіо-обумовлене міркування з відповідним текстовим міркуванням у єдиній моделі. Використовуючи текстову модальність як внутрішнього вчителя, CORD виконує багаторівневий вирівнювання протягом процесу прогону аудіо. На рівні токенів воно використовує обернену KL-дивергенцію за політикою зважуванням, що враховує важливість, для пріоритетності ранніх та семантично критичних токенів. На рівні послідовності CORD вводить глобальну винагороду, засновану на судді, для оптимізації повних траєкторій міркувань через Групову відносну оптимізацію політики (GRPO). Емпіричні результати на кількох бенчмарках демонструють, що CORD стабільно підвищує аудіо-обумовлене міркування та суттєво зменшує розрив між аудіо та текстом за допомогою лише 80 тис. синтетичних навчальних зразків, підтверджуючи ефективність та економію даних нашого он-полі багаторівневого крос-модального вирівнювання.

HI-FI Новини

через штучний інтелект https://ift.tt/uCfQsNW

26 січня 2026 р. о 04:12 ранку

January 26, 2026 at 04:12AM

CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation

Коментарі

Залишити відповідь Скасувати коментар