AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

Чер 15, 2026

—

від

AudioDER: набір даних з дедуплікацією для причинного мислення після тренування великих аудіо-мовних моделей
https://ift.tt/t48WHnr

Великі аудіо-мовні моделі (LALMs) демонструють сильні результати у широкому спектрі завдань розуміння аудіо, але їм усе ще бракує складного аудіо-логічного мислення. Практичний спосіб покращити такі можливості — після-навчання, ефективність якого критично залежить від якості та різноманітності даних для навчання. Однак існуючі набори даних аудіо-мови часто містять значну надмірність, де багато зразків мають високу подібність за акустичним змістом і відповідно надають перекриті сигнали з боку нагляду. Така надмірність не лише збільшує вартість аннотованих даних, але й обмежує різноманітність корпусу та зменшує ефективність після-навчання. Щоб вирішити цю проблему, ми пропонуємо конструкторський конвеєр з урахуванням надмірності для побудови нагляду, орієнтованого на мислення, для LALMs. Зокрема, спочатку ми виконуємо дедуплікацію за акустичною подібністю на основі сирих аудіоданих для підвищення різноманітності корпусу. Далі інтегруємо існуючі аудіопояснення та запитальники з відповідями у єдину багатоваріантну форму. На основі цих узгоджених анотацій ми використаємо Qwen3-30B для генерації раціоналізацій ланцюга міркувань (CoT) для нагляду, орієнтованого на мислення. На основі цього конвеєру ми створюємо AudioDER, набір даних для пост-навчання з націленим на мислення наглядом, який містить приблизно 191 тис. зразків, що охоплюють звуки, мову та музику. Кожен зразок складається з аудіокліпу, питання з множинним вибором, чотирьох кандидатів відповідей, аудіопояснення та раціонал CoT. Розгорнуті експерименти показують, що пост-навчання на AudioDER послідовно підвищує продуктивність Qwen2-Audio-7B-Instruct за кількома аудіо-логічними бенчмарками, включаючи MMAU-mini, MMSU та MMAR. Сподіваємося, AudioDER стане цінним ресурсом для розвитку досліджень аудіо-логіки та створення більш потужних LALMs.

HI-FI News

через Штучний Інтелект https://ift.tt/ATvfFSq

15 червня 2026 р. 05:18 за сходом (UTC)

June 15, 2026 at 05:18AM

AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

Коментарі

Залишити відповідь Скасувати коментар