Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Кві 14, 2026

—

від

Audio Flamingo Next: наступне покоління відкритих аудіо-мовних моделей для мови, звуків та музики

https://ift.tt/3KSh2q7

Ми представляємо Audio Flamingo Next (AF-Next), наступне покоління та найпотужніша велика аудіо-мовна модель у серії Audio Flamingo, призначена для поглиблення розуміння та логічного висновку щодо мовлення, фонових звуків та музики. Порівняно з Audio Flamingo 3 AF-Next впроваджує: (i) більш потужну базову аудіо-мовну модель, яка значно покращує точність у різних завданнях розуміння аудіо; (ii) масштабовані стратегії для конструювання великомасштабних даних розуміння аудіо та логічного висновку понад існуючі академічні бенчмарки; (iii) підтримку тривалих та складних аудіо-входів до 30 хвилин; та (iv) Temporal Audio Chain-of-Thought, нову парадигму мислення, яка явно прив’язує проміжні кроки висновку до часових міток у довгому аудіо, забезпечуючи детальне тимчасове узгодження та покращену інтерпретованість. Щоб реалізувати ці можливості, ми спочатку провели систематичний аналіз Audio Flamingo 3 для виявлення основних прогалин у розумінні аудіо та логіці висновку. Далі ми відібрали та масштабуємо нові великі набори даних загальним обсягом понад 1 мільйон годин, щоб усунути ці обмеження та розширити існуючі набори AudioSkills-XL, LongAudio-XL, AF-Think та AF-Chat. AF-Next навчалася за Curriculum-based стратегією, що охоплює етапи попереднього навчання, середнього навчання та постнавчання. Розширені експерименти за 20 завданнями з розуміння аудіо та логічного висновку, включаючи складні завдання з довгим аудіо, показують, що AF-Next випереджає за розміром подібні відкриті моделі значно за рахунок великих переваг і залишається високо конкурентоспроможною з і часом перевершує значно більші відкриті ваги та закриті моделі. Окрім бенчмарків, AF-Next демонструє сильну практичну користь у реальному світі та добре переноситься на невідомі завдання, підкреслюючи його надійність та здатність до узагальнення. Окрім всіх даних, коду та методів, ми відкриваємо три варіанти AF-Next, включаючи AF-Next-Instruct, AF-Next-Think та AF-Next-Captioner.

HI-FI News

через штучний інтелект https://ift.tt/OsDap2u

14 квітня 2026 року о 05:27 AM

April 14, 2026 at 05:27AM

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Коментарі

Залишити відповідь Скасувати коментар