SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training

Січ 21, 2026

—

від

SLAP: Масштабоване попереднє навчання мови та аудіо з змінною тривалістю аудіо та навчанням з кількома цілями

https://ift.tt/bfg3yUp

Контрастивне попереднє навчання мови та аудіо (CLAP) досягло значних успіхів у навчанні семантично багатих аудіо-репрезентацій і широко використовується для різних завдань, пов’язаних з аудіо. Однак поточні моделі CLAP стикаються з кількома ключовими обмеженнями. По-перше, зазвичай вони навчаються на порівняно невеликих наборах даних, які часто складаються з кількох мільйонів аудіозразків. По-друге, існуючі моделі CLAP обмежені короткою та фіксованою тривалістю, що обмежує їх використання у реальних сценаріях з аудіо з змінною тривалістю. По-третє, стандартна контрастивна навчальна мета працює зі глобальними репрезентаціями, що може перешкоджати навчанню щільних, дрібнозернистих аудіо-ознаках.

Щоб подолати ці виклики, ми запроваджуємо Scalable Language-Audio Pretraining (SLAP), який масштабує попереднє навчання мови та аудіо до 109 мільйонів пар аудіо та тексту з змінною тривалістю аудіо та включає кілька навчальних завдань. SLAP об’єднує контрастивні втрати з додатковими самонаглядовими втратами та втратами на створення підписів у одноетапному навчанні, що полегшує навчання більш багатих щільних аудіо-репрезентацій. Запропонована модель SLAP досягає нових передових результатів у завданнях пошуку аудіо за текстом та класифікації аудіо без попереднього навчання (zero-shot), демонструючи її ефективність на різноманітних бенчмарках.

HI-FI News

через штучний інтелект https://ift.tt/oEelRtO

21 січня 2026 р. о 05:52

January 21, 2026 at 05:52AM

SLAP: Scalable Language-Audio Pretraining with Variable-Duration Audio and Multi-Objective Training

Коментарі

Залишити відповідь Скасувати коментар