SLAP: Масштабоване попереднє навчання мови та аудіо з змінною тривалістю аудіо та навчанням з кількома цілями
https://ift.tt/bfg3yUp
Контрастивне попереднє навчання мови та аудіо (CLAP) досягло значних успіхів у навчанні семантично багатих аудіо-репрезентацій і широко використовується для різних завдань, пов’язаних з аудіо. Однак поточні моделі CLAP стикаються з кількома ключовими обмеженнями. По-перше, зазвичай вони навчаються на порівняно невеликих наборах даних, які часто складаються з кількох мільйонів аудіозразків. По-друге, існуючі моделі CLAP обмежені короткою та фіксованою тривалістю, що обмежує їх використання у реальних сценаріях з аудіо з змінною тривалістю. По-третє, стандартна контрастивна навчальна мета працює зі глобальними репрезентаціями, що може перешкоджати навчанню щільних, дрібнозернистих аудіо-ознаках.
Щоб подолати ці виклики, ми запроваджуємо Scalable Language-Audio Pretraining (SLAP), який масштабує попереднє навчання мови та аудіо до 109 мільйонів пар аудіо та тексту з змінною тривалістю аудіо та включає кілька навчальних завдань. SLAP об’єднує контрастивні втрати з додатковими самонаглядовими втратами та втратами на створення підписів у одноетапному навчанні, що полегшує навчання більш багатих щільних аудіо-репрезентацій. Запропонована модель SLAP досягає нових передових результатів у завданнях пошуку аудіо за текстом та класифікації аудіо без попереднього навчання (zero-shot), демонструючи її ефективність на різноманітних бенчмарках.
HI-FI News
через штучний інтелект https://ift.tt/oEelRtO
21 січня 2026 р. о 05:52
January 21, 2026 at 05:52AM

Залишити відповідь