BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Approach for Self-Supervised Audio Representations

від

у

BEST-RQ-2: Контекстуалізація — потім передбачення, двоступеневий підхід до самонавчальних аудіорепрезентацій

https://ift.tt/Ln6wlxp

Самонавчальне навчання дозволяє отримати аудіорепрезентації, які переносяться між доменами та задачами. Ми презентуємо BEST-RQ-2, еволюцію BEST-RQ, що зберігає зафіксовані випадкові проекційні дискретні цілі, водночас запроваджуючи двоетапний режим попереднього навчання з контекстуалізацією і передбаченням. Контекстуальний енкодер ViT обробляє лише незмасковані ділянки спектрограми, а легкий предиктор виводить цілі для маскованих ділянок; предиктор відкидають після попереднього тренування. Замінюючи початковий конформер-енкодер на ViT, відбувається зміна продуктивності між доменами: трохи знижується якість розпізнавання мови, але покращується розпізнавання музики та навколишнього середовища, з порівнянними середніми оцінками. Основне покращення полягає у розбитті маскованого передбачення на окремі етапи контекстуалізації та передбачення. На тестах X-ARES та XARES-LLM BEST-RQ-2 стабільно перевищує одноступінкові базові моделі за загальним перенесенням, зберігаючи незмінними обчислювальні витрати на інференсі. Код та контрольні точки моделей публічно доступні.

HI-FI News

через штучний інтелект https://ift.tt/0QGagys

1 липня 2026 року о 06:03

July 1, 2026 at 06:03AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *