Hierarchical Semantic Correlation-Aware Masked Autoencoder for Unsupervised Audio-Visual Representation Learning

Кві 7, 2026

—

від

Ієрархічно-семантично-корельоване масковане автоенкодер для не supervisованого навчання аудіо-відеоRepresentation

https://ift.tt/NTvOV7r

Навчання узгоджених мультимодальних вбудовувань з використанням слабко співпованих, безпозначкових корпусів є складним: конвеєри часто надають лише попередньо витягнуті ознаки, кліпи містять кілька подій та шуми співпадінь. Ми пропонуємо HSC-MAE (Hierarchical Semantic Correlation-Aware Masked Autoencoder), двопотокову рамку учителя/учня, яка забезпечує семантичну узгодженість на трьох доповнювальних рівнях репрезентації — від великого до дрібного: (i) глобальний рівень канонічної геометрії через DCCA, що приводить аудіо та візуальні вбудовування до спільного підпростору, інваріантного до модальності; (ii) локальний рівень кореляції семантики сусідів через ніжство вчителю знайдених м’яких top-k аффінностей, який зберігає багатовекторну відносну структуру серед семантично подібних екземплярів; і (iii) на рівні зразка кореляція через умовність, що забезпечує, щоб окремі вбудовування зберігали дискримінативний семантичний зміст за часткового спостереження через маскований автоенкодинг. Конкретно, шлях учня MAE навчанням з реконструкцією маскованих ознак та аффінністю-ваговим м’якими top-k InfoNCE; EMA-вчитель, що працює на незмаскованих входах через шлях CCA, забезпечує стабільну канонічну геометрію та м’які позитиви. Навчальне вагове розв’язання кількох завдань дозволяє узгоджувати суперечливі об’єкти, а опційна дистиляційна втрата переносить геометрію вчителя у учня. Експерименти на AVE та VEGAS демонструють суттєве покращення mAP порівняно з сильними не-supervised базовими моделями, підтверджуючи, що HSC-MAE дає надійні та добре структуровані аудіо-відео репрезентації.

HI-FI News

через штучний інтелект https://ift.tt/mJfBoHp

7 квітня 2026 року, 05:10 ранку

April 7, 2026 at 05:10AM

Hierarchical Semantic Correlation-Aware Masked Autoencoder for Unsupervised Audio-Visual Representation Learning

Коментарі

Залишити відповідь Скасувати коментар