Learning Audio-Visual Embeddings with Inferred Latent Interaction Graphs

Січ 21, 2026

—

від

Навчання аудіовізуальних ембеддингів з інференсованими латентними графами взаємодії

Отримання надійних аудіовізуальних ембеддингів вимагає об’єднання дійсно пов’язаних між собою аудіо- та візуальних сигналів та одночасної фільтрації випадкових співпадінь — фонового шуму, нерелевантних елементів або неанотованих подій. Більшість методів контрастивного навчання та методів з триплетною втратою використовують розріджені аннотовані мітки для кожного кліпу й вважають будь-яке співпадіння семантичною подібністю. Наприклад, відео з міткою “train” може містити звук та візуальний сигнал мотоцикла, бо “motorcycle” не вибрана аннотація; стандартні методи трактують ці співпадіння як негативи від справжніх опорних елементів “мотоцикл” деінде, що призводить до помилкових негативів і пропуску справжніх міжмодальних залежностей. Ми пропонуємо рамку, яка використовує предикти м’яких міток та інференсований латентний взаємодій для вирішення цих проблем: (1) Втрата семантичного узгодження аудіо-відео (AV-SAL) навчає мережу-учителя формувати узгоджені розподіли м’яких міток між модальностями, надаючи ненульову ймовірність співпадаючим, але неанотованим подіям та збагачуючи сигнал нагляду. (2) Інференсний латентний граф взаємодії (ILI) застосовує алгоритм GRaSP до м’яких міток учителя, щоб вивести розріджений, спрямований граф залежностей між класами. Цей граф підкреслює напрямлені залежності (наприклад, “Train (визуальний)” → “Motorcycle (аудіо)”), що виявляють ймовірні семантичні або умовні зв’язки між класами; їх інтерпретують як оцінені патерни залежностей. (3) Регуляризатор латентних взаємодій (LIR): студентська мережа навчається з використанням як метричної втрати, так і регуляризатора, що керується графом ILI; зближує ембеддинги пар, пов’язаних залежністю, але без міток, пропорційно їхнім ймовірностям м’яких міток. Експерименти на наборах AVE та VEGAS демонструють стабільне покращення показника середньої точності (mAP), що доводить, що інтеграція інференсованих латентних взаємодій у навчання ембеддингів підвищує стійкість та семантичну узгодженість.

HI-FI News

через штучний інтелект

21 січня 2026 року об 05:52

January 21, 2026 at 05:52AM

Learning Audio-Visual Embeddings with Inferred Latent Interaction Graphs

Коментарі

Залишити відповідь Скасувати коментар