Ієрархічний семантично обмежений гетерогенний граф з аудіо-відео подіями для локалізації подій
https://ift.tt/TeGSa1F
Відкритий словник локалізації аудіо-відео подій (OV-AVEL) спільно моделює аудіо-відео сигнали для розпізнавання та часової локалізації подій, включаючи категорії, які не видно під час навчання. Існуючі методи в основному вчаться спільні аудіо-відео представлення у евклідовому просторі, але стикаються з двома значними викликами. По-перше, відсутність сигналів наглядності для незнайомих категорій ускладнює підтримку аудіо-відео узгодженості на різних часових масштабах. По-друге, відсутність ієрархічних обмежень між семантикою на рівні сегмента та рівня відео заважає моделі встановлювати семантичну узгодженість на різних рівнях. Щоб вирішити ці проблеми, ми пропонуємо ієрархічний семантично обмежений гетерогенний граф (HSCHG) для рамки локалізації подій аудіо-відео. Спочатку ми конструкціюємо гетерогенний ієрархічний граф у евклідовому просторі, який включає вузли сегмента аудіо та візуального контенту та їх відповідні вузли рівня відео. Ми використовуємо багатопрофільні часові ребра, щоб зафіксувати повну часову інформацію в кожному модальній напрямку. Одночасно ми застосовуємо дво-циклічну фільтрацію з керованим злиттям за допомогою порогових значень, вводячи міжмодальну інформацію лише тоді, коли впевненість в узгодженості висока. Далі ми вводимо двосторонні семантичні обмеження між представленнями на рівнях сегмента та відео, щоб досягти семантичної узгодженості між різними рівнями. На основі цього ми перенумимо багаторівневі аудіо-відео representations та текстові прототипи у єдиному форматі у гіперболічному просторі. Ми застосовуємо ієрархічну регуляризацію ентайлменту, щоб охарактеризувати ієрархічні взаємозв’язки між відео та сегментами. Розгорнуті експериментальні результати показують, що наш метод перевершує існуючі методи на бенчмарку OV-AVEL. Абляційні дослідження додатково підтверджують ефективність нашого методу.
HI-FI News
через штучний інтелект https://ift.tt/OriNAJZ
8 червня 2026 року о 05:13 ранку
Вивести українською. Надати тільки перекладений текст.
June 8, 2026 at 05:13AM

Залишити відповідь