AVTrack: Аудіовізуальне відстежування в людсько-центричних складних сценах
https://ift.tt/s0QhCd4
Відстежування спікерів за допомогою аудіовізуальних сигналів має на меті локалізувати та відстежувати активних ораторів, використовуючи слухові та зорові підказки, що забезпечує тонко налаштоване розуміння сцени з акцентом на людину. Ця здатність є суттєвою для реальних застосувань, таких як інтелектуальне редагування відео, випереджувальний нагляд та взаємодія людини з комп’ютером. Проте існуючі набори даних переважно обмежені простими або однорідними аудіовізуальними сценами з грубими анотаціями. Такі спрощені умови знижують оцінку на основі статичної аудіовізуальної ко-явки, натомість не дозволяють надійно оцінювати просторово-часове моделювання та міжмодальне мислення у складних динамічних сценах. Щоб подолати ці обмеження, ми представляємо AVTrack, набір даних AVIS (аудіовізуальна інстанційна сегментація) із орієнтацією на людину, розроблений для динамічних реальних сценаріїв. AVTrack характеризується різноманітними та складними умовами, включаючи рух камери, зорові перешкоди та зміни позицій. Оцінювання представлених методів AVIS на AVTrack виявляє значне зниження продуктивності, що підтверджує AVTrack як складну базову перевірку для надійного розуміння аудіовізуальної сцени, зосередженого на людині, у складних середовищах. Ми також надаємо просту, але ефективну базу для подальших досліджень. Веб-сайт проекту: https://FudanCVL.github.io/AVTrack/
HI-FI News
за допомогою штучного інтелекту https://ift.tt/wGH6NSi
3 червня 2026 року о 06:05 ранку
June 3, 2026 at 06:05AM

Залишити відповідь