AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes

від

у

AVTrack: Аудіовізуальне відстежування в людсько-центричних складних сценах

https://ift.tt/s0QhCd4

Відстежування спікерів за допомогою аудіовізуальних сигналів має на меті локалізувати та відстежувати активних ораторів, використовуючи слухові та зорові підказки, що забезпечує тонко налаштоване розуміння сцени з акцентом на людину. Ця здатність є суттєвою для реальних застосувань, таких як інтелектуальне редагування відео, випереджувальний нагляд та взаємодія людини з комп’ютером. Проте існуючі набори даних переважно обмежені простими або однорідними аудіовізуальними сценами з грубими анотаціями. Такі спрощені умови знижують оцінку на основі статичної аудіовізуальної ко-явки, натомість не дозволяють надійно оцінювати просторово-часове моделювання та міжмодальне мислення у складних динамічних сценах. Щоб подолати ці обмеження, ми представляємо AVTrack, набір даних AVIS (аудіовізуальна інстанційна сегментація) із орієнтацією на людину, розроблений для динамічних реальних сценаріїв. AVTrack характеризується різноманітними та складними умовами, включаючи рух камери, зорові перешкоди та зміни позицій. Оцінювання представлених методів AVIS на AVTrack виявляє значне зниження продуктивності, що підтверджує AVTrack як складну базову перевірку для надійного розуміння аудіовізуальної сцени, зосередженого на людині, у складних середовищах. Ми також надаємо просту, але ефективну базу для подальших досліджень. Веб-сайт проекту: https://FudanCVL.github.io/AVTrack/

HI-FI News

за допомогою штучного інтелекту https://ift.tt/wGH6NSi

3 червня 2026 року о 06:05 ранку

June 3, 2026 at 06:05AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *