OmniVideo-R1: Підсилення аудіовізуального розуміння за допомогою наміру запиту та уваги до модальностей
https://ift.tt/Pow0eQn
Хоча люди сприймають світ через різноманітні модальності, які діють синергетично, щоб підтримати цілісне розуміння навколишнього середовища, існуючі моделі OmniVideo все ще стикаються з суттєвими викликами у задачах аудіовізуального розуміння. У цій роботі ми пропонуємо OmniVideo-R1, нову посилену рамкову систему, яка покращує міжмодальне розуміння. OmniVideo-R1 надає моделям «мислити за допомогою омнімодальних підказок» за двома ключовими стратегіями: (1) ґрунтування, орієнтоване на запит, на основі парадигм самонавчального навчання; і (2) злиття з увагою до модальностей, побудоване на парадигмах контрастивного навчання. Розгорнуті експерименти на кількох бенчмарках демонструють, що OmniVideo-R1 стабільно перевершує сильні базові моделі, підкреслюючи її ефективність та надійні можливості узагальнення.
HI-FI News
через штучний інтелект https://ift.tt/6TiUVn2
6 лютого 2026 року о 04:13 ранку
February 6, 2026 at 04:13AM

Залишити відповідь