OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

від

у

OmniVideo-R1: Підсилення аудіовізуального розуміння за допомогою наміру запиту та уваги до модальностей

https://ift.tt/Pow0eQn

Хоча люди сприймають світ через різноманітні модальності, які діють синергетично, щоб підтримати цілісне розуміння навколишнього середовища, існуючі моделі OmniVideo все ще стикаються з суттєвими викликами у задачах аудіовізуального розуміння. У цій роботі ми пропонуємо OmniVideo-R1, нову посилену рамкову систему, яка покращує міжмодальне розуміння. OmniVideo-R1 надає моделям «мислити за допомогою омнімодальних підказок» за двома ключовими стратегіями: (1) ґрунтування, орієнтоване на запит, на основі парадигм самонавчального навчання; і (2) злиття з увагою до модальностей, побудоване на парадигмах контрастивного навчання. Розгорнуті експерименти на кількох бенчмарках демонструють, що OmniVideo-R1 стабільно перевершує сильні базові моделі, підкреслюючи її ефективність та надійні можливості узагальнення.

HI-FI News

через штучний інтелект https://ift.tt/6TiUVn2

6 лютого 2026 року о 04:13 ранку

February 6, 2026 at 04:13AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *