Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning

від

у

Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning
https://ift.tt/Y6xFha4

Багатоступенева аудіо-відео-логіка залишаєтся викликом для Omni-LLMs, оскільки відповідні докази часто сирі, розподілені у часі та розміщені як у звукових, так і у візуальних потоках. Існуючі бенчмарки надають обмежене вивчення цього середовища, зазвичай за участю лише обмеженої кількості модальностей, відповідних часових сегментів або кроків розуміння. У цій роботі ми вводимо MOV-Bench, бенчмарк, що містить 519 ретельно підібраних запитань, які вимагають багатоступеневого логічного мислення над часово розподіленими аудіо-відео-мінами. Оцінки на MOV-Bench свідчать, що сучасні Omni-LLMs все ще стикаються з багатоступеневим міжмодальним мисленням. Щоб подолати цю проблему, ми також пропонуємо AOP-Agent, ефективну агентну рамку, побудовану на відкритих Omni-LLMs для активного Omni-modal сприйняття. Поєднуючи ієрархічну Omni-модальну пам’ять із спільним циклом спостереження-рефлексії-планування, AOP-Agent дозволяє відкритим Omni-LLMs виконувати активне спостереження без додаткового навчання або пропріетарних моделей. Експерименти на MOV-Bench та OmniVideoBench демонструють, що AOP-Agent постійно покращує мислення, із особливо помітними здобутками на довгих відео та запитаннях, що потребують розумової напруги.

HI-FI News

через штучний інтелект https://ift.tt/C06M1Os

28 травня 2026 року, 05:46 раніше опівночі

May 28, 2026 at 05:46AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *