Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning
https://ift.tt/Y6xFha4
Багатоступенева аудіо-відео-логіка залишаєтся викликом для Omni-LLMs, оскільки відповідні докази часто сирі, розподілені у часі та розміщені як у звукових, так і у візуальних потоках. Існуючі бенчмарки надають обмежене вивчення цього середовища, зазвичай за участю лише обмеженої кількості модальностей, відповідних часових сегментів або кроків розуміння. У цій роботі ми вводимо MOV-Bench, бенчмарк, що містить 519 ретельно підібраних запитань, які вимагають багатоступеневого логічного мислення над часово розподіленими аудіо-відео-мінами. Оцінки на MOV-Bench свідчать, що сучасні Omni-LLMs все ще стикаються з багатоступеневим міжмодальним мисленням. Щоб подолати цю проблему, ми також пропонуємо AOP-Agent, ефективну агентну рамку, побудовану на відкритих Omni-LLMs для активного Omni-modal сприйняття. Поєднуючи ієрархічну Omni-модальну пам’ять із спільним циклом спостереження-рефлексії-планування, AOP-Agent дозволяє відкритим Omni-LLMs виконувати активне спостереження без додаткового навчання або пропріетарних моделей. Експерименти на MOV-Bench та OmniVideoBench демонструють, що AOP-Agent постійно покращує мислення, із особливо помітними здобутками на довгих відео та запитаннях, що потребують розумової напруги.
HI-FI News
через штучний інтелект https://ift.tt/C06M1Os
28 травня 2026 року, 05:46 раніше опівночі
May 28, 2026 at 05:46AM

Залишити відповідь