OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

від

у

OmniMem: компресія пам’яті з урахуванням збурень для потокових аудіовізуальних LLMs
https://ift.tt/dBOhqJk

Аудіовізуальні великі мовні моделі (LLM) обіцяють значні можливості для довготривалого розуміння відео, але їхнє інференсування для довгих відео зазнає обмежень через лінійне зростання токенів відео та кешів ключ-значення (KV). Ми представляємо OmniMem, пам’ятєву ефективну потокову раму, розроблену спеціально для аудіовізуальних LLM. На відміну від існуючих методів компресії, які обробляють усі токени однаково, OmniMem вводить стратегію розподілу пам’яті з урахуванням модальності, окремо керуючи візуальним та аудіоконтекстами, вирішуючи серйозну дисбаланс токенів між двома модальностями. OmniMem далі зберігає інформативні та нерізноманітні стани KV через вибірку пам’яті, чутливу до збурень, що дозволяє компактну пам’ять без втрати довготривалого розуміння. Щоб посилити компресію за реалістичними обмеженнями розгортання, ми також досліджуємо тонку настройку з урахуванням бюджету, яка заохочує модель консолідувати корисну інформацію у збереженій пам’яті. Експерименти на VideoMME Long, LVBench та LVOmniBench з video-SALMONN 2+ та Qwen-2.5-Omni показують, що OmniMem послідовно перевершує сильні базові методи компресії без навчання на 2-4% абсолютної точності за тією ж пам’яттю, з додатковим зростанням на 1-2% після тонкої настройки.

HI-FI News

за допомогою штучного інтелекту https://ift.tt/J5UnS14

9 червня 2026 р. о 05:20

українською. Тільки поверніть текст, який перекладено.

June 9, 2026 at 05:20AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *