OmniMem: компресія пам’яті з урахуванням збурень для потокових аудіовізуальних LLMs
https://ift.tt/dBOhqJk
Аудіовізуальні великі мовні моделі (LLM) обіцяють значні можливості для довготривалого розуміння відео, але їхнє інференсування для довгих відео зазнає обмежень через лінійне зростання токенів відео та кешів ключ-значення (KV). Ми представляємо OmniMem, пам’ятєву ефективну потокову раму, розроблену спеціально для аудіовізуальних LLM. На відміну від існуючих методів компресії, які обробляють усі токени однаково, OmniMem вводить стратегію розподілу пам’яті з урахуванням модальності, окремо керуючи візуальним та аудіоконтекстами, вирішуючи серйозну дисбаланс токенів між двома модальностями. OmniMem далі зберігає інформативні та нерізноманітні стани KV через вибірку пам’яті, чутливу до збурень, що дозволяє компактну пам’ять без втрати довготривалого розуміння. Щоб посилити компресію за реалістичними обмеженнями розгортання, ми також досліджуємо тонку настройку з урахуванням бюджету, яка заохочує модель консолідувати корисну інформацію у збереженій пам’яті. Експерименти на VideoMME Long, LVBench та LVOmniBench з video-SALMONN 2+ та Qwen-2.5-Omni показують, що OmniMem послідовно перевершує сильні базові методи компресії без навчання на 2-4% абсолютної точності за тією ж пам’яттю, з додатковим зростанням на 1-2% після тонкої настройки.
HI-FI News
за допомогою штучного інтелекту https://ift.tt/J5UnS14
9 червня 2026 р. о 05:20
українською. Тільки поверніть текст, який перекладено.
June 9, 2026 at 05:20AM

Залишити відповідь