Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

від

у

Збереження того, чого Audio не може сказати: контекстно-усіваюче обрізання токенів для Omni-LLMs

Omnimodal великі мовні моделі (Omni-LLMs) зазнають значних обчислювальних витрат через велику кількість мультимодальних вхідних токенів, які вони обробляють, тому зниження кількості токенів є необхідним для реального впровадження. Існуючі методи обрізання Omni-LLM зазвичай зменшують ці витрати шляхом вибору токенів, які важливі для поточного запиту або сильно вирівняні з міжмодальними сигналами. Проте такі стратегії можуть відмінити докази, що виходять за ці критерії, навіть коли вони потрібні для різних запитань або для розуміння контексту поза вирівняними аудіовізуальними ознаками. Щоб подолати це обмеження, ми переосмислюємо зниження токенів Omni-LLM як збереження широкого аудіовізуального контексту при усуненні міжмодальної надмірності. Ми пропонуємо ContextGuard, рамки обрізання токенів під час висновку, заснованої на цьому принципі. ContextGuard прогнозує грубі візуальні семантики з аудіо і обрізає токени відео, чийі грубі семантики ймовірно відновлюються з аудіо, при цьому зберігає додаткові відеотроки для збереження локалізованих візуальних деталей, які одне лише аудіо не може уточнити. Для подальшого стиснення наш метод зливає тимчасово подібні відео-токени. Програма не потребує тонкої настройки Downstream LLM та використовує лише окремо навчений легковаговий предиктор. На Qwen2.5-Omni та Video-SALMONN2+ об масштабах 3B та 7B по шести аудіовізуальних бенчмарках ContextGuard перевершує попередні методи обрізання під час висновку, обрізаючи більше токенів. Зокрема, на Qwen2.5-Omni 7B ContextGuard досягає повністю токено-урівню виконання на п’яти з шести бенчмарків, обрізаючи 55% вхідних токенів.

HI-FI News

через штучний інтелект https://ift.tt/5b4wZGf

13 травня 2026 р. о 05:20 за місцевим часом.

May 13, 2026 at 05:20AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *