Population-Aligned Audio Reproduction With LLM-Based Equalizers

від

у

Аудіовідтворення, що відповідає населенню, з використанням еквалайзерів на основі великих мовних моделей

Звичайне аудіоеквалізування є статичним процесом, який вимагає ручних і громіздких налаштувань для адаптації до змінюваних умов прослуховування (наприклад, настрій, місце або соціальне середовище). У цій статті ми представляємо альтернативу на основі великої мовної моделі (LLM), яка відображає текстові запити природною мовою на налаштування еквалайзера. Це дозволяє здійснювати контроль над звуковою системою в розмовному форматі. Використовуючи дані, зібрані з контрольного експерименту прослуховування, наші моделі експлуатують навчання в контексті та ефективні методи тонкого налаштування для надійного узгодження з уподобаннями населення в налаштуваннях еквалайзера. Наші методи оцінки, які використовують розподільчі метрики, що відображають різноманітні уподобання користувачів, показують статистично значні покращення в розподільчому узгодженні порівняно з випадковим відбором і статичними базовими налаштуваннями. Ці результати свідчать про те, що LLM можуть виконувати функцію “штучних еквалайзерів”, сприяючи розвитку більш доступних, чутливих до контексту та експертного рівня методів налаштування звуку.

January 15, 2026 at 04:25AM


Коментарі

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *