AuRA: інтеграція розуміння аудіо в LLM за допомогою LoRA
https://ift.tt/qBGcP1J
Нещодавні зусилля з розширення великих моделей мови (LLMs) на вхід аудіо зазвичай спираються на каскадні конвеєри ASR-LLM, енд-ту-енд моделі мовлення з аудіо або адаптацію на основі мосту/дистиляції. Хоча ці шляхи відповідно повторно використовують потужні попередньо навчені компоненти, забезпечують нативну взаємодію мовлення та мови або пропонують легку адаптацію, вони часто страждають через затримку інтерфейсу транскрипції, дорогі мультимодальні процеси навчання або послідовне з’єднання мовлення та мови. Щоб подолати ці обмеження, ми презентуємо AuRA — метод дістаїлінгу можливості кодування аудіо у LLM. Зокрема, AuRA подає той самий мовний сигнал до енкодера ASR (як вчителя) та до LLM, адаптованого за допомогою LoRA (як учня) через легковажний шар вбудовування аудіо, і використовує рівневий дистиляційний процес для узгодження прихованих станів учня з відповідними репрезентаціями вчителя, тим самим інтегруючи аудіорепрезентації у легковажні адаптації з боку LLM. Порівняно з каскадними та серійними мостовими методами AuRA дозволяє більш тісне спільне моделювання мовлення та мови та ефективний паралельний енд-ту-енд висновок, водночас повторно використовуючи попередньо навчені моделі мовлення та мови, замість того щоб вимагати масштабного мультимодального навчання. На кількох бенчмарках мовлення та мови AuRA постійно перевищує каскадні системи, базові рішення з адаптації від мовлення до LLM та великі мультимодальні моделі як за ефективністю, так і за ефективністю.
HI-FI News
через Штучний Інтелект https://ift.tt/b2YOR49
10 червня 2026 року, 05:11 ранку
June 10, 2026 at 05:11AM

Залишити відповідь