Au-M-ol: A Unified Model for Medical Audio and Language Understanding

Кві 28, 2026

—

від

Au-M-ol: уніфікована модель для медичного аудіо та розуміння мови

https://ift.tt/kIM4lFm

У цій роботі ми представляємо Au-M-ol, нову мультимодальну архітектуру, яка розширює великі мовні моделі (LLMs) обробкою аудіо. Вона розроблена для покращення продуктивності у clinically relevant завданнях, таких як автоматичне розпізнавання мови (ASR). Au-M-ol має три основні компоненти: (1) аудіо-кодер, який витягує багаті акустичні ознаки з медичної мови, (2) адаптаційний шар, який відображає аудіо-ознаки у простір входу LLM, та (3) попередньо навчену LLM, яка виконує транскрипцію та клінічне розуміння мови. Цей дизайн дозволяє моделі інтерпретувати промовлений медичний контент безпосередньо, підвищуючи як точність, так і надійність. У експериментах Au-M-ol знижує помилку в слові (WER) на 56% порівняно з передовими базовими моделями у задачах медичної транскрипції. Модель також добре працює за складних умов, включаючи зашумлене середовище, термінологію, характерну для домену, та варіативність мовців. Ці результати свідчать, що Au-M-ol є перспективним кандидатом для реальних клінічних застосувань, де надійне та контекстно чутливе аудіо-розуміння є суттєвим.

HI-FI News

через Штучний інтелект https://ift.tt/JujxGcO

28 квітня 2026 року о 05:21 ранку

April 28, 2026 at 05:21AM

Au-M-ol: A Unified Model for Medical Audio and Language Understanding

Коментарі

Залишити відповідь Скасувати коментар