Au-M-ol: уніфікована модель для медичного аудіо та розуміння мови
https://ift.tt/kIM4lFm
У цій роботі ми представляємо Au-M-ol, нову мультимодальну архітектуру, яка розширює великі мовні моделі (LLMs) обробкою аудіо. Вона розроблена для покращення продуктивності у clinically relevant завданнях, таких як автоматичне розпізнавання мови (ASR). Au-M-ol має три основні компоненти: (1) аудіо-кодер, який витягує багаті акустичні ознаки з медичної мови, (2) адаптаційний шар, який відображає аудіо-ознаки у простір входу LLM, та (3) попередньо навчену LLM, яка виконує транскрипцію та клінічне розуміння мови. Цей дизайн дозволяє моделі інтерпретувати промовлений медичний контент безпосередньо, підвищуючи як точність, так і надійність. У експериментах Au-M-ol знижує помилку в слові (WER) на 56% порівняно з передовими базовими моделями у задачах медичної транскрипції. Модель також добре працює за складних умов, включаючи зашумлене середовище, термінологію, характерну для домену, та варіативність мовців. Ці результати свідчать, що Au-M-ol є перспективним кандидатом для реальних клінічних застосувань, де надійне та контекстно чутливе аудіо-розуміння є суттєвим.
HI-FI News
через Штучний інтелект https://ift.tt/JujxGcO
28 квітня 2026 року о 05:21 ранку
April 28, 2026 at 05:21AM

Залишити відповідь