Lung-SRAD: спектрально обізнана регуляризована DASS для дихальних звуків з контрастивним навчанням за допомогою подвійної осі Patch-Mix для класифікації дихальних звуків
https://ift.tt/8emwaoG
Останні дослідження класифікації дихальних звуків (RSC) здебільшого покладаються на архітектури з самоусі́нням на основі CLS-токена, такі як Audio Spectrogram Transformer (AST). Хоча вони ефективні у моделюванні глобального контексту, недавні аналізи свідчать про поведінку низькопропускного фільтра, що може зменшувати чутливість до локалізованих аномальних паттернів. У цій роботі ми досліджуємо моделі просторово-станових систем (SSM) як альтернативний бектбон для RSC. Використовуючи Distilled Audio State Space model, ми аналізуємо проміжні представленні через спектральні відповіді та спостерігаємо сильніше збереження компонент середньої та високої просторової частоти. Виходячи з цих спостережень, ми вводимо регуляризацію шару з огляду на спектр із застосуванням гаусового згортання до вибраних шарів. Додатково пропонуємо контрастивне навчання за допомогою двох осей Patch-Mix, адаптоване до аудіо-моделей на основі SSM для надійного навчання представлень. Експерименти на бенчмарк ICBHI показують, що наш підхід досягає 64.48% результату, перевищуючи базовий AST на 5%. Код доступний за адресою https://ift.tt/JkHEzq7.
HI-FI News
через штучний інтелект https://ift.tt/EtGuxQV
11 червня 2026 року об 05:10 AM
June 11, 2026 at 05:10AM

Залишити відповідь