Автоматизация протоколирования УЗИ на базе локальных ИИ-моделей: потенциал доменной адаптации.

ID: 2025-02-1658-T-20030

Тезис

Кулигин А.В., Иваничева А.Я., Веливченко Д.С.

ФГБОУ ВО Саратовский ГМУ им. В.И. Разумовского Минздрава России

Актуальность. Оформление протоколов ультразвуковых исследований (УЗИ) занимает до 30-40% рабочего времени врача [1]. Универсальные системы распознавания речи без доменной адаптации показывают на медицинских текстах WER в диапазоне 20-40% [2,3] и часто требуют облачной обработки данных, что противоречит требованиям 152-ФЗ о защите персональных данных.

Цель. Оценить потенциал и ограничения базовых (без доменной адаптации) on-prem моделей распознавания речи и генерации текста для автоматизированного формирования протоколов УЗИ-диагностики.

Материал и методы. Для исследования сформирован тестовый набор из 100 клинических сценариев УЗИ, озвученных практикующими врачами в лабораторных условиях. На основе открытого стека (GigaAM, Qwen 9B, llama.cpp) реализован on-prem стенд (≤12 ГБ VRAM). Оценивались метрики WER (Word Error Rate - частота ошибок в словах) и TER (Terms Error Rate - частота ошибок в медицинских терминах).

Результаты. На тестовой выборке: WER = 28,7% (71,3% точности), TER = 37,5% (точность терминов 62,9% без учёта вставок согласно методике). Достигнутый уровень ошибок демонстрирует работоспособность каскадного подхода (ASR + LLM) в условиях ограниченных ресурсов, однако выявляет значительный резерв для улучшения за счёт доменной адаптации.

Обсуждение. Точность терминов (62,9%) — нижняя граница диапазона универсальных систем (60-75%). Полученные данные количественно обосновывают необходимость этапа дообучения на размеченном медицинском датасете: снижение TER до целевых ≤8% потребует адаптации как акустико-лексического модуля (под речевые паттерны врачей), так и языковой модели (под структуру протокола и онтологию специальности). Локальное развёртывание обеспечивает полное соответствие 152-ФЗ без функциональных компромиссов.

Заключение. Проведённое исследование подтверждает принципиальную реализуемость автоматизации протоколирования УЗИ на базе on-prem ASR+LLM-каскада. Достигнутые метрики на базовых моделях (WER 28,7%, TER 37,5%) служат реперной точкой для оценки эффективности последующей доменной адаптации. Локальная архитектура и воспроизводимый пайплайн валидации создают основу для разработки специализированного решения, соответствующего требованиям российских медучреждений.

Литература:

Starodubov V.I., Ivanova M.A., Lyutsko V.V. и др. Затраты рабочего времени врачей-специалистов при проведении ультразвуковых исследований // Медицинский журнал. – 2017. – Т. 23, № 6. – С. 288-291.

Challenges and Solutions in Medical Automatic Speech Recognition // Simbo AI Blogs. – 2026.

A comparative study of deep End-to-End Automatic Speech Recognition models for doctor-patient conversations in a real-life acoustic environment // DOAJ. – 2025.

Ключевые слова

ультразвуковая диагностика, распознавание речи, большие языковые модели, автоматизация протоколирования, доменная адаптация, on-premise, 152-ФЗ

Медицинские интернет-конференции

Языки

Автоматизация протоколирования УЗИ на базе локальных ИИ-моделей: потенциал доменной адаптации.

Ключевые слова

Авторы

Навигация