ОЦЕНКА ИСПОЛЬЗОВАНИЯ ИНСТРУМЕНТОВ БИБЛИОТЕКИ SPACY И DEEPPAVLOV ДЛЯ ЗАДАЧИ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ОПИСАНИЙ РЕЗУЛЬТАТОВ ОСМОТРОВ ПАЦИЕНТОВ С COVID-19
Дмитрий Евгеньевич Соколовский, Владимир Николаевич Некрасов, Сергей Александрович Землянский, Сергей Владимирович Аксёнов
{"title":"ОЦЕНКА ИСПОЛЬЗОВАНИЯ ИНСТРУМЕНТОВ БИБЛИОТЕКИ SPACY И DEEPPAVLOV ДЛЯ ЗАДАЧИ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ОПИСАНИЙ РЕЗУЛЬТАТОВ ОСМОТРОВ ПАЦИЕНТОВ С COVID-19","authors":"Дмитрий Евгеньевич Соколовский, Владимир Николаевич Некрасов, Сергей Александрович Землянский, Сергей Владимирович Аксёнов","doi":"10.18799/29495407/2023/2/27","DOIUrl":null,"url":null,"abstract":"Актуальность. Определяется необходимостью выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Цель. Оценка возможности выявления именованных сущностей в электронных описаниях осмотров пациентов с COVID-19 с помощью модели BERT из библиотек SpaCy и DeepPavlov. Методы. Глубокое обучение, статистические методы. Результаты и выводы. Выполнено исследование настройки нейросетевых моделей BERT из библиотек SpaCy и DeepPavlov для аннотирования документов «Осмотр пациентов лечащим врачом» с целью выделения следующих предикторов оценки состояния пациентов: температура, артериальное давление, частота дыхательных движений, частота сердечных сокращений и сатурация. Настройка и оценка эффективности архитектур производилась на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19, полученных с помощью сервиса SibMED Data Clinical Repository. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 % в зависимости от предиктора. Метрики качества работы архитектур из выбранных библиотек различались незначительно. Отмечено, что итеративное расширение обучающей выборки в результате эксплуатации моделей с последующей донастройкой приводит к повышению результативности моделей.","PeriodicalId":504856,"journal":{"name":"Известия ТПУ. Промышленная кибернетика.","volume":"199 4","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-11","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Известия ТПУ. Промышленная кибернетика.","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.18799/29495407/2023/2/27","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Актуальность. Определяется необходимостью выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Цель. Оценка возможности выявления именованных сущностей в электронных описаниях осмотров пациентов с COVID-19 с помощью модели BERT из библиотек SpaCy и DeepPavlov. Методы. Глубокое обучение, статистические методы. Результаты и выводы. Выполнено исследование настройки нейросетевых моделей BERT из библиотек SpaCy и DeepPavlov для аннотирования документов «Осмотр пациентов лечащим врачом» с целью выделения следующих предикторов оценки состояния пациентов: температура, артериальное давление, частота дыхательных движений, частота сердечных сокращений и сатурация. Настройка и оценка эффективности архитектур производилась на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19, полученных с помощью сервиса SibMED Data Clinical Repository. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 % в зависимости от предиктора. Метрики качества работы архитектур из выбранных библиотек различались незначительно. Отмечено, что итеративное расширение обучающей выборки в результате эксплуатации моделей с последующей донастройкой приводит к повышению результативности моделей.