评估使用 spacy 和 deeppavlov 库工具从 covid-19 患者检查描述中提取命名实体的情况

Известия ТПУ. Промышленная кибернетика. Pub Date : 2023-12-11 DOI:10.18799/29495407/2023/2/27

Дмитрий Евгеньевич Соколовский, Владимир Николаевич Некрасов, Сергей Александрович Землянский, Сергей Владимирович Аксёнов

{"title":"评估使用 spacy 和 deeppavlov 库工具从 covid-19 患者检查描述中提取命名实体的情况","authors":"Дмитрий Евгеньевич Соколовский, Владимир Николаевич Некрасов, Сергей Александрович Землянский, Сергей Владимирович Аксёнов","doi":"10.18799/29495407/2023/2/27","DOIUrl":null,"url":null,"abstract":"Актуальность. Определяется необходимостью выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Цель. Оценка возможности выявления именованных сущностей в электронных описаниях осмотров пациентов с COVID-19 с помощью модели BERT из библиотек SpaCy и DeepPavlov. Методы. Глубокое обучение, статистические методы. Результаты и выводы. Выполнено исследование настройки нейросетевых моделей BERT из библиотек SpaCy и DeepPavlov для аннотирования документов «Осмотр пациентов лечащим врачом» с целью выделения следующих предикторов оценки состояния пациентов: температура, артериальное давление, частота дыхательных движений, частота сердечных сокращений и сатурация. Настройка и оценка эффективности архитектур производилась на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19, полученных с помощью сервиса SibMED Data Clinical Repository. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 % в зависимости от предиктора. Метрики качества работы архитектур из выбранных библиотек различались незначительно. Отмечено, что итеративное расширение обучающей выборки в результате эксплуатации моделей с последующей донастройкой приводит к повышению результативности моделей.","PeriodicalId":504856,"journal":{"name":"Известия ТПУ. Промышленная кибернетика.","volume":"199 4","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-11","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ОЦЕНКА ИСПОЛЬЗОВАНИЯ ИНСТРУМЕНТОВ БИБЛИОТЕКИ SPACY И DEEPPAVLOV ДЛЯ ЗАДАЧИ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ОПИСАНИЙ РЕЗУЛЬТАТОВ ОСМОТРОВ ПАЦИЕНТОВ С COVID-19\",\"authors\":\"Дмитрий Евгеньевич Соколовский, Владимир Николаевич Некрасов, Сергей Александрович Землянский, Сергей Владимирович Аксёнов\",\"doi\":\"10.18799/29495407/2023/2/27\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Актуальность. Определяется необходимостью выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Цель. Оценка возможности выявления именованных сущностей в электронных описаниях осмотров пациентов с COVID-19 с помощью модели BERT из библиотек SpaCy и DeepPavlov. Методы. Глубокое обучение, статистические методы. Результаты и выводы. Выполнено исследование настройки нейросетевых моделей BERT из библиотек SpaCy и DeepPavlov для аннотирования документов «Осмотр пациентов лечащим врачом» с целью выделения следующих предикторов оценки состояния пациентов: температура, артериальное давление, частота дыхательных движений, частота сердечных сокращений и сатурация. Настройка и оценка эффективности архитектур производилась на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19, полученных с помощью сервиса SibMED Data Clinical Repository. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 % в зависимости от предиктора. Метрики качества работы архитектур из выбранных библиотек различались незначительно. Отмечено, что итеративное расширение обучающей выборки в результате эксплуатации моделей с последующей донастройкой приводит к повышению результативности моделей.\",\"PeriodicalId\":504856,\"journal\":{\"name\":\"Известия ТПУ. Промышленная кибернетика.\",\"volume\":\"199 4\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-12-11\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Известия ТПУ. Промышленная кибернетика.\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.18799/29495407/2023/2/27\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Известия ТПУ. Промышленная кибернетика.","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.18799/29495407/2023/2/27","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

相关性。这是由从电子病历中提取有意义的特征以自动评估患者病情的必要性所决定的。目标。评估使用 SpaCy 和 DeepPavlov 库中的 BERT 模型识别 COVID-19 患者检查电子描述中命名实体的可能性。方法。深度学习、统计方法。结果与结论。对 SpaCy 和 DeepPavlov 库中用于注释 "主治医生对患者的检查 "文档的神经网络 BERT 模型进行了调优研究，以提取患者评估的以下预测因子：体温、血压、呼吸频率、心率和饱和度。在使用 SibMED 数据临床库服务获得的 340 份 COVID-19 患者匿名电子病历的标记基础上，对架构进行了调整和性能评估。结果表明，在大约 150 份标注文档上调整模型后，可以在这些文本中识别出指定的预测因子，精度（Precision）为 85-98%，完整度（Recall）为 77-98%，具体取决于预测因子。所选库中架构的性能质量指标差异不大。通过观察可以发现，由于对模型进行了开发和微调，训练样本的迭代扩展提高了模型的性能。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

ОЦЕНКА ИСПОЛЬЗОВАНИЯ ИНСТРУМЕНТОВ БИБЛИОТЕКИ SPACY И DEEPPAVLOV ДЛЯ ЗАДАЧИ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ОПИСАНИЙ РЕЗУЛЬТАТОВ ОСМОТРОВ ПАЦИЕНТОВ С COVID-19

Актуальность. Определяется необходимостью выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Цель. Оценка возможности выявления именованных сущностей в электронных описаниях осмотров пациентов с COVID-19 с помощью модели BERT из библиотек SpaCy и DeepPavlov. Методы. Глубокое обучение, статистические методы. Результаты и выводы. Выполнено исследование настройки нейросетевых моделей BERT из библиотек SpaCy и DeepPavlov для аннотирования документов «Осмотр пациентов лечащим врачом» с целью выделения следующих предикторов оценки состояния пациентов: температура, артериальное давление, частота дыхательных движений, частота сердечных сокращений и сатурация. Настройка и оценка эффективности архитектур производилась на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19, полученных с помощью сервиса SibMED Data Clinical Repository. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 % в зависимости от предиктора. Метрики качества работы архитектур из выбранных библиотек различались незначительно. Отмечено, что итеративное расширение обучающей выборки в результате эксплуатации моделей с последующей донастройкой приводит к повышению результативности моделей.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Известия ТПУ. Промышленная кибернетика.

自引率

0.00%

发文量