评估使用 spacy 和 deeppavlov 库工具从 covid-19 患者检查描述中提取命名实体的情况

Дмитрий Евгеньевич Соколовский, Владимир Николаевич Некрасов, Сергей Александрович Землянский, Сергей Владимирович Аксёнов
{"title":"评估使用 spacy 和 deeppavlov 库工具从 covid-19 患者检查描述中提取命名实体的情况","authors":"Дмитрий Евгеньевич Соколовский, Владимир Николаевич Некрасов, Сергей Александрович Землянский, Сергей Владимирович Аксёнов","doi":"10.18799/29495407/2023/2/27","DOIUrl":null,"url":null,"abstract":"Актуальность. Определяется необходимостью выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Цель. Оценка возможности выявления именованных сущностей в электронных описаниях осмотров пациентов с COVID-19 с помощью модели BERT из библиотек SpaCy и DeepPavlov. Методы. Глубокое обучение, статистические методы. Результаты и выводы. Выполнено исследование настройки нейросетевых моделей BERT из библиотек SpaCy и DeepPavlov для аннотирования документов «Осмотр пациентов лечащим врачом» с целью выделения следующих предикторов оценки состояния пациентов: температура, артериальное давление, частота дыхательных движений, частота сердечных сокращений и сатурация. Настройка и оценка эффективности архитектур производилась на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19, полученных с помощью сервиса SibMED Data Clinical Repository. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 % в зависимости от предиктора. Метрики качества работы архитектур из выбранных библиотек различались незначительно. Отмечено, что итеративное расширение обучающей выборки в результате эксплуатации моделей с последующей донастройкой приводит к повышению результативности моделей.","PeriodicalId":504856,"journal":{"name":"Известия ТПУ. Промышленная кибернетика.","volume":null,"pages":null},"PeriodicalIF":0.0000,"publicationDate":"2023-12-11","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ОЦЕНКА ИСПОЛЬЗОВАНИЯ ИНСТРУМЕНТОВ БИБЛИОТЕКИ SPACY И DEEPPAVLOV ДЛЯ ЗАДАЧИ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ОПИСАНИЙ РЕЗУЛЬТАТОВ ОСМОТРОВ ПАЦИЕНТОВ С COVID-19\",\"authors\":\"Дмитрий Евгеньевич Соколовский, Владимир Николаевич Некрасов, Сергей Александрович Землянский, Сергей Владимирович Аксёнов\",\"doi\":\"10.18799/29495407/2023/2/27\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Актуальность. Определяется необходимостью выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Цель. Оценка возможности выявления именованных сущностей в электронных описаниях осмотров пациентов с COVID-19 с помощью модели BERT из библиотек SpaCy и DeepPavlov. Методы. Глубокое обучение, статистические методы. Результаты и выводы. Выполнено исследование настройки нейросетевых моделей BERT из библиотек SpaCy и DeepPavlov для аннотирования документов «Осмотр пациентов лечащим врачом» с целью выделения следующих предикторов оценки состояния пациентов: температура, артериальное давление, частота дыхательных движений, частота сердечных сокращений и сатурация. Настройка и оценка эффективности архитектур производилась на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19, полученных с помощью сервиса SibMED Data Clinical Repository. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 % в зависимости от предиктора. Метрики качества работы архитектур из выбранных библиотек различались незначительно. Отмечено, что итеративное расширение обучающей выборки в результате эксплуатации моделей с последующей донастройкой приводит к повышению результативности моделей.\",\"PeriodicalId\":504856,\"journal\":{\"name\":\"Известия ТПУ. Промышленная кибернетика.\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-12-11\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Известия ТПУ. Промышленная кибернетика.\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.18799/29495407/2023/2/27\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Известия ТПУ. Промышленная кибернетика.","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.18799/29495407/2023/2/27","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

相关性。这是由从电子病历中提取有意义的特征以自动评估患者病情的必要性所决定的。目标。评估使用 SpaCy 和 DeepPavlov 库中的 BERT 模型识别 COVID-19 患者检查电子描述中命名实体的可能性。方法。深度学习、统计方法。结果与结论。对 SpaCy 和 DeepPavlov 库中用于注释 "主治医生对患者的检查 "文档的神经网络 BERT 模型进行了调优研究,以提取患者评估的以下预测因子:体温、血压、呼吸频率、心率和饱和度。在使用 SibMED 数据临床库服务获得的 340 份 COVID-19 患者匿名电子病历的标记基础上,对架构进行了调整和性能评估。结果表明,在大约 150 份标注文档上调整模型后,可以在这些文本中识别出指定的预测因子,精度(Precision)为 85-98%,完整度(Recall)为 77-98%,具体取决于预测因子。所选库中架构的性能质量指标差异不大。通过观察可以发现,由于对模型进行了开发和微调,训练样本的迭代扩展提高了模型的性能。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
ОЦЕНКА ИСПОЛЬЗОВАНИЯ ИНСТРУМЕНТОВ БИБЛИОТЕКИ SPACY И DEEPPAVLOV ДЛЯ ЗАДАЧИ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ОПИСАНИЙ РЕЗУЛЬТАТОВ ОСМОТРОВ ПАЦИЕНТОВ С COVID-19
Актуальность. Определяется необходимостью выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Цель. Оценка возможности выявления именованных сущностей в электронных описаниях осмотров пациентов с COVID-19 с помощью модели BERT из библиотек SpaCy и DeepPavlov. Методы. Глубокое обучение, статистические методы. Результаты и выводы. Выполнено исследование настройки нейросетевых моделей BERT из библиотек SpaCy и DeepPavlov для аннотирования документов «Осмотр пациентов лечащим врачом» с целью выделения следующих предикторов оценки состояния пациентов: температура, артериальное давление, частота дыхательных движений, частота сердечных сокращений и сатурация. Настройка и оценка эффективности архитектур производилась на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19, полученных с помощью сервиса SibMED Data Clinical Repository. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 % в зависимости от предиктора. Метрики качества работы архитектур из выбранных библиотек различались незначительно. Отмечено, что итеративное расширение обучающей выборки в результате эксплуатации моделей с последующей донастройкой приводит к повышению результативности моделей.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信