Améliorer la caractérisation phénotypique des patients atteints de maladies inflammatoires à médiation immunitaire par l’analyse automatique des comptes-rendus hospitaliers
C. Gerardin , A. Remaki , J. Ung , P. Pagès , P. Wajsburt , G. Faure , T. Petit-Jean , X. Tannier
{"title":"Améliorer la caractérisation phénotypique des patients atteints de maladies inflammatoires à médiation immunitaire par l’analyse automatique des comptes-rendus hospitaliers","authors":"C. Gerardin , A. Remaki , J. Ung , P. Pagès , P. Wajsburt , G. Faure , T. Petit-Jean , X. Tannier","doi":"10.1016/j.revmed.2024.10.368","DOIUrl":null,"url":null,"abstract":"<div><h3>Introduction</h3><div>Dans le contexte de l’utilisation secondaire des données issues du soins rassemblées dans le dossier patient informatisé, les analyses rétrospectives réalisées utilisent essentiellement les données structurées-tels que les codes CIM10, les données de biologies etc. mais ignorent souvent les informations clés consignées dans le texte libre par les cliniciens dans les comptes-rendus hospitaliers qui sont pourtant essentielles pour la caractérisation fine des patients et de l’évolution de leur maladie au cours du temps.</div><div>Cette étude vise à prouver qu’il est possible de mieux caractériser les patients atteints de maladies immuno-inflammatoires à partir de leurs dossiers informatisés en exploitant directement les données présentent dans les comptes-rendus médicaux. En particulier, nous avons cherché à démontrer que l’extraction des résultats de tests de laboratoire et des traitements médicamenteux chez des patients atteints de maladies inflammatoires à médiation immunitaire enrichit les informations structurées, permettant ainsi un profilage plus complet et précis des patients. Les quatre maladies ciblées étaient le lupus érythémateux disséminé, la sclérose systémique, le syndrome des antiphospholipides et l’artérite de Takayasu.</div></div><div><h3>Matériels et méthodes</h3><div>Nous avons collecté les dossiers médicaux de patients hospitalisés entre 2012 et 2021, diagnostiqués avec l’une des quatre maladies étudiées, avec au moins un compte-rendu disponible, à partir de la base de données de l’AP–HP. Les informations sur les tests de laboratoire et les traitements médicamenteux ont été extraites des résumés de sortie en utilisant des algorithmes de traitement automatique du langage naturel proches du modèle GPT. Ces données ont ensuite été standardisées à l’aide des systèmes de codage SNOMED CT pour les tests de laboratoire et ATC pour les médicaments, afin de les intégrer aux données structurées et faciliter leur analyse.</div></div><div><h3>Résultats</h3><div>Les algorithmes ont été testés et validés sur un échantillon de 103 résumés de sortie annotés manuellement. L’extraction d’entités d’intérêt a montré un score F1 de 0,72 IC95 [0,64–0,80] pour les tests de laboratoire et de 0,86 [0,80 ; 0,90] pour les médicaments. Ces algorithmes ont été appliqués à un ensemble de 18 604 dossiers médicaux électroniques, avec une importante augmentation de la détection des marqueurs diagnostiques et des traitements par rapport à l’analyse des données structurées seules. Par exemple, dans la cohorte lupus, la détection de la positivité des anticorps antinucléaires chez les patients a augmenté de 53,6 % (en valeur absolue) et la détection des patients sous hydroxychloroquine a augmenté de 63,4 % ; de même, dans la cohorte syndrome des antiphospholipides, le nombre de patients traités par anti-vitamine K était 41 % plus élevé avec cette méthode. La précision des algorithmes a été vérifiée manuellement sur un échantillon de 240 entités prédites, avec une précision de 0,97 pour les tests de laboratoire et de 1,0 pour les médicaments, confirmant la fiabilité des algorithmes développés. Le code source des algorithmes est disponible en accès libre.</div></div><div><h3>Conclusion</h3><div>Cette étude démontre que l’extraction automatique des informations contenues dans les résumés de sortie hospitalière permet d’enrichir les données structurées des dossiers médicaux électroniques et de mieux caractériser les patients dans les analyses sur données de vie réelle. L’intégration de ces informations ouvre la voie à une meilleure compréhension et prise en charge des patients en améliorant notamment la qualité des analyses cliniques.</div></div>","PeriodicalId":54458,"journal":{"name":"Revue De Medecine Interne","volume":"45 ","pages":"Pages A387-A388"},"PeriodicalIF":0.7000,"publicationDate":"2024-11-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revue De Medecine Interne","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0248866324011676","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"MEDICINE, GENERAL & INTERNAL","Score":null,"Total":0}
引用次数: 0
Abstract
Introduction
Dans le contexte de l’utilisation secondaire des données issues du soins rassemblées dans le dossier patient informatisé, les analyses rétrospectives réalisées utilisent essentiellement les données structurées-tels que les codes CIM10, les données de biologies etc. mais ignorent souvent les informations clés consignées dans le texte libre par les cliniciens dans les comptes-rendus hospitaliers qui sont pourtant essentielles pour la caractérisation fine des patients et de l’évolution de leur maladie au cours du temps.
Cette étude vise à prouver qu’il est possible de mieux caractériser les patients atteints de maladies immuno-inflammatoires à partir de leurs dossiers informatisés en exploitant directement les données présentent dans les comptes-rendus médicaux. En particulier, nous avons cherché à démontrer que l’extraction des résultats de tests de laboratoire et des traitements médicamenteux chez des patients atteints de maladies inflammatoires à médiation immunitaire enrichit les informations structurées, permettant ainsi un profilage plus complet et précis des patients. Les quatre maladies ciblées étaient le lupus érythémateux disséminé, la sclérose systémique, le syndrome des antiphospholipides et l’artérite de Takayasu.
Matériels et méthodes
Nous avons collecté les dossiers médicaux de patients hospitalisés entre 2012 et 2021, diagnostiqués avec l’une des quatre maladies étudiées, avec au moins un compte-rendu disponible, à partir de la base de données de l’AP–HP. Les informations sur les tests de laboratoire et les traitements médicamenteux ont été extraites des résumés de sortie en utilisant des algorithmes de traitement automatique du langage naturel proches du modèle GPT. Ces données ont ensuite été standardisées à l’aide des systèmes de codage SNOMED CT pour les tests de laboratoire et ATC pour les médicaments, afin de les intégrer aux données structurées et faciliter leur analyse.
Résultats
Les algorithmes ont été testés et validés sur un échantillon de 103 résumés de sortie annotés manuellement. L’extraction d’entités d’intérêt a montré un score F1 de 0,72 IC95 [0,64–0,80] pour les tests de laboratoire et de 0,86 [0,80 ; 0,90] pour les médicaments. Ces algorithmes ont été appliqués à un ensemble de 18 604 dossiers médicaux électroniques, avec une importante augmentation de la détection des marqueurs diagnostiques et des traitements par rapport à l’analyse des données structurées seules. Par exemple, dans la cohorte lupus, la détection de la positivité des anticorps antinucléaires chez les patients a augmenté de 53,6 % (en valeur absolue) et la détection des patients sous hydroxychloroquine a augmenté de 63,4 % ; de même, dans la cohorte syndrome des antiphospholipides, le nombre de patients traités par anti-vitamine K était 41 % plus élevé avec cette méthode. La précision des algorithmes a été vérifiée manuellement sur un échantillon de 240 entités prédites, avec une précision de 0,97 pour les tests de laboratoire et de 1,0 pour les médicaments, confirmant la fiabilité des algorithmes développés. Le code source des algorithmes est disponible en accès libre.
Conclusion
Cette étude démontre que l’extraction automatique des informations contenues dans les résumés de sortie hospitalière permet d’enrichir les données structurées des dossiers médicaux électroniques et de mieux caractériser les patients dans les analyses sur données de vie réelle. L’intégration de ces informations ouvre la voie à une meilleure compréhension et prise en charge des patients en améliorant notamment la qualité des analyses cliniques.
期刊介绍:
Official journal of the SNFMI, La revue de medecine interne is indexed in the most prestigious databases. It is the most efficient French language journal available for internal medicine specialists who want to expand their knowledge and skills beyond their own discipline. It is also the main French language international medium for French research works. The journal publishes each month editorials, original articles, review articles, short communications, etc. These articles address the fundamental and innumerable facets of internal medicine, spanning all medical specialties. Manuscripts may be submitted in French or in English.
La revue de medecine interne also includes additional issues publishing the proceedings of the two annual French meetings of internal medicine (June and December), as well as thematic issues.