Frédéric André , Philippe Armengaud , Guillaume Couquet
{"title":"Évaluation des modèles d’intelligence artificielle dans la gestion clinique de la lombalgie commune","authors":"Frédéric André , Philippe Armengaud , Guillaume Couquet","doi":"10.1016/j.kine.2025.02.021","DOIUrl":null,"url":null,"abstract":"<div><div>L’intelligence artificielle (IA), en particulier des modèles tels que ChatGPT, Copilot et Claude, exerce une influence de plus en plus importante dans le domaine de la santé, ce qui affecte à la fois les patients et les professionnels. L’objectif de cette étude était d’évaluer la capacité de ces IA à fournir des recommandations cliniques conformes aux lignes directrices de la Haute Autorité de Santé (HAS) pour la lombalgie commune. Cette évaluation s’est centrée sur la cohérence interne des réponses, la fiabilité des recommandations par rapport aux experts, et la stabilité des évaluations entre examinateurs.</div></div><div><h3>Méthodes</h3><div>Trois IA (ChatGPT, Copilot, Claude) ont été interrogées avec neuf questions cliniques concernant le traitement de la lombalgie commune. Chaque IA a été interrogée trois fois pour tester la cohérence interne de ses réponses. Les réponses ont été évaluées par deux experts kinésithérapeutes spécialisés. Les critères d’évaluation comprenaient la concordance des réponses avec les recommandations de la HAS et l’analyse de la fiabilité intra- et inter-évaluateurs à l’aide des coefficients kappa.</div></div><div><h3>Résultats</h3><div>Les IA ont montré une bonne cohérence interne avec des similarités textuelles moyennes de 88 à 90 %. Toutefois, des discordances ont été observées, notamment dans la gestion des questions complexes comme l’éducation thérapeutique et les interventions pharmacologiques. Copilot a montré une plus grande cohérence que ChatGPT et Claude. L’accord entre les experts a révélé une concordance modérée, particulièrement pour les questions plus controversées.</div></div><div><h3>Conclusions</h3><div>Les IA montrent un potentiel prometteur dans le traitement de la lombalgie commune. Elles offrent des recommandations cohérentes et utiles pour des cas simples. Cependant, des divergences notables dans les réponses soulignent les limites des IA dans des contextes cliniques complexes. Elles ne peuvent pas encore être utilisées de manière autonome pour la prise de décision clinique. Ce processus nécessite de combiner expertise humaine et intelligence artificielle pour garantir des soins fiables et personnalisés.</div></div><div><h3>Niveau de preuve</h3><div>IV.</div></div><div><div>Artificial intelligence (AI), in particular models such as ChatGPT, Copilot and Claude, is increasingly influential in healthcare, affecting both patients and professionals. The aim of this study was to assess the ability of these AIs to provide clinical recommendations aligned with those of the Haute Autorité de Santé (HAS) guidelines for common low back pain. This evaluation focused on the internal consistency of responses, the reliability of recommendations in relation to experts, and the stability of assessments between reviewers.</div></div><div><h3>Methods</h3><div>Three AIs (ChatGPT, Copilot, Claude) were interviewed with nine clinical questions concerning the management of common low back pain. Each AI was interviewed three times to test the internal consistency of its answers. Responses were assessed by two specialists physiotherapy experts. Evaluation criteria included concordance of responses with HAS recommendations and analysis of intra- and inter-rater reliability using kappa coefficients.</div></div><div><h3>Results</h3><div>The AIs showed good internal consistency, with average textual similarities of 88–90 %. However, discrepancies were observed, particularly in the management of complex issues such as therapeutic education and pharmacological interventions. Copilot showed greater consistency than ChatGPT and Claude. Agreement between experts revealed moderate concordance, particularly for the more controversial issues.</div></div><div><h3>Conclusions</h3><div>AIs show promising potential in the management of common low back pain, offering consistent and useful recommendations for simple cases. However, notable discrepancies in responses highlight the limitations of AIs in complex clinical settings. AIs cannot yet be used autonomously for clinical decision-making, requiring a combination of human expertise and artificial intelligence to ensure reliable, personalized care.</div></div><div><h3>Level of evidence</h3><div>IV.</div></div>","PeriodicalId":35491,"journal":{"name":"Kinesitherapie","volume":"25 282","pages":"Pages 28-35"},"PeriodicalIF":0.0000,"publicationDate":"2025-04-09","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Kinesitherapie","FirstCategoryId":"1085","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S1779012325001834","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"Medicine","Score":null,"Total":0}
引用次数: 0
Abstract
L’intelligence artificielle (IA), en particulier des modèles tels que ChatGPT, Copilot et Claude, exerce une influence de plus en plus importante dans le domaine de la santé, ce qui affecte à la fois les patients et les professionnels. L’objectif de cette étude était d’évaluer la capacité de ces IA à fournir des recommandations cliniques conformes aux lignes directrices de la Haute Autorité de Santé (HAS) pour la lombalgie commune. Cette évaluation s’est centrée sur la cohérence interne des réponses, la fiabilité des recommandations par rapport aux experts, et la stabilité des évaluations entre examinateurs.
Méthodes
Trois IA (ChatGPT, Copilot, Claude) ont été interrogées avec neuf questions cliniques concernant le traitement de la lombalgie commune. Chaque IA a été interrogée trois fois pour tester la cohérence interne de ses réponses. Les réponses ont été évaluées par deux experts kinésithérapeutes spécialisés. Les critères d’évaluation comprenaient la concordance des réponses avec les recommandations de la HAS et l’analyse de la fiabilité intra- et inter-évaluateurs à l’aide des coefficients kappa.
Résultats
Les IA ont montré une bonne cohérence interne avec des similarités textuelles moyennes de 88 à 90 %. Toutefois, des discordances ont été observées, notamment dans la gestion des questions complexes comme l’éducation thérapeutique et les interventions pharmacologiques. Copilot a montré une plus grande cohérence que ChatGPT et Claude. L’accord entre les experts a révélé une concordance modérée, particulièrement pour les questions plus controversées.
Conclusions
Les IA montrent un potentiel prometteur dans le traitement de la lombalgie commune. Elles offrent des recommandations cohérentes et utiles pour des cas simples. Cependant, des divergences notables dans les réponses soulignent les limites des IA dans des contextes cliniques complexes. Elles ne peuvent pas encore être utilisées de manière autonome pour la prise de décision clinique. Ce processus nécessite de combiner expertise humaine et intelligence artificielle pour garantir des soins fiables et personnalisés.
Niveau de preuve
IV.
Artificial intelligence (AI), in particular models such as ChatGPT, Copilot and Claude, is increasingly influential in healthcare, affecting both patients and professionals. The aim of this study was to assess the ability of these AIs to provide clinical recommendations aligned with those of the Haute Autorité de Santé (HAS) guidelines for common low back pain. This evaluation focused on the internal consistency of responses, the reliability of recommendations in relation to experts, and the stability of assessments between reviewers.
Methods
Three AIs (ChatGPT, Copilot, Claude) were interviewed with nine clinical questions concerning the management of common low back pain. Each AI was interviewed three times to test the internal consistency of its answers. Responses were assessed by two specialists physiotherapy experts. Evaluation criteria included concordance of responses with HAS recommendations and analysis of intra- and inter-rater reliability using kappa coefficients.
Results
The AIs showed good internal consistency, with average textual similarities of 88–90 %. However, discrepancies were observed, particularly in the management of complex issues such as therapeutic education and pharmacological interventions. Copilot showed greater consistency than ChatGPT and Claude. Agreement between experts revealed moderate concordance, particularly for the more controversial issues.
Conclusions
AIs show promising potential in the management of common low back pain, offering consistent and useful recommendations for simple cases. However, notable discrepancies in responses highlight the limitations of AIs in complex clinical settings. AIs cannot yet be used autonomously for clinical decision-making, requiring a combination of human expertise and artificial intelligence to ensure reliable, personalized care.
期刊介绍:
Kinésithérapie, la revue adresse aux praticiens et aux étudiants qui veulent lire des informations accessibles et utiles. Ce est la première revue francophone paramédicale à être indexée dans une base de données internationale - Cumulative Index to Nursing and Allied Health Literature : CINAHL.