Évaluation des modèles d’intelligence artificielle dans la gestion clinique de la lombalgie commune

Q4 Medicine
Frédéric André , Philippe Armengaud , Guillaume Couquet
{"title":"Évaluation des modèles d’intelligence artificielle dans la gestion clinique de la lombalgie commune","authors":"Frédéric André ,&nbsp;Philippe Armengaud ,&nbsp;Guillaume Couquet","doi":"10.1016/j.kine.2025.02.021","DOIUrl":null,"url":null,"abstract":"<div><div>L’intelligence artificielle (IA), en particulier des modèles tels que ChatGPT, Copilot et Claude, exerce une influence de plus en plus importante dans le domaine de la santé, ce qui affecte à la fois les patients et les professionnels. L’objectif de cette étude était d’évaluer la capacité de ces IA à fournir des recommandations cliniques conformes aux lignes directrices de la Haute Autorité de Santé (HAS) pour la lombalgie commune. Cette évaluation s’est centrée sur la cohérence interne des réponses, la fiabilité des recommandations par rapport aux experts, et la stabilité des évaluations entre examinateurs.</div></div><div><h3>Méthodes</h3><div>Trois IA (ChatGPT, Copilot, Claude) ont été interrogées avec neuf questions cliniques concernant le traitement de la lombalgie commune. Chaque IA a été interrogée trois fois pour tester la cohérence interne de ses réponses. Les réponses ont été évaluées par deux experts kinésithérapeutes spécialisés. Les critères d’évaluation comprenaient la concordance des réponses avec les recommandations de la HAS et l’analyse de la fiabilité intra- et inter-évaluateurs à l’aide des coefficients kappa.</div></div><div><h3>Résultats</h3><div>Les IA ont montré une bonne cohérence interne avec des similarités textuelles moyennes de 88 à 90 %. Toutefois, des discordances ont été observées, notamment dans la gestion des questions complexes comme l’éducation thérapeutique et les interventions pharmacologiques. Copilot a montré une plus grande cohérence que ChatGPT et Claude. L’accord entre les experts a révélé une concordance modérée, particulièrement pour les questions plus controversées.</div></div><div><h3>Conclusions</h3><div>Les IA montrent un potentiel prometteur dans le traitement de la lombalgie commune. Elles offrent des recommandations cohérentes et utiles pour des cas simples. Cependant, des divergences notables dans les réponses soulignent les limites des IA dans des contextes cliniques complexes. Elles ne peuvent pas encore être utilisées de manière autonome pour la prise de décision clinique. Ce processus nécessite de combiner expertise humaine et intelligence artificielle pour garantir des soins fiables et personnalisés.</div></div><div><h3>Niveau de preuve</h3><div>IV.</div></div><div><div>Artificial intelligence (AI), in particular models such as ChatGPT, Copilot and Claude, is increasingly influential in healthcare, affecting both patients and professionals. The aim of this study was to assess the ability of these AIs to provide clinical recommendations aligned with those of the Haute Autorité de Santé (HAS) guidelines for common low back pain. This evaluation focused on the internal consistency of responses, the reliability of recommendations in relation to experts, and the stability of assessments between reviewers.</div></div><div><h3>Methods</h3><div>Three AIs (ChatGPT, Copilot, Claude) were interviewed with nine clinical questions concerning the management of common low back pain. Each AI was interviewed three times to test the internal consistency of its answers. Responses were assessed by two specialists physiotherapy experts. Evaluation criteria included concordance of responses with HAS recommendations and analysis of intra- and inter-rater reliability using kappa coefficients.</div></div><div><h3>Results</h3><div>The AIs showed good internal consistency, with average textual similarities of 88–90 %. However, discrepancies were observed, particularly in the management of complex issues such as therapeutic education and pharmacological interventions. Copilot showed greater consistency than ChatGPT and Claude. Agreement between experts revealed moderate concordance, particularly for the more controversial issues.</div></div><div><h3>Conclusions</h3><div>AIs show promising potential in the management of common low back pain, offering consistent and useful recommendations for simple cases. However, notable discrepancies in responses highlight the limitations of AIs in complex clinical settings. AIs cannot yet be used autonomously for clinical decision-making, requiring a combination of human expertise and artificial intelligence to ensure reliable, personalized care.</div></div><div><h3>Level of evidence</h3><div>IV.</div></div>","PeriodicalId":35491,"journal":{"name":"Kinesitherapie","volume":"25 282","pages":"Pages 28-35"},"PeriodicalIF":0.0000,"publicationDate":"2025-04-09","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Kinesitherapie","FirstCategoryId":"1085","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S1779012325001834","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"Medicine","Score":null,"Total":0}
引用次数: 0

Abstract

L’intelligence artificielle (IA), en particulier des modèles tels que ChatGPT, Copilot et Claude, exerce une influence de plus en plus importante dans le domaine de la santé, ce qui affecte à la fois les patients et les professionnels. L’objectif de cette étude était d’évaluer la capacité de ces IA à fournir des recommandations cliniques conformes aux lignes directrices de la Haute Autorité de Santé (HAS) pour la lombalgie commune. Cette évaluation s’est centrée sur la cohérence interne des réponses, la fiabilité des recommandations par rapport aux experts, et la stabilité des évaluations entre examinateurs.

Méthodes

Trois IA (ChatGPT, Copilot, Claude) ont été interrogées avec neuf questions cliniques concernant le traitement de la lombalgie commune. Chaque IA a été interrogée trois fois pour tester la cohérence interne de ses réponses. Les réponses ont été évaluées par deux experts kinésithérapeutes spécialisés. Les critères d’évaluation comprenaient la concordance des réponses avec les recommandations de la HAS et l’analyse de la fiabilité intra- et inter-évaluateurs à l’aide des coefficients kappa.

Résultats

Les IA ont montré une bonne cohérence interne avec des similarités textuelles moyennes de 88 à 90 %. Toutefois, des discordances ont été observées, notamment dans la gestion des questions complexes comme l’éducation thérapeutique et les interventions pharmacologiques. Copilot a montré une plus grande cohérence que ChatGPT et Claude. L’accord entre les experts a révélé une concordance modérée, particulièrement pour les questions plus controversées.

Conclusions

Les IA montrent un potentiel prometteur dans le traitement de la lombalgie commune. Elles offrent des recommandations cohérentes et utiles pour des cas simples. Cependant, des divergences notables dans les réponses soulignent les limites des IA dans des contextes cliniques complexes. Elles ne peuvent pas encore être utilisées de manière autonome pour la prise de décision clinique. Ce processus nécessite de combiner expertise humaine et intelligence artificielle pour garantir des soins fiables et personnalisés.

Niveau de preuve

IV.
Artificial intelligence (AI), in particular models such as ChatGPT, Copilot and Claude, is increasingly influential in healthcare, affecting both patients and professionals. The aim of this study was to assess the ability of these AIs to provide clinical recommendations aligned with those of the Haute Autorité de Santé (HAS) guidelines for common low back pain. This evaluation focused on the internal consistency of responses, the reliability of recommendations in relation to experts, and the stability of assessments between reviewers.

Methods

Three AIs (ChatGPT, Copilot, Claude) were interviewed with nine clinical questions concerning the management of common low back pain. Each AI was interviewed three times to test the internal consistency of its answers. Responses were assessed by two specialists physiotherapy experts. Evaluation criteria included concordance of responses with HAS recommendations and analysis of intra- and inter-rater reliability using kappa coefficients.

Results

The AIs showed good internal consistency, with average textual similarities of 88–90 %. However, discrepancies were observed, particularly in the management of complex issues such as therapeutic education and pharmacological interventions. Copilot showed greater consistency than ChatGPT and Claude. Agreement between experts revealed moderate concordance, particularly for the more controversial issues.

Conclusions

AIs show promising potential in the management of common low back pain, offering consistent and useful recommendations for simple cases. However, notable discrepancies in responses highlight the limitations of AIs in complex clinical settings. AIs cannot yet be used autonomously for clinical decision-making, requiring a combination of human expertise and artificial intelligence to ensure reliable, personalized care.

Level of evidence

IV.
腰痛临床管理中的人工智能模型评价
人工智能(AI),特别是像ChatGPT、Copilot和Claude这样的模型,正在对医疗保健产生越来越大的影响,影响到患者和专业人员。本研究的目的是评估这些人工智能提供符合法国高等卫生当局(HAS)关于腰痛的指导方针的临床建议的能力。评估的重点是内部反应的一致性、向专家提出的建议的可靠性以及审稿人之间评估的稳定性。MethodesTrois IA (ChatGPT, Copilot, Claude)接受了9个关于腰痛治疗的临床问题的采访。每个人工智能都被询问了三次,以测试其答案的内部一致性。答案由两位专家物理治疗师评估。评估标准包括响应与HAS建议的一致性,以及使用kappa系数分析评价人员内部和评价人员之间的可靠性。AI显示出良好的内部一致性,平均文本相似性为88 - 90%。然而,也存在差异,特别是在治疗教育和药理学干预等复杂问题的管理方面。副驾驶比ChatGPT和Claude表现出更大的一致性。专家之间的协议显示出一定程度的一致,特别是在更具争议性的问题上。结论:人工智能在治疗腰痛方面显示出有希望的潜力。它们为简单的案例提供了一致和有用的建议。但答案的显著差异凸显了人工智能在复杂临床环境中的局限性。它们还不能独立用于临床决策。这一过程需要将人类专业知识与人工智能相结合,以确保可靠的个性化护理。证据四。人工智能(AI),特别是ChatGPT、Copilot和Claude等模型,对医疗保健的影响越来越大,影响患者和专业人员。本研究的目的是评估这些AIs提供与Haute Autorite de Sante (HAS)常见腰痛指南一致的临床建议的能力。评估的重点是反应的内部一致性、与专家有关的建议的可靠性以及审稿人之间评估的稳定性。3个AIs (ChatGPT, Copilot, Claude)接受了9个关于常见腰痛管理的临床问题的采访。对每个AI进行了三次访谈,以测试其答案的内部一致性。反应由两名专业的物理治疗专家评估。评估标准包括响应与HAS建议的一致性,以及使用kappa系数分析板内和板间可靠性。AI显示出良好的内部一致性,平均文本相似性为88 - 90%。然而,观察到差异,特别是在治疗教育和药理学干预等复杂问题的管理方面。副驾驶比ChatGPT和Claude表现出更大的一致性。专家之间的协议显示出适度的一致,特别是在更具争议性的问题上。结论:AIs在管理常见腰痛方面显示出有希望的潜力,为简单的病例提供一致和有用的建议。然而,反应上的显著差异突出了AIs在复杂临床环境中的局限性。人工智能还不能独立用于临床决策,需要将人类专业知识和人工智能结合起来,以确保可靠的、个性化的护理。第四章。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
Kinesitherapie
Kinesitherapie Medicine-Rehabilitation
CiteScore
0.40
自引率
0.00%
发文量
135
期刊介绍: Kinésithérapie, la revue adresse aux praticiens et aux étudiants qui veulent lire des informations accessibles et utiles. Ce est la première revue francophone paramédicale à être indexée dans une base de données internationale - Cumulative Index to Nursing and Allied Health Literature : CINAHL.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信