Rushabh Shah, Ammar Amjad, Ethan Mickelson, Jacob Pfeiffer
{"title":"Assessing online PRP injection information: Can ChatGPT serve as a reliable evaluator?","authors":"Rushabh Shah, Ammar Amjad, Ethan Mickelson, Jacob Pfeiffer","doi":"10.1016/j.orthtr.2025.11.003","DOIUrl":null,"url":null,"abstract":"<div><h3>Purpose</h3><div>The internet has become a primary source of medical information for patients; however, much of the content available in sports medicine remains unverified, lacking standardized quality assessment. Given the increasing role of artificial intelligence (AI) in healthcare, we sought to evaluate whether ChatGPT could reliably evaluate online sports medicine content. Our study focused on platelet-rich plasma (PRP) injections, a growing non-surgical treatment option for osteoarthritis and sports-related injuries.</div></div><div><h3>Methods</h3><div>We analyzed 68 relevant YouTube videos using two validated health information scoring systems: the DISCERN scale and the JAMA criteria. Human raters and ChatGPT independently graded the videos. Intraclass correlation coefficient and Cohen’s kappa were used to assess inter-rater agreement. Spearman’s rank correlation analysis was performed to evaluate potential systematic bias.</div></div><div><h3>Results</h3><div>Human raters observed a mean DISCERN score of 57.7 (SD 14.0) and mean JAMA score of 2.54 (SD 0.92). ChatGPT observed a mean DISCERN score of 56.6 (SD 9.67) and mean JAMA score of 2.50 (SD 0.93). Inter-rater reliability analysis revealed strong agreement between ChatGPT and human raters (DISCERN ICC = 0.76; JAMA κ = 0.85). However, Spearman’s analysis identified a negative correlation (ρ = −0.75, <em>p</em> < 0.0001) between human and ChatGPT DISCERN scores, indicating that ChatGPT systematically underrated higher-quality videos while overestimating lower-quality ones.</div></div><div><h3>Conclusions</h3><div>ChatGPT shows promise in evaluating online health content, but moderation bias limits claims of validity. While it may aid patient education, these issues highlight the need for further model refinement and validation.</div></div><div><h3>Zielstellung</h3><div>Für Patienten ist das Internet zur Primärquelle für medizinische Informationen geworden, allerdings unterliegt der Großteil dieser Inhalte keinerlei Verifikation oder einer standardisierten Qualitätsbewertung. Vor dem Hintergrund der wachsenden Bedeutung von künstlicher Intelligenz (KI) in der Gesundheitsversorgung untersuchten wir die Frage nach der Zuverlässigkeit von ChatGPT bei der Bewertung von sportmedizinischen Internet-Inhalten. Der Fokus unserer Studie lag hier auf der Injektion von thrombozytenreichem Plasma (PRP-Injektion), einer in zunehmendem Umfang angewendeten konservativen Behandlungsoption bei Osteoarthritis und Sportverletzungen.</div></div><div><h3>Methoden</h3><div>Unter Anwendung von zwei validierten Bewertungssystemen für Gesundheitsinformationen – der DISCERN-Skala und den JAMA-Kriterien – wurden 68 relevante Youtube-Videos analysiert. Die Qualität der Videos wurde unabhängig durch Menschen sowie durch ChatGPT klassifiziert. Zur Bewertung der Beurteilerübereinstimmung wurden der Intraklassen-Korrelationskoeffizient (ICC) sowie Cohens Kappa genutzt. Zur Evaluierung einer potentiellen systematischen Bevorzugung wurde die Spearman-Korrelationsanalyse angewendet.</div></div><div><h3>Resultate</h3><div>Die menschlichen Bewerter ordneten die Qualität der Videos bei einem mittleren Wert von 57,7 (Standardabweichung (SD) 14,0) auf der DISCERN-Skala sowie einem mittleren Wert von 2,54 (SD 0,92) für die JAMA-Kriterien ein. ChatGPT erreichte hier Mittelwerte von 56,6 (SD 9,67) auf der DISCERN-Skala und 2,50 (SD 0,93) für die JAMA-Kriterien. Weiterhin zeigte die Beurteilerübereinstimmungsanalyse einen hohen Grad der Übereinstimmung zwischen ChatGPT und den menschlichen Bewertern (DISCERN ICC = 0,76; JAMA j = 0,85). Das Resultat der Spearman-Analyse zeigte jedoch eine negative Korrelation zwischen den DISCERN-Ergebnissen von Menschen und ChatGPT (q = −0.75, p < 0.0001), was zeigt, dass Videos von höherer Qualität durch ChatGPT systematisch unterbewertet wurden bei gleichzeitiger Überbewertung der Videos von geringerer Qualität.</div></div><div><h3>Fazit</h3><div>ChatGPT zeigt Potential bei der Bewertung von Internetinhalten zur Gesundheit, allerdings wird die Validität der Ergebnisse durch eine systematische Bevorzugung bei der Moderation der Inhalte eingeschränkt. Die Studienresultate zeigen, dass zur Unterstützung der Schulung von Patienten weitere Verbesserungen und Validierungen erforderlich sind.</div></div>","PeriodicalId":38801,"journal":{"name":"Sports Orthopaedics and Traumatology","volume":"42 1","pages":"Pages 73-80"},"PeriodicalIF":0.0000,"publicationDate":"2026-03-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Sports Orthopaedics and Traumatology","FirstCategoryId":"1085","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0949328X25002546","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"2025/12/29 0:00:00","PubModel":"Epub","JCR":"Q4","JCRName":"Health Professions","Score":null,"Total":0}
引用次数: 0
Abstract
Purpose
The internet has become a primary source of medical information for patients; however, much of the content available in sports medicine remains unverified, lacking standardized quality assessment. Given the increasing role of artificial intelligence (AI) in healthcare, we sought to evaluate whether ChatGPT could reliably evaluate online sports medicine content. Our study focused on platelet-rich plasma (PRP) injections, a growing non-surgical treatment option for osteoarthritis and sports-related injuries.
Methods
We analyzed 68 relevant YouTube videos using two validated health information scoring systems: the DISCERN scale and the JAMA criteria. Human raters and ChatGPT independently graded the videos. Intraclass correlation coefficient and Cohen’s kappa were used to assess inter-rater agreement. Spearman’s rank correlation analysis was performed to evaluate potential systematic bias.
Results
Human raters observed a mean DISCERN score of 57.7 (SD 14.0) and mean JAMA score of 2.54 (SD 0.92). ChatGPT observed a mean DISCERN score of 56.6 (SD 9.67) and mean JAMA score of 2.50 (SD 0.93). Inter-rater reliability analysis revealed strong agreement between ChatGPT and human raters (DISCERN ICC = 0.76; JAMA κ = 0.85). However, Spearman’s analysis identified a negative correlation (ρ = −0.75, p < 0.0001) between human and ChatGPT DISCERN scores, indicating that ChatGPT systematically underrated higher-quality videos while overestimating lower-quality ones.
Conclusions
ChatGPT shows promise in evaluating online health content, but moderation bias limits claims of validity. While it may aid patient education, these issues highlight the need for further model refinement and validation.
Zielstellung
Für Patienten ist das Internet zur Primärquelle für medizinische Informationen geworden, allerdings unterliegt der Großteil dieser Inhalte keinerlei Verifikation oder einer standardisierten Qualitätsbewertung. Vor dem Hintergrund der wachsenden Bedeutung von künstlicher Intelligenz (KI) in der Gesundheitsversorgung untersuchten wir die Frage nach der Zuverlässigkeit von ChatGPT bei der Bewertung von sportmedizinischen Internet-Inhalten. Der Fokus unserer Studie lag hier auf der Injektion von thrombozytenreichem Plasma (PRP-Injektion), einer in zunehmendem Umfang angewendeten konservativen Behandlungsoption bei Osteoarthritis und Sportverletzungen.
Methoden
Unter Anwendung von zwei validierten Bewertungssystemen für Gesundheitsinformationen – der DISCERN-Skala und den JAMA-Kriterien – wurden 68 relevante Youtube-Videos analysiert. Die Qualität der Videos wurde unabhängig durch Menschen sowie durch ChatGPT klassifiziert. Zur Bewertung der Beurteilerübereinstimmung wurden der Intraklassen-Korrelationskoeffizient (ICC) sowie Cohens Kappa genutzt. Zur Evaluierung einer potentiellen systematischen Bevorzugung wurde die Spearman-Korrelationsanalyse angewendet.
Resultate
Die menschlichen Bewerter ordneten die Qualität der Videos bei einem mittleren Wert von 57,7 (Standardabweichung (SD) 14,0) auf der DISCERN-Skala sowie einem mittleren Wert von 2,54 (SD 0,92) für die JAMA-Kriterien ein. ChatGPT erreichte hier Mittelwerte von 56,6 (SD 9,67) auf der DISCERN-Skala und 2,50 (SD 0,93) für die JAMA-Kriterien. Weiterhin zeigte die Beurteilerübereinstimmungsanalyse einen hohen Grad der Übereinstimmung zwischen ChatGPT und den menschlichen Bewertern (DISCERN ICC = 0,76; JAMA j = 0,85). Das Resultat der Spearman-Analyse zeigte jedoch eine negative Korrelation zwischen den DISCERN-Ergebnissen von Menschen und ChatGPT (q = −0.75, p < 0.0001), was zeigt, dass Videos von höherer Qualität durch ChatGPT systematisch unterbewertet wurden bei gleichzeitiger Überbewertung der Videos von geringerer Qualität.
Fazit
ChatGPT zeigt Potential bei der Bewertung von Internetinhalten zur Gesundheit, allerdings wird die Validität der Ergebnisse durch eine systematische Bevorzugung bei der Moderation der Inhalte eingeschränkt. Die Studienresultate zeigen, dass zur Unterstützung der Schulung von Patienten weitere Verbesserungen und Validierungen erforderlich sind.
互联网已成为患者获取医疗信息的主要来源;然而,运动医学中的许多内容仍然未经验证,缺乏标准化的质量评估。鉴于人工智能(AI)在医疗保健中的作用越来越大,我们试图评估ChatGPT是否可以可靠地评估在线运动医学内容。我们的研究重点是富血小板血浆(PRP)注射,这是骨关节炎和运动相关损伤的一种日益增长的非手术治疗选择。方法采用两种经过验证的健康信息评分系统:DISCERN量表和JAMA标准,对68个相关YouTube视频进行分析。人类评分员和ChatGPT分别对视频进行评分。用班级内相关系数和Cohen’s kappa来评估班级间的一致性。采用Spearman秩相关分析评价潜在的系统偏倚。结果人类评分者的平均DISCERN评分为57.7 (SD 14.0),平均JAMA评分为2.54 (SD 0.92)。ChatGPT的平均DISCERN评分为56.6 (SD 9.67),平均JAMA评分为2.50 (SD 0.93)。评估者间信度分析显示,ChatGPT与人类评估者之间存在强烈的一致性(DISCERN ICC = 0.76;JAMA κ = 0.85)。然而,Spearman的分析发现了人类和ChatGPT DISCERN分数之间的负相关(ρ = −0.75,p <; 0.0001),这表明ChatGPT系统地低估了高质量的视频,而高估了低质量的视频。结论schatgpt在评估在线健康内容方面表现出良好的前景,但适度偏倚限制了有效性声明。虽然它可能有助于患者教育,但这些问题突出了进一步改进模型和验证的必要性。zielstellungfr患者ist as Internet zur Primärquelle fzr medizinische Informationen geword, allerdings unlieger der gros ßteil dier Inhalte keinlei验证der einer标准diserten Qualitätsbewertung。参考文献1 .在德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国德国研究了血小板增生性血浆注射剂(prp -注射剂)在骨性关节炎、骨关节炎和运动性关节炎等疾病中的应用。方法:对相关的youtube视频进行分析,并对相关的视频进行分析。Die Qualität der Videos wurde unabhängig durch Menschen sowie durch ChatGPT klassifiziert。Zur Bewertung der beurteilerbereinstimmung wurden der intraklassen - korrelationskoeffizize (ICC) sowie Cohens Kappa genutzt。[6] [6] [3] [3] [3] [1] [3] [1] [3] [4] [4] [4] [4]结果die menschlichen Bewerter ordneten die Qualität der Videos beinem mittleren Wert von 57,7 (Standardabweichung (SD) 14,0); der read read - skala sowie einem mittleren Wert von 2,54 (SD 0,92);[3] [j] .生物医学工程学报,56,6 (SD 9,67) .与生物医学工程学报,2,50 (SD 0,93) .]Weiterhin zeigte die beurteilerbereinstingmungsanalyse einen hohen Grad der Übereinstimmung zwischen ChatGPT und den menschlichen Bewertern (DISCERN ICC = 0,76;JAMA j = 0,85)。结果der Spearman-Analyse zeigte jedoch eine负相关zwischen den识别- ergebnissen von Menschen与ChatGPT (q = −0.75,p <; 0.0001),为zeigt,通过Videos von höherer Qualität durch ChatGPT systematisch unterbewertet wurden bei gleichzeitiger Überbewertung der Videos von geringerer Qualität。FazitChatGPT的翻译结果:潜在的Bewertung von互联网吸入zur Gesundheit,变送器风die Validität der Ergebnisse durch eine systematische Bevorzugung der Moderation der Inhalte eingeschränkt。研究结果表明,在研究过程中,患者的诊断和诊断是有效的。