Chat GPT vs experts: Comment pensent les robots et les neuroradiologues face à des textes et des images ?

IF 3 3区医学 Q2 CLINICAL NEUROLOGY

Journal of Neuroradiology Pub Date : 2025-02-19 DOI:10.1016/j.neurad.2025.101252

Bastien Le Guellec , Cyril Bruge , Quentin Vannod-Michel , Najib Chalhoub , Victor Chaton , Matthieu Masy , Aghiles Hamroun , Gregory Kuchcinski

{"title":"Chat GPT vs experts: Comment pensent les robots et les neuroradiologues face à des textes et des images ?","authors":"Bastien Le Guellec , Cyril Bruge , Quentin Vannod-Michel , Najib Chalhoub , Victor Chaton , Matthieu Masy , Aghiles Hamroun , Gregory Kuchcinski","doi":"10.1016/j.neurad.2025.101252","DOIUrl":null,"url":null,"abstract":"<div><div>Les modèles de langage comme ChatGPT (OpenAI) et Gemini (Google) sont désormais capables de raisonner à partir d'images. En radiologie, ils semblent rivaliser avec des experts humains dans des cas complexes intégrant des images clés et un contexte clinique. Cependant, il n'est pas certain que ces modèles tirent réellement parti de l'intégration des images et des textes, comme le feraient des radiologues, ou s'ils basent principalement leurs réponses sur une analyse approfondie du contexte. Pour évaluer cette question, nous avons sélectionné 53 cas de neuroradiologie issus de la série <em>Diagnosis Please</em> du journal <em>Radiology</em>. Les images et le contexte clinique de chaque cas ont été séparés. GPT-4o et Gemini 1.5 Pro, ainsi que six neuroradiologues provenant de quatre centres différents, ont été testés individuellement sur ces cas, en leur présentant soit uniquement les images, soit uniquement le contexte, soit les deux combinés. GPT-4o et Gemini ont surpassé les radiologues lorsqu'ils disposaient uniquement du contexte clinique (34,0 % de bonnes réponses pour GPT-4o, 29,1 % pour Gemini, contre 16,3 % pour les radiologues, <em>p</em> < 0,01). Cependant, les radiologues ont obtenu de meilleurs résultats que les modèles face aux images seules (42 % pour les radiologues contre 3,9 % pour GPT-4o et 7,2 % pour Gemini, <em>p</em> < 0,01), ou face aux cas complets combinant images et contexte (48 % pour les radiologues contre 33 % pour GPT-4o et 32 % pour Gemini, <em>p</em> < 0,001). De plus, les radiologues ont démontré leur capacité à bénéficier de l'apport des images au contexte clinique et du contexte aux images. A l'inverse, les modèles n'ont pas montré d'amélioration significative de leurs performances lorsqu'ils passaient du contexte clinique seul au cas complet. Ces résultats soulignent la capacité spécifique des radiologues à intégrer des informations multimodales pour raisonner efficacement sur des cas complexes mêlant textes et images.</div></div>","PeriodicalId":50115,"journal":{"name":"Journal of Neuroradiology","volume":"52 2","pages":"Article 101252"},"PeriodicalIF":3.0000,"publicationDate":"2025-02-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Neuroradiology","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0150986125000112","RegionNum":3,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q2","JCRName":"CLINICAL NEUROLOGY","Score":null,"Total":0}

引用次数: 0

Abstract

Les modèles de langage comme ChatGPT (OpenAI) et Gemini (Google) sont désormais capables de raisonner à partir d'images. En radiologie, ils semblent rivaliser avec des experts humains dans des cas complexes intégrant des images clés et un contexte clinique. Cependant, il n'est pas certain que ces modèles tirent réellement parti de l'intégration des images et des textes, comme le feraient des radiologues, ou s'ils basent principalement leurs réponses sur une analyse approfondie du contexte. Pour évaluer cette question, nous avons sélectionné 53 cas de neuroradiologie issus de la série Diagnosis Please du journal Radiology. Les images et le contexte clinique de chaque cas ont été séparés. GPT-4o et Gemini 1.5 Pro, ainsi que six neuroradiologues provenant de quatre centres différents, ont été testés individuellement sur ces cas, en leur présentant soit uniquement les images, soit uniquement le contexte, soit les deux combinés. GPT-4o et Gemini ont surpassé les radiologues lorsqu'ils disposaient uniquement du contexte clinique (34,0 % de bonnes réponses pour GPT-4o, 29,1 % pour Gemini, contre 16,3 % pour les radiologues, p < 0,01). Cependant, les radiologues ont obtenu de meilleurs résultats que les modèles face aux images seules (42 % pour les radiologues contre 3,9 % pour GPT-4o et 7,2 % pour Gemini, p < 0,01), ou face aux cas complets combinant images et contexte (48 % pour les radiologues contre 33 % pour GPT-4o et 32 % pour Gemini, p < 0,001). De plus, les radiologues ont démontré leur capacité à bénéficier de l'apport des images au contexte clinique et du contexte aux images. A l'inverse, les modèles n'ont pas montré d'amélioration significative de leurs performances lorsqu'ils passaient du contexte clinique seul au cas complet. Ces résultats soulignent la capacité spécifique des radiologues à intégrer des informations multimodales pour raisonner efficacement sur des cas complexes mêlant textes et images.

查看原文本刊更多论文

聊天GPT vs专家：评论：机器人和神经放射学专家面对文本和图像？

像ChatGPT （OpenAI）和Gemini（谷歌）这样的语言模型现在可以从图像中进行推理。在放射学领域，他们似乎在涉及关键图像和临床环境的复杂病例中与人类专家竞争。然而，目前还不清楚这些模型是否真的像放射科医生那样从图像和文本的整合中受益，或者它们的答案是否主要基于对背景的深入分析。为了评估这个问题，我们从《放射学》杂志的《诊断请》系列中选择了53例神经放射学病例。每个病例的图像和临床背景已被分离。GPT-4o和Gemini 1.5 Pro，以及来自四个不同中心的6名神经放射学家，分别对这些病例进行了测试，要么只展示图像，要么只展示背景，要么两者结合。GPT-4o和Gemini在只有临床背景的情况下表现优于放射科医生(34.0%的准确率为GPT-4o， 29.1%为Gemini， 16.3%为放射科医生，p<；0.01)。然而，放射科医生在单独使用图像方面的表现优于模型(放射科医生为42%，GPT-4o为3.9%，Gemini为7.2%,p<；0.01)，或结合图像和背景的完整病例(放射科医生为48%，GPT-4o为33%，Gemini为32%，p <；0.001)。此外，放射科医生已经展示了他们从临床背景图像和背景图像中获益的能力。相比之下，从单独的临床环境到完整的病例，模型并没有显示出显著的性能改善。这些结果突出了放射科医生整合多模式信息的独特能力，以有效地推理复杂的文本和图像病例。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文求助全文

来源期刊

Journal of Neuroradiology 医学-核医学

CiteScore

6.10

自引率

5.70%

发文量

142

审稿时长

6-12 weeks

期刊介绍： The Journal of Neuroradiology is a peer-reviewed journal, publishing worldwide clinical and basic research in the field of diagnostic and Interventional neuroradiology, translational and molecular neuroimaging, and artificial intelligence in neuroradiology. The Journal of Neuroradiology considers for publication articles, reviews, technical notes and letters to the editors (correspondence section), provided that the methodology and scientific content are of high quality, and that the results will have substantial clinical impact and/or physiological importance.