Bastien Le Guellec , Cyril Bruge , Quentin Vannod-Michel , Najib Chalhoub , Victor Chaton , Matthieu Masy , Aghiles Hamroun , Gregory Kuchcinski
{"title":"Chat GPT vs experts: Comment pensent les robots et les neuroradiologues face à des textes et des images ?","authors":"Bastien Le Guellec , Cyril Bruge , Quentin Vannod-Michel , Najib Chalhoub , Victor Chaton , Matthieu Masy , Aghiles Hamroun , Gregory Kuchcinski","doi":"10.1016/j.neurad.2025.101252","DOIUrl":null,"url":null,"abstract":"<div><div>Les modèles de langage comme ChatGPT (OpenAI) et Gemini (Google) sont désormais capables de raisonner à partir d'images. En radiologie, ils semblent rivaliser avec des experts humains dans des cas complexes intégrant des images clés et un contexte clinique. Cependant, il n'est pas certain que ces modèles tirent réellement parti de l'intégration des images et des textes, comme le feraient des radiologues, ou s'ils basent principalement leurs réponses sur une analyse approfondie du contexte. Pour évaluer cette question, nous avons sélectionné 53 cas de neuroradiologie issus de la série <em>Diagnosis Please</em> du journal <em>Radiology</em>. Les images et le contexte clinique de chaque cas ont été séparés. GPT-4o et Gemini 1.5 Pro, ainsi que six neuroradiologues provenant de quatre centres différents, ont été testés individuellement sur ces cas, en leur présentant soit uniquement les images, soit uniquement le contexte, soit les deux combinés. GPT-4o et Gemini ont surpassé les radiologues lorsqu'ils disposaient uniquement du contexte clinique (34,0 % de bonnes réponses pour GPT-4o, 29,1 % pour Gemini, contre 16,3 % pour les radiologues, <em>p</em> < 0,01). Cependant, les radiologues ont obtenu de meilleurs résultats que les modèles face aux images seules (42 % pour les radiologues contre 3,9 % pour GPT-4o et 7,2 % pour Gemini, <em>p</em> < 0,01), ou face aux cas complets combinant images et contexte (48 % pour les radiologues contre 33 % pour GPT-4o et 32 % pour Gemini, <em>p</em> < 0,001). De plus, les radiologues ont démontré leur capacité à bénéficier de l'apport des images au contexte clinique et du contexte aux images. A l'inverse, les modèles n'ont pas montré d'amélioration significative de leurs performances lorsqu'ils passaient du contexte clinique seul au cas complet. Ces résultats soulignent la capacité spécifique des radiologues à intégrer des informations multimodales pour raisonner efficacement sur des cas complexes mêlant textes et images.</div></div>","PeriodicalId":50115,"journal":{"name":"Journal of Neuroradiology","volume":"52 2","pages":"Article 101252"},"PeriodicalIF":3.0000,"publicationDate":"2025-02-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Neuroradiology","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0150986125000112","RegionNum":3,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q2","JCRName":"CLINICAL NEUROLOGY","Score":null,"Total":0}
引用次数: 0
Abstract
Les modèles de langage comme ChatGPT (OpenAI) et Gemini (Google) sont désormais capables de raisonner à partir d'images. En radiologie, ils semblent rivaliser avec des experts humains dans des cas complexes intégrant des images clés et un contexte clinique. Cependant, il n'est pas certain que ces modèles tirent réellement parti de l'intégration des images et des textes, comme le feraient des radiologues, ou s'ils basent principalement leurs réponses sur une analyse approfondie du contexte. Pour évaluer cette question, nous avons sélectionné 53 cas de neuroradiologie issus de la série Diagnosis Please du journal Radiology. Les images et le contexte clinique de chaque cas ont été séparés. GPT-4o et Gemini 1.5 Pro, ainsi que six neuroradiologues provenant de quatre centres différents, ont été testés individuellement sur ces cas, en leur présentant soit uniquement les images, soit uniquement le contexte, soit les deux combinés. GPT-4o et Gemini ont surpassé les radiologues lorsqu'ils disposaient uniquement du contexte clinique (34,0 % de bonnes réponses pour GPT-4o, 29,1 % pour Gemini, contre 16,3 % pour les radiologues, p < 0,01). Cependant, les radiologues ont obtenu de meilleurs résultats que les modèles face aux images seules (42 % pour les radiologues contre 3,9 % pour GPT-4o et 7,2 % pour Gemini, p < 0,01), ou face aux cas complets combinant images et contexte (48 % pour les radiologues contre 33 % pour GPT-4o et 32 % pour Gemini, p < 0,001). De plus, les radiologues ont démontré leur capacité à bénéficier de l'apport des images au contexte clinique et du contexte aux images. A l'inverse, les modèles n'ont pas montré d'amélioration significative de leurs performances lorsqu'ils passaient du contexte clinique seul au cas complet. Ces résultats soulignent la capacité spécifique des radiologues à intégrer des informations multimodales pour raisonner efficacement sur des cas complexes mêlant textes et images.
期刊介绍:
The Journal of Neuroradiology is a peer-reviewed journal, publishing worldwide clinical and basic research in the field of diagnostic and Interventional neuroradiology, translational and molecular neuroimaging, and artificial intelligence in neuroradiology.
The Journal of Neuroradiology considers for publication articles, reviews, technical notes and letters to the editors (correspondence section), provided that the methodology and scientific content are of high quality, and that the results will have substantial clinical impact and/or physiological importance.