D. Mikhail , A. Mihalache , R.S. Huang , T. Khairy , M.M. Popovic , D. Milad , R. Shor , A. Pereira , J. Kwok , P. Yan , D.T. Wong , P.J. Kertes , R. Duval , R.H. Muni
{"title":"ChatGPT在法语多模态视网膜病例分析中的表现。","authors":"D. Mikhail , A. Mihalache , R.S. Huang , T. Khairy , M.M. Popovic , D. Milad , R. Shor , A. Pereira , J. Kwok , P. Yan , D.T. Wong , P.J. Kertes , R. Duval , R.H. Muni","doi":"10.1016/j.jfo.2024.104391","DOIUrl":null,"url":null,"abstract":"<div><h3>Purpose</h3><div>Prior literature has suggested a reduced performance of large language models (LLMs) in non-English analyses, including Arabic and French. However, there are no current studies testing the multimodal performance of ChatGPT in French ophthalmology cases, and comparing this to the results observed in the English literature. We compared the performance of ChatGPT-4 in French and English on open-ended prompts using multimodal input data from retinal cases.</div></div><div><h3>Methods</h3><div>GPT-4 was prompted in English and French using a public dataset containing 67 retinal cases from the ophthalmology education website OCTCases.com. The clinical case and accompanying ophthalmic images comprised the prompt, along with the open-ended question: “What is the most likely diagnosis?” Systematic prompting was used to identify and compare relevant factor(s) contributing to correct and incorrect responses. Diagnostic accuracy was the primary outcome, defined as the proportion of correctly diagnosed cases in French and English. Diagnoses were compared with the answer key on OCTCases to confirm correct or incorrect responses. Clinically relevant factors reported by the LLM as contributory to its decision-making were secondary endpoints.</div></div><div><h3>Results</h3><div>The diagnostic accuracies of GPT-4 in English and French were 35.8% and 28.4%, respectively (χ<sup>2</sup>, <em>P</em> <!-->=<!--> <!-->0.36). Imaging findings were reported as most influential for correct diagnosis in English (37.5%) and French (42.1%) (<em>P</em> <!-->=<!--> <!-->0.76). In incorrectly diagnosed cases, imaging findings were primarily implicated in English (35.6%) and French (33.3%) (<em>P</em> <!-->=<!--> <!-->0.81). In incorrectly diagnosed cases, the differential diagnosis list contained the correct diagnosis in 39.5% of English cases and 41.7% of French cases (<em>P</em> <!-->=<!--> <!-->0.83).</div></div><div><h3>Conclusion</h3><div>Our results suggest that GPT-4 performed similarly in English and French on all quantitative performance metrics measured. Ophthalmic images were identified in both languages as critical for correct diagnosis. Future research should assess LLM comprehension through the clarity, grammatical, cultural, and idiomatic accuracy of its responses.</div></div><div><h3>Objectif</h3><div>Comparer la performance de GPT-4 en français et en anglais sur des cas multimodaux en rétine.</div></div><div><h3>Méthode</h3><div>GPT-4 a été posée des questions en français et en anglais à l’aide d’un ensemble de données publiques contenant 67 cas rétiniens provenant du site web OCTCases.com. Les cas cliniques et les images ophtalmiques qui l’accompagnent constituaient les entrées, ainsi que la question ouverte : « Quel est le diagnostic le plus probable ? » Des demandes précises nous ont permis d’identifier et de comparer les facteurs pertinents contribuant aux réponses correctes et incorrectes. La performance au diagnostic était le résultat principal. Les facteurs cliniques pertinents signalés par GPT-4 comme ayant contribué à sa prise de décision constituaient les critères d’évaluation secondaires.</div></div><div><h3>Résultats</h3><div>La précision diagnostique du GPT-4 en anglais et en français était de 35,8 % et de 28,4 %, respectivement (χ<sup>2</sup>, <em>p</em> <!-->=<!--> <!-->0,36). L’imagerie a été rapportée comme étant le facteur le plus important pour un diagnostic correct en anglais (37,5 %) et en français (42,1 %) (<em>p</em> <!-->=<!--> <!-->0,76). Dans les cas incorrectement diagnostiqués, l’imagerie a encore été le facteur le plus important en anglais (35,6 %) et en français (33,3 %) (<em>p</em> <!-->=<!--> <!-->0,81). Toujours dans ces mêmes cas, le diagnostic différentiel contenait le bon diagnostic dans 39,5 % des cas en anglais et 41,7 % des cas en français (<em>p</em> <!-->=<!--> <!-->0,83).</div></div><div><h3>Conclusion</h3><div>GPT-4 semble performer de façon similaire en anglais et en français dans le domaine d’analyse de cas multimodaux en rétine. Les images ophtalmiques ont été identifiées dans les deux langues comme essentielles pour un diagnostic précis. Les recherches futures pourraient tenter d’évaluer la capacité d’analyse du modèle à travers la précision grammaticale, culturelle et idiomatique de ses réponses.</div></div>","PeriodicalId":14777,"journal":{"name":"Journal Francais D Ophtalmologie","volume":"48 3","pages":"Article 104391"},"PeriodicalIF":1.2000,"publicationDate":"2024-12-20","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Performance of ChatGPT in French language analysis of multimodal retinal cases\",\"authors\":\"D. Mikhail , A. Mihalache , R.S. Huang , T. Khairy , M.M. Popovic , D. Milad , R. Shor , A. Pereira , J. Kwok , P. Yan , D.T. Wong , P.J. Kertes , R. Duval , R.H. Muni\",\"doi\":\"10.1016/j.jfo.2024.104391\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"<div><h3>Purpose</h3><div>Prior literature has suggested a reduced performance of large language models (LLMs) in non-English analyses, including Arabic and French. However, there are no current studies testing the multimodal performance of ChatGPT in French ophthalmology cases, and comparing this to the results observed in the English literature. We compared the performance of ChatGPT-4 in French and English on open-ended prompts using multimodal input data from retinal cases.</div></div><div><h3>Methods</h3><div>GPT-4 was prompted in English and French using a public dataset containing 67 retinal cases from the ophthalmology education website OCTCases.com. The clinical case and accompanying ophthalmic images comprised the prompt, along with the open-ended question: “What is the most likely diagnosis?” Systematic prompting was used to identify and compare relevant factor(s) contributing to correct and incorrect responses. Diagnostic accuracy was the primary outcome, defined as the proportion of correctly diagnosed cases in French and English. Diagnoses were compared with the answer key on OCTCases to confirm correct or incorrect responses. Clinically relevant factors reported by the LLM as contributory to its decision-making were secondary endpoints.</div></div><div><h3>Results</h3><div>The diagnostic accuracies of GPT-4 in English and French were 35.8% and 28.4%, respectively (χ<sup>2</sup>, <em>P</em> <!-->=<!--> <!-->0.36). Imaging findings were reported as most influential for correct diagnosis in English (37.5%) and French (42.1%) (<em>P</em> <!-->=<!--> <!-->0.76). In incorrectly diagnosed cases, imaging findings were primarily implicated in English (35.6%) and French (33.3%) (<em>P</em> <!-->=<!--> <!-->0.81). In incorrectly diagnosed cases, the differential diagnosis list contained the correct diagnosis in 39.5% of English cases and 41.7% of French cases (<em>P</em> <!-->=<!--> <!-->0.83).</div></div><div><h3>Conclusion</h3><div>Our results suggest that GPT-4 performed similarly in English and French on all quantitative performance metrics measured. Ophthalmic images were identified in both languages as critical for correct diagnosis. Future research should assess LLM comprehension through the clarity, grammatical, cultural, and idiomatic accuracy of its responses.</div></div><div><h3>Objectif</h3><div>Comparer la performance de GPT-4 en français et en anglais sur des cas multimodaux en rétine.</div></div><div><h3>Méthode</h3><div>GPT-4 a été posée des questions en français et en anglais à l’aide d’un ensemble de données publiques contenant 67 cas rétiniens provenant du site web OCTCases.com. Les cas cliniques et les images ophtalmiques qui l’accompagnent constituaient les entrées, ainsi que la question ouverte : « Quel est le diagnostic le plus probable ? » Des demandes précises nous ont permis d’identifier et de comparer les facteurs pertinents contribuant aux réponses correctes et incorrectes. La performance au diagnostic était le résultat principal. Les facteurs cliniques pertinents signalés par GPT-4 comme ayant contribué à sa prise de décision constituaient les critères d’évaluation secondaires.</div></div><div><h3>Résultats</h3><div>La précision diagnostique du GPT-4 en anglais et en français était de 35,8 % et de 28,4 %, respectivement (χ<sup>2</sup>, <em>p</em> <!-->=<!--> <!-->0,36). L’imagerie a été rapportée comme étant le facteur le plus important pour un diagnostic correct en anglais (37,5 %) et en français (42,1 %) (<em>p</em> <!-->=<!--> <!-->0,76). Dans les cas incorrectement diagnostiqués, l’imagerie a encore été le facteur le plus important en anglais (35,6 %) et en français (33,3 %) (<em>p</em> <!-->=<!--> <!-->0,81). Toujours dans ces mêmes cas, le diagnostic différentiel contenait le bon diagnostic dans 39,5 % des cas en anglais et 41,7 % des cas en français (<em>p</em> <!-->=<!--> <!-->0,83).</div></div><div><h3>Conclusion</h3><div>GPT-4 semble performer de façon similaire en anglais et en français dans le domaine d’analyse de cas multimodaux en rétine. Les images ophtalmiques ont été identifiées dans les deux langues comme essentielles pour un diagnostic précis. Les recherches futures pourraient tenter d’évaluer la capacité d’analyse du modèle à travers la précision grammaticale, culturelle et idiomatique de ses réponses.</div></div>\",\"PeriodicalId\":14777,\"journal\":{\"name\":\"Journal Francais D Ophtalmologie\",\"volume\":\"48 3\",\"pages\":\"Article 104391\"},\"PeriodicalIF\":1.2000,\"publicationDate\":\"2024-12-20\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Journal Francais D Ophtalmologie\",\"FirstCategoryId\":\"3\",\"ListUrlMain\":\"https://www.sciencedirect.com/science/article/pii/S018155122400336X\",\"RegionNum\":4,\"RegionCategory\":\"医学\",\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q3\",\"JCRName\":\"OPHTHALMOLOGY\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal Francais D Ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S018155122400336X","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}
Performance of ChatGPT in French language analysis of multimodal retinal cases
Purpose
Prior literature has suggested a reduced performance of large language models (LLMs) in non-English analyses, including Arabic and French. However, there are no current studies testing the multimodal performance of ChatGPT in French ophthalmology cases, and comparing this to the results observed in the English literature. We compared the performance of ChatGPT-4 in French and English on open-ended prompts using multimodal input data from retinal cases.
Methods
GPT-4 was prompted in English and French using a public dataset containing 67 retinal cases from the ophthalmology education website OCTCases.com. The clinical case and accompanying ophthalmic images comprised the prompt, along with the open-ended question: “What is the most likely diagnosis?” Systematic prompting was used to identify and compare relevant factor(s) contributing to correct and incorrect responses. Diagnostic accuracy was the primary outcome, defined as the proportion of correctly diagnosed cases in French and English. Diagnoses were compared with the answer key on OCTCases to confirm correct or incorrect responses. Clinically relevant factors reported by the LLM as contributory to its decision-making were secondary endpoints.
Results
The diagnostic accuracies of GPT-4 in English and French were 35.8% and 28.4%, respectively (χ2, P = 0.36). Imaging findings were reported as most influential for correct diagnosis in English (37.5%) and French (42.1%) (P = 0.76). In incorrectly diagnosed cases, imaging findings were primarily implicated in English (35.6%) and French (33.3%) (P = 0.81). In incorrectly diagnosed cases, the differential diagnosis list contained the correct diagnosis in 39.5% of English cases and 41.7% of French cases (P = 0.83).
Conclusion
Our results suggest that GPT-4 performed similarly in English and French on all quantitative performance metrics measured. Ophthalmic images were identified in both languages as critical for correct diagnosis. Future research should assess LLM comprehension through the clarity, grammatical, cultural, and idiomatic accuracy of its responses.
Objectif
Comparer la performance de GPT-4 en français et en anglais sur des cas multimodaux en rétine.
Méthode
GPT-4 a été posée des questions en français et en anglais à l’aide d’un ensemble de données publiques contenant 67 cas rétiniens provenant du site web OCTCases.com. Les cas cliniques et les images ophtalmiques qui l’accompagnent constituaient les entrées, ainsi que la question ouverte : « Quel est le diagnostic le plus probable ? » Des demandes précises nous ont permis d’identifier et de comparer les facteurs pertinents contribuant aux réponses correctes et incorrectes. La performance au diagnostic était le résultat principal. Les facteurs cliniques pertinents signalés par GPT-4 comme ayant contribué à sa prise de décision constituaient les critères d’évaluation secondaires.
Résultats
La précision diagnostique du GPT-4 en anglais et en français était de 35,8 % et de 28,4 %, respectivement (χ2, p = 0,36). L’imagerie a été rapportée comme étant le facteur le plus important pour un diagnostic correct en anglais (37,5 %) et en français (42,1 %) (p = 0,76). Dans les cas incorrectement diagnostiqués, l’imagerie a encore été le facteur le plus important en anglais (35,6 %) et en français (33,3 %) (p = 0,81). Toujours dans ces mêmes cas, le diagnostic différentiel contenait le bon diagnostic dans 39,5 % des cas en anglais et 41,7 % des cas en français (p = 0,83).
Conclusion
GPT-4 semble performer de façon similaire en anglais et en français dans le domaine d’analyse de cas multimodaux en rétine. Les images ophtalmiques ont été identifiées dans les deux langues comme essentielles pour un diagnostic précis. Les recherches futures pourraient tenter d’évaluer la capacité d’analyse du modèle à travers la précision grammaticale, culturelle et idiomatique de ses réponses.
期刊介绍:
The Journal français d''ophtalmologie, official publication of the French Society of Ophthalmology, serves the French Speaking Community by publishing excellent research articles, communications of the French Society of Ophthalmology, in-depth reviews, position papers, letters received by the editor and a rich image bank in each issue. The scientific quality is guaranteed through unbiased peer-review, and the journal is member of the Committee of Publication Ethics (COPE). The editors strongly discourage editorial misconduct and in particular if duplicative text from published sources is identified without proper citation, the submission will not be considered for peer review and returned to the authors or immediately rejected.