Bilingual comparison of the performance of GPT-4o and GPT-4 on ophthalmology residency examination questions – Analysis of responses in English and French
E. Shvartz , L. Attal , O. Zur , Z. Nujeidat , G. Plopsky , D. Bahir
{"title":"Bilingual comparison of the performance of GPT-4o and GPT-4 on ophthalmology residency examination questions – Analysis of responses in English and French","authors":"E. Shvartz , L. Attal , O. Zur , Z. Nujeidat , G. Plopsky , D. Bahir","doi":"10.1016/j.jfo.2025.104650","DOIUrl":null,"url":null,"abstract":"<div><h3>Objective</h3><div>To evaluate and compare the performance of GPT-4 and the newer GPT-4o in both English and French on ophthalmology board examination questions, assessing accuracy across various subspecialties and question formats, with a focus on image analysis.</div></div><div><h3>Methods</h3><div>A dataset of 600 multiple-choice questions from certification-level board examinations covering 12 subspecialties and diverse content was carefully translated and tested in both English and French using GPT-4 and GPT-4o with analyses by examination years, question type, and processing of various image inputs, ensuring a comprehensive evaluation. Performance of human residents from 2021–2023 was used for comparison. Statistical analyses, including χ<sup>2</sup> tests and odds ratio calculations, compared accuracy across models.</div></div><div><h3>Results</h3><div>GPT-4o in English achieved the highest accuracy (74.5%), approaching human resident performance, while its French counterpart scored 67.4%. GPT-4 scored 62.3% and 64.4% in English and French, respectively, both significantly lower than GPT-4o (<em>P</em> <!--><<!--> <!-->0.001). Text-based questions showed consistently higher accuracy across all models, with English GPT-4o leading at 82.5%. Image-based questions revealed similar performance for English and French GPT-4o, both outperforming the GPT-4 models.</div></div><div><h3>Conclusions</h3><div>GPT-4o outperforms GPT-4 in both English and French, underscoring its potential for ophthalmology use in both languages. While limitations remain, particularly in image-based diagnostics and language-specific nuances, these models are paving the way for a future where artificial intelligence supports and enhances human expertise in both education and patient care.</div></div><div><h3>Objectif</h3><div>Évaluer et comparer les performances de GPT-4 et du nouveau GPT-4o en anglais et en français sur des questions tirées d’examens de certification en ophtalmologie pour l’internat, en analysant leur précision à travers différentes sous-spécialités et formats de questions, avec une attention particulière à l’analyse d’images.</div></div><div><h3>Méthodes</h3><div>Un ensemble de 600 questions à choix multiples issues d’examens de certification, couvrant 12 sous-spécialités et divers contenus, a été soigneusement traduit et testé en anglais et en français à l’aide de GPT-4 et GPT-4o, avec une analyse par année d’examen, type de question et différents types d’images évaluées, assurant une évaluation complète. Les performances des internes humains (2021–2023) ont servi de référence. Des analyses statistiques, incluant des tests du χ<sup>2</sup> et des calculs de rapport de cotes, ont permis de comparer la précision des modèles.</div></div><div><h3>Résultats</h3><div>GPT-4o en anglais a démontré la meilleure précision (74,5 %), se rapprochant des performances des internes humains, tandis que sa version française a atteint 67,4 %. GPT-4 a obtenu 62,3 % en anglais et 64,4 % en français, des résultats significativement inférieurs à GPT-4o (<em>p</em> <!--><<!--> <!-->0,001). Les questions textuelles ont montré une précision constamment plus élevée pour tous les modèles, GPT-4o en anglais étant en tête avec 82,5 %. Les questions accompagnées d’images ont révélé des performances similaires pour GPT-4o en anglais et en français, tous deux surpassant le modèle GPT-4.</div></div><div><h3>Conclusions</h3><div>GPT-4o surpasse GPT-4 en anglais et en français, soulignant son potentiel d’utilisation en ophtalmologie dans les deux langues. En dépit des limites persistantes, notamment dans les diagnostics basés sur les images et les nuances propres aux langues, ces modèles ouvrent la voie à un futur où l’intelligence artificielle soutient et améliore l’expertise humaine, tant dans l’éducation que dans le soin au patient.</div></div>","PeriodicalId":14777,"journal":{"name":"Journal Francais D Ophtalmologie","volume":"48 9","pages":"Article 104650"},"PeriodicalIF":1.1000,"publicationDate":"2025-10-03","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal Francais D Ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0181551225002323","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}
引用次数: 0
Abstract
Objective
To evaluate and compare the performance of GPT-4 and the newer GPT-4o in both English and French on ophthalmology board examination questions, assessing accuracy across various subspecialties and question formats, with a focus on image analysis.
Methods
A dataset of 600 multiple-choice questions from certification-level board examinations covering 12 subspecialties and diverse content was carefully translated and tested in both English and French using GPT-4 and GPT-4o with analyses by examination years, question type, and processing of various image inputs, ensuring a comprehensive evaluation. Performance of human residents from 2021–2023 was used for comparison. Statistical analyses, including χ2 tests and odds ratio calculations, compared accuracy across models.
Results
GPT-4o in English achieved the highest accuracy (74.5%), approaching human resident performance, while its French counterpart scored 67.4%. GPT-4 scored 62.3% and 64.4% in English and French, respectively, both significantly lower than GPT-4o (P < 0.001). Text-based questions showed consistently higher accuracy across all models, with English GPT-4o leading at 82.5%. Image-based questions revealed similar performance for English and French GPT-4o, both outperforming the GPT-4 models.
Conclusions
GPT-4o outperforms GPT-4 in both English and French, underscoring its potential for ophthalmology use in both languages. While limitations remain, particularly in image-based diagnostics and language-specific nuances, these models are paving the way for a future where artificial intelligence supports and enhances human expertise in both education and patient care.
Objectif
Évaluer et comparer les performances de GPT-4 et du nouveau GPT-4o en anglais et en français sur des questions tirées d’examens de certification en ophtalmologie pour l’internat, en analysant leur précision à travers différentes sous-spécialités et formats de questions, avec une attention particulière à l’analyse d’images.
Méthodes
Un ensemble de 600 questions à choix multiples issues d’examens de certification, couvrant 12 sous-spécialités et divers contenus, a été soigneusement traduit et testé en anglais et en français à l’aide de GPT-4 et GPT-4o, avec une analyse par année d’examen, type de question et différents types d’images évaluées, assurant une évaluation complète. Les performances des internes humains (2021–2023) ont servi de référence. Des analyses statistiques, incluant des tests du χ2 et des calculs de rapport de cotes, ont permis de comparer la précision des modèles.
Résultats
GPT-4o en anglais a démontré la meilleure précision (74,5 %), se rapprochant des performances des internes humains, tandis que sa version française a atteint 67,4 %. GPT-4 a obtenu 62,3 % en anglais et 64,4 % en français, des résultats significativement inférieurs à GPT-4o (p < 0,001). Les questions textuelles ont montré une précision constamment plus élevée pour tous les modèles, GPT-4o en anglais étant en tête avec 82,5 %. Les questions accompagnées d’images ont révélé des performances similaires pour GPT-4o en anglais et en français, tous deux surpassant le modèle GPT-4.
Conclusions
GPT-4o surpasse GPT-4 en anglais et en français, soulignant son potentiel d’utilisation en ophtalmologie dans les deux langues. En dépit des limites persistantes, notamment dans les diagnostics basés sur les images et les nuances propres aux langues, ces modèles ouvrent la voie à un futur où l’intelligence artificielle soutient et améliore l’expertise humaine, tant dans l’éducation que dans le soin au patient.
期刊介绍:
The Journal français d''ophtalmologie, official publication of the French Society of Ophthalmology, serves the French Speaking Community by publishing excellent research articles, communications of the French Society of Ophthalmology, in-depth reviews, position papers, letters received by the editor and a rich image bank in each issue. The scientific quality is guaranteed through unbiased peer-review, and the journal is member of the Committee of Publication Ethics (COPE). The editors strongly discourage editorial misconduct and in particular if duplicative text from published sources is identified without proper citation, the submission will not be considered for peer review and returned to the authors or immediately rejected.