Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models

IF 1.2 4区 医学 Q3 OPHTHALMOLOGY
S. Demir
{"title":"Comparison of ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and Ophthalmologists in the management of uveitis and ocular inflammation: A comparative study of large language models","authors":"S. Demir","doi":"10.1016/j.jfo.2025.104468","DOIUrl":null,"url":null,"abstract":"<div><h3>Purpose</h3><div>The aim of this study was to compare the latest large language models (LLMs) ChatGPT-4o, Google Gemini 1.5 Pro and Microsoft Copilot Pro developed by three different companies, with each other and with a group of ophthalmologists, to reveal the strengths and weaknesses of LLMs against each other and against ophthalmologists in the field of uveitis and ocular inflammation.</div></div><div><h3>Methods</h3><div>Using a personal OphthoQuestions (<span><span>www.ophthoquestions.com</span><svg><path></path></svg></span>) account, a total of 100 questions from 201 questions on uveitis and ocular inflammation out of a total of 4551 questions on OphthoQuestions, including questions involving multimodal imaging, were included in the study using the randomization feature of the website. In November 2024, ChatGPT-4o, Microsoft Copilot Pro, and Google Gemini 1.5 Pro were asked the same 100 questions: 80 multiple-choice and 20 open-ended questions. Each question was categorized as either true or false. A statistical comparison of the accuracy rates was performed.</div></div><div><h3>Results</h3><div>Among the 100 questions, ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and the human group (ophthalmologists) answered 80 (80.00%), 81 (81.00%), 80 (80.00%) and 72 (72.00%) questions, respectively, correctly. In the statistical comparisons between the groups for multiple-choice questions, no significant difference was found between the correct and incorrect response rates of the three LLMs and the human group (<em>P</em> <!-->=<!--> <!-->0.207, Cochran's Q test). In the statistical comparisons of responses to open-ended questions, there was no significant difference between the correct and incorrect response rates of the three LLMs and the human group (<em>P</em> <!-->=<!--> <!-->0.392, Cochran's Q test).</div></div><div><h3>Conclusion</h3><div>Although ChatGPT-4o, Google Gemini 1.5 Pro , and Microsoft Copilot Pro answered higher percentages of questions correctly than the human group, the LLMs were not statistically superior to each other or to the human group in the management of uveitis and ocular inflammation.</div></div><div><h3>Objectif</h3><div>L’objectif de cette étude était de comparer les derniers grands modèles de langage (LLM) ChatGPT-4o, Google Gemini 1.5 Pro et Microsoft Copilot Pro développés par trois sociétés différentes, entre eux et avec un groupe d’ophtalmologistes, afin de révéler les forces et les faiblesses des LLM les uns par rapport aux autres et par rapport aux ophtalmologistes dans le domaine de l’uvéite et de l’inflammation oculaire.</div></div><div><h3>Méthodes</h3><div>Par l’usage d’un compte personnel OphthoQuestions (<span><span>www.ophthoquestions.com</span><svg><path></path></svg></span>), un total de 100 questions parmi 201 questions sur l’uvéite et l’inflammation oculaire sur un total de 4551 questions sur OphthoQuestions, y compris les questions impliquant l’imagerie multimodale, ont été incluses dans l’étude en utilisant la fonction de randomisation du site Web. En novembre 2024, les mêmes 100 questions ont été posées à ChatGPT-4o, Microsoft Copilot Pro et Google Gemini 1.5 Pro : 80 questions à choix multiples et 20 questions ouvertes. Chaque question était classée comme vraie ou fausse. Une comparaison statistique des taux de précision a été effectuée.</div></div><div><h3>Résultats</h3><div>Parmi les 100 questions, ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro et le groupe humain (ophtalmologues) ont répondu correctement à 80 (80,00 %), 81 (81,00 %), 80 (80,00 %) et 72 (72,00 %) d’entre elles, respectivement. Dans les comparaisons statistiques entre les groupes pour les questions à choix multiples, aucune différence significative n’a été trouvée entre les taux de réponses correctes et incorrectes des trois LLM et du groupe humain (<em>p</em> <!-->=<!--> <!-->0,207, test Q de Cochran). Dans les comparaisons statistiques des réponses aux questions ouvertes, il n’y avait pas de différence significative entre les taux de réponses correctes et incorrectes des trois LLM et du groupe humain (<em>p</em> <!-->=<!--> <!-->0,392, test Q de Cochran).</div></div><div><h3>Conclusion</h3><div>Bien que ChatGPT-4o, Google Gemini 1.5 Pro et Microsoft Copilot Pro aient répondu correctement à un pourcentage plus élevé de questions que le groupe humain, les LLM n’étaient pas statistiquement supérieurs les uns aux autres ou au groupe humain dans la gestion de l’uvéite et de l’inflammation oculaire.</div></div>","PeriodicalId":14777,"journal":{"name":"Journal Francais D Ophtalmologie","volume":"48 4","pages":"Article 104468"},"PeriodicalIF":1.2000,"publicationDate":"2025-03-13","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal Francais D Ophtalmologie","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0181551225000506","RegionNum":4,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"OPHTHALMOLOGY","Score":null,"Total":0}
引用次数: 0

Abstract

Purpose

The aim of this study was to compare the latest large language models (LLMs) ChatGPT-4o, Google Gemini 1.5 Pro and Microsoft Copilot Pro developed by three different companies, with each other and with a group of ophthalmologists, to reveal the strengths and weaknesses of LLMs against each other and against ophthalmologists in the field of uveitis and ocular inflammation.

Methods

Using a personal OphthoQuestions (www.ophthoquestions.com) account, a total of 100 questions from 201 questions on uveitis and ocular inflammation out of a total of 4551 questions on OphthoQuestions, including questions involving multimodal imaging, were included in the study using the randomization feature of the website. In November 2024, ChatGPT-4o, Microsoft Copilot Pro, and Google Gemini 1.5 Pro were asked the same 100 questions: 80 multiple-choice and 20 open-ended questions. Each question was categorized as either true or false. A statistical comparison of the accuracy rates was performed.

Results

Among the 100 questions, ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro, and the human group (ophthalmologists) answered 80 (80.00%), 81 (81.00%), 80 (80.00%) and 72 (72.00%) questions, respectively, correctly. In the statistical comparisons between the groups for multiple-choice questions, no significant difference was found between the correct and incorrect response rates of the three LLMs and the human group (P = 0.207, Cochran's Q test). In the statistical comparisons of responses to open-ended questions, there was no significant difference between the correct and incorrect response rates of the three LLMs and the human group (P = 0.392, Cochran's Q test).

Conclusion

Although ChatGPT-4o, Google Gemini 1.5 Pro , and Microsoft Copilot Pro answered higher percentages of questions correctly than the human group, the LLMs were not statistically superior to each other or to the human group in the management of uveitis and ocular inflammation.

Objectif

L’objectif de cette étude était de comparer les derniers grands modèles de langage (LLM) ChatGPT-4o, Google Gemini 1.5 Pro et Microsoft Copilot Pro développés par trois sociétés différentes, entre eux et avec un groupe d’ophtalmologistes, afin de révéler les forces et les faiblesses des LLM les uns par rapport aux autres et par rapport aux ophtalmologistes dans le domaine de l’uvéite et de l’inflammation oculaire.

Méthodes

Par l’usage d’un compte personnel OphthoQuestions (www.ophthoquestions.com), un total de 100 questions parmi 201 questions sur l’uvéite et l’inflammation oculaire sur un total de 4551 questions sur OphthoQuestions, y compris les questions impliquant l’imagerie multimodale, ont été incluses dans l’étude en utilisant la fonction de randomisation du site Web. En novembre 2024, les mêmes 100 questions ont été posées à ChatGPT-4o, Microsoft Copilot Pro et Google Gemini 1.5 Pro : 80 questions à choix multiples et 20 questions ouvertes. Chaque question était classée comme vraie ou fausse. Une comparaison statistique des taux de précision a été effectuée.

Résultats

Parmi les 100 questions, ChatGPT-4o, Google Gemini 1.5 Pro, Microsoft Copilot Pro et le groupe humain (ophtalmologues) ont répondu correctement à 80 (80,00 %), 81 (81,00 %), 80 (80,00 %) et 72 (72,00 %) d’entre elles, respectivement. Dans les comparaisons statistiques entre les groupes pour les questions à choix multiples, aucune différence significative n’a été trouvée entre les taux de réponses correctes et incorrectes des trois LLM et du groupe humain (p = 0,207, test Q de Cochran). Dans les comparaisons statistiques des réponses aux questions ouvertes, il n’y avait pas de différence significative entre les taux de réponses correctes et incorrectes des trois LLM et du groupe humain (p = 0,392, test Q de Cochran).

Conclusion

Bien que ChatGPT-4o, Google Gemini 1.5 Pro et Microsoft Copilot Pro aient répondu correctement à un pourcentage plus élevé de questions que le groupe humain, les LLM n’étaient pas statistiquement supérieurs les uns aux autres ou au groupe humain dans la gestion de l’uvéite et de l’inflammation oculaire.
chatgpt - 40、谷歌Gemini 1.5 Pro、Microsoft Copilot Pro和眼科医生在葡萄膜炎和眼部炎症管理中的比较:大型语言模型的比较研究
目的本研究旨在比较三家不同公司开发的最新大型语言模型(LLMs) chatgpt - 40、谷歌Gemini 1.5 Pro和Microsoft Copilot Pro相互之间以及与一组眼科医生之间的差异,揭示LLMs在葡萄膜炎和眼部炎症领域相互之间以及与眼科医生之间的优缺点。方法使用个人OphthoQuestions (www.ophthoquestions.com)账户,利用该网站的随机化特征,从OphthoQuestions网站的4551个问题中选取201个关于葡萄膜炎和眼部炎症的问题(包括涉及多模态成像的问题)中的100个问题纳入研究。2024年11月,chatgpt - 40、Microsoft Copilot Pro和谷歌Gemini 1.5 Pro被问及同样的100个问题:80个选择题和20个开放式问题。每个问题都被分类为对或错。对准确率进行了统计比较。结果在100个问题中,chatgpt - 40、谷歌Gemini 1.5 Pro、Microsoft Copilot Pro和人类组(眼科医生)分别答对80个(80.00%)、81个(81.00%)、80个(80.00%)和72个(72.00%)问题。在组间多项选择题的统计比较中,三位llm的正确率和错误率与人类组没有显著差异(P = 0.207, Cochran’s Q检验)。在开放式问题回答的统计比较中,三位法学硕士的正确率和错误率与人类组比较差异无统计学意义(P = 0.392,科克伦Q检验)。结论虽然chatgpt - 40、谷歌Gemini 1.5 Pro和Microsoft Copilot Pro答对问题的正确率高于人类组,但llm在处理葡萄膜炎和眼部炎症方面并不具有统计学上的优势。目的:将不同的人眼与不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼、不同的人眼。msamothar ' usage d ' un compentpersonnel OphthoQuestions (www.ophthoquestions.com),总共有100个问题,总共有201个问题,总共有4551个问题,包含包含l ' imagerie多模态的5个问题,msamothar ' imagerie多模态的1个问题,其中包括3个问题,1 ' samothine和实用的功能,随机化网站Web。在2024年11月,我们将提供mêmes 100个问题的 : 80个问题,chatgpt - 40, Microsoft Copilot Pro和b谷歌Gemini 1.5 Pro: 80个问题,选择多个问题,20个问题。Chaque question(问题,问题,问题,问题,问题)一种比较统计方法,用于确定和确定与有效的交换。r sulsultsparmi les 100个问题,chatgpt - 40,谷歌Gemini 1.5 Pro, Microsoft Copilot Pro等组的human(眼科专家)对r sulsuldu校正分别为80(80,00%),81(81,00%),80(80,00%)和72 (72,00%)d 'entre elles。在两个组之间的比较和选择倍数之间,在三个组之间的差异显著,在三个组之间的差异显著,在三个组之间的差异显著(p = 0,207,检验Q de Cochran)。虽然比较统计数据比较了三个问题的准确性,但无法通过比较统计数据比较三个问题的准确性和不准确性(p = 0,392,检验Q de Cochran)。结论bien que chatgpt - 40、b谷歌Gemini 1.5 Pro et Microsoft Copilot Pro Pro修正了与其他人群相比,与其他人群相比,与其他人群相比,与其他人群相比,与其他人群相比,与其他人群相比,与其他人群相比,与其他人群相比,与其他人群相比,具有统计学意义。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
CiteScore
1.10
自引率
8.30%
发文量
317
审稿时长
49 days
期刊介绍: The Journal français d''ophtalmologie, official publication of the French Society of Ophthalmology, serves the French Speaking Community by publishing excellent research articles, communications of the French Society of Ophthalmology, in-depth reviews, position papers, letters received by the editor and a rich image bank in each issue. The scientific quality is guaranteed through unbiased peer-review, and the journal is member of the Committee of Publication Ethics (COPE). The editors strongly discourage editorial misconduct and in particular if duplicative text from published sources is identified without proper citation, the submission will not be considered for peer review and returned to the authors or immediately rejected.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信