A. Girault, A. Gonsard, R. Abou Taam, E. Sarfati, G. Lezmi, D. Drummond
{"title":"De google à ChatGPT : évaluation de la qualité des réponses des grands modèles de langage aux questions posées par les parents d’enfants asthmatiques","authors":"A. Girault, A. Gonsard, R. Abou Taam, E. Sarfati, G. Lezmi, D. Drummond","doi":"10.1016/j.perped.2024.10.016","DOIUrl":null,"url":null,"abstract":"<div><h3>Contexte et objectifs</h3><div>Les grands modèles de langage comme ChatGPT pourraient devenir la principale source d’information pour les patients. L’objectif de cette étude était d’évaluer les réponses fournies par les grands modèles de langage (LLM) aux questions des parents d’enfants atteints d’asthme.</div></div><div><h3>Méthodes</h3><div>La première partie de l’étude a consisté à recueillir les questions susceptibles d’être posées aux LLM par les parents, en mettant à leur disposition ChatGPT 3.5. La seconde partie a consisté à poser les dix questions les plus fréquemment recueillies à dix LLMs (ChatGPT 3.5/4/4o, Claude Sonnet/Opus/Haïku, Gemini gratuit/payant et Copilot gratuit/payant). Le critère de jugement principal était l’exactitude des réponses évaluée par cinq pneumopédiatres sur une échelle de Likert. Les critères de jugements secondaires étaient le caractère approprié des réponses et leur reproductibilité à un mois.</div></div><div><h3>Résultats et discussion</h3><div>Vingt-deux parents ont entré 117 questions sur l’asthme. Les dix questions les plus fréquemment posées ont été posées aux dix LLM générant un total de 100 réponses. Le score d’exactitude médian (IQR 1–3) des réponses était de 4 (4–5), soit « bon ». Les réponses étaient globalement appropriées pour un public de parents, avec un score médian de 4 (3–5). Les réponses étaient moyennement reproductibles d’un mois sur l’autre, avec un score médian de 3 (2–4).</div></div><div><h3>Conclusions</h3><div>Les réponses fournies par les LLM étaient correctes et appropriées dans cette étude. Le manque de reproductibilité des réponses soulève cependant des questions quant à la possibilité d’établir la fiabilité des LLM.</div></div>","PeriodicalId":101006,"journal":{"name":"Perfectionnement en Pédiatrie","volume":"7 4","pages":"Pages 306-307"},"PeriodicalIF":0.0000,"publicationDate":"2024-12-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Perfectionnement en Pédiatrie","FirstCategoryId":"1085","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S2588932X24001967","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Contexte et objectifs
Les grands modèles de langage comme ChatGPT pourraient devenir la principale source d’information pour les patients. L’objectif de cette étude était d’évaluer les réponses fournies par les grands modèles de langage (LLM) aux questions des parents d’enfants atteints d’asthme.
Méthodes
La première partie de l’étude a consisté à recueillir les questions susceptibles d’être posées aux LLM par les parents, en mettant à leur disposition ChatGPT 3.5. La seconde partie a consisté à poser les dix questions les plus fréquemment recueillies à dix LLMs (ChatGPT 3.5/4/4o, Claude Sonnet/Opus/Haïku, Gemini gratuit/payant et Copilot gratuit/payant). Le critère de jugement principal était l’exactitude des réponses évaluée par cinq pneumopédiatres sur une échelle de Likert. Les critères de jugements secondaires étaient le caractère approprié des réponses et leur reproductibilité à un mois.
Résultats et discussion
Vingt-deux parents ont entré 117 questions sur l’asthme. Les dix questions les plus fréquemment posées ont été posées aux dix LLM générant un total de 100 réponses. Le score d’exactitude médian (IQR 1–3) des réponses était de 4 (4–5), soit « bon ». Les réponses étaient globalement appropriées pour un public de parents, avec un score médian de 4 (3–5). Les réponses étaient moyennement reproductibles d’un mois sur l’autre, avec un score médian de 3 (2–4).
Conclusions
Les réponses fournies par les LLM étaient correctes et appropriées dans cette étude. Le manque de reproductibilité des réponses soulève cependant des questions quant à la possibilité d’établir la fiabilité des LLM.