Science | AI 诊断能力新高度:最新大模型在多方面超越人类医生

iNatrue 2026-05-05 12:00
文章摘要
本研究系统评估了OpenAI最新模型o1-preview在多项核心医学推理任务上的表现。背景方面,复杂临床诊断推理案例自65年前被引入作为评估专家医疗计算系统的金标准,一直沿用至今。研究目的是验证大型语言模型在临床诊断这一高风险领域的决策能力是否超越人类医生。结论表明,o1-preview在《新英格兰医学杂志》临床病理会议案例中,将正确诊断纳入鉴别诊断列表的比例达78.3%,首诊准确率52%;在“治疗者”课程案例中,表现显著优于GPT-4、主治医生和住院医生;在“灰质”测试中,得分89%远超人类医生组(34-41%)和GPT-4(42%)。真实急诊场景验证显示,在急诊初步分诊环节,o1准确诊断率67.1%,高于人类的55.3%和50.0%。研究强调,尽管AI在文本推理方面已超越部分临床医生,但临床决策还需视觉、听觉等多模态信息,未来应通过前瞻性临床试验探索人机协作模式,以提升医疗安全、效率和可及性。
Science | AI 诊断能力新高度:最新大模型在多方面超越人类医生
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
推荐文献
Greater role of atmospheric circulation than evapotranspiration in reshaping terrestrial moisture recycling
DOI: 10.1016/j.scib.2025.11.060 Pub Date : 2026-04-30 Date: 2025/12/1 0:00:00
IF 21.1 1区 综合性期刊 Q1 Science Bulletin
Current trends, applications, and challenges in three-dimensional bioprinting for cardiovascular disease models and therapies
DOI: 10.1016/j.isci.2026.115519 Pub Date : 2026-05-15 Date: 2026/3/30 0:00:00
IF 4.1 2区 综合性期刊 Q1 iScience
Trump fires entire body overseeing the National Science Foundation.
DOI: 10.1126/science.aei4508 Pub Date : 2026-04-30
IF 45.8 1区 综合性期刊 Q1 Science
iNatrue
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信
小红书