A- eval：腹部多器官分割的跨数据集和跨模态评估基准

IF 10.7 1区医学 Q1 COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE

Medical image analysis Pub Date : 2025-02-14 DOI:10.1016/j.media.2025.103499

Ziyan Huang , Zhongying Deng , Jin Ye , Haoyu Wang , Yanzhou Su , Tianbin Li , Hui Sun , Junlong Cheng , Jianpin Chen , Junjun He , Yun Gu , Shaoting Zhang , Lixu Gu , Yu Qiao

{"title":"A- eval：腹部多器官分割的跨数据集和跨模态评估基准","authors":"Ziyan Huang , Zhongying Deng , Jin Ye , Haoyu Wang , Yanzhou Su , Tianbin Li , Hui Sun , Junlong Cheng , Jianpin Chen , Junjun He , Yun Gu , Shaoting Zhang , Lixu Gu , Yu Qiao","doi":"10.1016/j.media.2025.103499","DOIUrl":null,"url":null,"abstract":"<div><div>Although deep learning has revolutionized abdominal multi-organ segmentation, its models often struggle with generalization due to training on small-scale, specific datasets and modalities. The recent emergence of large-scale datasets may mitigate this issue, but some important questions remain unsolved: <strong>Can models trained on these large datasets generalize well across different datasets and imaging modalities? If yes/no, how can we further improve their generalizability?</strong> To address these questions, we introduce A-Eval, a benchmark for the cross-dataset and cross-modality Evaluation (’Eval’) of Abdominal (’A’) multi-organ segmentation, integrating seven datasets across CT and MRI modalities. Our evaluations indicate that significant domain gaps persist despite larger data scales. While increased datasets improve generalization, model performance on unseen data remains inconsistent. Joint training across multiple datasets and modalities enhances generalization, though annotation inconsistencies pose challenges. These findings highlight the need for diverse and well-curated training data across various clinical scenarios and modalities to develop robust medical imaging models. The code and pre-trained models are available at <span><span>https://github.com/uni-medical/A-Eval</span><svg><path></path></svg></span>.</div></div>","PeriodicalId":18328,"journal":{"name":"Medical image analysis","volume":"101 ","pages":"Article 103499"},"PeriodicalIF":10.7000,"publicationDate":"2025-02-14","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"A-Eval: A benchmark for cross-dataset and cross-modality evaluation of abdominal multi-organ segmentation\",\"authors\":\"Ziyan Huang , Zhongying Deng , Jin Ye , Haoyu Wang , Yanzhou Su , Tianbin Li , Hui Sun , Junlong Cheng , Jianpin Chen , Junjun He , Yun Gu , Shaoting Zhang , Lixu Gu , Yu Qiao\",\"doi\":\"10.1016/j.media.2025.103499\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"<div><div>Although deep learning has revolutionized abdominal multi-organ segmentation, its models often struggle with generalization due to training on small-scale, specific datasets and modalities. The recent emergence of large-scale datasets may mitigate this issue, but some important questions remain unsolved: <strong>Can models trained on these large datasets generalize well across different datasets and imaging modalities? If yes/no, how can we further improve their generalizability?</strong> To address these questions, we introduce A-Eval, a benchmark for the cross-dataset and cross-modality Evaluation (’Eval’) of Abdominal (’A’) multi-organ segmentation, integrating seven datasets across CT and MRI modalities. Our evaluations indicate that significant domain gaps persist despite larger data scales. While increased datasets improve generalization, model performance on unseen data remains inconsistent. Joint training across multiple datasets and modalities enhances generalization, though annotation inconsistencies pose challenges. These findings highlight the need for diverse and well-curated training data across various clinical scenarios and modalities to develop robust medical imaging models. The code and pre-trained models are available at <span><span>https://github.com/uni-medical/A-Eval</span><svg><path></path></svg></span>.</div></div>\",\"PeriodicalId\":18328,\"journal\":{\"name\":\"Medical image analysis\",\"volume\":\"101 \",\"pages\":\"Article 103499\"},\"PeriodicalIF\":10.7000,\"publicationDate\":\"2025-02-14\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Medical image analysis\",\"FirstCategoryId\":\"5\",\"ListUrlMain\":\"https://www.sciencedirect.com/science/article/pii/S1361841525000477\",\"RegionNum\":1,\"RegionCategory\":\"医学\",\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q1\",\"JCRName\":\"COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Medical image analysis","FirstCategoryId":"5","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S1361841525000477","RegionNum":1,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"COMPUTER SCIENCE, ARTIFICIAL INTELLIGENCE","Score":null,"Total":0}

引用次数: 0

摘要

尽管深度学习已经彻底改变了腹部多器官分割，但由于在小规模、特定的数据集和模式上进行训练，其模型往往难以泛化。最近大规模数据集的出现可能会缓解这个问题，但一些重要的问题仍未解决：在这些大型数据集上训练的模型能否很好地推广到不同的数据集和成像模式？如果是/否，我们如何进一步提高它们的普遍性？为了解决这些问题，我们引入了a -Eval，这是腹部(a)多器官分割的跨数据集和跨模态评估（Eval）的基准，整合了跨CT和MRI模式的七个数据集。我们的评估表明，尽管数据规模更大，但显著的领域差距仍然存在。虽然增加的数据集提高了泛化，但模型在未见数据上的性能仍然不一致。跨多个数据集和模式的联合训练增强了泛化，尽管注释不一致带来了挑战。这些发现强调了在不同的临床场景和模式中需要多样化和精心策划的培训数据来开发强大的医学成像模型。代码和预训练模型可在https://github.com/uni-medical/A-Eval上获得。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

A-Eval: A benchmark for cross-dataset and cross-modality evaluation of abdominal multi-organ segmentation

Although deep learning has revolutionized abdominal multi-organ segmentation, its models often struggle with generalization due to training on small-scale, specific datasets and modalities. The recent emergence of large-scale datasets may mitigate this issue, but some important questions remain unsolved: Can models trained on these large datasets generalize well across different datasets and imaging modalities? If yes/no, how can we further improve their generalizability? To address these questions, we introduce A-Eval, a benchmark for the cross-dataset and cross-modality Evaluation (’Eval’) of Abdominal (’A’) multi-organ segmentation, integrating seven datasets across CT and MRI modalities. Our evaluations indicate that significant domain gaps persist despite larger data scales. While increased datasets improve generalization, model performance on unseen data remains inconsistent. Joint training across multiple datasets and modalities enhances generalization, though annotation inconsistencies pose challenges. These findings highlight the need for diverse and well-curated training data across various clinical scenarios and modalities to develop robust medical imaging models. The code and pre-trained models are available at https://github.com/uni-medical/A-Eval.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Medical image analysis 工程技术-工程：生物医学

CiteScore

22.10

自引率

6.40%

发文量

309

审稿时长

6.6 months

期刊介绍： Medical Image Analysis serves as a platform for sharing new research findings in the realm of medical and biological image analysis, with a focus on applications of computer vision, virtual reality, and robotics to biomedical imaging challenges. The journal prioritizes the publication of high-quality, original papers contributing to the fundamental science of processing, analyzing, and utilizing medical and biological images. It welcomes approaches utilizing biomedical image datasets across all spatial scales, from molecular/cellular imaging to tissue/organ imaging.