External validation of a fully automated evaluation tool: a retrospective analysis of 68,471 scored embryos

IF 6.6 1区 医学 Q1 OBSTETRICS & GYNECOLOGY
Lorena Bori Ph.D. , Marco Toschi Ph.D. , Rebeca Esteve M.Sc. , Arantza Delgado Ph.D. , Antonio Pellicer M.D. , Marcos Meseguer Ph.D.
{"title":"External validation of a fully automated evaluation tool: a retrospective analysis of 68,471 scored embryos","authors":"Lorena Bori Ph.D. ,&nbsp;Marco Toschi Ph.D. ,&nbsp;Rebeca Esteve M.Sc. ,&nbsp;Arantza Delgado Ph.D. ,&nbsp;Antonio Pellicer M.D. ,&nbsp;Marcos Meseguer Ph.D.","doi":"10.1016/j.fertnstert.2024.10.006","DOIUrl":null,"url":null,"abstract":"<div><h3>Objective</h3><div>To externally validate a fully automated embryo classification system for in vitro fertilization (IVF) treatments.</div></div><div><h3>Design</h3><div>Retrospective cohort study.</div></div><div><h3>Subjects</h3><div>A total of 6,434 patients undergoing 7,352 IVF treatments contributed 70,456 embryos.</div></div><div><h3>Exposure</h3><div>Embryos were evaluated by conventional morphology and retrospectively scored using a fully automated deep learning-based algorithm across conventional IVF, oocyte donation, and preimplantation genetic testing for aneuploidy (PGT-A) cycles.</div></div><div><h3>Main Outcome Measures</h3><div>The primary outcomes were implantation and live birth, including odds ratios (ORs) from generalized estimating equation models. Secondary outcomes were embryo morphology, euploidy, and miscarriage. Exploratory outcomes included a comparison between conventional methodology and artificial intelligence algorithm with areas under the receiver operating characteristics curves (AUCs), agreement degree between artificial intelligence and embryologists, Cohen’s Kappa coefficient, and relative risk.</div></div><div><h3>Results</h3><div>Implantation and live birth rates increased as the automatic embryo scores increased. The generalized estimating equation model, controlling for confounders, showed that the automatic score was associated with an OR of 1.31 (95% confidence interval [CI], 1.25–1.36) for implantation in treatments using oocytes from patients and an OR of 1.17 (95% CI, 1.14–1.20) in the oocyte donation program, with no significant association with PGT-A treatments. For live birth, the ORs were 1.27 (95% CI, 1.21–1.33) for patients, 1.16 (95% CI, 1.13–1.19) for donors, and 1.05 (95% CI, 1–1.10) for PGT-A cycles. The average score was higher in embryos with better morphology, in euploid embryos compared with aneuploid embryos, and in embryos that resulted in a full-term pregnancy compared with those that miscarried. Concordance between the highest-scoring embryo and the embryo with the best conventional morphology was 71.4% (95% CI, 67.7%–75.0%) in treatments with patient oocytes and 61.0% (95% CI, 58.6%–63.4%) in the oocyte donation program. Overall, the Cohen's Kappa coefficient was 0.63. The automatic embryo score showed similar AUCs to conventional morphology, although implantation was higher when the transferred embryo matched the highest-scoring embryo from each cohort (57.36% vs. 49.98%). Relative risk indicated a 1.14-fold increase in implantation likelihood when the top-ranked embryo was transferred.</div></div><div><h3>Conclusions</h3><div>A fully automated embryo scoring system effectively ranked embryos based on their potential for implantation and live birth. The performance of the conventional methodology was comparable to that of the artificial intelligence-based technology; however, better clinical outcomes were observed when the highest-scoring embryo in the cohort was transferred.</div></div><div><div>Validación externa de una herramienta de evaluación totalmente automatizada: un análisis retrospectivo de 68.471 embriones evaluados</div></div><div><h3>Objetivo</h3><div>Validar externamente un sistema de clasificación de embriones totalmente automatizado para tratamientos de fecundación in vitro (FIV).</div></div><div><h3>Diseño</h3><div>Estudio de cohorte retrospectivo.</div></div><div><h3>Sujetos</h3><div>Un total de 6.434 pacientes sometidos a 7.352 tratamientos de FIV aportaron 70.456 embriones.</div></div><div><h3>Exposición</h3><div>Los embriones fueron evaluados mediante morfología convencional y calificados de forma retrospectiva utilizando un algoritmo totalmente automatizado basado en aprendizaje profundo en ciclos de FIV convencional, donación de ovocitos y FIV con diagnóstico genético pre implantacional para aneuploidía (PGT-A).</div></div><div><h3>Principales medidas de resultados</h3><div>Los resultados primarios fueron la implantación y los nacidos vivos, incluidas las odds ratio (OR) de los modelos de ecuaciones de estimación generalizadas. Los objetivos secundarios fueron la morfología embrionaria, la euploidía y el aborto espontáneo. Los resultados exploratorios incluyeron una comparación entre la metodología convencional y el algoritmo de inteligencia artificial con área bajo la característica operativa del receptor (AUROC), el grado de concordancia entre la inteligencia artificial y los embriólogos, coeficiente Kappa de Cohen y riesgo relativo.</div></div><div><h3>Resultados</h3><div>Las tasas de implantación y de nacidos vivos aumentaron a medida que se incrementaba la puntuación automática de los embriones. El modelo de ecuación de estimación generalizada, que controlaba los factores de confusión, mostró que la puntuación automática se asociaba con una OR de 1,31 (intervalo de confianza [IC] del 95%, (1,25-1,36) para la implantación en los tratamientos con ovocitos de pacientes y una OR de 1,17 (IC del 95%, 1,14-1,20) en el programa de donación de ovocitos, sin asociación significativa con los tratamientos PGT-A. Para los nacidos vivos, las OR fueron de 1,27 (IC 95%, 1,21-1,33) para pacientes, 1,16 (IC 95%, 1,13-1,19) para donantes y 1,05 (IC 95%, 1-1,10) para los ciclos con PGT-A. El puntaje promedio fue mayor en los embriones con mejor morfología, en los embriones euploides en comparación con los aneuploides, y en los embriones que resultaron en embarazo a término comparado con aquellos que terminaron en aborto espontáneo. La concordancia entre el embrión con la puntuación más alta y el embrión con la mejor morfología convencional fue del 71,4% (IC 95%, 67,7%-75,0%) en los tratamientos con ovocitos de pacientes y del 61,0% (IC 95%, 58,6%-63,4%) en el programa de donación de ovocitos. En conjunto, el coeficiente Kappa de Cohen fue de 0,63. El puntuje automático del embrión mostró AUC similares a la morfología convencional, aunque la tasa de implantación fue mayor cuando se transfirió el embrión con el puntaje más alto de cada cohorte (57,36% frente a 49,98%). El riesgo relativo indicaba un aumento de 1,14 veces en la probabilidad de implantación cuando se transfería el mejor embrión clasificado.</div></div><div><h3>Conclusiones</h3><div>Un sistema de puntuación embrionaria totalmente automatizado clasificó eficazmente los embriones en función de su potencial de implantación y nacimiento vivo. El rendimiento de la metodología convencional fue comparable al de la tecnología basada en inteligencia artificial; sin embargo, se observaron mejores resultados clínicos cuando se transfirió el embrión con la puntuación más alta del cohorte.</div></div>","PeriodicalId":12275,"journal":{"name":"Fertility and sterility","volume":"123 4","pages":"Pages 634-643"},"PeriodicalIF":6.6000,"publicationDate":"2025-04-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Fertility and sterility","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0015028224023008","RegionNum":1,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"OBSTETRICS & GYNECOLOGY","Score":null,"Total":0}
引用次数: 0

Abstract

Objective

To externally validate a fully automated embryo classification system for in vitro fertilization (IVF) treatments.

Design

Retrospective cohort study.

Subjects

A total of 6,434 patients undergoing 7,352 IVF treatments contributed 70,456 embryos.

Exposure

Embryos were evaluated by conventional morphology and retrospectively scored using a fully automated deep learning-based algorithm across conventional IVF, oocyte donation, and preimplantation genetic testing for aneuploidy (PGT-A) cycles.

Main Outcome Measures

The primary outcomes were implantation and live birth, including odds ratios (ORs) from generalized estimating equation models. Secondary outcomes were embryo morphology, euploidy, and miscarriage. Exploratory outcomes included a comparison between conventional methodology and artificial intelligence algorithm with areas under the receiver operating characteristics curves (AUCs), agreement degree between artificial intelligence and embryologists, Cohen’s Kappa coefficient, and relative risk.

Results

Implantation and live birth rates increased as the automatic embryo scores increased. The generalized estimating equation model, controlling for confounders, showed that the automatic score was associated with an OR of 1.31 (95% confidence interval [CI], 1.25–1.36) for implantation in treatments using oocytes from patients and an OR of 1.17 (95% CI, 1.14–1.20) in the oocyte donation program, with no significant association with PGT-A treatments. For live birth, the ORs were 1.27 (95% CI, 1.21–1.33) for patients, 1.16 (95% CI, 1.13–1.19) for donors, and 1.05 (95% CI, 1–1.10) for PGT-A cycles. The average score was higher in embryos with better morphology, in euploid embryos compared with aneuploid embryos, and in embryos that resulted in a full-term pregnancy compared with those that miscarried. Concordance between the highest-scoring embryo and the embryo with the best conventional morphology was 71.4% (95% CI, 67.7%–75.0%) in treatments with patient oocytes and 61.0% (95% CI, 58.6%–63.4%) in the oocyte donation program. Overall, the Cohen's Kappa coefficient was 0.63. The automatic embryo score showed similar AUCs to conventional morphology, although implantation was higher when the transferred embryo matched the highest-scoring embryo from each cohort (57.36% vs. 49.98%). Relative risk indicated a 1.14-fold increase in implantation likelihood when the top-ranked embryo was transferred.

Conclusions

A fully automated embryo scoring system effectively ranked embryos based on their potential for implantation and live birth. The performance of the conventional methodology was comparable to that of the artificial intelligence-based technology; however, better clinical outcomes were observed when the highest-scoring embryo in the cohort was transferred.
Validación externa de una herramienta de evaluación totalmente automatizada: un análisis retrospectivo de 68.471 embriones evaluados

Objetivo

Validar externamente un sistema de clasificación de embriones totalmente automatizado para tratamientos de fecundación in vitro (FIV).

Diseño

Estudio de cohorte retrospectivo.

Sujetos

Un total de 6.434 pacientes sometidos a 7.352 tratamientos de FIV aportaron 70.456 embriones.

Exposición

Los embriones fueron evaluados mediante morfología convencional y calificados de forma retrospectiva utilizando un algoritmo totalmente automatizado basado en aprendizaje profundo en ciclos de FIV convencional, donación de ovocitos y FIV con diagnóstico genético pre implantacional para aneuploidía (PGT-A).

Principales medidas de resultados

Los resultados primarios fueron la implantación y los nacidos vivos, incluidas las odds ratio (OR) de los modelos de ecuaciones de estimación generalizadas. Los objetivos secundarios fueron la morfología embrionaria, la euploidía y el aborto espontáneo. Los resultados exploratorios incluyeron una comparación entre la metodología convencional y el algoritmo de inteligencia artificial con área bajo la característica operativa del receptor (AUROC), el grado de concordancia entre la inteligencia artificial y los embriólogos, coeficiente Kappa de Cohen y riesgo relativo.

Resultados

Las tasas de implantación y de nacidos vivos aumentaron a medida que se incrementaba la puntuación automática de los embriones. El modelo de ecuación de estimación generalizada, que controlaba los factores de confusión, mostró que la puntuación automática se asociaba con una OR de 1,31 (intervalo de confianza [IC] del 95%, (1,25-1,36) para la implantación en los tratamientos con ovocitos de pacientes y una OR de 1,17 (IC del 95%, 1,14-1,20) en el programa de donación de ovocitos, sin asociación significativa con los tratamientos PGT-A. Para los nacidos vivos, las OR fueron de 1,27 (IC 95%, 1,21-1,33) para pacientes, 1,16 (IC 95%, 1,13-1,19) para donantes y 1,05 (IC 95%, 1-1,10) para los ciclos con PGT-A. El puntaje promedio fue mayor en los embriones con mejor morfología, en los embriones euploides en comparación con los aneuploides, y en los embriones que resultaron en embarazo a término comparado con aquellos que terminaron en aborto espontáneo. La concordancia entre el embrión con la puntuación más alta y el embrión con la mejor morfología convencional fue del 71,4% (IC 95%, 67,7%-75,0%) en los tratamientos con ovocitos de pacientes y del 61,0% (IC 95%, 58,6%-63,4%) en el programa de donación de ovocitos. En conjunto, el coeficiente Kappa de Cohen fue de 0,63. El puntuje automático del embrión mostró AUC similares a la morfología convencional, aunque la tasa de implantación fue mayor cuando se transfirió el embrión con el puntaje más alto de cada cohorte (57,36% frente a 49,98%). El riesgo relativo indicaba un aumento de 1,14 veces en la probabilidad de implantación cuando se transfería el mejor embrión clasificado.

Conclusiones

Un sistema de puntuación embrionaria totalmente automatizado clasificó eficazmente los embriones en función de su potencial de implantación y nacimiento vivo. El rendimiento de la metodología convencional fue comparable al de la tecnología basada en inteligencia artificial; sin embargo, se observaron mejores resultados clínicos cuando se transfirió el embrión con la puntuación más alta del cohorte.
全自动评估工具的外部验证:对 68,471 个已评分胚胎的回顾性分析。
目的:对体外受精(IVF)治疗中的全自动胚胎分类进行外部验证:从外部验证体外受精(IVF)治疗中的全自动胚胎分类:设计:回顾性队列研究:暴露:通过传统形态学对胚胎进行评估,并使用基于深度学习的全自动算法对传统试管婴儿、卵母细胞捐赠和PGT-A周期的胚胎进行回顾性评分:主要结果是植入和活产,包括来自广义估计方程(GEE)模型的几率比(ORs)。次要结果为胚胎形态、非整倍体和流产。探索性结果包括传统方法与人工智能(AI)算法的比较、ROC 曲线下面积(AUC)、AI 与胚胎学家之间的一致程度、科恩卡帕系数(Cohen's Kappa coefficient)和相对风险(RR):结果:随着自动胚胎评分的提高,植入率和活产率也随之提高。控制混杂因素的 GEE 模型显示,在使用患者卵母细胞的治疗中,自动评分与植入的 OR 值为 1.31(95%CI[1.25-1.36])相关,在卵母细胞捐献项目中,与植入的 OR 值为 1.17(95%CI[1.14-1.20])相关,而在 PGT-A 治疗中,与植入的 OR 值无显著相关。在活产方面,患者的 OR 值为 1.27(95%CI[1.21-1.33]),捐献者的 OR 值为 1.16(95%CI[1.13-1.19]),PGT-A 周期的 OR 值为 1.05(95%CI[1-1.10])。形态较好的胚胎、优卵胚胎与非优卵胚胎相比,以及足月妊娠的胚胎与流产的胚胎相比,平均得分更高。在使用患者卵母细胞的治疗中,得分最高的胚胎与常规形态最佳的胚胎之间的一致性为 71.4%(95%CI[67.7%-75.0%]),而在卵母细胞捐赠计划中,两者之间的一致性为 61.0%(95%CI[58.6%-63.4%])。总体而言,科恩卡帕系数为 0.63。自动胚胎评分的 AUC 与传统形态学相似,但当移植的胚胎与每个队列中得分最高的胚胎相匹配时,植入率更高(57.36% 对 49.98%)。RR表明,移植得分最高的胚胎时,植入可能性增加了1.14倍:结论:全自动胚胎评分可根据胚胎植入和活产的可能性对胚胎进行有效排名。传统方法的性能与基于人工智能技术的方法不相上下;但是,如果移植队列中得分最高的胚胎,则可观察到更好的临床结果。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
Fertility and sterility
Fertility and sterility 医学-妇产科学
CiteScore
11.30
自引率
6.00%
发文量
1446
审稿时长
31 days
期刊介绍: Fertility and Sterility® is an international journal for obstetricians, gynecologists, reproductive endocrinologists, urologists, basic scientists and others who treat and investigate problems of infertility and human reproductive disorders. The journal publishes juried original scientific articles in clinical and laboratory research relevant to reproductive endocrinology, urology, andrology, physiology, immunology, genetics, contraception, and menopause. Fertility and Sterility® encourages and supports meaningful basic and clinical research, and facilitates and promotes excellence in professional education, in the field of reproductive medicine.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信