{"title":"External validation of a fully automated evaluation tool: a retrospective analysis of 68,471 scored embryos","authors":"Lorena Bori Ph.D. , Marco Toschi Ph.D. , Rebeca Esteve M.Sc. , Arantza Delgado Ph.D. , Antonio Pellicer M.D. , Marcos Meseguer Ph.D.","doi":"10.1016/j.fertnstert.2024.10.006","DOIUrl":null,"url":null,"abstract":"<div><h3>Objective</h3><div>To externally validate a fully automated embryo classification system for in vitro fertilization (IVF) treatments.</div></div><div><h3>Design</h3><div>Retrospective cohort study.</div></div><div><h3>Subjects</h3><div>A total of 6,434 patients undergoing 7,352 IVF treatments contributed 70,456 embryos.</div></div><div><h3>Exposure</h3><div>Embryos were evaluated by conventional morphology and retrospectively scored using a fully automated deep learning-based algorithm across conventional IVF, oocyte donation, and preimplantation genetic testing for aneuploidy (PGT-A) cycles.</div></div><div><h3>Main Outcome Measures</h3><div>The primary outcomes were implantation and live birth, including odds ratios (ORs) from generalized estimating equation models. Secondary outcomes were embryo morphology, euploidy, and miscarriage. Exploratory outcomes included a comparison between conventional methodology and artificial intelligence algorithm with areas under the receiver operating characteristics curves (AUCs), agreement degree between artificial intelligence and embryologists, Cohen’s Kappa coefficient, and relative risk.</div></div><div><h3>Results</h3><div>Implantation and live birth rates increased as the automatic embryo scores increased. The generalized estimating equation model, controlling for confounders, showed that the automatic score was associated with an OR of 1.31 (95% confidence interval [CI], 1.25–1.36) for implantation in treatments using oocytes from patients and an OR of 1.17 (95% CI, 1.14–1.20) in the oocyte donation program, with no significant association with PGT-A treatments. For live birth, the ORs were 1.27 (95% CI, 1.21–1.33) for patients, 1.16 (95% CI, 1.13–1.19) for donors, and 1.05 (95% CI, 1–1.10) for PGT-A cycles. The average score was higher in embryos with better morphology, in euploid embryos compared with aneuploid embryos, and in embryos that resulted in a full-term pregnancy compared with those that miscarried. Concordance between the highest-scoring embryo and the embryo with the best conventional morphology was 71.4% (95% CI, 67.7%–75.0%) in treatments with patient oocytes and 61.0% (95% CI, 58.6%–63.4%) in the oocyte donation program. Overall, the Cohen's Kappa coefficient was 0.63. The automatic embryo score showed similar AUCs to conventional morphology, although implantation was higher when the transferred embryo matched the highest-scoring embryo from each cohort (57.36% vs. 49.98%). Relative risk indicated a 1.14-fold increase in implantation likelihood when the top-ranked embryo was transferred.</div></div><div><h3>Conclusions</h3><div>A fully automated embryo scoring system effectively ranked embryos based on their potential for implantation and live birth. The performance of the conventional methodology was comparable to that of the artificial intelligence-based technology; however, better clinical outcomes were observed when the highest-scoring embryo in the cohort was transferred.</div></div><div><div>Validación externa de una herramienta de evaluación totalmente automatizada: un análisis retrospectivo de 68.471 embriones evaluados</div></div><div><h3>Objetivo</h3><div>Validar externamente un sistema de clasificación de embriones totalmente automatizado para tratamientos de fecundación in vitro (FIV).</div></div><div><h3>Diseño</h3><div>Estudio de cohorte retrospectivo.</div></div><div><h3>Sujetos</h3><div>Un total de 6.434 pacientes sometidos a 7.352 tratamientos de FIV aportaron 70.456 embriones.</div></div><div><h3>Exposición</h3><div>Los embriones fueron evaluados mediante morfología convencional y calificados de forma retrospectiva utilizando un algoritmo totalmente automatizado basado en aprendizaje profundo en ciclos de FIV convencional, donación de ovocitos y FIV con diagnóstico genético pre implantacional para aneuploidía (PGT-A).</div></div><div><h3>Principales medidas de resultados</h3><div>Los resultados primarios fueron la implantación y los nacidos vivos, incluidas las odds ratio (OR) de los modelos de ecuaciones de estimación generalizadas. Los objetivos secundarios fueron la morfología embrionaria, la euploidía y el aborto espontáneo. Los resultados exploratorios incluyeron una comparación entre la metodología convencional y el algoritmo de inteligencia artificial con área bajo la característica operativa del receptor (AUROC), el grado de concordancia entre la inteligencia artificial y los embriólogos, coeficiente Kappa de Cohen y riesgo relativo.</div></div><div><h3>Resultados</h3><div>Las tasas de implantación y de nacidos vivos aumentaron a medida que se incrementaba la puntuación automática de los embriones. El modelo de ecuación de estimación generalizada, que controlaba los factores de confusión, mostró que la puntuación automática se asociaba con una OR de 1,31 (intervalo de confianza [IC] del 95%, (1,25-1,36) para la implantación en los tratamientos con ovocitos de pacientes y una OR de 1,17 (IC del 95%, 1,14-1,20) en el programa de donación de ovocitos, sin asociación significativa con los tratamientos PGT-A. Para los nacidos vivos, las OR fueron de 1,27 (IC 95%, 1,21-1,33) para pacientes, 1,16 (IC 95%, 1,13-1,19) para donantes y 1,05 (IC 95%, 1-1,10) para los ciclos con PGT-A. El puntaje promedio fue mayor en los embriones con mejor morfología, en los embriones euploides en comparación con los aneuploides, y en los embriones que resultaron en embarazo a término comparado con aquellos que terminaron en aborto espontáneo. La concordancia entre el embrión con la puntuación más alta y el embrión con la mejor morfología convencional fue del 71,4% (IC 95%, 67,7%-75,0%) en los tratamientos con ovocitos de pacientes y del 61,0% (IC 95%, 58,6%-63,4%) en el programa de donación de ovocitos. En conjunto, el coeficiente Kappa de Cohen fue de 0,63. El puntuje automático del embrión mostró AUC similares a la morfología convencional, aunque la tasa de implantación fue mayor cuando se transfirió el embrión con el puntaje más alto de cada cohorte (57,36% frente a 49,98%). El riesgo relativo indicaba un aumento de 1,14 veces en la probabilidad de implantación cuando se transfería el mejor embrión clasificado.</div></div><div><h3>Conclusiones</h3><div>Un sistema de puntuación embrionaria totalmente automatizado clasificó eficazmente los embriones en función de su potencial de implantación y nacimiento vivo. El rendimiento de la metodología convencional fue comparable al de la tecnología basada en inteligencia artificial; sin embargo, se observaron mejores resultados clínicos cuando se transfirió el embrión con la puntuación más alta del cohorte.</div></div>","PeriodicalId":12275,"journal":{"name":"Fertility and sterility","volume":"123 4","pages":"Pages 634-643"},"PeriodicalIF":6.6000,"publicationDate":"2025-04-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Fertility and sterility","FirstCategoryId":"3","ListUrlMain":"https://www.sciencedirect.com/science/article/pii/S0015028224023008","RegionNum":1,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q1","JCRName":"OBSTETRICS & GYNECOLOGY","Score":null,"Total":0}
引用次数: 0
Abstract
Objective
To externally validate a fully automated embryo classification system for in vitro fertilization (IVF) treatments.
Design
Retrospective cohort study.
Subjects
A total of 6,434 patients undergoing 7,352 IVF treatments contributed 70,456 embryos.
Exposure
Embryos were evaluated by conventional morphology and retrospectively scored using a fully automated deep learning-based algorithm across conventional IVF, oocyte donation, and preimplantation genetic testing for aneuploidy (PGT-A) cycles.
Main Outcome Measures
The primary outcomes were implantation and live birth, including odds ratios (ORs) from generalized estimating equation models. Secondary outcomes were embryo morphology, euploidy, and miscarriage. Exploratory outcomes included a comparison between conventional methodology and artificial intelligence algorithm with areas under the receiver operating characteristics curves (AUCs), agreement degree between artificial intelligence and embryologists, Cohen’s Kappa coefficient, and relative risk.
Results
Implantation and live birth rates increased as the automatic embryo scores increased. The generalized estimating equation model, controlling for confounders, showed that the automatic score was associated with an OR of 1.31 (95% confidence interval [CI], 1.25–1.36) for implantation in treatments using oocytes from patients and an OR of 1.17 (95% CI, 1.14–1.20) in the oocyte donation program, with no significant association with PGT-A treatments. For live birth, the ORs were 1.27 (95% CI, 1.21–1.33) for patients, 1.16 (95% CI, 1.13–1.19) for donors, and 1.05 (95% CI, 1–1.10) for PGT-A cycles. The average score was higher in embryos with better morphology, in euploid embryos compared with aneuploid embryos, and in embryos that resulted in a full-term pregnancy compared with those that miscarried. Concordance between the highest-scoring embryo and the embryo with the best conventional morphology was 71.4% (95% CI, 67.7%–75.0%) in treatments with patient oocytes and 61.0% (95% CI, 58.6%–63.4%) in the oocyte donation program. Overall, the Cohen's Kappa coefficient was 0.63. The automatic embryo score showed similar AUCs to conventional morphology, although implantation was higher when the transferred embryo matched the highest-scoring embryo from each cohort (57.36% vs. 49.98%). Relative risk indicated a 1.14-fold increase in implantation likelihood when the top-ranked embryo was transferred.
Conclusions
A fully automated embryo scoring system effectively ranked embryos based on their potential for implantation and live birth. The performance of the conventional methodology was comparable to that of the artificial intelligence-based technology; however, better clinical outcomes were observed when the highest-scoring embryo in the cohort was transferred.
Validación externa de una herramienta de evaluación totalmente automatizada: un análisis retrospectivo de 68.471 embriones evaluados
Objetivo
Validar externamente un sistema de clasificación de embriones totalmente automatizado para tratamientos de fecundación in vitro (FIV).
Diseño
Estudio de cohorte retrospectivo.
Sujetos
Un total de 6.434 pacientes sometidos a 7.352 tratamientos de FIV aportaron 70.456 embriones.
Exposición
Los embriones fueron evaluados mediante morfología convencional y calificados de forma retrospectiva utilizando un algoritmo totalmente automatizado basado en aprendizaje profundo en ciclos de FIV convencional, donación de ovocitos y FIV con diagnóstico genético pre implantacional para aneuploidía (PGT-A).
Principales medidas de resultados
Los resultados primarios fueron la implantación y los nacidos vivos, incluidas las odds ratio (OR) de los modelos de ecuaciones de estimación generalizadas. Los objetivos secundarios fueron la morfología embrionaria, la euploidía y el aborto espontáneo. Los resultados exploratorios incluyeron una comparación entre la metodología convencional y el algoritmo de inteligencia artificial con área bajo la característica operativa del receptor (AUROC), el grado de concordancia entre la inteligencia artificial y los embriólogos, coeficiente Kappa de Cohen y riesgo relativo.
Resultados
Las tasas de implantación y de nacidos vivos aumentaron a medida que se incrementaba la puntuación automática de los embriones. El modelo de ecuación de estimación generalizada, que controlaba los factores de confusión, mostró que la puntuación automática se asociaba con una OR de 1,31 (intervalo de confianza [IC] del 95%, (1,25-1,36) para la implantación en los tratamientos con ovocitos de pacientes y una OR de 1,17 (IC del 95%, 1,14-1,20) en el programa de donación de ovocitos, sin asociación significativa con los tratamientos PGT-A. Para los nacidos vivos, las OR fueron de 1,27 (IC 95%, 1,21-1,33) para pacientes, 1,16 (IC 95%, 1,13-1,19) para donantes y 1,05 (IC 95%, 1-1,10) para los ciclos con PGT-A. El puntaje promedio fue mayor en los embriones con mejor morfología, en los embriones euploides en comparación con los aneuploides, y en los embriones que resultaron en embarazo a término comparado con aquellos que terminaron en aborto espontáneo. La concordancia entre el embrión con la puntuación más alta y el embrión con la mejor morfología convencional fue del 71,4% (IC 95%, 67,7%-75,0%) en los tratamientos con ovocitos de pacientes y del 61,0% (IC 95%, 58,6%-63,4%) en el programa de donación de ovocitos. En conjunto, el coeficiente Kappa de Cohen fue de 0,63. El puntuje automático del embrión mostró AUC similares a la morfología convencional, aunque la tasa de implantación fue mayor cuando se transfirió el embrión con el puntaje más alto de cada cohorte (57,36% frente a 49,98%). El riesgo relativo indicaba un aumento de 1,14 veces en la probabilidad de implantación cuando se transfería el mejor embrión clasificado.
Conclusiones
Un sistema de puntuación embrionaria totalmente automatizado clasificó eficazmente los embriones en función de su potencial de implantación y nacimiento vivo. El rendimiento de la metodología convencional fue comparable al de la tecnología basada en inteligencia artificial; sin embargo, se observaron mejores resultados clínicos cuando se transfirió el embrión con la puntuación más alta del cohorte.
期刊介绍:
Fertility and Sterility® is an international journal for obstetricians, gynecologists, reproductive endocrinologists, urologists, basic scientists and others who treat and investigate problems of infertility and human reproductive disorders. The journal publishes juried original scientific articles in clinical and laboratory research relevant to reproductive endocrinology, urology, andrology, physiology, immunology, genetics, contraception, and menopause. Fertility and Sterility® encourages and supports meaningful basic and clinical research, and facilitates and promotes excellence in professional education, in the field of reproductive medicine.