使用基于生成对抗网络的数据平衡的分析性低血压预测的整体框架。

IF 3.3 3区医学 Q2 MEDICAL INFORMATICS

BMC Medical Informatics and Decision Making Pub Date : 2025-07-10 DOI:10.1186/s12911-025-03094-5

Hsuan-Ming Lin, JrJung Lyu

{"title":"使用基于生成对抗网络的数据平衡的分析性低血压预测的整体框架。","authors":"Hsuan-Ming Lin, JrJung Lyu","doi":"10.1186/s12911-025-03094-5","DOIUrl":null,"url":null,"abstract":"Background: Intradialytic Hypotension (IDH) is a frequent complication in hemodialysis, yet predictive modeling is challenged by class imbalance. Traditional oversampling methods often struggle with complex clinical data. This study evaluates an enhanced conditional Wasserstein Generative Adversarial Network with Gradient Penalty (CWGAN-GP) framework to improve IDH prediction by generating high-utility synthetic data for balancing.Methods: A CWGAN-GP was developed using multi-level hemodialysis data. Following rigorous preprocessing, including a strict temporal train-test split, the CWGAN-GP generated minority class samples exclusively on the training data. eXtreme Gradient Boosting (XGBoost) models were trained on the original imbalanced data and datasets balanced using the proposed CWGAN-GP method, benchmarked against traditional Synthetic Minority Over-sampling Technique(SMOTE) and Adaptive Synthetic Sampling Approach(ADASYN) balancing. Performance was evaluated using metrics sensitive to imbalance (e.g., Precision-Recall Area Under the Curve) and statistical comparisons, with SHapley Additive exPlanations (SHAP) analysis for interpretability.Results: The study population consisted of 40 chronic hemodialysis patients (45% male, mean age 66.30[Formula: see text] 10.68 years). An initial dataset, where intradialytic hypotension (IDH) events occurred in 14.85% of records (19,124 instances overall), was temporally split (75:25 ratio). This yielded an Original Training dataset of 95,856 samples (14.73% IDH rate) and a test set (15.21% IDH rate). From this Original Training dataset, a Generative Adversarial Network (GAN) was employed to construct a balanced dataset comprising 163,470 samples. The GAN Balanced dataset yielded the highest predictive performance, demonstrating statistically significant improvements over the Original Training dataset across metrics, including Precision-Recall Area Under the Curve (PR-AUC) (mean 0.735 vs 0.724) and Accuracy (mean 0.900 vs 0.892). In contrast, the GAN Augmented dataset (191,712 samples) showed mixed results (improved Accuracy/F1, decreased Receiver Operating Characteristic Curve Area Under Curve (ROC-AUC)/PR-AUC). In comparison, ADASYN (163,326 samples) and SMOTE (163,470 samples) balanced datasets significantly underperformed on PR-AUC. SHAP analysis identified Dialysis Date (as a proxy for temporal patterns like day-of-week) and hemodynamic indicators (e.g., Systolic Diastolic Difference, Previous Systolic Pressure) as key IDH predictors.Conclusion: The proposed CWGAN-GP framework effectively balances complex hemodialysis data, leading to significantly improved and interpretable IDH prediction models compared to standard approaches. This work supports leveraging advanced generative models like GAN to overcome data imbalance in clinical prediction tasks, which is pending further validation.","PeriodicalId":9340,"journal":{"name":"BMC Medical Informatics and Decision Making","volume":"25 1","pages":"257"},"PeriodicalIF":3.3000,"publicationDate":"2025-07-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"https://www.ncbi.nlm.nih.gov/pmc/articles/PMC12243283/pdf/","citationCount":"0","resultStr":"{\"title\":\"A holistic framework for intradialytic hypotension prediction using generative adversarial networks-based data balancing.\",\"authors\":\"Hsuan-Ming Lin, JrJung Lyu\",\"doi\":\"10.1186/s12911-025-03094-5\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Background: Intradialytic Hypotension (IDH) is a frequent complication in hemodialysis, yet predictive modeling is challenged by class imbalance. Traditional oversampling methods often struggle with complex clinical data. This study evaluates an enhanced conditional Wasserstein Generative Adversarial Network with Gradient Penalty (CWGAN-GP) framework to improve IDH prediction by generating high-utility synthetic data for balancing.Methods: A CWGAN-GP was developed using multi-level hemodialysis data. Following rigorous preprocessing, including a strict temporal train-test split, the CWGAN-GP generated minority class samples exclusively on the training data. eXtreme Gradient Boosting (XGBoost) models were trained on the original imbalanced data and datasets balanced using the proposed CWGAN-GP method, benchmarked against traditional Synthetic Minority Over-sampling Technique(SMOTE) and Adaptive Synthetic Sampling Approach(ADASYN) balancing. Performance was evaluated using metrics sensitive to imbalance (e.g., Precision-Recall Area Under the Curve) and statistical comparisons, with SHapley Additive exPlanations (SHAP) analysis for interpretability.Results: The study population consisted of 40 chronic hemodialysis patients (45% male, mean age 66.30[Formula: see text] 10.68 years). An initial dataset, where intradialytic hypotension (IDH) events occurred in 14.85% of records (19,124 instances overall), was temporally split (75:25 ratio). This yielded an Original Training dataset of 95,856 samples (14.73% IDH rate) and a test set (15.21% IDH rate). From this Original Training dataset, a Generative Adversarial Network (GAN) was employed to construct a balanced dataset comprising 163,470 samples. The GAN Balanced dataset yielded the highest predictive performance, demonstrating statistically significant improvements over the Original Training dataset across metrics, including Precision-Recall Area Under the Curve (PR-AUC) (mean 0.735 vs 0.724) and Accuracy (mean 0.900 vs 0.892). In contrast, the GAN Augmented dataset (191,712 samples) showed mixed results (improved Accuracy/F1, decreased Receiver Operating Characteristic Curve Area Under Curve (ROC-AUC)/PR-AUC). In comparison, ADASYN (163,326 samples) and SMOTE (163,470 samples) balanced datasets significantly underperformed on PR-AUC. SHAP analysis identified Dialysis Date (as a proxy for temporal patterns like day-of-week) and hemodynamic indicators (e.g., Systolic Diastolic Difference, Previous Systolic Pressure) as key IDH predictors.Conclusion: The proposed CWGAN-GP framework effectively balances complex hemodialysis data, leading to significantly improved and interpretable IDH prediction models compared to standard approaches. This work supports leveraging advanced generative models like GAN to overcome data imbalance in clinical prediction tasks, which is pending further validation.\",\"PeriodicalId\":9340,\"journal\":{\"name\":\"BMC Medical Informatics and Decision Making\",\"volume\":\"25 1\",\"pages\":\"257\"},\"PeriodicalIF\":3.3000,\"publicationDate\":\"2025-07-10\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"https://www.ncbi.nlm.nih.gov/pmc/articles/PMC12243283/pdf/\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"BMC Medical Informatics and Decision Making\",\"FirstCategoryId\":\"3\",\"ListUrlMain\":\"https://doi.org/10.1186/s12911-025-03094-5\",\"RegionNum\":3,\"RegionCategory\":\"医学\",\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q2\",\"JCRName\":\"MEDICAL INFORMATICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"BMC Medical Informatics and Decision Making","FirstCategoryId":"3","ListUrlMain":"https://doi.org/10.1186/s12911-025-03094-5","RegionNum":3,"RegionCategory":"医学","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q2","JCRName":"MEDICAL INFORMATICS","Score":null,"Total":0}

引用次数: 0

摘要

背景：分析性低血压（IDH）是血液透析中常见的并发症，但预测模型受到班级不平衡的挑战。传统的过采样方法往往难以处理复杂的临床数据。本研究评估了一个增强的条件Wasserstein梯度惩罚生成对抗网络（CWGAN-GP）框架，通过生成用于平衡的高效用合成数据来改进IDH预测。方法：采用多层次血液透析数据编制CWGAN-GP。经过严格的预处理，包括严格的时间训练-测试分割，CWGAN-GP只在训练数据上生成少数类样本。极端梯度增强（XGBoost）模型在原始不平衡数据和使用所提出的CWGAN-GP方法平衡的数据集上进行训练，并以传统的合成少数过采样技术（SMOTE）和自适应合成采样方法（ADASYN）平衡为基准。使用对不平衡敏感的指标（例如，曲线下的精确召回面积）和统计比较来评估性能，并使用SHapley加性解释（SHAP）分析可解释性。结果：研究人群包括40例慢性血液透析患者（45%为男性，平均年龄66.30岁[公式：见文]10.68岁）。初始数据集中，14.85%的记录（总共19,124例）发生了分析性低血压（IDH）事件，被暂时分割（75:25的比例）。这产生了95,856个样本的原始训练数据集（IDH率为14.73%）和测试集（IDH率为15.21%）。基于该原始训练数据集，使用生成对抗网络（GAN）构建包含163,470个样本的平衡数据集。GAN平衡数据集产生了最高的预测性能，在统计上比原始训练数据集在指标上有显著的改进，包括曲线下的精确召回面积（PR-AUC）（平均值0.735 vs 0.724）和准确性（平均值0.900 vs 0.892）。相比之下，GAN增强数据集（191,712个样本）显示了混合结果（提高了准确性/F1，降低了接收者工作特征曲线曲线下面积(ROC-AUC)/PR-AUC）。相比之下，ADASYN（163,326个样本）和SMOTE（163,470个样本）平衡数据集在PR-AUC上的表现明显不佳。SHAP分析确定透析日期（作为时间模式的代理，如星期几）和血流动力学指标（如收缩期舒张差，既往收缩压）是关键的IDH预测因子。结论：与标准方法相比，所提出的CWGAN-GP框架有效地平衡了复杂的血液透析数据，显著改善了IDH预测模型的可解释性。这项工作支持利用GAN等先进的生成模型来克服临床预测任务中的数据不平衡，这有待进一步验证。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

A holistic framework for intradialytic hypotension prediction using generative adversarial networks-based data balancing.

Background: Intradialytic Hypotension (IDH) is a frequent complication in hemodialysis, yet predictive modeling is challenged by class imbalance. Traditional oversampling methods often struggle with complex clinical data. This study evaluates an enhanced conditional Wasserstein Generative Adversarial Network with Gradient Penalty (CWGAN-GP) framework to improve IDH prediction by generating high-utility synthetic data for balancing.

Methods: A CWGAN-GP was developed using multi-level hemodialysis data. Following rigorous preprocessing, including a strict temporal train-test split, the CWGAN-GP generated minority class samples exclusively on the training data. eXtreme Gradient Boosting (XGBoost) models were trained on the original imbalanced data and datasets balanced using the proposed CWGAN-GP method, benchmarked against traditional Synthetic Minority Over-sampling Technique(SMOTE) and Adaptive Synthetic Sampling Approach(ADASYN) balancing. Performance was evaluated using metrics sensitive to imbalance (e.g., Precision-Recall Area Under the Curve) and statistical comparisons, with SHapley Additive exPlanations (SHAP) analysis for interpretability.

Results: The study population consisted of 40 chronic hemodialysis patients (45% male, mean age 66.30[Formula: see text] 10.68 years). An initial dataset, where intradialytic hypotension (IDH) events occurred in 14.85% of records (19,124 instances overall), was temporally split (75:25 ratio). This yielded an Original Training dataset of 95,856 samples (14.73% IDH rate) and a test set (15.21% IDH rate). From this Original Training dataset, a Generative Adversarial Network (GAN) was employed to construct a balanced dataset comprising 163,470 samples. The GAN Balanced dataset yielded the highest predictive performance, demonstrating statistically significant improvements over the Original Training dataset across metrics, including Precision-Recall Area Under the Curve (PR-AUC) (mean 0.735 vs 0.724) and Accuracy (mean 0.900 vs 0.892). In contrast, the GAN Augmented dataset (191,712 samples) showed mixed results (improved Accuracy/F1, decreased Receiver Operating Characteristic Curve Area Under Curve (ROC-AUC)/PR-AUC). In comparison, ADASYN (163,326 samples) and SMOTE (163,470 samples) balanced datasets significantly underperformed on PR-AUC. SHAP analysis identified Dialysis Date (as a proxy for temporal patterns like day-of-week) and hemodynamic indicators (e.g., Systolic Diastolic Difference, Previous Systolic Pressure) as key IDH predictors.

Conclusion: The proposed CWGAN-GP framework effectively balances complex hemodialysis data, leading to significantly improved and interpretable IDH prediction models compared to standard approaches. This work supports leveraging advanced generative models like GAN to overcome data imbalance in clinical prediction tasks, which is pending further validation.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

BMC Medical Informatics and Decision Making 医学-医学：信息

CiteScore

7.20

自引率

5.70%

发文量

297

审稿时长

1 months

期刊介绍： BMC Medical Informatics and Decision Making is an open access journal publishing original peer-reviewed research articles in relation to the design, development, implementation, use, and evaluation of health information technologies and decision-making for human health.