基于Logistic回归和随机森林的心力衰竭预后预测建模

复旦学报(医学版)

2022, Vol. 49

Issue (5): 656-664 DOI: 10.3969/j.issn.1672-8467.2022.05.004

Contents PDF Abstract Full text Fig/Tab

引用本文

童睿, 阚丽虹, 朱中生. 基于Logistic回归和随机森林的心力衰竭预后预测建模[J]. 复旦学报医学版, 2022, 49(5): 656-664.

TONG Rui, KAN Li-hong, ZHU Zhong-sheng. Prognosis prediction modeling of heart failure based on Logistic regression and random forest[J]. Fudan University Journal of Medical Sciences, 2022, 49(5): 656-664.

基于Logistic回归和随机森林的心力衰竭预后预测建模

童睿 ^▲, 阚丽虹 ^▲, 朱中生

上海市浦东医院-复旦大学附属浦东医院心内科上海 201399

收稿日期：2022-01-16；网络首发时间: 2022-08-25 10:58:50

基金项目：复旦大学附属浦东医院重点学科项目（Zdxk2020-06）；上海市浦东新区卫生系统重点专科建设项目（PWZzk2017-17）

摘要：目的基于电子病历系统结构化信息创建的临床数据库，通过机器学习算法进行数据预处理和特征选择，构建预测心力衰竭患者住院期间死亡和6个月内死亡预测模型，从而辅助识别高危患者，为治疗干预提供指导。方法以PhysioNet网站上公开的一个数据集为研究数据来源，该数据集纳入了2016年12月至2019年6月在四川省自贡市第四人民医院住院的心力衰竭患者临床信息，利用Python进行数据预处理、特征选择，并构建Logistic回归及随机森林预后预测模型，以增大ROC曲线下面积（area under curve，AUC）为目标优化模型，并在测试集中以AUC、准确率、精确度、召回率和F1分数综合验证模型预测效果。结果通过数据预处理共获得146项特征用于住院期间心力衰竭死亡预测建模，155项特征用于6个月内心力衰竭死亡预测建模，基于随机森林的建模方法用于住院期间死亡效果最佳，AUC为0.893 1；在6个月内死亡预测上，结合LASSO和RFE进行特征选择，筛选出包括出院去向（健康护理机构、家庭或未知）、入院病房（全科）、出院科室（心血管科）、Killip分级（Ⅰ、Ⅱ和Ⅲ级）、心肌梗死情况以及充血性心力衰竭情况共10个特征进行Logistic回归建模，AUC达到0.833 6，与基于全部特征进行随机森林特征效果（AUC=0.846 0）相当。结论本研究探索出一套针对电子病历系统结构化临床数据进行数据预处理、特征工程、机器学习算法建模并验证模型的方法，利用真实世界数据构建兼顾预测准确性和高危个体检出率的心衰预后预测模型。

关键词：心力衰竭预后预测机器学习

Prognosis prediction modeling of heart failure based on Logistic regression and random forest

TONG Rui ^▲, KAN Li-hong ^▲, ZHU Zhong-sheng

Department of Cardiology, Shanghai Pudong Hospital-Fudan University Pudong Medical Center, Shanghai 201399, China

Foundation item: This work was supported by the the Key Discipline Project of Fudan University Pudong Medical Center (Zdxk2020-06) and the Key Specialty Construction Project of Health System in Pudong New Area, Shanghai (PWZzk2017-17)

Corresponding author: ZHU Zhong-sheng, E-mail 20599@shpdh.org.

^▲TONG Rui and KAN Li-hong contributed equally to this work

Abstract: Objective To assist screening heart failure patients with high risk and provide guidance for treatment and intervention by conducting machine learning algorithm in data preprocessing, feature engineering, and fitting prognostic prediction models for death during hospitalization and death within 6 months, based on the clinical database established by extracting data from electronic healthcare record system. Methods We downloaded an open-access dataset containing the clinical information of heart failure patients admitted in Zigong Fourth People's Hospital in Sichuan Province from Dec 2016 to Jun 2019 as the data source of our study. The data preprocessing, feature engineering and prognostic predicting models fitting was conduct in Python development environment. The optimization of the prediction models was conducted aiming to improve the area under the curve (AUC) of ROC. AUC, accuracy, precision, recall and F1-score were used for the evaluation of the models in the test dataset. Results A total of 146 features were used to fit the in-hospital mortality prediction model, and 155 features were collected for the 6-months mortality prediction model fitting after data preprocessing. Model based on random forest showed better prediction effects on in-hospital mortality, with an AUC of 0.893 1, while logistic regression with 10 features selected by LASSO integrated with RFE, including discharge destination (healthcare, home or unknown), admission ward (general ward), discharge department (cardiology department), Killip grade (Ⅰ, Ⅱ, Ⅲ), myocardial infarction and congestive heart failure, showed equivalent effects (AUC=0.833 6) on 6-month mortality prediction to model based on random forest (AUC=0.846 0). Conclusion We explored the process of data preprocessing, feature engineering, prognostic prediction models fitting and validation with machine learning algorithm based on the structured clinical data extracted from electronic healthcare record system, and established prognostic prediction models that can balance the prediction accuracy and recall of the high risk heart failure patients with real world data.

Key words: heart failure prognosis prediction machine learning

心力衰竭是导致老年人住院的常见原因，具有极高的病死率和致残率。由于患者临床状况千差万别，不同研究报道的急性心力衰竭住院患者1年内病死率从20%到60%不等^[1-3]，及时根据患者临床状况对患者预后进行判断有助于对高危患者实施不同强度的个体化干预，改善临床结局。针对心力衰竭预后的预测模型，目前比较著名的有西雅图心力衰竭模型（Seattle heart failure model，SHFM）^[4]、心衰生存评分（heart failure survival score，HFSS）^[5]等。但是，尽管这些模型的表现在人群层面上尚可接受，其对个体的预测并不可靠^[6-7]；此外，这些模型建模数据均来自西方发达国家，其在亚洲人群、发展中国家的适用性仍待验证。

目前国内对于心力衰竭预后模型的构建主要基于前瞻性的队列研究^[8-9]，通过多因素回归分析绘制列线图进行危险分层，这种方式对随访数据要求较高，且由于纳入标准的限制，研究样本量有限，样本分布与真实临床场景下数据特征的分布存在偏倚，外部数据验证效果往往欠佳。随着电子病历系统的推广，各医疗机构积累了大量真实世界临床数据，但传统统计学方法难以对这种结构混杂、特征高维、缺失值多的数据集进行有效处理。近年来，由于能从海量的非线性的、存在干扰的真实世界医学数据中提取隐匿而有价值的信息，机器学习算法越来越受到关注。利用国外的公共数据库和多中心电子病历系统回顾性资料，一些研究者尝试将LASSO回归、随机森林、XGBoost等机器学习方法引入心衰预后建模和能有效预测心衰预后的临床特征探索挖掘中，提供了宝贵的真实世界临床证据^[10-11]。相比而言，国内公开的符合临床伦理规范的心力衰竭电子病历数据较少，基于中国人临床电子病历数据利用机器学习方法建立心力衰竭预后模型仍是空白。

本研究拟利用一个基于中国医疗机构电子病历系统结构化临床信息的数据集，通过机器学习算法进行数据预处理、特征选择、模型拟合及效果评估，构建适合该医疗机构收治心力衰竭患者预后预测的模型，由此摸索并完善一套预后预测模型构建方法框架。

资料和方法

数据来源 本研究处理的数据来自Zhang等2020年在PhysioNet网站上公开的一个心力衰竭回顾性随访队列临床数据集^[12-13]，该数据集从医院电子病历系统中提取该队列患者结构化临床信息，以及住院期间治疗结局，并通过随访获得其6个月内死亡结局。该研究得到四川省自贡市第四人民医院伦理委员会批准（批准号：2020-010）^[12]。

研究对象纳入标准 根据公开数据集，本研究纳入自2016年12月至2019年6月在四川省自贡市第四人民医院住院且入院诊断为“心力衰竭”的所有患者，其中心力衰竭定义参照欧洲心脏病学会（European Society of Cardiology）制定的标准^[14]，包括急性心力衰竭、慢性心力衰竭、左心衰竭、右心衰竭、全心衰竭在内的所有类型心力衰竭患者均应纳入，即电子病历系统中所有入院诊断符合表 1所示ICD-9编码的患者为纳入研究对象^[12]。

表 1 符合研究纳入标准的入院诊断ICD-9编码列表 Tab 1 List of the ICD-9 diagnosis code on hospital admission meeting the inclusion criteria

ICD-9 code	ICD-9 diagnosis meeting the inclusion criteria
4282	Systolic heart failure
42802	Systolic heart failure，unspecified
42821	Acute systolic heart failure
42822	Chronic systolic heart failure
42823	Acute on chronic systolic heart failure
4283	Diastolic heart failure
42830	Diastolic heart failure，unspecified
42831	Acute diastolic heart failure
42832	Chronic diastolic heart failure
42833	Acute on chronic diastolic heart failure
4284	Combined systolic and diastolic heart failure
42840	Combined systolic and diastolic heart failure，unspecified
42841	Acute combined systolic and diastolic heart failure
42842	Chronic combined systolic and diastolic heart failure
42843	Acute on chronic combined systolic and diastolic heart failure
4289	Heart failure，unspecified

表选项

数据分析建模环境 Python 3.8.5版，开源的Anaconda3-2020.11发行版本，Jupyterlab 2.2.6版开发环境下进行数据分析和建模。

数据预处理 根据业务知识删除重复特征并去除完全共线性特征，特征如缺失值超过70%直接删除。用scikit-learn库SimpleImputer模块，对连续型特征进行均值填补，分类型特征进行众数填补，无序分类变量用OneHotEncoder模块进行独热编码，形成预测6个月内死亡风险的特征矩阵，进一步剔除出院时才能揭盲的特征，形成预测住院结局的特征矩阵。住院结局标注成存活和死亡二分类；6个月死亡结局沿用原始数据标签二分类。

训练集和测试集划分 利用scikit-learn库model_selection模块train_test_split类进行训练集和测试集划分，取30%的样本作为测试集进行模型内部验证，其余70%样本构成训练集用于模型构建和优化。

基线数据统计描述 全数据集、训练集和测试集基线数据，连续型变量非偏态分布计算均值和标准差，偏态分布计算中位数和四分位数，分类型变量计算在全数据集、训练集和测试集中各自的频数和频率。

特征选择 经典统计学方法特征选择采用方差分析（analysis of variance，ANOVA）F检验进行相关性过滤，利用scikit-learn库f_classif模块选取F检验P < 0.05的特征作为相关性特征，结合SelectKBest模块提取相关性最强的10个特征。基于算法的特征选择采取嵌入法和包装法结合策略，嵌入法最佳特征子集的求解利用feature_selection模块中SelectFromModel类进行，Logistic回归建模时通过L1正则化引入惩罚项压缩特征参数实现特征选择（least absolute shrinkage and selection operator，LASSO），随机森林建模时通过设定特征重要性阈值实现特征选择；包装法特征选择采取递归特征消除法（recursive feature elimination，RFE），利用feature_selection模块RFE类将预测模型特征数量压缩至10个。

结局样本类别不平衡处理 当结局类别存在不平衡现象时，使用合成少数类样本的过采样技术（synthetic minority over-sampling technique，SMOTE），利用imblearn库中over_sampling模块SMOTE类来平衡样本类别，使得多数类和少数类样本1∶1平衡。

模型拟合和优化 Logistic回归建模利用scikit-learn库linear_model模块LogisticRegression类实现，求解方式选择“liblinear”；随机森林建模利用scikit-learn库中集成算法ensemble模块RandomForestClassifier类实现；模型优化以scikit-learn库cross_val_score模块5折交叉验证计算ROC曲线平均AUC值最大为目标，比较不同超参数（Logistic回归模型中正则化强度倒数C，随机森林模型中不纯度衡量指标criterion，最大树深度max_depth）下模型效果差异，选取交叉验证下平均AUC值最大的超参数组合对训练集最终建模。

模型内部验证 通过scikit-learn库metrics模块计算模型在测试集上AUC验证模型效果，利用bootstrap方法对测试集进行1 000次自助重抽样，取模型在1 000个自助样本上AUC分布的第2.5和第97.5百分位数作为模型在测试集上AUC的95%置信区间，利用roc_curve类结合matplotlib.pyplot绘制ROC曲线并计算最佳切点阈值和约登指数，并计算对应阈值下模型的精确度、召回率、F1分数和准确率。

结果

各结局标签分布 共2 008例病例，住院治疗期间死亡11例，存活1 997例，多数类占比99.5%，存在严重样本类别不均衡，其中训练集1 405例病例中住院期间死亡9例，存活1 396例，通过SMOTE方法平衡样本后训练集扩充至2 792例，死亡和存活病例各1 396例；6个月内死亡57例，存活1 951例，多数类占比97.2%，存在样本类别不平衡，其中训练集1 405例病例中6月内死亡45例，存活1 360例，通过SMOTE方法平衡样本后训练集扩充至2 720例，死亡和存活病例各1 360例。

数据预处理后特征矩阵 原始数据集进行数据预处理后，最终形成的6个月死亡风险建模特征矩阵具有155个特征，进一步剔除出院后才能揭盲的特征，形成的住院期间死亡风险建模特征矩阵具有146个特征，特征重建流程见图 1。这些用于建模的特征包括患者基本信息特征（性别、年龄、职业类别、入院途径、入院科室等）、入院病情评估特征（生命体征、心衰分型、NYHA分级、Killip分级、心衰病因、合并症、意识状况、呼吸状况等）、实验室和辅助检查特征（超声心动图、血常规、肝功能、肾功能、电解质、心肌损伤标志物、凝血功能、血脂、血气分析等）以及出院特征（住院天数、出院科室、出院去向）。本研究部分人口学特征和临床建模特征在训练集和测试集中的基线水平如表 2所示。

图 1 数据预处理阶段特征选择重建流程图 Fig 1 The flow chart of feature selection and reconstruction during the data preprocessing

图选项

表 2 部分人口学特征和临床建模特征基线水平 Tab 2 The baseline level of population characteristic and several clinical features in modeling

[n (%)]
Feature	Total（n=2 008）	Train（n=1 405）	Test（n=603）
Gender
Male	845（42.1）	589（41.9）	256（42.5）
Female	1 163（57.9）	816（58.1）	347（57.5）
Age（y，x±s）	75.4±11.9	75.3±11.8	75.6±12.2
Admission way
Emergency	956（47.6）	663（47.2）	293（48.6）
Nonemergency	1 052（52.4）	742（52.8）	310（51.4）
Admission ward
Cardiology	1 547（77.0）	1 081（76.9）	466（77.3）
ICU	15（0.7）	11（0.8）	4（0.7）
General ward	265（13.2）	185（13.2）	80（13.3）
Others	181（9.0）	128（9.1）	53（8.8）
NYHA classification
Grade Ⅱ	353（17.6）	242（17.2）	111（18.4）
Grade Ⅲ	1 039（51.7）	718（51.1）	321（53.2）
Grade Ⅳ	616（30.7）	445（31.7）	171（28.4）
Killip grade
Grade Ⅰ	527（26.2）	355（25.3）	172（28.5）
Grade Ⅱ	1 029（51.2）	728（51.8）	301（49.9）
Grade Ⅲ	392（19.5）	276（19.6）	116（19.2）
Grade Ⅳ	60（3.0）	46（3.3）	14（2.3）
Myocardial infarction	143（7.1）	100（7.1）	43（7.1）
Type of heart failure
Left	477（23.8）	322（22.9）	155（25.7）
Right	51（2.5）	35（2.5）	16（2.7）
Both	1 480（73.7）	1048（74.6）	432（71.6）
LVEF（%，x±s）	50.7±7.4	50.6±7.2	50.8±7.9
BNP [pg/mL，median（Q1-Q3）]	772.4（311.5-1720.9）	791.6（310.6-1751.9）	729.3（314.2-1634.3）
GCS（x±s）	14.8±1.2	14.8±1.3	14.9±0.8
Creatinine [μmol/L，median（Q1-Q3）]	87.6（65.1-122.3）	87.6（65.7-123.7）	87.4（64.2-117.5）

表选项

住院期间死亡风险预测模型构建 基于方差分析，与住院期间死亡结局相关特征共126个，相关性最强10个特征的F检验统计量和P值如表 3所示。基于LASSO和RFE，以及随机森林特征重要性进行特征选择构成的特征子集如表 4所示。用Logistic回归和随机森林模型对各特征子集建模，调整最佳超参数组合后，在测试集中计算AUC评估结果如表 5所示。经比较，用随机森林算法对全部特征构成的矩阵进行建模，不纯度衡量指标criterion选择gini（基尼系数），剪枝限制单个评估器决策树最大学习深度max_depth为6时，测试集AUC最大，达到0.893 1。此最佳模型下ROC曲线及最佳阈值切点如图 2所示，最佳分类概率阈值为0.007，约登指数为0.785，此阈值下模型的准确率0.786，精确度0.015，召回率达到1，F1分数0.030。

表 3 基于方差分析F检验的住院期间死亡相关特征排序 Tab 3 Ranking of the relevant features to death during hospitalization based on ANOVA

Relevance ranking	Feature	F	P
1	Consciousness clear	8 222	< 10^-304
2	Movement	5 637	< 10^-304
3	Eye opening	4 453	< 10^-304
4	GCS	4 230	< 10^-304
5	Verbal response	3 872	< 10^-304
6	NYHA cardiac function classification Ⅲ	1 465	5.58×10^-258
7	Respiratory support：None	1 311	9.89×10^-236
8	Killip grade Ⅱ	1 261	3.48×10^-228
9	Admission way	820	2.26×10^-158
10	FiO₂	775	1.12×10^-150
GCS：Glasgow coma scale；NYHA：New York Heart Association；FiO₂：Fraction of inspiration O_2.

表选项

表 4 基于LASSO结合RFE以及特征重要性筛选的10个预测住院期间死亡的最佳特征 Tab 4 The top 10 features to predict in-hospital mortality selected by LASSO integrated with RFE and feature importance

LASSO integrated RFE		Feature importance in Random Forest
Feature	Coefficient	Feature	Feature importance
NYHA classification Ⅲ	-4.048	Sodium	0.133 4
NYHA classification Ⅳ	-3.089	Consciousness clear	0.125 0
Killip gradeⅠ	-5.128	Eye opening	0.108 0
Killip grade Ⅱ	-4.343	GCS	0.082 2
Killip grade Ⅲ	-5.083	FiO₂	0.080 6
Consciousness clear	-3.453	NYHA classification Ⅲ	0.059 8
Admission way	-1.170	Movement	0.047 5
Verbal response	2.051	Verbal response	0.043 5
Movement	-1.919	Admission way	0.030 7
Measured residual base	0.058	Lactate	0.030 1

表选项

表 5 Logistic回归和随机森林模型预测住院期间死亡效果评估 Tab 5 Model evaluation of Logistic regression and random forest for in-hospital mortality prediction

Algorithm	Feature matrix	AUC in train set	AUC in test set（95% CI）
Logistic regression	All features（146）	0.994 7	0.112 3（0.005 0，0.234 7）
	All relevant features（126）	0.994 6	0.015 0（0.003 3，0.030 0）
	Top 10 relevant features	0.992 0	0.535 4（0.132 9，0.930 2）
	LASSO（45）	0.994 8	0.347 8（0.295 4，0.399 0）
	LASSO integrated RFE（10）	0.997 0	0.465 6（0.124 8，0.808 3）
Random Forest	All features（146）	0.999 9	0.893 1（0.764 5，1.000 0）
	All relevant features（126）	0.999 9	0.251 7（0.003 3，0.501 7）
	Top 10 relevant features	0.995 3	0.238 4（0.005 0，0.475 0）
	Top 10 important features	0.998 7	0.606 1（0.200 4，1.000 0）

表选项

图 2 最优超参数下住院期间死亡随机森林预测模型ROC曲线 Fig 2 The ROC curve of random forest model of death during hospitalization prediction with optimal hyper-parameters

图选项

6个月内死亡风险预测模型构建 基于方差分析，与6个月死亡结局相关特征有128个，相关性最强的10个特征F检验统计量和P值如表 6所示。基于LASSO和RFE，以及随机森林特征重要性进行特征选择构成的特征子集如表 7所示。用Logistic回归和随机森林模型对各特征子集建模，调整最佳超参数组合后，在测试集中计算AUC评估结果如表 8所示。经比较，用随机森林算法对全部特征构成的矩阵进行建模，不纯度衡量指标criterion选择entropy（信息熵），剪枝限制单个评估器决策树最大学习深度max_depth为11时，测试集AUC最大，达到0.8460（95%CI：0.7504~0.9305），此时最佳分类概率阈值为0.099，约登指数为0.579，模型的准确率0.587，精确度0.046，召回率达到1，F1分数为0.088。而利用LASSO结合RFE选择10个特征后Logistic回归，正则化参数C=0.76时预测效果与之相当，AUC达到0.8336（95%CI：0.7213~0.9286），此时最佳分类概率阈值为0.027，约登指数为0.568，模型的准确率0.736，精确度0.060，召回率为0.833，F1分数为0.112。

表 6 基于方差分析F检验的6个月内死亡相关特征排序 Tab 6 Ranking of the relevant features to death within 6 months based on ANOVA

Relevance ranking	Feature	F	P
1	Consciousness clear	1 051	2.99×10^-195
2	Killip grade Ⅱ	835	2.23×10^-160
3	Discharge destination：Home	826	6.71×10^-159
4	Eye opening	805	1.80×10^-155
5	NYHA cardiac function classification Ⅲ	786	3.73×10^-152
6	Movement	754	1.09×10^-146
7	GCS	701	1.25×10^-137
8	Verbal response	650	8.64×10^-129
9	Congestive heart failure	580	2.45×10^-116
10	Discharge department：Cardiology	525	2.33×10^-106

表选项

表 7 基于LASSO结合RFE以及特征重要性筛选的10个预测6个月内死亡最佳特征 Tab 7 The top 10 features to predict 6-month mortality selected by LASSO integrated with RFE and feature importance

LASSO integrated RFE		Feature importance in random forest
Feature	Coefficient	Feature	Feature importance
Discharge destination：Healthcare	-5.328	Killip grade Ⅱ	0.054 2
Discharge destination：Home	-3.904	NYHA classification Ⅲ	0.050 2
Discharge destination：Unknown	-2.770	Consciousness clear	0.042 9
Admission ward：General ward	-2.336	Congestive heart failure	0.039 0
Discharge department：Cardiology	-2.101	LVEDD	0.037 3
Killip grade Ⅰ	-5.245	Movement	0.028 9
Killip grade Ⅱ	-4.363	FiO₂	0.028 6
Killip grade Ⅲ	-2.943	High sensitivity troponin	0.025 4
Myocardial infarction	-3.393	Creatine kinase	0.023 6
Congestive heart failure	-2.814	Eye opening	0.022 7
LVEDD：Left ventricular end diastolic diameter.

表选项

表 8 Logistic回归和随机森林模型预测6个月内死亡效果评估 Tab 8 Model effects evaluation of Logistic regression and random forest for 6-month mortality prediction

Algorithm	Feature matrix	AUC in train set	AUC in test set（95% CI）
Logistic regression	All features（155）	0.995 2	0.609 8（0.413 9，0.801 0）
	All relevant features（128）	0.995 4	0.201 4（0.094 5，0.326 9）
	Top 10 relevant features	0.967 4	0.500 0（0.500 0，0.500 0）
	LASSO（49）	0.997 0	0.737 6（0.571 5，0.884 0）
	LASSO integrated RFE（10）	0.994 9	0.833 6（0.721 3，0.928 6）
Random Forest	All features（155）	0.999 4	0.846 0（0.750 4，0.930 5）
	All relevant features（128）	0.998 8	0.618 2（0.472 2，0.768 9）
	The top 10 relevant features	0.966 0	0.435 2（0.235 2，0.632 3）
	The top 10 mportant features	0.988 5	0.749 1（0.583 5，0.904 8）

表选项

图 3 最优超参数下6个月内死亡随机森林和Logistic回归预测模型ROC曲线 Fig 3 The ROC curve of random forest and Logistic regression prediction model of death within 6 months with optimal hyper-parameters

图选项

讨论

目前疾病预后模型构建的主流方法是Cox生存回归分析，但该方法实施需完整的患者生存资料，更适合注册登记临床研究的预后分析。在真实世界研究数据建模场景下，这种生存资料往往缺失。本研究探索了一套基于国内电子病历系统临床数据进行数据预处理、特征工程，利用机器学习方法进行模型构建、优化并验证的方法框架，充分挖掘真实世界临床数据的价值，构建出兼顾预测准确性和高危个体识别能力的心衰预后预测模型。

本研究比较了两类不同机器学习模型对住院期间和6个月内死亡两类结局的预测效果。在以AUC为评估指标的前提下，对住院期间死亡结局的预测，随机森林模型明显优于Logistic回归预测模型，这提示临床上来自病历系统的这些特征与住院死亡结局之间可能呈现非线性的关系，而擅长于拟合线性关系的回归模型在这类临床预测问题上往往表现较差。对于6个月内死亡结局的预测，虽然随机森林模型的效果略优于Logistic回归，但经过LASSO和RFE特征选择简化后的Logistic回归模型效果已极其逼近利用全部特征建模的随机森林模型，而如果对随机森林用于预测的特征数量加以压缩限制，模型的预测效果下降明显，考虑到模型的临床实用性和模型可解释性，在这一问题上这种只需要少量临床信息即可达到较优效果的高效Logistic回归建模方式可能具有更高的临床价值。

本研究存在许多局限性：数据来源来自单个医疗机构，我们利用测试集对模型效果进行了内部验证，但限于收集到的数据资源，没有利用其他中心外部数据对模型进行外部验证。考虑到人群的代表性和医疗机构间不同的质控水平，本研究仅提供一种值得参考的心力衰竭预后建模方法框架，建立的模型本身以及模型相关参数在实际应用中仍需各中心数据进行验证和调整。对于住院期间死亡结局预测，虽然随机森林模型的AUC值较高，但该模型需要纳入的变量过多，临床实用性较差，而经过特征选择限制变量数量后，无论是随机森林还是Logistic回归模型，预测效果均不理想，这一问题上仍有必要进行特征工程和建模方法的深入探索。本研究出于探索目的，建模时纳入一些存在大量缺失值的特征，如既往文献报道的与心衰预后密切相关的左室射血分数^[7]，在原始数据集中缺失达69%，本研究采取均值填补和众数填补方式处理，可能导致相关信息损失，如果要进行严格的验证性方法研究，需充分考虑这种偏倚，采取必要的敏感性分析以证实结论的稳健性。

作者贡献声明 童睿机器学习模型拟合，参数调整，论文撰写。阚丽虹数据获取和预处理，文献调研。朱中生研究设计，获取资助，论文修订。

利益冲突声明 所有作者均声明不存在利益冲突。

参考文献

[1]	BRAUNSCHWEIG F, LINDE C, BENSON L, et al. New York Heart Association functional class, QRS duration, and survival in heart failure with reduced ejection fraction: implications for cardiac resychronization therapy[J]. Eur J Heart Fail, 2017, 19(3): 366-376. [DOI]
[2]	AL-JARALLAH M, RAJAN R, AL-ZAKWANI I, et al. Incidence and impact of cardiorenal anaemia syndrome on all-cause mortality in acute heart failure patients stratified by left ventricular ejection fraction in the Middle East[J]. ESC Heart Fail, 2019, 6(1): 103-110. [DOI]
[3]	YE SD, WANG SJ, WANG GG, et al. Association between anemia and outcome in patients hospitalized for acute heart failure syndromes: findings from Beijing Acute Heart Failure Registry (Beijing AHF Registry)[J]. Intern Emerg Med, 2021, 16(1): 183-192. [DOI]
[4]	LEVY WC, MOZAFFARIAN D, LINKER DT, et al. The seattle heart failure model: prediction of survival in heart failure[J]. Circulation, 2006, 113(11): 1424-1433. [DOI]
[5]	AARONSON KD, SCHWARTZ JS, CHEN TM, et al. Development and prospective validation of a clinical index to predict survival in ambulatory patients referred for cardiac transplant evaluation[J]. Circulation, 1997, 95(12): 2660-2667. [DOI]
[6]	OUWERKERK W, VOORS AA, ZWINDERMAN AH. Factors influencing the predictive power of models for predicting mortality and/or heart failure hospitalization in patients with heart failure[J]. JACC Heart Fail, 2014, 2(5): 429-436. [DOI]
[7]	RAHIMI K, BENNETT D, CONRAD N, et al. Risk prediction in patients with heart failure: a systematic review and analysis[J]. JACC Heart Fail, 2014, 2(5): 440-446. [DOI]
[8]	HAN Q, REN J, TIAN J, et al. A nomogram based on a patient-reported outcomes measure: predicting the risk of readmission for patients with chronic heart failure[J]. Health Qual Life Outcomes, 2020, 18(1): 290. [DOI]
[9]	YANG M, TAO L, AN H, et al. A novel nomogram to predict all-cause readmission or death risk in Chinese elderly patients with heart failure[J]. ESC Heart Fail, 2020, 7(3): 1015-1024. [DOI]
[10]	LI F, XIN H, ZHANG J, et al. Prediction model of in-hospital mortality in intensive care unit patients with heart failure: machine learning-based, retrospective analysis of the MIMIC-Ⅲ database[J]. BMJ Open, 2021, 11(7): e44779.
[11]	SAHNI N, SIMON G, ARORA R. Development and validation of machine learning models for prediction of 1-year mortality utilizing electronic medical record data available at the end of hospitalization in multicondition patients: a proof-of-concept study[J]. J Gen Intern Med, 2018, 33(6): 921-928. [DOI]
[12]	ZHANG Z, CAO L, CHEN R, et al. Electronic healthcare records and external outcome data for hospitalized patients with heart failure[J]. Sci Data, 2021, 8(1): 46. [DOI]
[13]	GOLDBERGER AL, LAAMARAL, GLASS L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a new research resource for complex physiologic signals[J]. Circulation, 2000, 101(23): E215-E220.
[14]	PONIKOWSKI P, VOORS AA, ANKER SD, et al. 2016 ESC Guidelines for the diagnosis and treatment of acute and chronic heart failure: the Task Force for the diagnosis and treatment of acute and chronic heart failure of the European Society of Cardiology (ESC) Developed with the special contribution of the Heart Failure Association (HFA) of the ESC[J]. Eur Heart J, 2016, 37(27): 2129-2200. [DOI]

文章信息

童睿, 阚丽虹, 朱中生

TONG Rui, KAN Li-hong, ZHU Zhong-sheng

基于Logistic回归和随机森林的心力衰竭预后预测建模

Prognosis prediction modeling of heart failure based on Logistic regression and random forest

复旦学报医学版, 2022, 49(5): 656-664.

Fudan University Journal of Medical Sciences, 2022, 49(5): 656-664.

Corresponding author
ZHU Zhong-sheng, E-mail 20599@shpdh.org.

基金项目
复旦大学附属浦东医院重点学科项目（Zdxk2020-06）；上海市浦东新区卫生系统重点专科建设项目（PWZzk2017-17）

Foundation item
This work was supported by the the Key Discipline Project of Fudan University Pudong Medical Center (Zdxk2020-06) and the Key Specialty Construction Project of Health System in Pudong New Area, Shanghai (PWZzk2017-17)

文章信息

工作空间