文章快速检索     高级检索
   复旦学报(医学版)  2020, Vol. 47 Issue (4): 521-530      DOI: 10.3969/j.issn.1672-8467.2020.04.009
0
Contents            PDF            Abstract             Full text             Fig/Tab
基于LASSO变量选择联合贝叶斯网络构建恶性肿瘤相关急性肾损伤(AKI)风险预测模型
李阳 , 陈晓泓 , 王一梅 , 胡家昌 , 沈子妍 , 沈波 , 林静 , 丁小强     
复旦大学附属中山医院肾内科 上海 200032
摘要目的 利用套索(least absolute shrinkage and selection operator,LASSO)回归和贝叶斯网络分析方法,构建适合肿瘤患者急性肾损伤(acute kidney injury,AKI)发病风险的贝叶斯网络预测模型,为早期识别高危人群,制定AKI精准预防策略提供科学依据。方法 以2014年10月1日至2015年9月30日在复旦大学附属中山医院就诊的恶性肿瘤住院患者为研究对象。于医院数据管理平台收集患者年龄、性别、体重指数、既往病史、肿瘤类型/治疗、基础肝肾功能、生化和电解质指标等数据资料。通过LASSO回归筛选出与AKI发生显著相关的影响因素;借助贝叶斯网络分析进一步描述变量间相互作用并评价模型预测效能。结果 26 914名研究对象中,AKI发病率为12.4%(n=3 326),其中肾癌(27.3%),多发性骨髓瘤(24.1%)和急性粒细胞白血病(23.9%)患者的AKI发病率最高。LASSO回归筛选出22个与AKI发生相关性最显著的变量,包括年龄、性别、体重指数、糖尿病史、肿瘤类型/分期/治疗方式、肝功能、肾小球滤过率(estimated glomerular filtration rate,eGFR)/血清肌酐值/血尿酸、白蛋白、血红蛋白和白细胞计数、血钠/血钾等电解质。贝叶斯网络模型发现血红蛋白、eGFR、血氯和血磷与AKI的发生有直接联系;节点治疗方式通过影响血钠和白蛋白等中间节点间接影响AKI的发生;糖尿病和性别通过节点尿酸间接相连eGFR,而后者是AKI的父节点。模型推理在其他条件一致的情况下,贫血和eGFR ≤ 59 mL·min-1·1.73 m-2的患者发生AKI的概率最高(55.7%);而上述指标均正常者AKI发病率最低(3.0%)。模型评价发现贝叶斯网络模型的分类准确率为88.8%,接受者操作特性曲线曲线下面积为0.806。结论 基于LASSO变量选择联合贝叶斯网络分析构建的模型在肿瘤相关AKI的影响因素分析中更符合实际理论,其在发病风险预测中有较好的临床应用价值。
关键词急性肾损伤(AKI)    恶性肿瘤    LASSO回归    贝叶斯网络    预测模型    
Application of LASSO regression and Bayesian networks in exploring related factors of acute kidney injury(AKI)in cancer patients
LI Yang , CHEN Xiao-hong , WANG Yi-mei , HU Jia-chang , SHEN Zi-yan , SHEN Bo , LIN Jing , DING Xiao-qiang     
Department of Nephrology, Zhongshan Hospital, Fudan University, Shanghai 200032, China
Abstract: Objective To explore the associated risk factors of acute kidney injury (AKI) in cancer patients by least absolute shrinkage and selection operator (LASSO) regression-based Bayesian networks (BN), to estimate the prediction ability of BN model, and then to identify the high-risk patients of AKI through BN reasoning. Methods During Oct 1st 2014 and Sept 30th 2015, patients with malignancies were recruited in Zhongshan Hospital, Shanghai, China.Data on demographics, comorbidities, and clinical records were exported from the hospital inpatient database.The candidate features for AKI was selected by LASSO regression and presented their inter-relationships in BN. Results Of 26 914 eligible patients, 3 326 AKI cases were identified.The highest rates were localized to renal cancer (27.3%), multiple myeloma (24.1%), and leukemia (23.9%).The LASSO regression screened 22 candidate variables for further analysis, including age, gender, BMI, diabetes, cancer category/stage/treatment, liver dysfunction, estimated glomerular filtration rate (eGFR), serum creatinine (SCr), serum uric acid (SUA), albumin, hemoglobin and other biochemical indicators and electrolyte disorders. BN model revealed complex correlations between these related factors, in which a direct connection between hemoglobin, eGFR, serum chlorine & phosphorus and AKI were found. Treatment was indirectly linked to AKI through albumin and serum sodium, while diabetes and gender diabetes created connections with AKI through affecting SUA levels.Inferences by BN found that when poor eGFR and anemia probability occurred simultaneously, the probability of AKI may reach 55.7%. However, once these indicators were at the normal level, the estimate can be reduced to 3.0%. BN's area under the ROC curve is 0.806, shared high classification accuracy (88.8%) to reflect the dependence among nodes. Conclusion Bayesian networks combined with LASSO can analyze not only how the correlative factors affect AKI but also their interrelationships. This model also shows good clinical application value in the prediction of AKI.
Key words: acute kidney injury (AKI)    malignant tumor    LASSO regression    Bayesian network    prediction model    

21世纪以来,随着靶向药物和肿瘤干细胞治疗等新型治疗技术的发展,恶性肿瘤患者的中位生存时间在过去数十年间已有所改善。与此同时,越来越多的患者出现了肿瘤或肿瘤治疗相关的肾脏疾病,进一步加重了全球疾病负担[1]。急性肾损伤(acute kidney injury, AKI)是恶性肿瘤患者中最常见的并发症之一,主要表现为肾功能突然下降,进而导致尿素和其他含氮废物潴留以及细胞外液容量和电解质失调。据估计,全球肿瘤相关AKI的发病率约为21.3%[2]。恶性肿瘤相关AKI的发生是肿瘤直接损伤、化疗药物肾毒性、肿瘤治疗并发症和其他致病因素等共同作用的结果[3]。复杂的发病机制使得肿瘤相关AKI的病因识别困难,进一步加重了临床预防和诊治的难度。与此同时,上述众多的危险因素彼此存在交互作用,以Logistic回归为主的传统统计分析方法并不适用,亟待开发以大数据处理和人工智能分析为基础的优化统计方法。贝叶斯网络(Bayesian network)是基于概率的不确定性推理方法,通过构建有向无环图直观反映多因素间的潜在关系,利用条件概率分布表反映关系强度[4]。套索(least absolute shrinkage and selection operator, LASSO)回归方法通过构造惩罚函数得到较为精炼的模型,在处理存在多重共线性的样本数据时有明显的优势[5]。因此,本研究利用LASSO回归和贝叶斯网络分析方法,构建适合肿瘤患者AKI发病风险的贝叶斯网络预测模型,为早期识别高危人群,制订AKI精准预防策略,有效提升抗肿瘤治疗效果和患者预后提供科学依据。

资料和方法

研究对象   纳入标准:2014年10月1日至2015年9月日30在复旦大学附属中山医院就诊的经病理学确诊的恶性肿瘤住院患者。排除标准:年龄未满18周岁,住院时间小于24 h;慢性肾脏病4~5期患者和接受肾透析或肾移植者。

数据收集   本研究所用数据资料摘录于上述患者的病案记录和入院体检数据。在数据提取和分析前,患者个人身份识别信息用编码代替,以保护个人隐私。本研究纳入分析的变量有27个:年龄、性别、体重指数(body mass index, BMI)、既往疾病(高血压、糖尿病、心脏病、中风和心力衰竭)、癌症类型和分期、入院情况、治疗方式、基础肝功能[(丙氨酸转氨酶(alanine aminotransferase, ALT)、天门冬氨酸转氨酶(aspartate aminotransferase, AST)和总胆红素(total bilirubin, TBiL)]、基础肾功能[血清肌酐值(serum creatinine, SCr)、肾小球滤过率(estimated glomerular filtration rate, eGFR)和血尿酸]、生化指标(白蛋白、血红蛋白和白细胞计数)以及电解质数据(钠、钾、氯、钙、镁和磷)。

恶性肿瘤诊断和AKI定义   恶性肿瘤的诊断标准参照国际疾病分类ICD-10,并将其分为28个小类[6]。根据肿瘤的不同部位和分期,又将其进一步分为血液系统肿瘤、实体瘤、原发肿瘤和转移肿瘤。AKI诊断参照“改善全球肾脏病预后组织KDIGO”标准[7]:48 h内血清肌酐水平升高≥0.3 mg/dL(≥26.5 μmol/L)或超过基础值的1.5倍及以上,且明确或经推断上述情况发生在7天之内;或持续6 h尿量<0.5 mL·kg-1·h-1。本研究经复旦大学附属中山医院伦理委员会批准(编号:B2018-175)。

LASSO回归方法   LASSO方法的原理是在最小二乘基础上增加了一个惩罚项来对估计参数进行压缩,当参数缩小到小于一个阈值时,令它变为0,从而选择出对因变量影响较大的自变量并计算出相应的回归系数,常用于处理存在多重共线性的样本数据。LASSO回归复杂度调整的程度由参数λ控制,λ越大则模型复杂度的惩罚力度越大。通过LASSO回归,可使最终纳入模型的变量均为与因变量显著相关(P < 0.05)且考虑变量共线性问题的自变量集合。模型筛选的方法主要包括lambda.min和lambda.1se。lambda.min是指得到最小目标参量均值的λ值;而lambda.1se是指在lambda.min一个方差se范围内得到最简单模型的λ值。由于λ值到达一定值之后,继续增加模型自变量个数并不能很显著地提高模型性能,因此lambda.1se可以给出一个具备优良性能但是自变量个数最少的模型。

贝叶斯网络模型基本原理   贝叶斯网络是一种应用概率传播原理进行不确定性信息的推理和数据分析的统计学方法。它通过构建一个有向无环图G=(V, A, P)来构建反映变量间的交互作用和概率依赖关系。有向无环图主要由表示随机变量的节点viX和描述变量间概率关系的有向边aijA两部分构成。节点间的概率依赖关系则由条件概率分布表来呈现:$P(X)=\prod\limits_{i=1}^{N} P\left(X_{i} \mid \varPi_{X_{i}} ; \varTheta_{X_{i}}\right)$,其中$\varTheta_{X_{i}}$表示节点变量$X_i$的模型参数,$\varPi_{X_{i}}$表示节点变量Xi的父节点集合。贝叶斯网络分析结合了概率论和图论的优势,可以在分析影响因素的同时进一步直观地描述自变量之间的相互作用以及其与因变量之间的复杂网络,这有助于全面探讨疾病因果联系和发现未知或潜在的危险因素。

统计学分析   采用SPSS 20.0软件进行统计描述和单因素分析,检验水准均取0.05。基于LASSO回归的变量选择在R 3.3.1软件的glmnet package中完成。分类变量在纳入模型前先进行哑变量形式进行转化(27个自变量转为43个候选变量)。最终纳入模型的哑变量按照成组变量“同进同出”的原则全部选入分类变量。贝叶斯网络分析借助于R 3.3.1软件中的bnleam package:(1)禁忌搜索算法(tabu函数)进行网络结构学习;(2)极大似然估计法(bn.fit_MLE函数)进行网络参数学习;(3) cpquery函数进行贝叶斯网络推理和条件概率分布表计算。贝叶斯网络图形绘制在Netica 32.0软件内完成。在Weka3.8.0平台评价AKI贝叶斯网络预测模型预测效能,此外本研究将完整数据集按照4:1的比例随机划分为训练集和测试集,用训练集重新估计贝叶斯网络参数,并以测试集来验证在既定网络模型结构下外部预测一致性。

结果

人口学和临床特征   共纳入26 914人,平均年龄(58.7±12.5)岁,男性占比66.7%。3 326名(12.4%)患者在住院期间被诊断为AKI,其中肾癌(27.3%)、多发性骨髓瘤(24.1%)和急性粒细胞白血病(23.9%)患者的AKI发病率最高。随着年龄增加,肿瘤相关AKI发病率由9.5%升至19.4%(P < 0.001);男性肿瘤患者AKI发病率略高于女性(12.7% vs. 11.6%);BMI与AKI发生呈负相关(图 1)。

aPearson test; bCochran-Mantel-Haenszel (CMH) test. 图 1 不同年龄、性别和BMI癌症患者的肿瘤相关AKI发病率比较 Fig 1 AKI incidence in cancer patients with varied gender, age and BMI

肿瘤相关AKI发病相关临床危险因素分析   由表 1可知,共患高血压、糖尿病和既往发生过心力衰竭的肿瘤患者住院期间发生AKI的风险显著增加;血液系统肿瘤、存在肿瘤远处转移和急诊入院的患者AKI发病率更高,未校正OR值(crude odds ratio, cOR)依次为1.33、1.14和1.64。与未治疗/姑息治疗相比,接受手术治疗和化学治疗者更容易发生AKI(cOR=3.86和2.09)。基础肝肾功能异常与AKI的发生亦显著相关,eGFR≤59 mL·min-1·1.73 m-2和血尿酸水平≥481 μmol/L的住院患者发生AKI的风险最高(cOR=16.40和5.74)。在生化指标方面,低白蛋白血症和贫血患者更容易在住院期间出现AKI(cOR=2.26和3.05)。此外,各种类型的电解质紊乱均与AKI的发生相关,其中入院时已出现低钠和高钾的患者AKI发生风险为血钠/钾正常者的3.11和10.33倍。

表 1 癌症患者肿瘤相关AKI发病临床相关危险因素单因素分析 Tab 1 Clinical factors and univariate analysis for AKI incidence among cancer patients  
(n=26 914)
Variate Univariate Analysis cOR (95% CI)
Total AKI AKI % χ2 P
Comorbidities
  Diabetes 5 755 872 15.2 52.768a < 0.001 1.36 (1.25-1.48)
  Hypertension 9 855 1 514 15.4 129.622a < 0.001 1.53 (1.42-1.64)
  CHD 437 62 14.2 1.373a 0.241 1.18 (0.90-1.54)
  Stroke 238 46 19.3 10.770a 0.001 1.71 (1.24-2.36)
  Heart failure 76 33 43.4 67.901a < 0.001 5.49 (3.48-8.65)
Type of Cancer
  Hematologic 2 395 370 15.4 23.191a < 0.001 1.33 (1.19-1.50)
  Non-hematologic 24 519 2 956 12.1 1.00
Cancer Stage
  Distant metastases 4 082 554 13.6 6.547a 0.011 1.14 (1.03-1.25)
  Loco-regional 22 832 2 772 12.1 1.00
In-hospital Condition
  Emergent 2 548 458 18.0 81.987a < 0.001 1.64 (1.47-1.83)
  Normal 24 366 2 868 11.8 1.00
Treatment
  Surgery 6 176 1 188 19.2 397.025a < 0.001 3.86 (3.07-4.86)
  Chemotherapy 123 16 1 404 11.4 2.09 (1.66-2.62)
  Interventional therapy 6 975 650 9.3 1.67 (1.32-2.11)
  Untreated/palliative care 1 447 84 5.8 1.00
Liver function
  ALT (≥80 U/L) 2 942 495 16.8 60.865a < 0.001 1.51 (1.36-1.68)
  AST (≥70 U/L) 3 737 595 15.9 50.893a < 0.001 1.42 (1.29-1.56)
  TBiL(≥20.4 μmol/L) 3 963 659 16.6 78.269a < 0.001 1.52 (1.38-1.66)
Renal function
  SCr (≥115 μmol/L) 1 225 732 59.8 2 662.049a < 0.001 13.22 (11.71-14.92)
  eGFR (≥90 mL·min-1·1.73 m-2) 16 315 1054 6.5 2 509.425b < 0.001 1.00
  eGFR (60~89 mL·min-1·1.73 m-2) 8 899 1369 15.4 2.63 (2.42-2.87)
  eGFR (≤59 mL·min-1·1.73 m-2) 1 700 903 53.1 16.40 (14.64-18.38)
  SUA (≤359 μmol/L) 20 578 2042 9.9 878.699b < 0.001 1.00
  SUA (360-420 μmol/L) 3 641 508 14.0 1.47 (1.33-1.63)
  SUA (421-480 μmol/L) 1 557 335 21.5 2.49 (2.19-2.83)
  SUA (≥481 μmol/L) 1 138 441 38.8 5.74 (5.05-6.53)
Biochemical test
  Album (< 35 g/L) 7 489 1454 19.4 477.152a < 0.001 2.26 (2.10-2.43)
  Hemoglobin (< 115 g/L) 10 769 2124 19.7 899.100a < 0.001 3.05 (2.83-3.29)
  WBC (≥9.5×109) 4 678 853 18.2 180.350a < 0.001 1.78 (1.63-1.94)
Electrolyte disorders
  Hyponatremia 5 796 1345 23.2 1 098.439a < 0.001 3.11 (2.88-3.36)
  Hypernatremia 380 145 38.2 6.35 (5.14-7.86)
  Hypokalemia 3 848 892 23.2 943.955a < 0.001 2.70 (2.48-2.94)
  Hyperkalemia 265 142 53.6 10.33 (8.08-13.2)
  Hypochloremia 6 302 1433 22.7 1 147.058a < 0.001 3.14 (2.91-3.39)
  Hyperchloremia 435 163 37.5 6.39 (5.23-7.81)
  Hypocalcemia 4 473 1126 25.2 873.42a < 0.001 3.18 (2.93-3.45)
  Hypercalcemia 446 97 21.7 2.63 (2.09-3.31)
  Hypomagnesemia 375 165 44.0 653.088a < 0.001 6.34 (5.15-7.81)
  Hypermagnesemia 1 610 414 25.7 2.80 (2.48-3.15)
  Hypophosphatemia 4 292 955 22.3 836.241a < 0.001 2.88 (2.64-3.14)
  Hyperphosphatemia 2 377 543 22.8 2.98 (2.68-3.32)
aPearson test;bCochran-Mantel-Haenszel (CMH) teast;cOR:Crude odds ratio; CHD:Coronary heart disease; ALT:Alanine aminotransferase; AST:Aspartate aminotransferase; TBiL:Total Bilirubin; SCr:Serum creatinine; eGFR:Estimated glomerular filtration rate; SUA:Serum uric acid; WBC:White blood cell.

基于LASSO回归的预测模型变量选择   在研究初期纳入的27个变量在哑变量转换后(43个候选变量),通过LASSO模型回归最终筛选出22个与AKI发生相关性最显著的变量,包括年龄、性别、BMI、糖尿病史、肿瘤类型、肿瘤分期、治疗方式、血钠、血钾、血氯、血钙、血镁、血磷、ALT、AST、TBiL、eGFR、SCr、血尿酸、白蛋白、血红蛋白和白细胞计数。图 2为选用10倍交叉验证拟合不同变量组合下的模型,并用接收者操作特征曲线(receiver operating characteristic curve, ROC)下面积(area under the curve, AUC)与参数λ的Log值作图。按照lambda.1se变量筛选准则,最终在λ取值0.000 4[log(λ)=-5.34]时获得具备优良性能但是自变量个数最少的模型。

图 2 基于LASSO模型的肿瘤相关AKI风险预测模型变量选择 Fig 2 AKI candidate variable selection by using LASSO regression

贝叶斯网络模型构建   按照LASSO回归筛选的变量,构建含有23个节点、43条有向边的肿瘤相关AKI贝叶斯网络发病预测模型,并获得各节点的条件概率。从图 3网络可见,年龄、性别、BMI、既往病史、肿瘤类型/治疗、基础肝肾功能、生化和电解质指标等变量通过复杂的网络关系与AKI建立联系:血红蛋白、eGFR、血氯和血磷与AKI的发生有直接联系;节点治疗方式通过影响血钠、白蛋白等中间节点联系,间接地影响AKI的发生;糖尿病和性别通过节点血尿酸间接相连eGFR,而后者是AKI的父节点;白蛋白、ALT和白细胞计数等通过影响血氯和血磷水平,间接与AKI建立联系,而AKI的发生又进一步成为血钾和血镁的父节点,这提示电解质紊乱与AKI的发生存在伴随关系,通过早期评估基础肾功能和电解质水平可以有效预防AKI发生。

ALT:Alanine aminotransferase; AST:Aspartate aminotransferase; TBiL:Total Bilirubin; SCr:Serum creatinine; eGFR:estimated Glomerular filtration rate; SUA:Serum uric acid; WBC:White blood cell. 图 3 癌症患者肿瘤相关AKI贝叶网络风险预测模型 Fig 3 Bayesian network model of factors relating to AKI in cancer patients

贝叶斯网络模型推理   图 4为血红蛋白和eGFR不同水平与肿瘤相关AKI发病情况之间的条件概率分布。在其他条件一致的情况下,贫血和eGFR≤59 mL·min-1·1.73 m-2的患者发生AKI的概率最高(55.7%);与之相比,上述指标均正常者AKI发病率最低(3.0%)。这提示基础肾功能和血红蛋白在肿瘤相关AKI的发生和发展中可能存在伴随关系。与此同时,已知任意节点组合信息都可以通过上述贝叶斯模型估计AKI的发生概率。例如年龄75岁、接受手术治疗、入院时存在贫血、低钠和高尿酸血症的男性患者发生AKI的概率为34.3%;此时如果及时纠正贫血、血钠和尿酸情况,其发生AKI的概率可降至9.6%(图 5)。

图 4 血红蛋白和eGFR为父节点的肿瘤相关AKI发病条件概率分布 Fig 4 Conditional probability distribution of AKI with hemoglobin and eGFR as parent nodes
A:AKI incidence was estimated in given evidence variables of age, gender, treatment, hemoglobin, uric acid and serum sodium; B:AKI incidence was estimated if the hemoglobin, uric acid and serum sodium was corrected.ALT:Alanine aminotransferase; AST:Aspartate aminotransferase; TBiL:Total Bilirubin; SCr:Serum creatinine; eGFR:estimated glomerular filtration rate; SUA:Serum uric acid; WBC:White blood cell. 图 5 癌症患者肿瘤相关AKI贝叶斯网络风险预测模型推理 Fig 5 Bayesian network model of factors relating to AKI under known evidence variables in caner patients

贝叶斯网络预测效能评价   Weka模型评价发现贝叶斯网络模型的分类准确率为88.8%,AUC值为0.806(表 2);10倍交叉验证评价显示AUC值亦保持在0.802的水平。在既定贝叶斯网络结构下,本研究将数据集按照4:1的比例进一步随机划分为训练集和测试集,用训练集来重新训练网络参数,并以测试集来验证模型外部预测准确性。结果显示测试集内AKI预测准确性为88.4%,AUC值为0.789(95%CI:0.769~0.808),提示模型具有良好的外部一致性。

表 2 肿瘤相关AKI贝叶斯网络风险预测模型评价 Tab 2 Model evaluation for Bayesian network of AKI
Database Sample size Accuracy F-measrue AUC 95% CI
Whole database 26 914 0.888 0.864 0.806 0.798-0.814
10-fold cross validation 26 914 0.886 0.863 0.802 0.794-0.811
Training set 21 579 0.889 0.866 0.810 0.801-0.819
Test set 5 335 0.884 0.858 0.789 0.769-0.808
Accuracy=(TP+TN)/(TP+TN+FP+FN)F-measrue=[(α2+1)×TP]/[(α2+1)×TP+FP+FN].
讨论

本研究发现恶性肿瘤患者中,急性肾损伤的发生概率为12.4%,这一比率亦略低于国内外其他文献结果:法国(16.9%)[8],日本(17.9%)[9],美国(12.0%)[10],中国大陆(18.6%)[11]和中国台湾地区(23.3%)[12]。AKI发病率的差异一方面可能与调查人群临床特征和地区差异等选择偏倚有关;另一方面,部分患者缺乏持续性肌酐检测也可能会低估当前的AKI发病率。国内另一项研究也显示超七成患者社区获得性AKI存在漏诊和诊断延误,仅有28.3%可以及时获得诊断[13]。这提示有必要研究影响AKI发生的主要危险因素,并以此构建风险预测模型以早期识别和预防肿瘤相关AKI。

癌症患者中AKI的病因通常是多因素相互作用且错综复杂的。除年龄、既往高血压和糖尿病等一般已知危险因素外,本研究发现接受手术治疗、化学治疗和介入治疗等也是AKI发生的主要危险因素(cOR:1.67~3.86)。手术治疗由于涉及血流动力学改变,术后发生AKI的风险显著增加。很多化疗药物已经被证实存在潜在肾毒性:Darmon等[14]研究发现超过80%的肿瘤患者曾服用非甾体抗炎药、双磷酸盐和甲氨蝶呤等。它们可以通过多种影响肾小球、肾小管节段、间质组织和/或肾微血管系统的机制触发肾损伤。介入治疗中静脉输注造影剂或大剂量甲氨蝶呤等导致的结晶也可引起肾小管内梗阻。

贝叶斯网络模型有助于揭示影响肿瘤相关AKI发病的各危险因素之间的复杂网络关系。除eGFR和血红蛋白等与AKI直接联系以外,治疗方式、肿瘤类型等变量是通过与血钠、血氯和血磷等电解质异常联系,也可以间接影响AKI的发生,而AKI有本身又是血镁和血钾的父节点。这提示电解质紊乱与AKI的发生存在伴随关系,通过入院时早期监测电解质水平有助于早期识别AKI,尤其是社区获得性AKI的发生。英国卫生署报告也表示通过入院及时监测电解质水平、早期识别危险因素并实施系统管理可以避免约1/5的AKI发生[15]

在AKI风险预测方面,本研究发现基于LASSO回归联合贝叶斯网络分析构建的风险预测模型的分类准确率88.8%,ROC曲线下面积为0.806。与传统Logistic回归相比,该模型具有较好的预测效果和合理性。在临床研究领域,医学数据变量间存在复杂的交互作用,此时使用以变量独立性为条件的多因素Logistic回归分析时往往会因为变量间的多重共线问题而错误估计变量效应。因此,如何在海量变量中选择出性能参数最好的变量且避免模型过度拟合是大数据分析的关键问题之一。LASSO回归的特点是在拟合广义估计方程的同时进行变量筛选和复杂度调整,从而有效解决变量共线性问题并最终获得精简的统计模型。Huang等[16]利用LASSO从150多个临床指标中筛选出24个关键指标并以此开发并验证了影像组学联合CT和临床危险因素列线图模型,用于预测结直肠癌术前淋巴结转移的风险。在数据间交互作用方面,Logistic分析只能揭示出AKI发病的几个独立影响因素,而贝叶斯网络模型可以通过变量间网络图进一步描述各因素间的相互作用及其对AKI的影响。这一特点有助于全面深入发掘因素间的内部调控关系,进而发现识别关键因素和探索潜在因素具有一定的意义。本研究的局限性在于:(1)以医院为基础的单中心观察性研究,恶性肿瘤住院患者分布可能不具有人群代表性,在今后的研究中将联合多家医疗机构进行研究,以提高样本代表性,并验证外部适用性。(2)本研究纳入的变量有限,尚未纳入肾毒性药物等其他关键变量,这势必会影响模型的预测准确性,在今后的研究将尽可能前瞻性地收集更多的变量信息以提高模型预测准确性。

综上所述,AKI是恶性肿瘤患者中常见并发症,致病因素众多且彼此存在纷繁复杂交互作用。入院及时监测电解质水平、识别危险因素和避免肾毒性药物使用等有助于早期预防和诊断AKI。基于LASSO回归联合贝叶斯网络分析构建的风险预测模型在影响因素分析中更符合实际理论,在AKI发病风险预测方面具有较好的临床应用价值。

参考文献
[1]
SAWHNEY S, FRASER SD. Epidemiology of AKI:utilizing large databases to determine the Burden of AKI[J]. Adv Chronic Kidney Dis, 2017, 24(4): 194-204. [DOI]
[2]
SUSANTITAPHONG P, CRUZ DN, CERDA J, et al. World incidence of AKI:A meta-analysis[J]. Clin J Am Soc Nephrol Cjasn, 2013, 8(9): 1482-93. [URI]
[3]
KITAI Y, MATSUBARA T, YANAGITA M. Onco-nephrology:current concepts and future perspectives[J]. Japan J Clin Oncol, 2015, 45(7): 617-628. [DOI]
[4]
SCUTARI M. Learning Bayesian networks with the BNlearn R Package[J]. J Statist Software, 2010, 35(3): 1-22. [URI]
[5]
TIBSHIRANI R. Regression shrinkage and selection via the LASSO[J]. J Royal Statist Society, 1996, 58(1): 267-288. [URI]
[6]
WORLD HEALTH ORGNIZATION.International Statistical Classification of Diseases and Related Health Problems 10th Revision[EB/OL].[2019-07-15].https://icd.who.int/browse10/2016/en.2016.
[7]
KHWAJA A. KDIGO clinical practice guidelines for acute kidney injury[J]. Nep Clin Pract, 2012, 120(4): 179-184. [URI]
[8]
RIFFAUT N, MORANNE O, HERTIG A, et al. Outcomes of acute kidney injury depend on initial clinical features:a national French cohort study[J]. Nephrol Dial Transplant, 2018, 33(12): 2218-2227. [DOI]
[9]
IWAGAMI M, MORIYA H, DOI K, et al. Seasonality of acute kidney injury incidence and mortality among hospitalized patients[J]. Nephrol Dial Transplant, 2018, 33(8): 1354-1362. [DOI]
[10]
SALAHUDEEN AK, DOSHI SM, PAWAR T, et al. Incidence rate, clinical correlates, and outcomes of AKI in patients admitted to a comprehensive cancer center[J]. Clin J Am Soc Nephrol Cjasn, 2013, 8(3): 347-354. [DOI]
[11]
YANG L, XING G, WANG L, et al. Acute kidney injury in China:a cross-sectional survey[J]. Lancet (London, England), 2015, 386(10002): 1465-1471. [DOI]
[12]
HSU CN, LEE CT, SU CH, et al. Incidence, outcomes, and risk factors of community-acquired and hospital-acquired acute kidney injury:a retrospective cohort study[J]. Medicine, 2016, 95(19): e3674. [DOI]
[13]
WANG Y, WANG J, SU T, et al. Community-acquired acute kidney injury:A nationwide survey in China[J]. Am J Kid Dis, 2017, 69(5): 647-657. [DOI]
[14]
DARMON M, VINCENT F, CANET E, et al. Acute kidney injury in critically ill patient s with haematological malignancies:results of a multicentre cohort study from the Groupe de Recherche en Réanimation Respiratoire en Onco-Hématologie[J]. Nephrol Dial Transplant, 2015, 30(12): 2006-2013. [DOI]
[15]
MAYOR S. UK report into acute kidney injury deaths urges electrolyte checks in all emergency admissions[J]. BMJ Br Med J, 2009, 338: b2310. [DOI]
[16]
HUANG YQ, LIANG CH, HE L, et al. Development and validation of a radiomics nomogram for preoperative prediction of lymph node metastasis in colorectal cancer[J]. J Clin Oncol, 2016, 34(4): 2157-2164. [URI]

文章信息

李阳, 陈晓泓, 王一梅, 胡家昌, 沈子妍, 沈波, 林静, 丁小强
LI Yang, CHEN Xiao-hong, WANG Yi-mei, HU Jia-chang, SHEN Zi-yan, SHEN Bo, LIN Jing, DING Xiao-qiang
基于LASSO变量选择联合贝叶斯网络构建恶性肿瘤相关急性肾损伤(AKI)风险预测模型
Application of LASSO regression and Bayesian networks in exploring related factors of acute kidney injury(AKI)in cancer patients
复旦学报医学版, 2020, 47(4): 521-530.
Fudan University Journal of Medical Sciences, 2020, 47(4): 521-530.
Corresponding author
DING Xiao-qiang, E-mail:ding.xiaoqiang@zs-hospital.sh.cn.
基金项目
复旦大学附属中山医院院级青年基金(2019ZSQN19);上海市肾脏疾病与血液净化重点实验室科研项目(14DZ2260200);上海市肾脏疾病临床医学中心科研项目(2017ZZ01015)
Foundation item
This work was supported by the Youth Foundation of Zhongshan Hospital, Fudan University (2019ZSQN19), the Scientific Research Project of Shanghai Key Laboratory of Kidney and Blood Purification (14DZ2260200) and the Scientific Research Project of Shanghai Medical Center of Kidney (2017ZZ01015)

工作空间