围产期抑郁症辅助诊断预测模型的构建及机器学习算法的筛选

2023-11-01 02:24褚嘉栋沈月平朱新平张晓斌

实用临床医药杂志 2023年18期

王妤, 褚嘉栋, 孙娜, 韩嫱, 沈月平,周磊, 朱新平, 3, 张晓斌, 杨勇

[1. 苏州大学苏州医学院公共卫生学院流行病与卫生统计学系, 江苏苏州, 215213;2. 江苏智慧智能软件科技有限公司, 江苏泰州, 225300;3. 智慧智能软件科技(湖南)有限公司, 湖南湘潭, 411100;4. 江苏省苏州市广济医院/苏州大学附属广济医院, 江苏苏州, 215137]

围产期抑郁症(PND)是指妇女在怀孕、分娩及产后康复期间产生抑郁情绪并达到一定严重程度[1]。研究[2]表明,低中等收入水平国家的孕产妇PND患病率高达48.5%, 远高于高等收入水平国家。中国孕产妇的PND总体患病率为16.3%(产前抑郁症为19.7%, 产后抑郁症为14.8%),且近10年呈明显上升趋势[3]。若未及时治疗, PND可能引起不良妊娠结局、低体质量儿、母婴关系不佳或亲情缺失、自杀或杀婴等不良后果[4]。随着大数据时代的来临,基于机器学习(ML)算法的人工智能(AI)模型越来越多地被用于疾病的诊断、分型及预后预测等方面[5-6]。基于ML算法,联合多个临床量表以及人口学特征、环境因素构建诊断模型,并开发界面友好、易于操作的辅助数字医疗APP或小程序,不仅无创、成本低廉,而且有利于推广,但目前仅有少量研究[7-8]构建并评估了基于量表开发的孕产妇抑郁诊断模型。本研究对产前抑郁和产后抑郁诊断算法进行探索与验证,以期明确诊断孕产妇抑郁的最优算法。

1 对象与方法

1.1 研究对象

本研究中的研究对象资料均来源于苏州市临床诊疗专项研究数据库,共纳入符合条件的孕产妇5 814例,其中产前研究对象4 665例、产后研究对象1 149例。本研究经苏州市广济医院伦理委员会审核批准,伦理批件号为苏广伦审2016-010。

1.2 方法

1.2.1 资料收集: ① 人口学变量。收集研究对象的人口学特征资料,包括年龄、是否独生子女(DSYN)、教育水平(JYSP)、婚姻状况(HYZT)、家族精神病史(qrmh)、婆媳关系(PXMYD)、是否首次妊娠(HRCS)、居住条件(JZTJ)、向孩子发脾气的冲动(EPDS11)。② 量表维度变量。本研究调查量表包括艾森克个性量表(EPQ)、社会支持量表(SSRS)、特质应对方式量表(TCSQ)、睡眠质量量表(PSQI)、轻躁狂症评估量表(HCL-32)、心理障碍问卷(MDQ)、广泛性焦虑问卷(GAD)、患者健康问卷抑郁量表(PHQ-9)。将各量表分别分解为不同的维度变量进行分析,最终共得到19个量表维度变量,可从不同角度评估孕产妇的心理健康状况,见表1。

表1 各调查量表的维度变量名称及评分说明

1.2.2 结局判定: 第5版《精神疾病诊断与统计手册》(DSM-5)推荐将9条目患者健康问卷抑郁量表(PHQ-9)[9]作为临床抑郁筛查及抑郁严重程度评估的首选工具。PHQ-9具有良好的内部一致性,Conbach′s α系数为0.8～0.9[10]。本研究根据PHQ-9评分判定孕产妇抑郁结局, PHQ-9评分≥10分为抑郁阳性, <10分为抑郁阴性。

1.2.3 数据预处理: 由于实际人群的抑郁阳性率较低(10%～15%),模型拟合过程中容易产生灵敏度较低的现象。鉴于此,本研究采用倾向性评分匹配法,以年龄作为匹配变量,对病例组进行1∶1匹配,产前研究对象成功匹配201对,产后研究对象成功匹配52对。在此基础上构建模型,可更准确地筛选较优的算法。

1.2.5 模型构建及算法筛选: 本研究基于5种ML算法即Logistic回归模型、随机森林(RF)、支持向量机(SVM)、极限梯度提升树(XGBoost)和反向传播(BP)神经网络[11],分别纳入全部变量及特征选择变量集构建产前抑郁、产后抑郁预测模型。绘制受试者工作特征(ROC)曲线评估模型性能,采用5折交叉验证方法计算评价指标,指标包括灵敏度、特异度和曲线下面积(AUC)。此外,基于5种算法对所有变量进行变量重要性排序。所有分析采用SAS 9.4软件和R 4.3.0软件进行分析。

2 结果

2.1 产前、产后研究对象抑郁状态的单因素分析

产前研究对象中,抑郁阳性者在JYSP、qrmh、HRCS、PXMYD、EPDS11方面与抑郁阴性者比较,差异有统计学意义(P<0.05); 产后研究对象中,抑郁阳性者在DSYN、EPDS11方面与抑郁阴性者比较,差异有统计学意义(P<0.05), 见表2。

表2 抑郁阴性或抑郁阳性的产前、产后研究对象的人口学特征比较[n(%)]

产前研究对象中,抑郁阳性者的17个量表维度变量(除NHCL32、PSQI_15外)与抑郁阴性者比较,差异有统计学意义(P<0.05); 产后研究对象中,抑郁阳性者的15个量表维度变量(除NHCL32、NPSQI13、PSQI_15、NMDQ外)与抑郁阴性者比较,差异有统计学意义(P<0.05), 见表3。

表3 抑郁阴性或抑郁阳性的产前、产后研究对象的各量表维度变量比较

2.2 不同预测模型的构建与评价

2.2.1 特征变量选择结果: 在产前研究对象中,单因素分析得到22个差异有统计学意义的变量,量表维度变量间的相关性分析发现epq_n与TCSQ_NC呈高度相关,两者中保留epq_n, 故最终得到21个特征选择变量。在产后研究对象中,单因素分析得到17个差异有统计学意义的变量,量表维度变量间的相关性分析发现epq_n与TCSQ_NC呈高度相关,两者中保留epq_n, 故最终得到16个特征选择变量。

2.2.2 预测模型评价结果: 纳入不同变量的情况下,产前预测模型、产后预测模型5折交叉验证的灵敏度、特异度、AUC均在0.600～0.900范围内; RF算法在产前预测模型(纳入所有变量时,AUC为0.834; 纳入特征选择变量集时,AUC为0.849)和产后预测模型(纳入所有变量时,AUC为0.873; 纳入特征选择变量集时,AUC为0.864)中均为最优算法; 相较于纳入所有变量构建的诊断模型,大部分算法基于特征选择变量集构建的诊断模型性能明显提升,但仍有个别算法提升不明显甚至下降,见表4、图1。

A: 产前预测模型(all: 纳入所有变量; sig: 纳入特征选择变量集); B: 产后预测模型(all: 纳入所有变量; sig: 纳入特征选择变量集)。图1 纳入不同变量情况下基于5种算法的产前、产后预测模型的ROC曲线

表4 以PHQ_9评分为分界标准的产前、产后预测模型的5折交叉验证结果

2.3 变量重要性排序

基于5种ML算法,分别对产前、产后研究对象进行变量重要性排序(将27项特征变量按照重要性分数从大到小排列),见图2。以RF算法为例: 产前研究对象中,重要性排序前5名的变量分别是epq_n、PSQI_14、qrmh、TCSQ_NC、NGAD; 产后研究对象中,重要性排序前5名的变量分别是NGAD、TCSQ_NC、epq_n、NPSQI513、NPSQI1617。

图2 产前、产后研究对象基于5种算法的变量重要性排序

3 讨论

孕产妇的心理健康一直是临床中备受关注的话题,但目前国内外尚无特异性的生物学指标,且由于精神专科医师的缺乏及相应访谈评估技术的限制, PND患者很难在首诊的产科及社区及时获得评估与确诊。一项综述[12]指出, 30%～70%的PND病例未被发现,且仅15%的病例接受了适当治疗,故及时筛查并发现PND仍然是医疗保健工作的重要挑战之一。目前,基于ML算法构建孕产妇抑郁诊断预测模型仍然是一个相对不成熟的领域。MATSUO S等[13]基于Logistic回归和另4种ML算法构建预测模型,但预测变量仅选用了基本的临床信息。钟雨婷等[8]开发了一种基于Android平台的产后抑郁心理护理干预系统,该系统仅应用了爱丁堡产后抑郁自评量表,而单一的量表难以反映和解释疾病的全部变异性,故仍需进一步研究。

本研究基于5种ML算法构建产前模型、产后模型,预测性能均良好,其中RF算法表现最优。一方面说明,基于不同ML算法构建的PND诊断模型均预测性能比较稳定,且本研究模型的预测效能相较于其他研究[14]明显提升; 另一方面说明, RF算法对数据的拟合情况更好,对存在多种危险因素疾病患者的预后预测具有独特优势。本研究发现,对于大部分模型而言,纳入特征选择变量集的预测性能相较于纳入全部变量时明显提高。由此提示,用于ML算法的特征需要具备良好的差异性及较低的特征间相关性,这在提升性能的同时还能兼顾临床可解释性。值得注意的是,在产后研究对象中,表现最优的RF算法纳入特征选择变量集所构建的预测模型性能略差于纳入所有变量的预测模型。由此提示, RF算法对于特征选择相对不敏感[15], 且产后抑郁预测模型仍需尽可能多地纳入特征信息。

本研究筛选出的特征选择变量集与既往研究结论基本一致,例如低社会经济地位、经济压力[16]、人际关系、感知支持[17]与PND相关。本研究中,变量重要性排序结果显示(以RF算法为例),排序前5名的重要变量首先均是单因素分析中差异有统计学意义的变量,其次在既往研究中均被视为重要的预测因素。epq_n反映情绪稳定状态,TCSQ_NC反映应对问题时情绪波动,NGAD反映焦虑情绪变化趋势,这3个变量均与情绪状态有关。张雪莲等[18]发现,情绪调节能力与抑郁水平显著相关,情绪调节能力低者更倾向于消极应对,更容易出现焦虑、抑郁等负向情绪。PSQI_14、NPSQI513、NPSQI1617均与睡眠状态有关。李洋等[19]研究发现,孕期抑郁情绪与睡眠异常等因素有关。Qrmh反映亲人的精神疾病史,一项综述[20]发现家族精神疾病史对于早期识别PND高风险妇女至关重要。

综上所述,基于5种ML算法构建的预测模型均可有效预测孕产妇PND风险,其中以RF算法的表现最优,这为开发快速筛查和诊断PND的辅助工具提供了参考依据。但本研究尚存在一定局限性: ① 本研究以PHQ-9评分作为有无PND的分界标准,然而临床中诊断PND的金标准是经过专业训练并取得精神专科医师执照的临床医生的访谈评估结论; ② 受样本量和时间的限制,本研究未进行外部验证。本研究团队将在后续实际临床试验中引入精神障碍临床定式结构化访谈(SCID)、简明国际神经精神障碍访谈检查(MINI)等诊断量表并结合临床诊断作为金标准,进一步筛选合适的量表和相应的临床变量。