无监督学习基础上的抑郁症分级模型研究*

2022-05-27 07:26彭乔立李汉民幺冬爱
医学信息学杂志 2022年1期
关键词:分组聚类分级

彭乔立 李汉民 幺冬爱 肖 辉

(武汉大学中南医院信息中心 武汉 430071)

1 引言

抑郁症是一种严重危害公众健康的慢性非传染性精神类疾病,其发病原因复杂,临床表现差异较大,治疗成本较高,具有难预防、难诊断、难治愈的特点。抑郁症患者不仅将面临健康损失,同时社会性歧视可能导致抑郁症患者身心健康与个人权益遭受严重伤害[1]。如今随着生活节奏加快与压力增长,抑郁症发病率逐年攀升[2]。

2 相关概念

2.1 抑郁症分级

据WHO统计全球每年因为医疗资源浪费而造成损失达千亿美元。医疗资源浪费往往是由病情评估不合理导致,由于慢性非传染性疾病治疗成本过高,病情分级成为慢病诊疗中的重要一环,根据定量数据划分病情等级为常用方法,可作为重要诊疗依据,指导医疗资源配置以提高诊疗效率。抑郁症属于精神类疾病,由于缺乏器质性病变的临床证据,无法通过实验室数据或其他检查数据来进行量化病情分级,目前该疾病主要通过抑郁症自评量表(Self-rating Depression Scale,SDS)进行量化[3],该表由大量主观问答组成,使用时可能产生较高主观偏倚风险。相较于定量化病情分级方法,基于主观问答的抑郁症病情分级方法精确性与灵敏度较低。

2.2 无监督学习

2.2.1 定义 无监督学习是指在缺乏先验知识的场景下,对难以区分类别、定义性质的数据进行标注、分组与特征化等处理。在数据挖掘过程中,数据集缺乏标注、分组信息的情况时有发生,可能导致人工智能、深度学习等许多智能算法无法实施。因此数据标注、分组工作是许多数据挖掘算法的前提。对于缺乏先验知识的数据而言,人工标注是最可靠的方法,但需要耗费大量人力与时间成本,甚至经常超过训练模型所需要时间[4]。无监督学习算法可以挖掘数据内在特征并根据特征值进行相关运算,实现数据维度转换的功能。

2.2.2 分类 根据应用方式不同主要分为聚类(Cluster)、降维(Reduction)、人工神经网络(Artificial Neural Network, ANN)等技术。聚类分析可以挖掘并分析数据特征,计算聚类中心,根据特征值不同聚类分析可分为以下几类:均值聚类(Means)、层次聚类(Hierarchy)、概率聚类(Probability)等[5];数据降维通过分析数据维度共同特征,将其合并成更少、更精简的新维度空间,根据合并依据的不同降维分析可以分为:主成分分析(Principal Component Analysis,PCA),因子分析(Factor Analysis,FA)以及线性判别(Linear Discriminant Analysis,LDA)等;人工神经网络是当前最热门的数据分类算法,该算法通过构建输入层-隐藏层-激活函数-输出层的类生物神经系统结构,实现数据分类功能[6]。本研究使用聚类分析中的K均值(K-Means)算法,以抑郁症患者实验室数据为对象,对其进行定量分析以获取分级模型,再用该分级模型对测试数据集进行分组,最后使用统计学方法进行评价,验证分级模型有效性,见图1。

图1 分组结果散点(应用于部分维度)

3 方法

3.1 数据集准备

使用健康信息系统(Health Information System,HIS)查询符合要求的患者数据,以主诊断编码类目为“F32”“F33”(抑郁症对应主诊断编码)为选入标准获取患者索引号,以该索引关联检验信息系统(Laboratory Information System,LIS)以获取具体检验项目数据,对所得数据进行脱敏处理,去除姓名、身份证号、住址等患者隐私信息,以患者主索引作为主键与单个样本数据进行关联,对数据集中的NA值采用平均化处理方案,包含0值或NA值多于半数的列视为无效并对其进行剔除。完成数据脱敏与完整性处理后,数据集最终包含193个样本行,其中105行样本作为训练集,另外88行作为测试集。

3.2 使用无监督学习算法获取分级模型

3.2.1 概述 本研究将探讨抑郁症量化分级方案,采用距离聚类中的K-Means算法,使用该算法训练数据,将其分为3组并获取聚类中心,尝试使用聚类中心为测试数据集进行分组,最后使用统计学方法验证分组结果效能。

3.2.2 去除异常值 数据集中零散分布的异常值会影响数据分布特征并使聚类结果产生偏倚,因此在计算聚类中心前需要去除异常值。利用百分位数(Percentile)过滤异常值,只保留第1(Q1)和第3(Q3)分位数之间的数据,此范围外的数据将被视为异常值而不纳入计算。

3.2.3 计算聚类中心 运用K-Means聚类算法获取聚类中心,具体算法如下:根据数据分布情况随机选取3个初始中心点;分别计算每个样本到初始中心点的欧式距离;计算误差值,根据误差重新计算聚类中心;重复上两个步骤,直到达到迭代数上限或者误差小到满足条件时停止,得到分级模型。K-Means算法公式如下:

3.3 统计学评价

将分级模型应用在测试数据集上并分为3组,分别计算各组统计数据,针对数据集分布特性使用不同统计学算法验证分组结果,使用Shapiro方法验证正态性,采用Barlett方法验证方差齐性,对于满足正态性与方差齐性的数据列,使用ANOVA方法分析组内与组外差异,对于组内差异使用LSD-T方法进行两两比较,对不满足正态性或方差齐性的数据列使用Kruskal方法两两比较,然后通过Wilcoxon-Mann-Whitney方法分析其组内差异,见表1。

表1 训练数据分组模型

4 结果

根据分组结果散点可以看出3个分组之间分界清晰、形态稳定,聚类中心互相独立。由训练数据分组模型结果可以发现训练数据所计算得到的分组模型梯度明显,呈一定递增关系,用该模型对测试数据进行分组并用统计学方法校验分组。结果显示大部分检验项目的组内差异具有统计学意义(P< 0.05,P= 0.001为值过小故用该值替代),随后两两比较组间差异,结果表明有部分检验项目3组之间差异都有显著性(P1、P2、P3分别为两两比较的P值),部分检验项目的组间差异不全具有统计学差异,存在少部分项目的组间差异没有统计学意义,见表2。

表2 测试集分组结果统计校验

续表2

5 结语

本研究使用无监督学习算法对无先验知识的抑郁症患者实验室数据进行分级,通过统计学算法对分级进行验证,结果表明大部分指标的组间差异具有统计学意义,说明精神类疾病会对实验室检验项目产生一定影响。但本研究尚未解决分组数量如何确定的问题,未来将会结合已有研究结果继续探索分组数量与分组模型质量之间的关系。

猜你喜欢
分组聚类分级
基于K-means聚类的车-地无线通信场强研究
分组搭配
怎么分组
分级诊疗路难行?
分组
基于高斯混合聚类的阵列干涉SAR三维成像
分级诊疗的“分”与“整”
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
分级诊疗的强、引、合