融合多特征脑电评估孤独症儿童

2022-01-18 08:14靳亚娟张志明万灵燕李小俚康健楠
中国生物医学工程学报 2021年5期
关键词:双谱相干性频段

赵 杰 靳亚娟 张志明 万灵燕 李小俚 康健楠∗

1(河北大学电子信息工程学院,河北 保定 071000)

2(北京师范大学认知神经科学与学习国家重点实验室,北京 100875)

引言

孤独症谱系障碍(autism spectrum disorder,ASD)是一种神经发育障碍,表现为社会交往障碍、语言发展障碍和行为的刻板局限[1]。最近研究表明,普通人群中ASD 的发病率是每68 名儿童中就有1 名儿童,男孩的这一数字高达1/42[2]。目前关于ASD 的病因尚不明确,通常认为并不是单一因素的影响;之前的研究认为,ASD 诱发的危险因素主要包括遗传、自身免疫、环境、外在刺激等;发病率的剧增和病理的复杂性,对准确的临床评估和诊断提出了更高的要求[3]。目前,临床诊断主要基于行为量表测试,包括儿童孤独症行为量表和儿童孤独症评定量表等[4-5]。但受限于医生经验及量表诊断的主观性,以及儿童个体差异较大,现有的临床诊断结果并不十分准确,仍然存在许多无法确诊的疑似病例。因此,寻找客观指标进行精准评估和诊断显得尤为重要。

脑电图(electroencephalogram,EEG)是一种无创的脑电记录技术,通过在头皮上放置电极来测量大脑的电活动。由于其具有无创性、便携性以及可操作性,EEG 已成为临床诊断、实验室研究和许多其他应用中优选的大脑记录方法[6],也是分析和评估脑疾病患者的有力工具。自发脑电(也称为“静息状态脑电”),可以有效地评估大脑正在进行的神经活动,也可以检测到神经振荡模式[7]。将EEG 信号划分为5 个频段,包括:delta(1~4 Hz)、theta(4~8 Hz)、alpha(8~13 Hz)、beta(13~35 Hz)和gamma(35 Hz 以上)频段。之前研究显示,相较于正常儿童,ASD 儿童的脑电功率存在异常[8-10],普遍出现低频(delta、theta)和高频(beta、gamma)活动增加,中间频段(alpha)活动减少[11]。其中,alpha 频段功率降低可以作为皮质抑制的参考指标,这对大脑区域内部以及区域间的连接起着重要作用[10],其差异也可以用来区分正常和ASD 儿童。EEG 信号的分析除了上述功率谱等线性分析方法外,还有一些非线性分析方法。例如,衡量大脑复杂度采用熵分析,而信息熵作为一种衡量,系统复杂度的物理量适用于EEG 这类高维信号[12],在过去的几十年中,基于熵的非线性方法已广泛应用于ASD 研究中[13]。之前,Catarino 等[14]和Bosl 等[15]采用熵方法分析EEG复杂度。在Catarino 的研究中发现,ASD 组的熵值显著低于正常组的熵值,具有显著差异脑区主要分布在颞叶和顶叶。Sohn 等[16]通过计算注意力缺陷与多动障碍儿童的近似熵发现,在额叶脑区与正常儿童具有显著性差异。由于不同脑区控制大脑的不同功能,因此正常儿童和ASD 儿童的EEG 信号在不同脑区计算出的熵值能够体现出两者大脑发育的差异性。因此,从静息态EEG 中提取4 种熵特征,即近似熵(approximate entropy,ApEn)、样本熵(sample entropy,SaEn)、排序熵(permutation entropy,PeEn)和小波熵(wavelet entropy,WaEn),按照大脑半球原有沟裂形状将全脑划分为5 个脑区,分别为前额叶、左颞叶、右颞叶、顶叶和枕叶,研究不同脑区、不同熵值的EEG 信号差异。由于EEG信号是微弱的非平稳信号,单纯的功率谱分析或许不能包含所有信息,而熵特征可能能够弥补这个缺点,因此功率谱与熵的特征结合能更准确地分析EEG 信号。

有研究表明,ASD 儿童EEG 信号不同频率的神经振荡之间存在互相耦合的作用[3,12-13],双谱相干性(bispectral coherence)是双谱的归一化[17],能够表明耦合作用的程度。Bullock[18]曾用双相干谱来分析睡眠状态、清醒状态以及癫痫状态的EEG 信号,对于短期记忆过程,双谱相干性表现出了显著性差异[19]。因此,采用双谱相干分析EEG 信号的耦合,进而研究频段上的耦合是否存在显著性。

除上述单通道信号之间的研究,EEG 信号功能连接一直受到广泛关注。相干性(coherence)是一种量化两通道线性相关的方法[20],通过计算各个频段不同脑区之间的相干性来反映脑区间的功能连接强弱。

ASD 是一种复杂的脑疾病,Eldridge 等[21]对年龄范围为6~10 岁的ASD 儿童和正常儿童进行分类,提取方差、功率谱等有差异的特征,采用逻辑回归和贝叶斯分类器进行分类,分类准确率达到79%。Bosl 等[15]以多尺度熵为特征向量,采用支持向量机算法,对正常儿童组和高危ASD 儿童组进行分类,分类准确率在80%左右。这些研究表明,一类特征可能很难对二者进行准确判断,因此创新性地从多特征融合的角度分析ASD 儿童EEG 信号,利用支持向量机(support vector machine,SVM)对正常儿童和ASD 儿童进行分类,根据最大相关最小冗余算法(max-relevance and min-redundancy,mRMR)筛选出特征子集,进而构造有效的分类模型,提高分类精度,为临床评估和诊断提供可靠依据。

1 材料和方法

1.1 受试者信息

本研究共招募104 名受试者参与实验。其中ASD 组为54 名(年龄:3~6 周岁,平均年龄为4.9岁±1.3 岁),正常对照组50 名(年龄:3~6 周岁,平均年龄为5.0 岁±1.2 岁)。ASD 患者经由专业的儿童精神科医生根据«精神病诊断与统计手册»和«儿童孤独症评定量表»进行诊断确定。正常对照组从本地幼儿园招募,与ASD 儿童在年龄、性别上匹配,没有ASD 相关家族遗传史,并排除神经和精神发育障碍疾病。本研究经过河北大学附属医院伦理委员会批准,在实验之前告知家长全部流程,并签署知情同意书。经计算,两组受试者之间年龄和性别均无统计学差异(年龄:t=0.627,P=0.742;性别:χ2=0.218,P=0.573)。

1.2 脑电采集

采用128 通道EGI HydroCel Geodesic System(Eugen,OR,美国)脑电系统,采集儿童静息态EEG信号,每名儿童采集时间为8~10 min,设定小于50 kΩ 的阻抗,采样频率为1 000 Hz,电极在记录时参考电极均为Cz。在采集过程中,受试者坐在舒适的椅子上处于放松状态,尽量减少面部嘴巴、眼睛以及肢体等动作。

1.3 数据预处理

使用Matlab 中的EEGLAB 工具箱,对采集到的EEG 信号进行预处理。第一步为降采样,采样率降为128 Hz,再进行带通为0.5~45 Hz 的滤波。为保证采集的数据质量,EEG 数据分被为4 s 一段,每段数据采用自适应伪迹检测的方法[22],把长的原始时间序列进行分段,若某段时间序列含有超过阈值的伪迹成分,则该段时间序列丢弃。通过伪迹检测剔除噪声信号,如眼电、肌电、工频(50 Hz)、呼吸和异常值数据,再对分段信号进行重新拼接。将超过50 kΩ 的电极和整个记录过程中阈值超过200 μV 的电极标记为坏通道,进行插值处理。数据预处理前后的对比如图1中的(a)和(b),这里只截取了128个通道中的20 个通道。

1.4 特征提取

1.4.1 功率谱

从EEG 信号功率谱密度(power spectral density,PSD)中提取特征(如delta、theta、alpha、beta等4 种节律),采取周期图法的加权交叠平均法,对EEG 信号进行功率谱估计,其计算步骤如下:

1)对预处理后的信号x(n)进行功率谱分析,每个通道中使用的是Hanning 窗函数,相比矩形窗,它的能量更加集中在主瓣上,可减少频谱泄漏,减小加窗带来的影响,其每段功率谱表示为函数p(f)。

2)把功率谱密度分为L段进行平均,得到功率谱密度如下:

3)对所有信号的功率谱再进行一次叠加平均,作为该通道的功率谱估计。为消除个体差异对绝对功率的影响,计算各节律(delta、theta、alpha、beta)相对全频段的比值,即各频段的相对功率。

1.4.2 近似熵

近似熵(ApEn)是一种用于量化时间序列波动的规律性和不可预测性的非线性动力学参数,可以表示一个时间序列的复杂性,在脑电方面应用广泛[23]。ApEn 的计算步骤如下:

1)设存在一个以等时间间隔采样获得的N维时间序列u(1),u(2),…,u(N),定义相关参数m和r。其中,m表示向量长度,且为整数;r为实数,表示“相似度”度量值。

2)重构m维向量,其中重构向量如下:

3)对于1≤i≤N-m+1,统计满足以下条件的向量个数,有

式中,Ci(r) 表示距离小于r的概率,d表示X(i)与X(j) 的距离,j的取值范围为 [1,N- M+1]。

通常选择参数m=2 或m=3;r的选择在很大程度上取决于实际应用场景,通常选择r=0.2 std,其中std 表示原时间序列的标准差。在本研究中,选择m=3,r=0.2 std。

1.4.3 样本熵

样本熵(SaEn)是基于近似熵(ApEn)的一种用于度量时间序列复杂性的改进方法,在评估生理时间序列的复杂性和诊断病理状态等方面均有应用[24-25]。与近似熵相比,样本熵具有两个优势:其计算不依赖数据长度和具有更好的一致性,即参数m和r的变化对样本熵的影响程度是相同的。样本熵的计算过程如下:

1)前两步与近似熵一致,将信号序列组成m维向量,其中Bi(r) 表示任意Xm(i)和Xm(j) 之间距离小于r的概率,有

2)求Bi(r) 对所有i值的平均值,记为Bi(r),有

3)令k=m+1 进行重构,结果如下:

则样本熵如下:

嵌入维数m一般取2 或3;相似容限r的选择在很大程度上取决于实际应用场景,通常选择r=0.1~0.25 std,其中std 表示原时间序列的标准差。在本研究中,选择m=3,r=0.2 std。

1.4.4 排列熵

排列熵(PeEn)是用于衡量时间序列复杂程度的指标[17,26-27],在计算重构子序列之间的复杂程度时,引入了排列的思想,具有计算速度快和抗噪性能强等优势。排列熵的计算步骤如下:

1)将长度为N的时间序列u(1),u(2),…,u(N),规定一个嵌入维度m和一个时间延迟L。

2)通过对原序列进行重构,将每个子序列表示如下:

3)然后对每个X(i) 内部进行递增排序,如果两个值相等,就按照它们中ji的下标i进行排序。这样,一个Xi就被映射到了(j1,j2,…,jm),这正是m! 个排列中的一种。也就是说,每一个m维的子序列X(i) 都被映射到m! 种排列中的一种。

4)通过上面的步骤,可将连续的m维子空间用一个符号序列表示,其中这些符号的个数有m!。

5)排列熵的计算如下:

参数m选取一般是3~10 之间。本研究选取m=3,排列熵共有6 种。

1.4.5 小波熵

小波熵(WaEn)的计算基于小波变换[18,28],属于谱熵的一种,其显示结果是小波变换后的频谱能量与总频段能量之比,同样也可以用于描述信号的复杂程度[17,29-30]。信号各频段含有的成分越多,则小波熵越大,反之亦然。之前的研究表明,小波熵能够很好地分析EEG 这类非平稳信号。小波熵的计算过程如下:

1)用小波变换将信号分解为不同成分,每个节点j的能量为Ej如下:

2)将每个小波能量除以总能量,得到每个节点处的相对小波能量,有

3)WaEn 的计算结果如下:

1.4.6 双谱相干性

双谱相干性是分析线性信号和系统的有力工具,可以量化EEG 信号成分中的二次相位耦合[3,31]。双谱相干性把原始信号分为N段,并进行傅里叶变化Fn(f),Fnn(f) 是其共轭表达式。分成的每一小段都可以看成是一个平稳的信号段进行双谱相干分析,其表达式如下:

1.4.7 相干性

相干性是从频域上量化两信号间的线性相关性[32-34]。选取了19 个通道,组合成171 个通道对,并分析两两之间的关系。相干性Cxy结果需要分别计算两通道各自的功率谱密度Pxx(f) 和Pyy(f),以及通道间的互功率谱密度Pxy(f),最终求得4 个频段的平均相干性,有

1.5 特征选择

ASD 儿童与正常儿童的EEG 信号差异复杂多变,如何选择特征会直接影响分类结果,这就需要考虑特征与结果的相关度、特征与特征之间的冗余度。选择mRMR 算法进行特征选择[34],首先要计算两个随机变量X和Y的互信息I(X,Y),有

根据mRMR 特征与结果最大相关准则,有

式中,h是分类类别向量,S为最适合的特征子集。

另外,最小冗余准则如下:

根据以上两个准则,mRMR 满足V- M最大即可。

1.6 特征分类

选取SVM 方法进行分类[35]。SVM 的工作原理是在特征空间中寻找类别间距离最大的一个最优超平面,该平面由不同类之间最近的点组成的支持向量来决定。研究发现,数据通过非线性变换映射到高维空间后可以寻找最优分类面[36]。映射函数称为核函数K(x,y),不同的核函数映射方法不同,选择高斯核函数如下:

在寻找最优超平面的过程中,首先读取所有的特征数据,找到可以划分数据点的两个平行超平面,选择满足类别的约束条件,进而使两个平面间没有数据点,在满足约束条件的同时,选择最大化间隔的超平面。选取10 折交叉验证,把所有被试特征集(包括ASD 儿童和正常儿童)随机等分为10组,1 组被试的特征集用作测试,其余9 组被试的特征集用来训练,重复10 次上述步骤,并且保证每组被试都测试一次,10 折交叉验证的平均准确率为最终分类精度。在特征筛选过程中,严格保证测试集与训练集分离,且特征筛选只在训练集上进行。这样不仅使在训练集上训练好的模型是完全独立的,而且使测试集数据在模型上得到的结果更具准确性和说服力。

选择如下几个常用的评价指标:准确率(accuracy,ACC)、灵敏度(sensitivity,SEN)、特异性(specificity,SPE)和F1 分数(F1 score,F1)。定义ASD 儿童为正例样本(positive class),正常儿童为负例样本(negative class)。被正确识别的ASD 样本被称为真正例(true positive,TP),被正确识别的正常样本被称为真负例(ture negative,TN);将ASD 样本错误预测为正常样本的称为假负例(fasle negative,FN),将正常样本错误预测为ASD 样本的称为假正例(false positive,FP)。分别计算准确率、灵敏度、特异性和F1 分数如下:

1.7 统计分析

采用独立样本t检验(independent-samplettest)进行统计分析,探究ASD 儿童组与正常儿童组EEG 信号指标的组间差异,设定显著水平为0.05。由于存在组间因素的影响,进一步采用重复测量方差分析(repeated measure ANOVA)进行多重检验校正,用来研究不同处理水平变量间是否存在显著性差异,以及组间因素与组内因素对于变量是否存在交互影响,能够减少个体差异对结果造成的影响。

2 结果

2.1 单一特征统计分析及分类结果

表1所示为正常组与ASD 组儿童功率谱的统计结果,其中第1 列为4 个频段,第2 列为所划分的5 个脑区;第3,4 列分别为ASD 儿童组与正常儿童组的功率谱均值。从中可以看出,正常组alpha 频段的均值普遍高于ASD 组的相应值。在每个频段均有差异,尤其是delta 频段的右颞叶、alpha 频段的枕叶和颞叶及前额叶、beta 频段的枕叶和右颞叶及顶叶,均有显著性差异(P<0.05)。功率谱特征统计差异结果表明,正常和ASD 儿童在EEG 信号频段有较大差异,并且各个脑区均有显著不同。

表1 功率谱特征统计结果Tab.1 Power spectrum characteristic statistical results

图2所示是以功率谱为特征(4 个频段、5 个脑区,共计20 个特征)时的分类结果。可以看出,当选择到前10 个特征时,分类精度最高为72%,其中灵敏度为73.94%、特异度为67.74%、F1 分数为69.74%,此时AUC(表示模型检测方法的真实性)达到0.77。进一步计算,将全部功率谱特征作为分类器的输入,这比只输入具有显著性差异的特征有更高的分类准确率;经过mRMR 特征选择,筛选出的特征不仅包含具有差异性的特征,还包含与类别有更大相关性的特征,进而得到了较高的分类准确率。

图2 功率谱为特征时的分类结果Fig.2 classification results with characteristic power spectrum

对正常儿童组与ASD 儿童组,将4 种熵值5 个脑区为特征集下进行统计分析,结果如表2所示。其中,第1 列为4 种不同熵值特征,第2 列为所划分的5 个脑区,第3、4 列分别为ASD 儿童组和正常儿童组EEG 信号熵值在5 个脑区的均值。结果显示,ASD 儿童与正常儿童在近似熵、小波熵和样本熵上均有显著性差异,且小波熵在顶叶、右颞叶和枕叶上均有显著性差异。

表2 熵的统计结果Tab.2 Statistical results of entropy

以熵值(4 种熵值、5 个脑区,共计20 个特征)为分类特征时,两者的分类结果如图3所示。可以看出,在选取前11 个特征时,分类ACC 达到最高为64%,其中灵敏度为68.25%、特异性为65.25%、F1分数69.19%,此时AUC 为0.78。将全部特征作为分类器的输入端,相比只输入具有显著差异的特征有更高的分类准确率,有差异的特征包含EEG 信息较少,且存在假阳性;而全部特征能够包含更多的信息,并且经过mRMR 特征选择能够筛选出更大相关性的特征。

图3 熵值情况下分类结果Fig.3 Classification results using entropy features entropy

表3显示ASD 组和正常组在双谱相干性的统计结果,其中分别给出了ASD 和正常组在各频段间耦合的结果,包括delta-theta、delta-alpha、delta-beta、theta-alpha、theta-beta 和alpha-beta 其6 个耦合结果。可以看出theta-alpha、theta-beta 和alpha-beta 均有统计性差异(P<0.05)。表4显示ASD 组与正常组在相干性方面的统计差异,可以看出两组在4 个频段的相干性均值,ASD 组在delta、theta 和alpha 频段均低于正常组,在theta 和alpha 频段均有显著性差异(P<0.05)。

表3 双谱相干性统计结果Tab.3 Statistical results of bicoherence

表4 相干性统计结果Tab.4 Statistics results of coherence

2.2 多特征融合统计分析及分类结果

从以上分析可以看出,对单一特征进行分析时,分类结果并不理想,因此考虑将多特征EEG 信息进行融合分析。将功率谱、熵、双谱相干性以及相干性特征进行融合,把融合后的全部特征集利用mRMR 算法计算所有特征之间以及特征与分类类别之间的分布及互信息,利用互信息结果对所有特征进行排序,再通过支持向量机进行分类。另外,计算并分析了将全部融合特征作为分类器输入的情况相比只输入具有显著差异的特征,有更高的分类准确率;经过mRMR 特征选择筛选出的特征,不仅包含具有差异性的特征,还包含与类别有更大相关性的特征,进而得到了较高的分类准确率。在SVM 分类器10 折交叉验证结果中,准确率为93.45%±0.79%,灵敏度为91.73%±0.42%,特异性为94.01%±0.36%,F1 分数为92.54%±0.31%,标准差维持在1%以内,表现出良好的稳定性。图4所示为多特征融合的分类结果,可以看出:当分类精确达到最高93.45%±0.79%时,mRMR 算法对融合特征选择到前25 个时,AUC 达到0.96。

图4 多特征融合分类结果Fig.4 Classification results of multi-feature fusion

3 讨论

致力研究区分正常儿童和ASD 儿童EEG 信号的差异,并进行结果分类比较。EEG 是一种常用的神经成像的方法,具有较高的时间分辨率,使用方便并且包含信息丰富。

在功率谱方面,Chan 等[17]在静息态下采集ASD 和正常儿童的EEG 并提取功率谱,分析发现ASD 儿童delta 频段的绝对功率降低,而alpha 频段有显著升高的趋势。功率谱的研究结果显示,ASD儿童相比正常儿童在4 个频段均有显著差异,ASD儿童的功率谱在delta 频段能量下降、alpha 频段能量上升,这和之前的研究结果一致,显著性体现在枕叶和颞叶脑区。2008年,Kulisek 等[37]利用粗粒熵算法研究ASD 儿童,发现ASD 组儿童的熵值低于正常组儿童的熵值。提取ASD 和正常儿童EEG在近似熵、样本熵、排列熵和小波熵等4 种信息熵时,探讨ASD 和正常儿童EEG 的复杂度,结果表明ASD 儿童的复杂度明显降低,且在利用小波熵计算时表现更为明显。早在1997年,Bullock 等[18]采用双谱相干性研究睡眠状态下的EEG,结果表明在双谱相干性方面具有显著性差异。对ASD 和正常儿童EEG 提取双谱相干性特征,结果表明theta、alpha频段和beta 频段间的耦合表现出差异性,alpha 频段与beta 频段间的耦合具有显著性差异。在这些频段间的耦合中,ASD 儿童均高于正常儿童。EEG间的差异性并不只表现于单通道间,又对EEG 基于双通道的相干性特征进行分析研究,表明ASD 儿童EEG 的双谱相干性普遍低于正常儿童的相应值,且在theta 和alpha 频段表现出差异。

在对ASD 儿童与正常儿童的分类识别问题中,2014年,Eldridge 等[21]对ASD 儿童和正常儿童EEG提取功率谱特征,并采用贝叶斯方法进行分类,准确率为69%。赵杰等[38]采用信息熵对ASD 儿童和正常儿童进行分类识别,当采用单一信息熵时分类准确率为71.93%,而在采用多种信息熵进行分类时分类准确率达到83.04%。基于单一功率谱、熵值对ASD 和正常儿童分类时,准确率在64%~72%之间,而融合EEG 多特征时分类准确率达到91.5%。实验结果表明,相比单一类特征进行分类分析,融合多特征方法对于区分ASD 儿童与正常儿童是有效的,能够为临床诊断提供客观的生物学指标和依据。

同时存在一些问题需要改进,主要包括:

1)样本数量有限,ASD 儿童受个体差异性影响较大,且在采集过程中出现儿童不配合的情况,采集到的EEG 噪声较大,导致最终的有效数据较少。接下来需要不断扩大样本量,以得到更为准确的结果。

2)主要针对3~6 周岁的儿童进行分析,年龄跨度较大。由于不同年龄段的个体发展存在较大差异[15],可能会影响本研究的结果和结论。在未来研究中,需要对年龄段进行精细化分。有研究表明[39]儿童在3 岁之前已经出现了某些异常的神经活动,因此在后续研究中加入更小年龄段的被试,对于儿童的早期精确诊断和干预也非常重要。

4 结论

在本研究中,从单通道到多通道EEG 特征、从简单到复杂多方面,分析显示出ASD 儿童与正常儿童EEG 信号间的差异,采用功率谱、熵、双谱相干性和相干性等方法,寻找ASD 儿童神经发育异常的电生理特征,并利用机器学习算法从单一特征到融合多特征分析构建分类器,提高分类器的性能和分类准确率。结果显示,通过EEG 多特征融合,能够提高分类精度,为临床诊断评估ASD 儿童提供可靠依据和参考。

猜你喜欢
双谱相干性频段
关联退极化量子信道中qutrit-qutrit系统的量子相干性演化*
5G高新视频的双频段协同传输
gPhone重力仪的面波频段响应实测研究
双谱图在语音分析中的应用
联合干涉相位和相干性幅度的极化干涉SAR最优相干性估计
乒乓球运动员在经验相关图形识别中的脑电相干性分析
基于双谱特征融合的通信辐射源识别算法
推挤的5GHz频段
基于小波包域双谱的风力机振动信号监测方法研究
基于倒双谱的地震子波估计方法