基于阿尔茨海默病的基因表达数据改进的一维聚类方法

2015-12-16 07:44付如意彭志红胡本琼庞朝阳
关键词:阿尔茨海默曲率投影

黄 静, 付如意, 彭志红, 胡本琼, 庞朝阳

(1.四川师范大学数学与软件科学学院,四川成都610066;2.解放军四五二医院肛肠科,四川成都610021;3.成都理工大学管理科学学院,四川成都610059;4.四川师范大学计算机科学学院,四川成都610066;5.四川师范大学可视化计算与虚拟现实四川省重点实验室,四川成都610066)

阿尔茨海默症,即老年痴呆症,是一类神经退行性疾病,已成为继心血管疾病、恶性肿瘤、脑卒中之后老年人的第4大“健康杀手”[1].目前,世界上并没有治疗老年痴呆症的有效办法.随着基因芯片技术[2-5]的迅速发展,2003年与阿尔茨海默病相关的基因表达数据能够在公共生物信息数据库中获取[6].2009 年 W.Kong 等[7]将独立主成分分析(ICA)方法应用于阿尔茨海默病的候选基因的识别中.2010年庞朝阳等将聚类分析方法应用到阿尔茨海默病的致病基因的识别中[8].为了高效快捷地挖掘基因表达数据,简捷的一维聚类方法在一些情形下能够被应用.但是它需要事先主观的确定出分类数目K.因此,本文基于拟合的思想在一维聚类分析方法的基础上提出了将曲率最大点处的距离作为分类判据,从而实现无监督的一维聚类分析.

1 预备知识

1.1 主成分分析方法 主成分分析(PCA)是一种对高维数据进行分析、简化的技术.这种方法本质上是找出高维数据中最“主要”的元素和结构,去除噪音和冗余,将原有数据降维,把多指标转化为少数几个综合指标,揭示隐藏在复杂数据背后的简单结构[1].

1.2 光滑曲线的曲率 曲率[1]是平面曲线弯曲程度的直观描述.现给出光滑曲线的曲率的数学语言描述.假设光滑曲线C为y=f(x),则该曲线上任一点P的曲率κ可表示为一个指向该圆圆心的大小等于密切圆半径的倒数的向量,如图1所示,即

1.3 最小二乘估计 最小二乘法(又称最小平方法)是一种数学优化技术.目标是最小化误差的平方和寻找数据的最佳逼近函数.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.通常,最小二乘法用于曲线拟合[1,9-10].

2 数据的来源与特征

本文从美国国家生物技术信息中心(NCBI)网站获取到了关于阿尔茨海默病患者的基因综合表达数据[6].该数据是从正常、轻度、中度以及重度4种程度的患者的海马体组织中利用基因芯片技术提取出的人体的22 283个基因的表达水平,其数据格式如表1,其中数值已经过对数化平滑处理.

表1 基因表达水平数据表(以正常组为例)Table 1 Organization of gene expression data(as an example of the control group)

由上述数据可以得出两点信息:一是表1中的每列数据对应于一个给定的实验条件(或人体组织);二是由于每一行对应于同一个基因的表达水平,则列数据之间必然存在相关性.于是可以考察阿尔茨海默病同一程度的任意2组患者间的基因表达水平分布情况.

接下来以表1的数据为例进行具体说明.

第一步,标准化处理表1的各列数据Xi=[xi1,xi2,…,xi22283](i=1,2,…,9).则

其中,

第二步,由此得到任意两列形成的基因表达水平的二维分布数据列,如图2 所示.令[Yi,Yj](i,j=1,2,…,9)且 i≠j.

通过观察形如图2所示的4种程度的基因表达水平的二维分布图,可以发现所有的点集中在一条直线的周围.这表明,各基因在不同条件下呈线性相关性.从而通过主成分分析方法将数据进行降维处理,得到一维投影点数据,记为集合

进一步地,得到了在一维投影子空间中相邻一维投影点间的距离,记为集合

Q={di=pi+1-pi|i=1,2,…,22 283},并做出统计直方图,其中横轴表示相邻投影点间的距离,纵轴表示距离所对应的频数,如图3所示.

由图3得知相邻一维投影点间的距离主要都分布在0.05以内,呈现出聚类特征.基于此,考虑对一维投影点进行聚类处理.

3 改进的一维聚类方法

目前通用的一维聚类方法需要事先确定出类别数目K的大致范围.在数据分析的实际处理过程中,这往往存在着很大的主观因素,甚至分析者根本无法合理地确定分类数目.通过处理阿尔茨海默病的基因数据,本文提出一种改进的无监督一维聚类方法:将相邻一维投影点间的距离统计数目的趋势线的曲率最大点作为分类判据δ进行无监督的一维数据聚类处理.接下来本文将具体描述该方法的分类判据的确定过程.

首先给出分类判据δ的具体意义.对于任意给定的2个类 C1和 C2,如果 p1∈C1且 p2∈C2,则‖p1-p2‖≥δ.如果 p1,p2∈Ci(i=1,2),则‖p1-p2‖ <δ.

从而进一步定义下面2个概念:

定义1 最小类间距离,即2个类簇间的距离

定义2 最大类内距离,即同一个类内,一个点和它的相邻点的距离

Dmax=sup{‖pi-pj‖ |pi,j∈ Ck,Ck⊂ P}.因此,显然有 Dmax≤δ≤Gmin,即这样的“δ”作为聚类投影点的分类判据.其次,通过最小二乘估计方法得到的光滑曲线必然存在一点A,使得在A点左侧的区域属于类内距离集合,并且在A点右侧的区域属于类间距离集合.该曲线的曲率最大点处的距离介于类内距离与类间距离之间,即满足分类判据的条件.因此曲率最大点 处的距离将作为分类判据“δ”的取值是合理的.

4 实验与结果

结合阿尔茨海默病基因数据,将具体给出分类判据δ的计算过程.对集合Q进行统计计数得到如图3所示的直方图.很清楚地看到相邻投影点间的距离的频数随着距离的增大而逐渐递减并呈现出指数曲线的趋势.于是通过最小二乘估计方法拟合得到指数曲线F(x)=1.52e1121x(其拟合优度R=0.996),如图4所示.

根据光滑曲线的曲率表示形式,曲线的曲率

由极值的必要条件[11]有 G'(δ)=0,解得 δ=0.006 9.此外,进一步作出指数曲线的曲率的图像以验证结果是正确的,如图5所示.

5 结论

目前,聚类分析统计方法[12-16]已经被应用到阿尔茨海默病的致病基因的识别过程中.通过分析阿尔茨海默病的基因表达数据,本文提出了将曲率最大点作为分类判据的一种无监督的一维聚类方法.并且应用阿尔茨海默病的基因表达数据计算出了其分类判据δ.

[1]维基媒体基金会.维基百科[EB/OL].http://zh.wikipedia.org/,2014.

[2]Yang J H.基因表达水平估计策略和方法[EB/OL].http://www.plob.org/2012/10/01/3887.html,2014.

[3]Zhao Y B.RPKM 简介[EB/OL].http://www.plob.org/2011/10/24/294.html,2014.

[4]李瑶.基因芯片技术:解码生命[M].北京:化学工业出版社,2004:77-156.

[5]朱明华.组织微阵列及其在肿瘤病理研究中的应用[J].中华病理学杂志,2002,31(1):72-74.

[6]Blalock E M,Geddes J W,Chen K C,et al.Incipient Alzheimer's disease:Microarray correlation analyses reveal major tran-scriptional and tumor suppressor responses[J].PNAS,2004,101:2173-2178.

[7]Kong W,Mou X Y,Yang B.Study DNA microarray gene expression data of Alzheimer's disease by independent component analysis[C]//Bioinformatics,Systems Biology and Intelligent Computing.Inter Joint Conf IEEE,2009:44-47.

[8]Pang C Y,Hu W,Hu B Q,et al.A special local clustering algorithm for identifying the genes associated with Alzheimer's disease[J].IEEE Trans Nanobioscience,2010,9(1):44-50.

[9]马昌凤,林伟川.现代数值计算方法[M].北京:科学出版社,2008:179-193.

[10]茆诗松,王静龙,濮晓龙.高等数理统计[M].2版.北京:高等教育出版社,2006:128-135.

[11]华东师范大学数学系.数学分析上册[M].3版.北京:高等教育出版社,2001:163-165.

[12][美]Han J W,Kamber M,Pei J.数据挖掘:概念与技术[M].3版.范明,孟小峰,译.北京:机械工业出版社,2012:327-543.

[13]胡本琼,张先迪,庞朝阳.利用图论设计图像压缩中的向量量化聚类算法[J].四川师范大学学报:自然科学版,2005,28(3):376-378.

[14]王开军,李晓.基于有效性指标的聚类算法选择[J].四川师范大学学报:自然科学版,2011,34(6):915-918.

[15]庄刘,曾艳.基于模糊C-均值聚类的最优量化器设计[J].四川师范大学学报:自然科学版,2010,33(4):559-562.

[16]宋丽红.K-均值聚类的Matlab仿真设计[J].实验技术与管理,2010,27(10):101-103.

猜你喜欢
阿尔茨海默曲率投影
大曲率沉管安装关键技术研究
阿尔茨海默病的预防(下)
一类双曲平均曲率流的对称与整体解
阿尔茨海默病的预防(上)
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
半正迷向曲率的四维Shrinking Gradient Ricci Solitons
找投影
找投影
睡眠不当会增加阿尔茨海默风险