中药指纹图谱数据分析方法研究进展

2017-05-30 06:04展浩言方荣陆涛
安徽农业科学 2017年16期
关键词:指纹图谱机器学习

展浩 言方荣 陆涛

摘要系统阐述了中药指纹图谱数据分析处理方法(包括指纹图谱数据前期处理方法、相似度评价方法以及机器学习方法)在指纹图谱数据处理中的应用,以期为中药指纹图谱数据分析提供参考。

关键词指纹图谱;机器学习;数据分析方法

中图分类号S126文献标识码

A文章编号0517-6611(2017)16-0203-03

Research Progress on Data Analysis Methods in Traditional Chinese Medicine Fingerprints

ZHAN Hao,YAN Fangrong,LU Tao*(School of Sciences,China Pharmaceutical University,Nanjing,Jiangsu 211198)

AbstractThe application of the methods of data analysis and processing of traditional Chinese medicine fingerprints(including the fingerprints data pretreatment methods,similarity evaluation method as well as machine learning methods) in the data processing of fingerprints were systematically expounded,so as to provide references for data analysis of traditional Chinese medicine fingerprints.

Key wordsFingerprints; Machine learning; Data analysis methods

基金项目国家社会科学基金一般项目(16BTJ021)。

作者简介展浩(1993—),男,安徽宿州人,硕士研究生,研究方向:生物统计与计算药学。*通讯作者,教授,博士,博士生导师,从事药物化学和药学信息学研究。

收稿日期2017-04-12

近年来,中药及中药制剂在世界范围内的需求增长迅速,因此中药质量的评价和控制显得尤为重要。然而,由于中药具有组分复杂、靶点较多、整体协同作用等特点,使得中药质量控制与评价成为制约中药发展的一大难题。传统的针对中药单一化学成分或其中几个成分的分析已无法准确对中药质量进行整体评价[1]。

随着生命科学以及分析化学技术的进步和发展,中药质量控制领域的研究手段越来越丰富。指纹图谱技术在中药优劣评价、真伪鉴别、活性成分识别以及一致性和稳定性评价方面已成为国际公认有效方法。中药指纹图谱是指利用质量分析及信息采集等手段对中药材或中成药进行处理而得到的能够显示其性质的色谱、光谱等数据。常用的分析手段有红外光谱法(IR)、紫外光谱法(UV)、核磁共振波谱法(NMR)、薄层色谱法(TLC)、高效液相色谱法(HPLC)、气相色谱法(GC)等[2]。然而,中药指纹图谱技术的出现随之而来的是大量的化学测量数据,如何通过有效的数据分析手段对指纹图谱数据进行分析,进而挖掘出其中有价值信息已成为中药指纹图谱应用于中药质量控制中所面临的新难题。在中药指纹图谱数据处理过程中,由于图谱十分复杂,常见的情况是将指纹图谱数据处理与计算机图谱解析、统计学、机器学习等技术相结合[3]。笔者对现有的指纹图谱数据分析处理方法进行了系统阐述,旨在为研究者在相关领域的研究提供参考,并選择适合的研究工具。

1中药指纹图谱前期校正方法

指纹图谱相关研究通常可分为2个部分:指纹图谱生成以及指纹图谱的分析计算。在指纹图谱的生成过程中,由于试验条件的限制以及仪器的差别,经常导致所获得的指纹图谱都会有一定程度的噪声、基线漂移、保留时间漂移等现象,因此指纹图谱在进行分析计算前,必须对所获得的指纹图谱数据进行前期处理,从而解决上述问题,使后续的分析计算更加准确有效[4]。

1.1基于小波变换的基线校正和噪声去除

小波变换(Wavelet transform ,WT)是一种基于时频域的信号处理方法,该方法具有时频局部性良好、选基灵活等优点[5]。在中药指纹图谱数据处理过程中,通常使用离散小波变换方法, Mallat快速离散小波变换算法如下:

f(t)=kzcJ,kφJ,k(t)+Jj=1

kzdj,kΨJ,k(t) (1)

式中,cJ,k表示f(t)在第J+1个频段上第k个时段上的分量,也就是图谱的低频部分,dj,k表示f(t)在第j个频段上的第k个时段的分量(1≤j≤J),代表图谱的高频部分。

图谱数据的信号噪声一般集中于高频段的小波系数中,基线漂移一般表现在低频信号中,所以在对图谱基线进行校正时一般是对低频段处理,信号噪声的去除一般是针对高频段的处理,二者之间相互独立。通过将图谱数据在低频段的小波系数置为0,可解决基线漂移问题,将较高频段的小波系数进行阈值处理可实现图谱噪声去除[6]。

在处理指纹图谱噪声和基线漂移问题的研究中,邵利民等[7]使用Haar小波对乳酸-稀土络合物图谱进行处理,成功去除了其信号中的噪声,获得了光滑的色谱曲线。袁海龙等[8]运用Daubechies8小波方法处理茵陈注射液HPLC数据,成功解决了色谱的基线漂移,得到了平直的基线。

1.2保留时间漂移校正

从理论上讲,多种样本经同一色谱仪分析,在得到的色谱图中相同物质应该有相同的保留时间。然而,因为试验条件等因素的限制,不同样本使用同一色谱仪所测得的色谱图中,相同物质的保留时间往往存在漂移现象。目前已提出的保留时间漂移校正算法主要包括相关最优化调整(Correlation optimized warping,COW)[9]、基于遗传算法的校準方法(Peak alignment by a genetic algorithm,PAGA)[10]、动态时间调整(Dynamic time warping)[11]、参数化时间调整(Parametric time warping,PTW)[12]、半参数化时间调整(Semiparametric time warping,STW)[13]、模糊规整(Fuzzy alignment,FW)[14]等,其中相关最优化调整、动态时间调整以及基于遗传算法的校准方法在指纹图谱保留时间漂移校正方面的应用尤为广泛。LucioGutiérrez等[15]在对38批特纳草HPLC指纹图谱数据使用偏最小二乘回归模型建模之前,采用相关最优化调整方法对其进行保留时间漂移校正,偏峰问题明显得到解决。

2基于指纹图谱数据的中药相似度计算方法

相似度是指中药指纹图谱之间的相似程度,已被认定成为评价中药指纹图谱的重要指标。常用的中药相似度计算方法包括以下4种:夹角余弦法(Vector cosine)、相关系数法(Correlation coefficient)、峰重叠率法(Nei系数法)以及峰重叠率与共有峰强度结合法(改进Nei系数法)。

2.1夹角余弦法

中药指纹图谱数据是由各保留时间对应的峰面积或峰高的数值组成的一个n维向量X=[x1,x2,…,xn],其中n为谱峰数或原始数据点数。评价2个中药的相似度,就可以通过计算2个n维向量X1和X2的相似度来实现。在评价向量相似度时,一般使用向量间夹角余弦值来表示,其夹角余弦值越趋近于1意味着向量之间相似度越高,反之相似度越低。向量X1和X2之间夹角余弦值的计算公式如下:

r(X1,X2)=cos(X1X2)=X′1X2(X′1X2)(X′2X1) (2)

王龙星等[16]通過计算11个不同产地及炮制方法的吴茱萸样品指纹图谱之间的夹角余弦值来评价样品之间的相似度,结果显示该方法可反映样品之间的相似性。

2.2相关系数法

相关系数法是使用向量之间的相关系数来反映向量之间相似程度的方法,其本质上是对夹角余弦法的中心化变换,其计算公式如下:

r(X1,X2)=(X1-1)′(X2-2)(X1-1)′(X1-1)(X2-2)′(X2-2) (3)

聂磊等[17]使用相关系数法等4种相似度评价算法对痛必定粉针指纹图谱进行相似度评价,结果显示相关系数法对大峰缺失表现得比较敏感,而对小峰缺失问题不够敏感。

2.3Nei系数法与改进Nei系数法

Nei系数法原是针对个体间遗传相似性评价所提出的方法,现在应用于中药指纹图谱数据中,用于评价中药之间的相似度,其计算公式如下:

r=2n0n1+n2×100%(4)

式中,n0表示两待分析图谱之间的共有峰的数量,n1和n2表示两待分析图谱的所有谱峰数。张聪等[18]对11批红参甲醇提取液的指纹图谱使用Nei系数法计算其重叠率,通过对八强峰的分析比较,结果发现国产红参与高丽红参品质相近。但是,Nei系数法只是考虑到图谱共有峰的数量问题,并未考虑共有峰其峰强度的影响。孟庆华等[19]在峰重叠率的基础上引入峰强度的信息提出了改进Nei系数法,其公式如下:

r=2n0n1+n2-2n1+n2h10-h20

h10+h20(5)

式中,h10、h20分别为2个待分析图谱之间共有峰的峰强度。

3机器学习方法在指纹图谱数据中的应用

机器学习(Machine learning,ML)是一类可以从数据中自动学习获得规律,并且利用学习到的规律对未知数据进行预测的算法。根据样本数据有无标记,机器学习算法可分为无监督学习和监督学习2大类。根据输出变量是否为连续变量,监督学习方法又可分为分类算法和回归算法。

3.1无监督学习

无监督学习方法是一类用于无标记数据的机器学习方法,主要包括主成分分析法(Principal component analysis,PCA)和聚类分析(Cluster analysis,CA)等。

3.1.1主成分分析法。

PCA可用于提取主成分,常用于高维数据的降维、变量的选择以及去除变量间的相关性。由于中药指纹图谱数据往往为高维数据,因此使用PCA对其降维十分必要。在数据处理中PCA常与其他分类或回归方法联用,将其提取的主成分作为其他模型的输入变量。冯慧萍等[20]对产自浙江丽水的15个厚朴样品建立了HPLC-DAD指纹图谱,利用PCA对其共有峰的相对峰面积进行分析,并将前4个主成分的得分作为人工神经网络的输入变量,厚朴样品清除活性氧指标作为输出变量,建立厚朴指纹图谱与其清除活性氧能力之间的神经网络。结果表明,使用主成分分析+神经网络技术构建的网络可准确预测厚朴清除活性氧能力的IC50值。

3.1.2聚类分析。

聚类分析又称群集分析,它是根据“物以类聚”的思想把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,使在同一个子集中的样本都具有一些相似的属性。该方法通过对中药指纹图谱数据处理,可解决中药品种的分类,真伪鉴别、质量评价、新旧工艺或不同炮制方法比较等问题。田兰等[21]用各色谱峰对内标峰的相对保留时间定性获得45个色谱峰,计算出各色谱峰相对于内标物的含量得到45个特征,并对所得特征进行标准化后使用聚类分析等方法,发现白术优质品种主要集中在浙江、湖南、四川一带。

3.2监督学习

3.2.1分类算法。分类算法适用于样本标记为分类变量的数据,常用的分类算法主要包括K近邻法(knearest neighbor,kNN)、支持向量机(Support vector machine,SVM)、人工神经网络(Artificial neural network,ANN)等,其在中药指纹图谱数据中一般用于解決中药材的分类及归属问题。

3.2.1.1K近邻法。

K近邻法是由Cover与Hart于1967年提出的一种分类方法,其算法思想是若1个样本的k个与其最相邻的样本大多属于某一个类别,则该样本也属于这个类别,并且具有该类别样本的某些特性[22]。在中药指纹图谱数据处理中,首先按照指纹图谱特征参数相似度最相似的原则,取未知样本的k个最近邻样本,然后所取的k个近邻样本大多数的归类即为该未知样本的类别。庄花等[23]使用K近邻法对63个由安徽、山东、河北、贵州4省所生产的合欢花样品的指纹图谱数据及来源数据建立分类模型,实现了南北方样品正确分类。

3.2.1.2支持向量機。

支持向量机是由Corinna Cortes和Vapnik等于1995年首先提出的解决小样本、非线性及高维数据等问题的机器学习算法。当数据线性可分时,该方法通过样本数据训练学习线性支持向量機,找出间隔最大的的“超平面”,将样本分类;当数据线性不可分时,通过使用核函数学习非线性支持向量机,相当于隐式的在高维特征空间中学习线性支持向量机实现样本分类。王晓燕等[24]对10种寒性中药和10种热性中药提取和精制多糖,使用三氟乙酸将得到的多糖水解成单糖,并测定了多糖的单糖组成HPLC指纹图谱;然后利用支持向量机对指纹图谱数据及药性数据建立分类模型,实现了对20种中药寒、热药性的准确分类,分类正确率达100%。

3.2.1.3人工神经网络。

人工神经网络是一种抽象人脑神经的一类机器学习算法,它是由大量的节点之间相互联接构成。其中,每个节点代表1个激励函数(Activation function),每2个节点间的连接都代表一个对于通过该连接信号的权重。应用最广泛的神经网络为BP神经网络,其在结构上分为3层:输入层、隐含层和输出层。李芳等[25]使用BP神经网络对采集的12个主产县90批黄芪药材的FTIR指纹图谱建立了产地的鉴别及预测模型,模型成功地对测试集中的黄芪药材产地进行了预测,其预测准确率达83%。

3.2.2回归算法。

回归算法适用于样本标记为连续变量的数据,在处理高维数据时,常用算法为偏最小二乘回归(Partial least squares regression,PLSR)。在处理中药指纹图谱数据时,一般结合相应的药效数据,根据定量组效关系(Quantitative composition activity relationship,QCAR)来发现中药材中相应的活性成分信息[26]。

偏最小二乘回归是一种将主成分分析、回归分析及典型相关分析有机结合起来的一种多元线性回归方法。该方法较好地解决样本个数少于变量个数时的建模问题,同时也克服了变量间多重共线性问题,因此非常适用于对中药指纹图谱数据进行回归分析。在使用偏最小二乘回归预测中药材活性成分时,首先根据指纹图谱数据与相应药效数据建立回归模型,然后使用显著性检验计算回归系数显著性,显著系数所对应的峰即为潜在的活性成分。Liu等[27]通过偏最小二乘回归对来自29个省份的山香圆叶HPLC指纹图谱数据及其抗氧化活性指标进行分析,构建了偏最小二乘回归模型,通过对回归系数进行jackknife检验,成功预测出山香圆叶中7种抗氧化活性成分。

45卷16期展 浩等中药指纹图谱数据分析方法研究进展

4小结与展望

目前,中药指纹图谱发展尚处于初级阶段,数据量少、数据处理过程中分析方法的不合理应用制约着其在中药质量控制等相关领域的发展。随着分析化学手段的不断丰富,计算机科学与数据科学的不断发展,将会产生更多的指纹图谱数据以及更加精确的指纹图谱数据分析方法。从长远来看,这种趋势不仅将加速中药指纹图谱数据在中药质量控制方面的应用,而且会促进其在中药药效、体内代谢变化以及临床用药疗效等研究领域的应用与发展。

参考文献

[1]

朱晓勤,尹莲.化学模式识别在中药分类和质量评价中的应用[J].中华中医药学刊,2007,25(10):2111-2114.

[2] 袁琴琴.中药材指纹图谱研究进展[J].安徽农业科学,2017,45(4):132-134.

[3] 屈景辉,廖琪梅,张星.指纹图谱数据库建立技术[J].医学信息,2006,19(2):190-191.

[4] 张锋.中药指纹图谱数据预处理及相似度计算评价软件的开发[D].广州:华南理工大学,2006.

[5] 朱来东,廉小亲,江远志.小波变换在信号降噪中的应用及MATLAB实现[J].北京工商大学学报(自然科学版),2009,27(2):46-49.

[6] 方勇华,孔超,兰天鸽,等.应用小波变换实现光谱的噪声去除和基线校正[J].光学精密工程,2006,14(6):1088-1092.

[7] 邵利民,唐兵,邵学广,等.小波变换用于高效液相色谱的噪声滤除[J].分析化学,1997,25(1):15-18.

[8] 袁海龙,雷长海,肖小河,等.小波变换校正茵陈注射液HPLC指纹图谱基线的研究[J].中国新医药,2003,2(9):13-14.

[9] NIELSEN N P V,CARSTENSEN J M,SMEDSGAARD J.Aligning of single and multiple wavelength chromatographic profiles for chemometric data analysis using correlation optimised warping[J].Journal of chromatography A,1998,805(1/2):17-35.

[10] FORSHED J,SCHUPPEKOISTINEN I,JACOBSSON S P.Peak alignment of NMR signals by means of a genetic algorithm[J].Analytica chimica acta,2003,487(2):189-199.

[11] KASSIDAS A,MACGREGOR J F,TAYLOR P A.Synchronization of batch trajectories using dynamic time warping[J].AIChE Journal,1998,44(4):864-875.

[12] EILERS P H C.Parametric time warping[J].Analytical chemistry,2004,76(2):404-411.

[13] VAN NEDERKASSEL A M,XU C J,LANCELIN P,et al.Chemometric treatment of vanillin fingerprint chromatograms.Effect of different signal alignments on principal component analysis plots[J].Journal of chromatography A,2006,1120(1/2):291-298.

[14] WALCZAK B,WU W.Fuzzy warping of chromatograms[J].Chemometrics & intelligent laboratory systems,2005,77(1/2):173-180.

[15] LUCIOGUTIRREZ J R,GARZAJUREZ A,COELLO J,et al.Multiwavelength highperformance liquid chromatographic fingerprints and chemometrics to predict the antioxidant activity of Turnera diffusa,as part of its quality control[J].Journal of chromatography A,2012,1235(8):68-76.

[16] 王龍星,肖紅斌,梁鑫淼,等.一种评价中药色谱指纹谱相似性的新方法:向量夹角法[J].药学学报,2002,37(9):713-717.

[17] 聂磊,曹进,罗国安,等.中药指纹图谱相似度评价方法的比较[J].中成药,2005,27(3):249-252.

[18] 张聪,王智华,金德庄.中国红参与高丽红参的指纹谱(HPLC-FPS)比较研究[J].中成药,2001,23(3):160-163.

[19] 孟庆华, 刘永锁, 王健松,等. 色谱指纹图谱相似度的新算法及其应用[J]. 中成药, 2003, 25(1):4-8.

[20] 冯慧萍, 杨中林, 尹小英,等. 应用PCA-ANN技术研究中药厚朴色谱指纹谱与抗氧化活性的关系[J]. 中国天然药物, 2005, 3(6):377-381.

[21] 田兰,毕开顺,孙稳健,等.白术的化学模式识别[J].中国中药杂志,2003,28(2):143-146.

[22] COVER T,HART P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.

[23] 庄花,倪永年.不同产地的合欢花药材高效液相指纹图谱[J].南昌大学学报(理科版),2013,37(1):59-63.

[24] 王晓燕,李峰.20种中药多糖水解成分HPLC指纹图谱与寒热药性关系的SVM分析研究[J].山东中医药大学学报,2012,36(5):439-442.

[25] 李芳,李钦,顾志荣,等.基于FTIR的黄芪药材产地鉴别及预测研究[J].天然产物研究与开发,2016(11):1712-1717.

[26] 周立东.建议在天然药物研究中建立“定量组效关系”(QCAR)概念[J].世界科学技术:中医药现代化,1999(2):33-34.

[27] LIU X,ZHAN H,QIAO Z,et al.Chemometric analysis based on HPLC multiwavelength fingerprints for prediction of antioxidant components in Turpiniae Folium[J].Chemometrics & intelligent laboratory systems,2016,152:54-61.

猜你喜欢
指纹图谱机器学习
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究