基于Copula函数的中药有效成分群谱效分析*

2013-09-07 09:02李智慧杨中林陶禹希言方荣
中国卫生统计 2013年5期
关键词:尾部指纹图谱

李智慧 陆 涛,3 杨中林 黄 园 陶禹希 言方荣△

基于Copula函数的中药有效成分群谱效分析*

李智慧1,2陆 涛1,2,3杨中林1,4黄 园1,2陶禹希1,2言方荣1,2△

目的 通过构建适合的二元Copula函数模型,对中药有效成分群指纹图谱与药物活性进行分析,探索简单易行的中药质量控制方法。方法 本文首先分别模拟分析二元Copula函数和二元正态分布对中药有效成分群谱效关系的拟合情况,然后选取合适的Copula函数模型分析18批次怀牛膝药材指纹图谱与成骨细胞增殖活性的相关关系,最后利用选择的Copula函数模型对中药怀牛膝进行质量判别。结果 五种常见的Copula函数中,二元单参数Gumbel Copula函数对所研究的中药怀牛膝有效成分群谱效关系有较好的拟合效果,其相关系数τ=0.5547,ρs=0.7422,λup=0.6384,λlo=0。结果表明此函数上尾部呈现出较强的相关性而下尾部渐近独立,即质量好的中药其细胞增值活性也较强,质量差的对细胞药效影响则不显著。结论 Copula函数能够用于分析中药有效成分群谱效关系,尤其对尾部相关性的描述为质量辨别提供了新方法,为中药谱效关系研究提出新思路。

Copula 中药 有效成分群 谱效分析 质量控制

1.中国药科大学天然药物活性物质与功能国家重点实验室(210009)

2.中国药科大学理学院数学教研室

3.中国药科大学分子设计与药物发现实验室

4.中国药科大学中药学院

△通信作者::言方荣,Email:f.r.yan@163.com

随着中药现代化的发展,探索符合中医药特点的中药质量分析与评价技术,是推进中药现代化和国际化发展的关键任务之一。由于中药是多个基本单元组成的系统,其临床疗效不是各组成部分疗效简单的线性加和〔1〕,检测中药一个或几个化学成分含量难以准确评价中药质量优劣,以往的中药质量检测方法实现不了根据“量”控制“质”的目的。寻找与药效相关的成分群,建立反映中药内在质量的药效指纹图谱,通过中药化学指纹图谱来评价中药产品质量已成为中药质量分析领域的前沿研究方向〔2〕。中药化学指纹图谱是能够标识药物内多种化学成分特性的多维多息谱图,它是对中药物质基础的一种整体表达,能较好地体现中药成分的复杂性和相关性〔3〕。因此可借助其找到与药效相关的药材的特征,进而得到“谱-效”关系。

Copula函数是一类将联合分布函数与他们各自的边缘分布函数连接在一起的函数,也称为连接函数。它可以捕捉变量间非线性、非对称以及尾部相关关系,因此用Copula函数描述中药“谱-效关系”复杂的非线性特点是适宜的。Copula函数模型不仅可以用于研究一般情况下变量之间的相关关系,还可以用于研究极值相关关系〔4〕,所以在中药质量优劣的谱效分析中更为实用和有效。本文借助二元Copula函数建立中药怀牛膝有效成分群指纹图谱与成骨细胞增殖活性之间的谱效关系分析模型并进行怀牛膝质量优劣判别。

Copula函数理论

Copula函数是把随机向量x1,x2,…,xN的联合分布函数F(x1,x2,…,xN)与各自的边缘分布函数FX1(x1),FX2(x2),…,FXN(xN)相连接的连接函数,即函数C(u1,u2,…,uN)使F(x1,x2,…,xN)=C[FX1(x1),FX2(x2),…,FXN(xN)]。

1.二元Copula函数

定义1(Nelsen,2006) 二维 Copula函数是指满足以下性质的函数C(u,v):

(1)C(u,v)的定义域为[0,1]×[0,1];

(2)至少存在一个u0∈[0,1]和一个v0∈[0,1],使得C(u0,v)=0=C(u,v0);对任意 0≤u1≤u2≤1 和0≤v1≤v2≤1 有C(u2,v2)-C(u2,v1)-C(u1,v2)+C(u1,v1)≥0;并且对任意的u,v∈[0,1],满足C(u,1)=u,C(1,v)=v。

根据Sklar定理若二元联合分布函数H(x,y)存在边缘分布F(x)和G(y),则存在一个 Copula函数C(u,v),满足H(x,y)=C[F(x),G(y)]。连续边缘函数确定唯一的Copula函数,当为离散边缘分布函数时有Copula函数使之成立。这不仅提供了在不研究边缘分布的情况下分析变量之间相关结构的途径,同时也为求取联合分布函数提供了方法。

2.基于Copula函数的相关性度量

变量间的相关关系通常用相关系数来度量。目前,有很多种相关系数,如线性相关系数、秩相关系数和尾部相关系数等。线性相关系数能反映变量间的线性关系;秩相关系数善于描述变量一致性;尾部相关系数适用于极值理论下相关性测度。Copula函数是一种更灵活稳健的相关性分析工具,有其自身的特点:如果对变量进行严格单调增变换,由Copula函数导出的相关性度量值不会改变,反映的是严格单调增变换下的相关性,比线性相关系数的适用范围宽泛〔5〕。

定义2(Kendall秩相关系数) 令(x1,y1)和(x2,y2)为独立同分布的随机向量,定义

为Kendall秩相关系数,记为τ。

尾部相关系数是一个广泛用于极值理论的测度,用来表示当一个观测变量的实现值为极值时另一个变量也为极值的概率。

定义3(尾部相关系数) 令X、Y为两个连续的随机变量,具有边缘分布F(x)和G(y),Copula函数C(u,v),分别定义

为上尾相关系数和下尾相关系数。其中u=F(x),v=G(y)〔6〕。

3.常见的二元Copula函数

(1)正态Copula函数

其中,ρ为变量间的线性相关系数;Φ-1为标准正态分布函数的逆函数。

(2)t-Copula函数

其中,ρ为变量间的线性相关系数;k为自由度;tk-1为自由度为k的一元t分布的分布函数的逆函数。

3.阿基米德Copula函数

其中,φ(u)称为阿基米德 Copula函数C(u1,u2,…,uN)的生成元,φ-1(u)是 φ(u)的反函数,在区间[0,∞)上连续并且非增。

阿基米德族Copula函数众多,常用的二元单参数Copula函数有Gumbel Copula、Clayton Copula和Frank Copula(见表1)。

4.常见Copula函数与相关性分析

Gaussian、t和Frank Copula函数具有对称的尾部,其中t-Copula对随机变量之间的尾部相关的变化较为敏感,能更好地捕捉到随机变量之间的对称的尾部相关关系;Gaussian和Frank Copula在分布的尾部两个变量是渐进独立的。Gumbel Copula的密度函数具有非对称性,其密度函数呈“J”字形(图1),即上尾高下尾低,对变量在分布上尾部的变化十分敏感,能够快速捕捉到上尾相关的变化;而对变量在分布下尾部的变化不敏感,难以捕捉到下尾相关的变化。Clayton Copula与Gumbel Copula函数密度函数图相反,其密度分布呈“L”字形,即上尾低下尾高,能反映出变量在下尾部的相关关系而无法描述在上尾部的变化情况。

表1 常用的二元单参数阿基米德Copula函数

模拟分析

目前,中药质量控制中整体系统的观点已被接受,以单一或几个成分来判断药材质量具有一定的局限性,不能体现中药多成分、多靶点的特征〔7〕;因此本文拟以18批中药怀牛膝有效成分群指纹图谱实验数据和成骨细胞增值率为研究对象,借助二元Copula函数得到“谱-效”相关性,并获得药材质量判断的新方法。以往文献常假定中药谱效关系成多元正态分布,然而这样的模型假设不一定适合复杂的中药系统。为检验二元正态函数和Copula函数对怀牛膝的谱效关系的拟合情况,本研究中各产生1000组二元正态随机数和5种满足常见Copula函数形式的随机数模拟分析。将有效成分群指纹图谱值记作X,药效值记作Y,用U和V表示X和Y的边缘分布函数。模拟结果(表2)表明:Gumbel Copula函数关于U和V的数学期望计算结果E(U)Gum=0.4952,E(V)Gum=0.4857比二元正态分布E(U)Gau=0.7902,E(V)Gau=0.7269更接近实验结果E(U)exp=0.4881,E(V)exp=0.5306,并且比其他Copula函数结果更优。

表2 二元正态分布和常见Copula函数的模拟情况

实例分析

1.数据处理

数据来源于文献〔7〕并采用其数据处理方法。将有效成分群指纹图谱正、负系数相关峰峰面积比值记作AR(area rate),成骨细胞增殖活性记作AT。

2.Copula函数模型选择

Copula函数在实际应用中的关键是函数形式的选择,不同Copula函数模型可能导致不同的分析结果,因此选择合适的Copula函数模型十分重要。本文中采用比较相关系数和解析法〔8〕结合的方式选择合适的Copula函数。解析法借助于经验Copula函数,经验分布具有较好的统计性质,为使用方法提供了保证。此外,经验分布还可以减少假设所带来的误差〔9〕。

对于任意Copula函数集合Ck,最优 Copula函数的选择准则是考虑它们与经验Copula函数CN(u,v)之间的平方欧式距离,则有

即Copula函数选择的解析法〔10〕。

本研究在Matlab R2010a中算出AR和AT之间的线性相关系数ρ,Kendall秩相关系数τ,Spearman秩相关系数ρs,并估算出5个常见Copula函数的相关系数值。根据Copula函数选择的解析法,计算出平方欧式距离并参考相关系数值,平方欧氏距离越小相关系数与真实值越接近,则相应的Copula函数模型较为理想,能较好的反应谱效相关关系;反之,则用于描述谱效关系效果不佳。

结果分析

根据样本值估计AR和AT各自分布函数,并进行假设检验,结果表明AR~N(0.8280,0.17772),AT~N(236.7704,113.82032)。相关系数和平方欧式距离计算结果(见表2)表明:Gumbel Copula函数平方欧式距离=0.0351在五种Copula函数计算结果中较小并且Kendall秩相关系数估算值 τGum=0.5547与真实值τ=0.5686最为接近。观察AR和AT的分布函数相关关系图(图2),综合分析以上结果,选取二元单参数Gumbel Copula函数作为AR和AT的联合分布的拟合函数,参数α=2.2455,尾部相关系数λup=0.6384,λlo=0。这表明这18批次中药怀牛膝正负相关峰面积比值较大者对其成骨细胞增值率影响较大,而比值较小的即使发生较大的改变对药效也几乎没有什么影响。所以在进行怀牛膝质量控制的时候要特别注意对AR值较大的药材的选择,因为它们的变化能引起药效较大变化。

图1 Gumbel Copula密度函数(α=2.2455)

图2 AR和AT分布函数关系图

表3 经验Copula函数与常见Copula函数的平方欧式距离

讨 论

本文引入尾部相关性度量指标λup和λlo,得到了谱效关系在尾部的变化趋势,并将其运用于中药怀牛膝质量优劣的判别中。常用的相关系数实际上是线性变换下不变的一种相关性指标,涉及到非线性函数的相关性,会导出错误的结论,而由Copula函数导出的相关性度量可以更准确的描述出变量间的非线性相关关系,因此应用范围更广。

表4 (u,v)和(1-u,1-v)计算及排序结果

表4 (u,v)和(1-u,1-v)计算及排序结果

C(u,v) 序号 C(1-u,1-v) 序号 AR排序 AT排序0.0157 13 0.9571 13 13 13 0.0323 7 0.8901 7 7 7 0.0747 12 0.7359 12 10 12 0.0787 8 0.7321 8 12 8 0.1504 10 0.4062 4 8 6 0.2739 11 0.3894 15 11 5 0.3282 16 0.3889 5 16 15 0.3363 6 0.3737 14 4 4 0.3444 4 0.3679 6 14 14 0.3549 5 0.2880 11 15 9 0.3842 14 0.2667 16 5 11 0.3865 15 0.2432 10 6 16 0.5610 9 0.2371 9 9 3 0.6422 3 0.1815 3 3 10 0.7153 18 0.1358 18 18 18 0.8008 17 0.0668 17 17 17 0.8241 2 0.0544 1 1 2 0.8519 1 0.0350 2 2 1

在本研究中Copula函数模型表现良好,但仍存在以下两个问题有待进一步研究:其一,本文中选择了5种常见的Copula函数对中药有效成分群谱效关系的尾部相关性进行了实证研究,从中选择出最优的Copula作为拟合函数。但是由于Copula函数族的庞大和选择方法的多样性,并没有论证所选择的Copula是符合数据特征的最优形式,采用何种方法选取最优Copula函数模型有待进一步探究。其二,中药的多样性导致不同药材之间的差异显著。一个Copula函数往往只能适用于某一个中药,对其他则不一定合适,因此本文中选择出的函数不能适用于所有中药。

1.秦华珍,刘磊,王晓倩,等.中药剂量与量效关系的思考.四川中医.2011,(6):48-49.

2.李云飞,程翼宇,范骁辉.中药多维谱效关系研究思路探讨.中国天然药物,2010,(3):167-170 .

3.齐方,蓉蓉,薛付忠.中药药性特征标记的PLS统计模式识别模型.中国卫生统计,2011,(6):628-637.

4.韦艳华,张世英.Copula理论及其在金融分析上的应用.北京:清华大学出版社,2008.

5.朱新玲.相关系数与Copula函数相关性比较研究.武汉科技大学学报,2009,32(6):664-668.

6.Nelson RB.An Introduction to Copulas.New York:Springer,1998:214-216.

7.周培培,言方荣,张春凤,等.基于成分群动态变化探索药材质量优劣判断方法初步研究.中医药学报,2012,40(1):63-68.

8.于波,陈希镇,杜江.Copula函数的选择:方法与应用.数理统计与管理,2008,27(6):1027-1033.

9.于波.Copula函数模型的选择.统计与决策,2009(14):153-154.

10.闫宝伟,郭生练,肖义,等.基于两变量联合分布的干旱特征分析.干旱区研究,2007,24(4):538-541.

The Effective Components Analysis in Traditional Chinese Medicine Based on Copula

Li Zhihui,Lu Tao,Yang Zhonglin,et al.Department of Mathematics,China Pharmaceutical University(210009),Nanjing

ObjectiveWe analyze the activity of the effective component group by constructing suitable binary Copula model,and then get a simple and convenient method to control the traditional Chinese medicine quality.Methods First,simulations on Copula models and the binary normal functions are taken respectively to fit the dose-response relationship.Second,Achyranthes bidentata BI.from 18 batches are chosen for study.The correlation analysis between the HPLC fingerprints of samples and proliferation activity of osteoblasts are carried out with suitable bivariate Copula function model.Results Gumbel Copula function is the most suitable model forAchyranthes bidentata BI.spectrum-response relationship.It has the correlation coefficients τ=0.5547,ρs=0.7422,λup=0.6384andλlo=0.It is a strong link in the upper tail,but asymptotic independence in the lower tail.That is to say that the good quality traditional Chinese medicine has stronger cell proliferation activity,however,the poor quality ones has insignificant effect.Conclusion Copula function can be used to analyze the relationship between spectrum and activity of traditional Chinese medicine active ingredients group,especially the tail dependence and drug activity.It provides a new method for TCM quality discrimination,and puts forward new ideas for TCM spectrum activity relationship research.

Copula;Traditional Chinese medicine(TCM);Effective components group;Spectrum activity relationship;Quality control

中央高校专项业务经费(JKQ2011032,JKPZ2013015);国家自然科学基金重点项目(NSFC 81130068)

(责任编辑:刘 壮)

猜你喜欢
尾部指纹图谱
船舶尾部响应特性试验与计算
像侦探一样提取指纹
绘一张成长图谱
为什么每个人的指纹都不一样
海洋大探险
双模货物列车尾部安全防护系统通过技术评审
补肾强身片UPLC指纹图谱
唯一的指纹
主动对接你思维的知识图谱
可疑的指纹