植物性状整合的不同软件PCA比较分析

2015-12-21 18:50杨韫嘉刘卫东关文彬
中南林业科技大学学报 2015年9期
关键词:原始数据叶面积象限

乐 也 ,王 青,杨韫嘉,徐 欢 ,刘卫东 ,关文彬

(1.北京林业大学 自然保护区学院,北京 100083;2.中南林业科技大学,湖南 长沙 410004)

植物性状整合的不同软件PCA比较分析

乐 也1,王 青1,杨韫嘉1,徐 欢1,刘卫东2,关文彬1

(1.北京林业大学 自然保护区学院,北京 100083;2.中南林业科技大学,湖南 长沙 410004)

品种鉴定、选优评价、性状可塑性研究等需要对多个性状整合,通过降维处理解决多个性状的计算难题,而诸多研究采用统计学软件对性状的整合分析,并未取得理想结果。以文冠果营养器官的性状指标(根插幼苗的生长性状、分配性状)和生殖器官的性状指标(花朵性状、花序性状)为例,应用康奈尔生态软件Canoco和SPSS两种统计软件,进行主成分PCA分析。结果证实:多元性状的整合,Canoco-PCA明显优于SPSS-PCA,其原因在于前者原始数据的标准化采用中心化,而后者采用离差标准化;以 Canoco-PCA前2个排序轴作因变量、性状作自变量进行双重筛选逐步回归,给出的方程可用于性状评价、可塑性研究等,为植物性状整合提供了一个新的计算方法。

植物性状整合;主成分分析(PCA);Canoco生态统计软件;SPSS生态统计软件;文冠果

功能性状是生态学、遗传学、进化生物学的重要主题之一[1-4]。在生物数量性状遗传与表型可塑性研究中,多元表型性状的量化整合方法一直是困扰研究人员的重要问题[1,5]。通常采用的CPC(common principal components)分析是不令人满意的[6-7],而采用多性状的PCA[8]第一主成分可以进行表型可塑性计算,但其整合的效果也欠佳[9-10]。

本研究用文冠果Xanthoceras sorbifolium根扦插减光实验[11]的表型性状数据,在进行表型性状的可塑性数据处理过程中,应用康奈尔生态软件Canoco4.5[12]和SPSS18.0两种统计软件对多个表型性状进行主成分分析[13],二者对数量性状整合的效果差异明显。为此,这里分别用文冠果根插1年生苗的营养器官的性状指标(分为生长性状、分配性状)、3年生幼树的生殖器官的性状指标(花朵性状、花序性状)为例,用2种统计软件进行PCA计算,比较2种软件的分析结果,探讨2种方法对表型性状整合的效果,试为植物表型性状整合提供一个新的计算方法。

1 性状指标的选取与统计方法

研究地区概况与实验参见文献[11,14]。

1.1 性状指标

1.1.1 根插1年生苗营养器官的性状指标

生长性状指标:苗高(H)、地径(RD)、叶片数(LN)、最大带柄叶片长度(MLL)、总叶面积(TLA)、根长(RL)、根生物量(RM)、茎生物量(SM)、叶生物量(LM)、净生物量(NM)、总生物量(TM)、地上生物量(AB)、地下生物量(BB,含插穗根段)共13个性状指标。

分配性状指标:根生物量比(RBR)(根生物量/总生物量)、茎生物量比(SBR)(茎生物量/总生物量)、叶生物量比(LBR)(叶生物量/总生物量)、茎根质量比(S/R)(茎生物量/根生物量)、叶根质量比(L/R)(叶生物量/根生物量)、叶面积根长比(LA/RL)(总叶面积/总根长)、比根长(SRL)(根长/根生物量)、根长比(RLR)(根长/总生物量)、比叶面积(SLA)(叶面积/叶生物量)、叶面积比(LAR)(总叶面积/总生物量)、地下生物量比(BBR)(地下生物量/总生物量)、地上生物量比(ABR)(地上生物量/总生物量)、地下与地上生物量比(A/B)(地下生物量/地上生物量)共13个性状指标。

1.1.2 幼树生殖器官的性状指标

花朵性状指标:不育花药数、花药总数、花长、花柄长、冠径(花朵盛开时的自然直径)、花瓣长、花瓣宽、瓣宽长比、朵径长比共9个性状指标[14]。

花序性状指标:花序基径、花序长、花序宽(花序最宽处的值)、花序质量、序宽长比、序基径/序宽和每个花序上的雄花数、两性花数、小花数共9个性状指标[14]。

1.2 统计方法

采用多元统计的PCA方法,一是由SPSS 18.0软件实现;二是由康奈尔生态程序Canoco4.5软件(http://www.canoco5.com/)实现。进而,用PCA排序轴作因变量与性状自变量进行逐步回归分析。

值得强调的是,PCA分析最常用的原始数据标准化是中心化和离差标准化[15],对 PCA来说,原始数据中心化很重要[16-17],Canoco-PCA采用的是原始数据的中心化,而SPSS-PCA采用的是原始数据的离差标准化[18-19]。

2 结果与分析

2.1 营养器官性状指标的分析

2.1.1 营养器官性状指标的主成分分析

营养器官的性状指标包括13个生长指标和13个分配指标,应用了2种软件进行主成分分析(见表1),比较2种方法的结果可知:13个性状的整合,Canoco-PCA前2个轴的累计方差解释信息可达97%以上,而后者75%以上,第三主成分才达87%以上。对表1进行单因素方差分析(F=8.339,P=0.028)可知,2种软件计算方法差异显著,Canoco-PCA明显优于SPSS-PCA。

从营养器官的生长性状指标的Canoco-PCA的二维矢量图(见图1)分析可知,最大带柄叶长、根长、茎生物量、地下生物量、株高、叶生物量6个性状在第1象限;只有根生物量1个性状在第3象限;叶总面积、净生物量、总生物量、基径、叶片数、地上生物量6个性状在第4象限。主要性状指标集中在1、4,说明前两部分内的性状间存在较强的相关性。其中,叶片数与地上生物量、叶生物量与总叶面积、地下生物量与茎生长量的夹角都很小,说明这些性状间具有很高的相关性。

从营养器官分配性状指标的Canoco-PCA二维矢量图(见图2)可以看到,13个性状中叶面积根长比、根长比在第1象限;地上生物量比、地上与地下生物量比、叶根质量比、叶生物量比、比叶面积、叶面积比、根生物量比在第2象限;茎根质量比、茎生物量比、根生物量比、地下生物量比在第4象限。地上生物量比与地上与地下生物量比、比叶面积与叶生物量比、叶面积比与比叶面积、地下生物量比与根生物量比这4组性状在图中位置集中,矢量夹角依次由小变大,说明它们组内性状相关性依次减小。

表1 营养器官性状指标的两种主成分分析结果Table 1 Two PCA results of traits of vegetative organs %

图1 生长性状Canoco-PCA的主成分矢量Fig.1 Canoco-PCA vectorgraph of growth traits

图2 分配性状Canoco-PCA的主成分矢量Fig.2 Canoco-PCA vectorgraph of distribution traits

2.1.2 主成分与性状指标的逐步回归分析

用Canoco-PCA的前2个主成分作因变量,13个生长性状指标和13个形态性状作自变量,进行双重筛选逐步回归分析,剔除不显著的性状变量,给出回归方程:

式中:X1为生长指标主成分第1轴;X2为生长指标主成分第2轴;Y1为分配指标主成分第1轴;Y2为分配指标主成分第2轴;B1为株高;B2为基径;B3为最大带柄叶长;B4为叶片数;B5为根长;B6为总叶面积;B7为根生物量;B8为茎生物量;B9为叶生物量;B10为总生物量;B11为净生物量;B12为地上生物量;B13为地下生物量。

分析上述回归关系可知,生长性状指标的第1主成分方程剔除了基径、茎生物量、地上生物量、地下生物量,第2主成分方程剔除了基径、茎生物量、叶生物量、地下生物量。两组方程的F检验均达到极显著水平。

用Canoco-PCA的前2个主成分作因变量,13个分配性状作自变量,进行双重筛选逐步回归分析,剔除不显著的性状变量,给出回归方程:

式中:V1为比根长;V2为根长度比;V3为比叶面积;V4为叶面积比;V5为叶生物量比;V6为根生物量比;V7为茎生物量比;V8为地下生物量比;V9为地上生物量比;V10为地上与地下生物量比;V11为茎根质量比;V12为叶根质量比;V13为叶面积根长比。

分配性状指标的第1主成分方程剔除了叶生物量比、地下生物量比、地上生物量比、地上与地下生物量比、茎根质量比、叶根质量比、叶面积根长比,第2主成分方程剔除了茎生物量比、地下生物量比、地上生物量比、地上与地下生物量比、茎根质量比、叶根质量比、叶面积根长比。两组方程的F检验达到极显著水平。

2.2 生殖器官性状指标的分析

2.2.1 生殖器官性状指标的主成分分析

采用北京和辽宁两地区文冠果白花、红花的花朵、花序性状分别应用Canoco4.5软件与SPSS18.0软件进行PCA分析,结果见表2。从表2中可以看到前2个轴的累积方差解释率(贡献率)Canoco-PCA在93%以上,SPSS-PCA仅在49%以上。

根据表2数据进行平方根变换,分别按计算方法、取样地区、花色进行单因素方差分析(见表2)可知,花朵的9个性状的4个主成分两种软件计算方法差异极显著,而不因取样地区、花色不同而存在显著差异;花序的9个性状的4个主成分两种软件计算方法差异接近显著水平,同样,不因取样地区、花色不同而存在显著差异。

以花朵性状的Canoco-PCA分析为例,二维主成分矢量图如图3、4所示。通过比较可知,相关性较高的性状排列在相近位置。北京红花花朵性状指标的二维主成分矢量图(见图3)可知,不育花药数、花药总数、花瓣宽、花柄长在第1象限:花瓣长、冠径、朵径长比在第2象限;瓣宽长比、花长在第4象限。辽宁红花花朵性状指标的二维主成分矢量图(见图4)可知,不育花药数、花药总数、花瓣宽、瓣宽长比在第1象限;朵径长比、冠径在第2象限;花柄长、花长、花瓣长在第4象限。两地相同点是不育花药数、花药总数、花瓣宽、朵径长比、花长5个性状均分布在相同象限。两地的差异使其它性状处在不同的象限。

表2 两地区不同花色花性状的2种主成分分析结果Table 2 Two PCA results of different flower color traits in two areas %

图3 北京红花花朵主成分矢量Fig.3 PCA vector-graph of Beijing red flowers

2.2.2 主成分与性状指标的逐步回归分析

应用Canoco-PCA分析结果,以两地区红花花朵性状为例(限于篇幅,其它分析结果略),用前2个主成分作因变量,9个花朵性状指标作自变量,进行双重筛选逐步回归分析,剔除不显著的性状变量,给出回归方程:

式中:YAX1B为北京主成分第1轴;YAX2B为北京主成分第2轴;YAX1L为辽宁主成分第1轴;YAX2L为辽宁主成分第2轴;X1为不育花药数;X2为花药总数;X3为花长;X4为花柄长;X5为冠径;X6为花瓣长;X7为花瓣宽;X8为瓣宽长比;X9为朵径长比。

图4 辽宁红花花朵主成分矢量Fig.4 PCA vector-graph of Liaoning red flowers

分析上述回归关系可知,北京地区红花花朵第1主成分回归剔除了花瓣长和瓣宽长比,第2主成分仅剔除了花瓣宽;而辽宁地区红花花朵第1主成分回归剔除了6个性状变量,保留了不育花药数、花长、花瓣宽3个性状,第2主成分剔除了花药总数、花瓣宽。

3 结论与讨论

对于多元表型性状整合,采用PCA分析整合结果较差的问题在于原始数据的标准化,采用康奈尔生态软件的Canoco-PCA首次给出了新的解决方法。以往关于性状可塑性研究[5,10],通常采用SPSS-PCA[18]、SAS-PCA[20]、R-PCA[21-22]的 方 法 进行计算,3种软件的计算结果不一致,且存在着第一、二主成分量解释方差较低的问题。多元的表型性状通常为非独立变量,且互相之间存在着相关关系,因此需要性状整合。应用多元统计中的PCA,采用SPSS和Canoco两种统计软件进行性状整合,营养器官的生长性状、分配性状和生殖器官的花朵性状的指标以Canoco-PCA的方法显著优于SPSS-PCA;花序性状的整合两种方法差异接近显著。

分析其原因在于,原始数据标准化是导致PCA分析的局限性关键所在,如通过欧氏距离标准化,是将原始数据从欧氏空间映射到符合统计目标的统计空间;而采用离差标准化相当于对各坐标轴做了加权处理,构建出新的统计空间,这样的计算,默认为坐标旋转后坐标系被一一对应的赋予了与旋转前相同的权重——这与事实明显不符;而原始数据中心化则是对坐标系的平移,这一过程并不会改变空间的性质[18]。因此,本研究采用Canoco-PCA得出优化的结果,其关键问题在于原始数据的中心化。而原始数据的标准化有多种方法,在多元性状整合过程中采用PCA分析软件时,必须注意原始数据的标准化问题。

性状整合的Canoco-PCA前两个主成分作因变量与多元性状自变量的双重筛选逐步回归方程可用于性状评价、选优、可塑性研究等。以往采用统计学软件进行因子分析[23]或主成分分析[24-25]来建立综合指数模型进行优树的综合评价[26],因子分析是主成分分析的推广, 因子分析的目的是用几个潜在的随机量去描述多个变量间的协方差关系,这些随机量叫做因子;主成分分析和采用主成分法的未旋转的因子分析非常相近[27]。本文中推荐的方法可简化评价指标和选择程序,从而能比较清晰和简明地解释性状间的复杂关系,能准确地表达各性状的综合表现,为植物多元表型性状整合、种质资源评价、分类和多目标选优提供了可行、有效的方法。

[1] Davidson A M, Jennions M, Nicotra A B.Do invasive species show higher phenotypic plasticity than native species and, if so,is it adaptive? A meta-analysis[J].Ecology Letters, 2011,14(4):419-431.

[2] Schleuter D, Daufresne M, Massol F,et al.A user’s guide to functional diversity indices[J].Ecological Monographs, 2010,80: 469-484.

[3] 宋彦涛,王 平,周 道.植物群落功能多样性计算方法[J].生态学杂志,2011, 30(9): 2053-2059.

[4] 郭庆学,柴 捷,钱 凤,等.不同木本植物功能型当年生小枝功能性状差异[J].生态学杂志,2013, 32(6): 1465-1470.

[5] Pigliucci M, Kolodynska A.Phenotypic plasticity and integration in response to flooded conditions in natural accessions ofArabidopsis thaliana(L.) Heynh.(Brassicaceae)[J].Annals of Botany, 2002, 90: 199-207.

[6] Phillips P C, Arnold S J.Hierarchical comparison of genetic variance-covariance matrices.I.Using the Flury hierarchy[J].Evolution, 1999, 53: 1506-1515.

[7] Waldmann P, Andersson S.Comparison of genetic(co) variance matrices within and between Scabiosa canescens andS.columbaria[J].Journal of Evolutionary Biology, 2000, 13: 826-835.

[8] Shlens.A Tutorial on Principal Component Analysis.Copy retrieved[04-09-2008].from:http://www.cs.cmu.edu/-elaw/papers/pca.pdf.

[9] Danijela pemac, Branka Tucic.Reaction norms of juvenile traits to light intensity in Iris pumila(Iridaceae): a comparison of populations from exposed and shaded habitats[J].Plant systematics and evolution, 1998,209:159-176.

[10] Richards C L, Pennings S C, Donovan L A.Habitat range and phenotypic variation in salt marsh plants[J].Plant Ecol., 2005,176:263-273.

[11] 杨韫嘉,徐 欢,毕泉鑫,等.光照异质性对文冠果不同长度根插穗成活与幼苗生长的影响[J].中南林业大学科技学报,2014, 34(6): 28-36.

[12] Ter Braak C J F, Smilauer P.CANOCO Reference Manual and CANODRAW for Windows User’s Guide: Software for Canonical Community Ordination (version 4.5) 265-268(Microcomputer Power, Ithaca,New York, 2002).

[13] GAUCH H G.Multivariate analysis in community ecology [M].Cambridge: Cambridge University Press, 1982.

[14] 徐 欢,杨韫嘉,樊 简,等.文冠果花性状多尺度分析[J].东北林业大学学报,2014,42(9):126-133.

[15] 张金屯.数量生态学[M].北京: 科学出版社,2011:145-147.

[16] Noy-Meir I.Desert ecosystems, environment and producers[J].Annual Review of Ecology and Systematics.1973,4:25-41.

[17] Greig-Smith P.Quantitative Plant Ecology[M].3rd ed, London:Blackwell Scientific Publications, 1983.

[18] Richard A Johnson, Dean W Wichern.Applied Multivariate Statistical Analysis.4th e d.[M].Pears on Education Company,1998.

[19] 杜 晶,赵黎明.主成分分析应用于综合评价的局限性[J].内蒙古农业大学学报,2007,9(7):125-130.

[20] 胡良平,高 辉.SAS统计分析教程[M].北京:电子工业出版社, 2010.

[21] R Development Core Team (2011), R: A Language and Environment for Statistical Computing.Vienna, Austria : the R Foundation for Statistical Computing.ISBN: 3-900051-07-0.Available online at http://www.R-project.org/.

[22] Lebreton J D, Sabatier R, Banco G,et al.Principal component and correspondence analyses with respect to instrumental variables : an overview of their role in studies of structure-activity and species-environment relationships[C]//Devillers J, Karcher W.Applied Multivariate Analysis in SAR and Environmental Studies,Kluwer Academic Publishers, 1991: 85-114.

[23] 敖 妍.因子分析法在文冠果优良单株选择中的应用[J].华南农业大学学报,2009,30(4): 70-73.

[24] 芦 娟,柴春山,蔡国军,等.甘肃定西文冠果花的表型多样性研究[J].林业资源管理,2011(6):49-53.

[25] 孙琳琳,赵登超,韩传明,等.文冠果实生植株果实经济性状遗传性分析[J].山东农业科学, 2012,44(1): 25-28.

[26] 陈玉国.文冠果种子园早期子代测定指标的选择[J].防护林科技,2013,(12):75-79.

[27] 孙德山.主成分分析与因子分析关系探讨及软件实现[J].统计与决策,2008,(13): 153-155.

Comparative analysis on plant traits by using two soft-wares of PCA method

YUE Ye1, WANG Qing1, YANG Yun-jia1, XU Huan1, LIU Wei-dong2, GUAN Wen-bin1
(1.College of Nature Conservation, Beijing Forestry University, Beijing 100083, China; 2.Central South University of Forestry and Technology, Changsha 410004, Hunan, China)

Plants multi-traits integration is a generally-used method in plants species identification, such as plants variety selection and evaluation and plants traits plasticity study, which by reducing redundant variable solve the multiple traits calculation problem.A numerous studies that adopt different statistical soft-wares to treat plants traits integration did not generate ideal results.By taking the characteristics ofXanthoceras sorbifoliaBunge vegetative organs (root cutting seedlings growth traits and distribution traits) and the characteristics indicators ofX.sorbifoliareproductive organs (flower traits, inflorescence traits) as the tested materials, by using Canoco and SPSS eco-statistical soft-wares, the principal component analysis(PCA) onX.sorbifoliavegetative organs and reproductive organs were conducted.The results show that PCA results obtained from Canoco was better than that from SPSS, the reason is that The reason for this is that the standardization of original data of the former was made by the centralized method while that of the latter was treated by using standardized deviation method; Furthermore, by employing the first two ordination axes of PCA as the dependent variables and the plant traits as the independent variables, the multiple stepwise regressions for the tested plants were carried out and the regression equations were gained.The regression equations were used to evaluate plasticity characteristics of plants, which provides a new calculation method for plant traits integration.

plant traits integration; principal component analysis(PCA); Canoco eco-statistical software; SPSS eco-statistical software;Xanthoceras sorbifoliaBunge

S718.42;Q94

A

1673-923X(2015)09-0059-06

10.14067/j.cnki.1673-923x.2015.09.010

2015-01-17

国家星火计划项目(2013GA105004)

乐 也,硕士研究生 通讯作者:关文彬,教授,博士生导师;E-mail:swlab@bjfu.edu.cn

乐 也,王 青,杨韫嘉,等.植物性状整合的不同软件PCA比较分析[J].中南林业科技大学学报,2015, 35(9): 59-64.

[本文编校:谢荣秀]

猜你喜欢
原始数据叶面积象限
勘 误
复数知识核心考点综合演练
作物叶面积测量的研究进展
受特定变化趋势限制的传感器数据处理方法研究
常数牵手象限畅游中考
马奶子葡萄叶面积评估模型的建立
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
平面直角坐标系典例分析
对物理实验测量仪器读数的思考