全基因组选择及其在玉米育种中的研究进展

2019-10-21 07:31任源王佐惠吴江林彦萍
种子科技 2019年13期
关键词:分子标记

任源 王佐惠 吴江 林彦萍

摘   要:全基因组选择(Genomic Selection,GS)是估计全基因组上所有标记或单倍型的效应,从而得到基因组估计育种值(Genomic estimated breeding value,GEBV)。与传统的标记辅助选择(Marker-assisted selection,MAS)的最大区别在于,全基因组选择不仅仅是一组显著的分子标记,而且还是联合分析群体中的所有标记,再与参考群体的表型数据建立BLUP模型进行个体育种值的预测,随后进行人工选择。GS的育种技术已在植物中实现。近年来许多研究表明,GS在玉米育种中已显示出切实可见的遗传增益。相比于传统育种,这大大加快了玉米育种的周期,提高了选择的效率,降低了育种的成本。对GS的影响因素及其在玉米育种中的应用现状进行了全面的综述,期待为玉米育种提供实用指南。

关键词:全基因组选择;玉米育种;分子标记

文章编号: 1005-2690(2019)13-0035-03       中图分类号: Q789       文献标志码: B

从20世纪80年代开始,分子标记系统的开发使植物育种者和分子生物学家获得多态性标记的数量大大增加。单核苷酸多态性(Single nucleotide polymorphisms,SNPs)已经在数量性状基因座(Quantitative trait locus,QTL)中广泛使用。目前已有多项研究结果表明,超过10000个不同标记系统的QTL应用于12种植物中,旨在改善具有重要经济价值的数量性状。最初,通过应用MAS将分子标记整合到传统的表型选择(Phenotypic selection,PS)中。对于简单的性状,MAS只选择具有主要作用的QTL相关标记的个体,不使用与性状无显著相关的标记的个体。由于QTL与环境相互作用,难以在多种环境中或不同的遗传背景下找到相同的QTL,通過使用QTL相关标记检测来改善多基因控制的复杂数量性状是不可行的,因此,新的MAS技术-基因组选择(GS)应运而生。

Meuwissen等首次提出了GS育种策略,GS育种分为两步。第一步主要是利用训练群体的基因分型结果和表型建立最佳线性无偏预测(Best linear unbiased prediction,BLUP)模型,得到训练的育种值(Breeding value,BV)。第二组是育种群体的基因型数据,但群体中的个体均没有表型,基于BLUP模型和与训练群体中的表型相关的基因组的等位基因同一性来预测育种群体的各种性状的表现,从而得到GEBV,GEBV来源于预测群体中每个个体的基因组中发生的有用基因组的组合,并且提供了每个个体具有优良表型的估计值,即高育种值。可以根据GEBV选择新的育种亲本。

GS与传统的MAS相比有以下优点:①GS不需要QTL定位。GS不同于连锁和关联作图的策略,它不是映射单个基因效应,而是基于大量分子标记对有效育种值进行估计,理想地覆盖全基因组。②GS更精确,特别是对于早期选择。基因分型使用高密度分子标记,可以估计所有的QTL效应,并解释性状的遗传方差形成,而MAS在性状选择中仅使用几个标记,因此,GS比MAS具有更高的准确率。③GS可以缩短生长周期,加速遗传进程,降低生产成本,GS的遗传进程超过表型选择的4%~25%,GS的成本低于传统育种26%~56%。④GS的低敏感性状选择效率高于MAS。⑤GS的标准是育种值,每个个体的所有等位基因遗传效应的总和,它是通过其杂交后代的平均表现来判断的,而不是自身的表现,所以GS更准确。

玉米对全球粮食安全至关重要,随着玉米基因组测序的完成和SNPs检测成本变得越来越低,玉米中数以万计的高密度SNP阵列的统计模型能够准确地重新进行标记并与性状关联,结合生物信息学的成熟理论方法,再加上近年来玉米GS研究越来越多,GS在未来将成为玉米育种的关键技术。下面介绍GS在玉米育种中的应用进展,并提出了今后中国玉米育种的研究方向。

1   影响GS的因素

影响GS预测准确性的因素主要包括用于估计GEBVs的标记数、性状遗传力、参考群体大小、统计模型、分子标记的数量和类型、连锁不平衡、有效群体大小、参考和预测群体的关系和群体结构。

1.1   GS的训练群体

在GS预测准确性时将训练群体分为两部分:参考群体和预测群体,包含表型信息、分子标记数、亲缘关系。在动物育种中,探讨GS只是在群体连锁不平衡背景下,这里的群体可以指牛、猪或鸡等。如果预测群体由参考群体的后代组成,在进行GS时可以降低高标记密度的要求,在这种情况下,可以在预测群体上使用参考群体均匀间隔的低密度标记,并且可以通过共分离来推断全部标记数量。因为植物经常产生同胞关系(如F1通过自交产生的F2群体就是这种同胞群体),在这样的同胞群体中也存在QTL检测,MAS和GS。Bernardo将来自适应×外来杂交玉米的分离后代群体F2,BC1和BC2作为模拟实验中的训练群体进行了比较,结果表明GS应该从F2而不是回交群体开始,即使有利等位基因的数量是在适应亲本中比在外来亲本中大得多。与自然群体相比,F2群体的遗传基础更为简单,因为F2群体来自2个近交系,因此,亲本群体规模可能小于自然群体。模拟研究表明,在适应×外来杂交中GS的群体大小NC0=144通常就足够了。低密度标记适用于F2群体,但F2群体存在缺点:亲本群体需要在每个杂交内进行不同模型的训练;BLUP模型仅适用于来自2个亲本的后代选择,必须通过F3测交的表型值来选择F2群体的后代,后代选择可能只有在F3之后才能使用BLUP模型[1]。

将F2作为训练群体通常对玉米等异花授粉植物有效。赵玉生基于6个分离种群的试验数据,采用半对位交配设计了788个来自优良玉米育种计划的杂交后代。在Vannesa等人的研究中,预测了255种不同玉米杂交种的标记效应,用于预测种群杂交后代的产量、开花期、开花吐丝间隔和来自5个种群中30个F2衍生系的测交后代。Wegenast等人提出将GS应用于植物育种,不仅可以在特定的双亲杂交内和不同的优良品系中,而且也可以在杂交内和杂交之间。自花授粉植物通常采用小麦或甜菜等自然群体,Würschum等人使用924个甜菜系作为训练群体,结果表明,来自育种项目的集中表型和基因分型不同的品系的训练群体,确实可以建立GS的稳健评估模型。Daetwyler等人证实了GEBVs对206个六倍体小麦地方品种的抗锈性预测的准确性[2]。

1.2   GS的预测模型

GS模型的建立主要是利用分子标记的丰富性来模拟许多微效遗传区域。等位基因效应的估计方法包括很多,主要是最小二乘回归、岭回归BLUP(RR-BLUP)、主成分分析和贝叶斯(Bayes)回归等。最小二乘法本质上是通过全基因组关联研究(GWAS)选择与性状相关的染色体片段或标记,然后估计片段的作用。RR-BLUP方法将片段效应视为随机的效应,通过线性混合模型估计标记效应,片段效应的总和是个体的育种值。Bayes方法结合了标记效应方差的先验分布和数据收集。经常使用的Bayes方法就是Bayes A和Bayes B,二者之间的主要区别是Bayes A允许不同标记的方差不同,而Bayes B允许一些标记的方差为0。此外,机器学习方法也可用于预测标记效果,包括支持向量机器(Support vector machine,SVM),启动和运行森林(Booting and random forest,RF)。Ogutu等人将这些方法与GS进行了比较,结果表明:在GS中,预测值和真实育种值之间的相关性为0.547,对于SVM为0.497,对于RF为0.483,表明这些预测模型的方法优于SVM和RF[3]。

1.3   影响GS的其他因素

在GS方法中,预测准确性受群体大小(N),性状平均遗传(h2)和标记数(NM)的影响。模拟研究表明群体结构对GS的预测准确性也至关重要。

预测的准确性随着标记密度的增加而增加。一定长度基因组的遗传数量也直接影响遗传标记的总信息。如果SSR(Simple Sequence Repeat)标记密度从0.25 Ne morgan-1(Ne,有效群体大小)增加到2 Ne morgan-1,预测准确度将从0.63提高到0.83。如果SNP标记密度从1 Ne morgan-1增加到8 Ne morgan-1,预测准确度将从0.69提高到0.86。尽管每个Morgan的2个Ne SSR标记或每个Morgan的8个Ne SNP标记达到最高测试密度,其准确度也没有达到稳定水平。同时,标记数越多越容易得到连锁不平衡(LD)标记。Combs等人发现,在双亲群体中,全基因组预测(rmp)没有从增加标记物浓度(每12.5cm一个标记物)中获得一致的增益。Zhao等人发现,当标记数量从100~800时,800个SNP的准确度几乎达到稳定水平。原因是当预测准确度达到稳定水平时,基因组标记充分饱和。准确预测基因型所需的标记数量取决于标记与QTL之间的连锁不平衡程度(LD)以及种质资源。

不同的标记类型具有不同的多态信息含量(Polymorphism information content,PIC)。比较SSR和SNP标记,发现对于相似的精确度,SNP标记需要的密度是SSR的2~3倍。

模拟研究表明,种群大小对于GS的预测准确性至关重要。Combs等人的结果表明,随着群体大小N增加,预测精度rmp增加。在双亲玉米群体中,最高标记数NM(1213个标记)和性状平均遗传h2=0.30,籽粒产量的预测准确度rmp=0.19(N=48),rmp=0.26(N=96),当rmp=0.33,N=192。赵玉生观察到,随着群体大小的增加,预测的籽粒产量准确性也会增加,坡度没有显著下降。Bernardo的研究也表明,较大的群体将获得较高的预测精度,但是F2的群体大小NC0=144通常是足够的。

训练群体的结构也是影响多亲本群体基因选择预测准确性的重要因素。训练群体结构集合的方法包括随机抽样、单向抽样(选择具有最高基因型值的个体)、双向抽样(选择最高或最低基因型值的个体)。双向抽样比随机抽样更有效。赵玉生观察到单向抽样群体中基因组育种值的准确性大幅下降,双向抽样是植物育种计划中GS的有效方法。

对于同一群体中的相同性状,对于群体大小(N)和性状遗传(h2)的不同组合预测准确度(rmp)将保持不变。对于h2的减少可以通过N的不成比例增加来补偿(反之亦然),rmp得以保持不变。另一方面,最初低h2的性状可以用较大的N评估,或者通过使用额外的测试资源增加性状子集的h2。然而,即使当N、h2和NM(标记数)恒定时,不同性状的预测准确度也不同。性状的预测准确性低于N、h2和NM恒定的其他性状。模拟结果表明,rmp对于产量性状是最低的,即使h2与其他性状一样时,株高和倒伏的预测是最准确的,其次是开花时间。在设计训练群体时,不同性状可预测性的实证和经验是十分关键的。

2   玉米育种中的GS

2.1   玉米中GS的起源

与其他作物相比,GS在玉米中应用最为广泛。各国科学家分别利用玉米自交系、测交群体和杂交群体,对个体的玉米产量、籽粒含水量、代谢物含量等进行了基因组预测。玉米杂交预测BLUP模型的标记效应或亲本系数是玉米GS关键技术。首先用于预测玉米杂交育种中的单交。基于测试的杂种数据和其亲本的标记信息建立BLUP模型,通过BLUP模型预测未测试的杂种的表型和亲本的标记数据。

Bernardo等致力于玉米BLUP模型的杂交预测近10年,通过RFLP标记发现理论与实际观察的相关系数为0.668~0.800。BLUP适用于杂种优势预测,因为该性状具有中等遗传力。分子标记效应的预测准确性高于系统发育关系。随着分子标记的发展,出现了新的分子标记物,简单的序列重复序列(SSR)和单核苷酸多态性(SNP)等被广泛使用。Gowda等发现,玉米SSR標记对开花时间和株高的预测准确度均在0.8以上。Massman等人的研究表明,利用SSR标记,籽粒产量预测准确度为0.8,根伐数比为0.87,但亲本系数对籽粒产量的预测效果仅为0.50~0.66,根伐数比为0.31~0.45,表明分子标记更适合于杂种表型预测。

科學家们发现BLUP不仅适用于杂交性状预测,而且还适用于玉米群体的个体繁殖育种值估计,因此,BLUP可用于选择和繁殖自交系中F2群体的个体选择,杂种优势预测为玉米GS择奠定了基础。

2.2   GS在玉米中的应用

近年来关于玉米GS的研究逐渐增多,Bernardo的实验室对GS在玉米育种中的应用进行了大量的模拟和实验,德国的Piepho和巴西的Fritscheneto也试图在玉米育种中使用GS进行研究。GS在玉米育种包括两个方面,杂交种的性能预测和自交系的改良。在利用GS进行自交系的改良时,两个自交系的双亲群体的BLUP模型对双亲的后代都是有效的。玉米的GS主要涉及两个步骤:首先,对分离的玉米群体进行基因分型并评估F3家族的测试杂交优势,基于基因型和表型数据,根据感兴趣的性状计算与大量标记相关的育种值。不使用标记显著性检验,通过最佳线性无偏预测(BLUP)将标记效应拟合为线性模型中的随机效应。其次,两代或三代的GS是基于一年四季或者温室中进行的所有标记,预测的性状值为所有标记中单个植物标记值的总和,随后基于这些全基因组预测进行选择。根据这些步骤,Combs将半矮秆种质基因导入美国玉米带自交系中,发现从第1~5周期过程,GS改善了第1周期中的表型。

此外,Bernardo的结果还表明,GS改善适应性×外来杂交从F2开始的7~8个周期。Mcclosky等人证明渐近自交对GS有显著增益,F8的自交比F2增加了72%。然而大部分的增益都是通过F5代(F8增益的95%)来实现的,F8和DH的表现相似,与这先前的研究一致。在Bernardo的研究中,训练群体是来自2个亲本的特定群体,因此BLUP模型适合于2个自交系的发育。玉米中GS的其他研究是关于多亲本群体作为训练群体。赵玉生的研究是基于半-双列交配设计的6个分离群体的实验数据,对于玉米来说每年可以繁殖3代,每个单位时间的选择性较高,因此,GS对玉米育种计划有很大帮助。这些研究结果可能作为进一步培育6个群体之间的优良玉米品系的基因组预测模型。在Windhausen等人的研究中,将255个玉米杂交种中估计的标记效应用于预测来自5个群体中每个群体的30个F2衍生系的测交杂交后代的产量,开花时间和吐丝间隔,讨论了玉米杂交育种中基因组预测的注意事项:①明确定义应采用基因组预测的育种方案(群体之间或群体内的预测);②在进行交叉验证之前对群体结构进行详细分析;③验证群体与训练群体应具有密切的遗传关系。

3   小结

玉米作为粮食、饲料、能源应用等多元功能于一体的作物,在全球有着广泛的种植,但随着世界人口的增加,玉米的需求也呈现急剧的增长。传统育种技术显然不能满足玉米需求量的增加,GS由于其显著的优势将成为玉米育种的核心技术,但是,目前玉米的GS育种还处于发展阶段,仍需要在很多方面努力。未来的工作应该集中在两个方面:首先,应该致力于为产量和品质等各种近交系建立一个通用的预测模型。其次,植物病害以及非生物胁迫耐受性也严重降低玉米产量,建立抗病耐胁迫的预测模型将为玉米产量和品质性状改善提供理论和技术支持。

参考文献:

[ 1 ] Bernardo R.Molecular markers and selection for complex traits in plants: learning from the last 20 years[J].Crop Sci,2008(48):1649–1664.

[ 2 ] Tanksley S D,Young N D,Paterson A H.RFLP Mapping in Plant Breeding: New Tools for an Old Science[J].Biotechnology,1989,7(3):257-264.

[ 3 ] Tanksley S D.Molecular markers in plant breeding[J].Plant Molecular Biology Reporter,1983,1(1):3-8.

(收稿日期:2019-09-21)

猜你喜欢
分子标记
萝卜抽薹相关SRAP分子标记筛选与分析
萝卜抽薹相关SRAP分子标记筛选与分析
软枣猕猴桃性别相关的SRAP分子标记
软枣猕猴桃性别相关的SRAP分子标记
大白菜种质资源抗根肿病基因CRa和CRb的分子标记鉴定与分析
玉米大斑病的研究进展
采用基于PCR的分子标记区分胡萝卜育性
分子标记技术在植物CMS中的研究与应用
艾叶研究进展概述
山西大豆自然群体遗传多样性的研究