基于全基因组测序构建水稻RIL群体遗传图谱

2021-03-02 04:57王朝欢宋博文余思佳肖武名
华南农业大学学报 2021年2期
关键词:子代亲本多态性

王朝欢,宋博文,余思佳,肖武名,黄 明

(华南农业大学农学院/国家植物航天育种工程技术研究中心,广东广州510642)

水稻Oryza sativaL.是世界上超过一半人口的主要粮食作物,深入挖掘重要的功能基因对水稻主要农艺性状的遗传改良具有重要意义。高密度遗传图谱的构建为基因的精准定位和克隆创造了必要条件。

本研究使用的重组自交系(Recombinant inbred lines,RILs)群体是由籼稻‘MDS’和籼稻‘R315’构建的高代重组自交系,具有稳定的表型性状,是一个良好的永久性遗传群体。自1988年Mc Couch 等[1]利用籼稻‘IR34583’与爪哇稻‘Bulu Dalam’衍生的F2群体构建了第1张含135个限制性内切酶片段长度多态性(Restriction fragment length polymorphism,RFLP)标记的水稻分子连锁图谱以来,水稻的遗传图谱相继诞生。传统的图谱构建通常利用RFLP、简单重复序列(Simple sequence repeat,SSR)标记和随机扩增多态性DNA(Random amplif ied polymorphic DNA,RAPD)标记。结合多种分子标记技术进行遗传图谱构建可进一步增加标记的密度。徐建龙等[2]利用272个均匀分布的标记(141个RFLP标记、99个SSR 标记、29个RAPD标记和3个形态标记)构建了连锁图用于QTL 分析,该连锁图总共覆盖基因组2 777.7 cM,相邻标记间平均距离为10.2 cM。早期的分子标记,作图距离通常较大,后期精细定位工作需要大量分离的F2代个体。随着DNA 测序技术的快速发展,基于高通量测序的新型分子标记越来越多地应用于高密度遗传图谱的构建[3-4]。Chen 等[5]利用148个子代组成的RIL 群体构建了1 680.9 cM 的遗传图谱,平均遗传距离为1.16 cM,共定位到23个耐盐相关QTLs,其中,位于第1、4、12号染色体上的3个QTLs表现出累加效应。单核苷酸多态性(Single nucleotide polymorphism,SNP)标记作为第3代新型分子标记技术,具有数量多、遗传稳定性高以及易于自动化分析等优点[6],已成为近年来水稻高密度遗传图谱构建的优先选择。

本研究利用全基因组测序(Whole genome sequencing,WGS)技术对籼稻‘MDS’和籼稻‘R315’构建的1个RIL 群体进行全基因组测序,先鉴定出两亲本间的SNP,再利用SNP构建bin 标记,最后构建1张高密度遗传图谱,以期为进一步深入挖掘和研究重要农艺性状基因奠定有利基础。

1 材料与方法

1.1 试验材料

本研究使用的材料为国家植物航天育种工程技术研究中心前期收集的籼稻地方品种‘MDS’和‘R315’。父本‘MDS’是大穗、抗倒、高产型的地方籼稻品种,具有高光效、高养分利用率等特点。母本‘R315’是在‘象牙香占’基础上改良的籼稻恢复系,具有抗病、优质、配合力好等特点,父母本杂交,F2代通过单粒传法繁殖获得高世代RILs。

1.2 CTAB 法提取植物叶片DNA

2019年晚季在华南农业大学校内教学科研试验基地的试验田中种植水稻亲本和RILs群体(含192个株系),每个材料按6行×6株的规模种成小区,株行距均为20 cm,单苗插植,常规栽培管理。F5代单株收种。亲本及其RILs(F6代)群体取20粒饱满种子萌发,取各个株系的幼嫩叶片(每个株系随机取5株混样),按CTAB法[7]提取DNA 后送至北京诺禾致源生物信息科技有限公司进行测序分析。

1.3 DNA 文库构建及测序

检测合格的DNA 样品通过酶切、加测序接头、纯化、PCR 扩增等步骤完成整个文库制备。构建好的文库通过Illumina(测序仪)进行测序。

1.4 测序数据质量评估及分析

检测合格的DNA 文库进行HiSeq 测序,产出Raw reads,结果以fastq 文件格式存储。经过过滤,得到高质量的Clean reads。对192个子代及亲本测序数据进行统计,包括测序reads数量、数据产量、测序错误率、Q20、Q30、GC含量等。另外,将Clean data 与NCBI的核苷酸数据库进行比对,以评估是否有其他来源的DNA 污染。将2个亲本及192个子代测序数据与参考基因组(http://www.mbkbase.org/R498/)进行比对,反映测序数据与参考基因组的相似性,覆盖深度和覆盖度能够反映测序数据的均一性及与参考序列的相似性。

1.5 单核苷酸多态性检测与标记开发

SNP主要是指在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性,包含单个碱基的转换、颠换等。基于Burrows-Wheeler aligner(BWA)比对结果,利用群体检测SNP的方式对亲本和192个子代进行SNP检测。对BWA 比对结果进行过滤:将比对到水稻参考基因组上唯一位置的reads挑选出来,采用GATK(Thegenome analysis toolkit)[8]对过滤后的bam 文件进行群体SNP 的检测。为减少测序错误造成的假阳性SNP,要求亲本SNP碱基支持数不少于5,子代SNP碱基支持数不少于3,统计杂合SNP数、纯合SNP数和杂合SNP比例(杂合SNP数/总SNP数)。

基于亲本基因型检测结果,进行亲本间多态性标记开发,并选择RIL群体的可用标记类型(“aa×bb”型),即2个亲本的某个SNP基因型都为纯合且不相同。完成标记开发后,提取192个子代在亲本多态性标记位点的基因型,对分型后的标记进行筛选。首先进行异常碱基检查,子代分型结果中,可能会出现少数亲本中没有出现的碱基型,则认为该碱基是异常碱基,碱基缺失用“—”表示;基于上述结果继续进行异常基因型检查,本研究群体类型为RILs,在子代分离群体中,主要以纯合为主,杂合类型占比很低,杂合标记也视为异常基因型,转化为缺失。

1.6 高密度图谱构建及质量评估

利用最终获得的高质量SNP标记,对每个个体使用15个SNP滑动窗口、步移长度为1的策略检测RILs间的重组断点,得到群体重组断点分布图。针对每个连锁群使用JoinMap4.0对每个连锁群的bin 标记进行排序(连锁群使用回归算法排序,采用Kosambi 函数计算遗传距离)。根据获得的bin 标记的遗传距离,使用perl SVG模块绘制连锁图,并依据文献[9]对标记在基因组上的位置和遗传图谱进行共线性分析。

2 结果与分析

2.1 亲本性状差异及测序数据信息分析

通过对两亲本的农艺性状数据进行差异显著性分析,发现两亲本在每穗颖花数、粒长、每穗实粒数、叶宽、株高和二级枝梗数上具有极显著差异(P<0.01)(图1),每穗颖花数、粒长、每穗实粒数、叶宽、株高、二级枝梗数是后续研究重点关注性状。

图1 亲本农艺性状分析Fig.1 Agronomic character analysisbetween parents

通过对两亲本和RILs群体192个子代检测合格的D N A 文库进行H i S e q 测序,总共获得549 496 399 500 bp测序量。亲本‘MDS’得到4 140 981 000 bp Raw reads,过滤后得到Clean reads 4 134 873 600 bp,平均测序深度为9.33×;亲本‘R315’共得到4 395 794 100 bp Raw reads,过滤后得到4 390 405 500 bp Clean reads,平均测序深度9.66×。RILs群体192个子代中平均每个个体的Raw reads约2 817 557 919 bp,平均测序深度6.33×。亲本总体测序质量高,Q20≥95%,Q30≥89%,GC分布正常,‘MDS’和‘R315’中GC含量分别为43.73%和44.12%。

将2个亲本及192个子代的测序数据与参考基因组比对。参考基因组大小为390 983 850 bp,192个子代样本比对率均在91%以上,1×覆盖度(至少有1个碱基的覆盖)平均为92.45%,对参考基因组捕获区域的平均覆盖深度为6.30×;比对结果可用于后续的变异检测及相关分析。

2.2 SNP识别与基因分型

基于2个亲本的基因型分析结果,开发的标记类型及数量如图2所示,父母亲本间共鉴定出具有多态性的位点470 833个,可用标记类型为“aa×bb”型,共计221 494个。

图2 开发的单核苷酸多态性标记的类型及数量Fig.2 Type and quantity of developed single nucleotide polymorphism markers

对分型后的遗传标记进行筛选,未发现异常碱基,说明基因分型准确性较好。基于筛选的结果对子代分型结果进行异常基因型检查,未发现杂合类型,说明RILs子代群体中,杂合类型占比较低。最终获得221 494个有效标记用于连锁性分析。

2.3 高密度遗传图谱构建及质量评估

基于获得的221 494个SNP标记,对每个个体使用15个SNP滑动窗口、步移长度为1的策略[9]检测RILs间的重组断点,得到群体重组断点图(图3)。利用图2的标记信息,可追踪到192个子代中每个子代的每条染色体的重组事件发生的位置。

图3 群体重组断点图Fig.3 Group recombination breakpoint diagram

使用JoinMap4.0对每个连锁群的bin 标记进行排序(连锁群使用回归算法排序,使用Kosambi函数计算遗传距离),最终获得bin 标记1 612 个,均匀分布在各染色体上(图4)。用perl SVG模块绘制连锁图,总图距1 327.82 c M,覆盖了12个连锁群(分布在水稻的12条染色体上),标记间的平均图距为0.82 cM。各个连锁群bin 标记数量、总图距、平均图距等基本信息如表1所示。其中第1号染色体(Chr 1)连锁群图距最长,为170.19 cM,包含bin 标记最多,为194个,标记间平均图距是0.88 cM;第11号染色体(Chr 11)连锁群图距最短,为60.18 c M,包含bin 标记最少,为68个,标记间的平均图距是0.89 cM;连锁群中最大间隔(Maximum gap)长度小于5 cM的比例高达98.2%。

图4 连锁群标记分布图Fig.4 Distribution map of linkage group marker

表1 遗传连锁群信息Table 1 Characteristics of genetic linkage group

共线性分析结果(图5)显示,各个连锁群上大部分标记与在基因组上保持一致,共线性较好,图谱质量高。

图5 遗传图谱和物理图谱的共线性分析Fig.5 Collinearity analysis between genetic map and physical map

3 讨论与结论

高通量测序技术的迅速发展加速了水稻重要基因的挖掘和应用,在育种上也可以应用相关分子标记提高材料选育的准确性,加快品种选育。运用高通量测序获得高质量SNPs并构建遗传图谱进行QTL 鉴定是目前的研究热点。

亲本的选择是获得高质量图谱的第一步,对后续的QTL 定位也至关重要。亲本间的DNA 具有多态性是选材的首要条件,在某一表型或者多个表型具有极端差异的2个材料是理想的选择。在研究产量[10-12]、粒形[13-14]等性状时,亲本的目的性状要存在极端差异。前期观察分析发现籼稻‘MDS’和‘R315’在多个农艺性状上均存在明显差异,包括株高、叶色、叶长、叶宽、粒形、穗粒数等。进一步的分析发现双亲在每穗粒数、叶宽、每穗实粒数、粒长、二次枝梗数、株高等性状上均存在极显著差异,预示着双亲中可能存在多个控制水稻产量的基因或者QTLs。接下来我们将对群体的多个表型数据进行分析,结合构建的高密度遗传图谱开展深入的研究。

基于重测序获得高质量的SNPs,再划分bin 标记能大幅度提高作图的精度与效率,Huang 等[9]对150个子代的RIL群体在F8代使用287个分子标记进行基因分型,构建的遗传图谱标记间平均遗传距离为5 cM,平均物理距离为1.4 Mb,需要3个人通过1年的工作完成;而在F11代使用重测序,每40 kb就获得1个SNP,将重组断点的分辨率提高了35倍,仅花费2周时间,将每15个SNPs划分为1个bin 标记,标记间平均遗传距离为2.3 cM,平均物理距离为600 kb。本研究在前人基础上构建的图谱标记间平均遗传距离为0.82 cM,平均物理距离为242 kb,平均每16 kb就能产生1个SNP,进一步提高了重组断点的分辨率。

标记的数量也是遗传图谱的一个重要指标,籼粳杂交能获得丰富的多态性位点[1],但会定位到大量的QTLs,使得后续的研究难以进行。所以进一步精细定位高级的作图群体,主要指近等基因系类群体,其通过连续重复回交获得,特征是群体中个体间遗传背景相似,仅带有少数供体片断,从而消除背景的干扰和主效基因对微效QTLs的掩盖作用,如导入系(Introgression lines,ILs)和替换系(Substitution lines,SLs)[15-16],其目的为在保证遗传背景更加相似的情况下得到准确的结果。本研究选择了在表型上具有较大差异的2个籼稻品种作为亲本,以期在去除相同的遗传背景后得到一定的多态性遗传标记,准确关联到差异表型的QTLs。

QTL及基因鉴定的终极目的是应用于育种。针对水稻的重要性状,当前已经定位和克隆了一些重要基因,但大部分的QTLs或基因都只停留在试验阶段,没能与育种实践结合起来。其中主要的1个原因就是部分QTLs受遗传背景影响很大,很难在不同群体中检测到相同的QTL位点,这很可能是因为QTL的上位性占据了主导地位[17]。主效QTL 或基因的定位,通常会选择遗传背景有较大差异的亲本构建群体,例如常用的籼粳杂交群体,对于群体中发现的有价值的QTL 想用于选育出好的品种进行推广,还需要进行多次回交、自交,严重影响育种进程。与此同时,得到的结果会因为材料或者鉴定的环境改变而无法在育种中展开,最终导致定位到的QTL或基因与育种实践相脱节[18-19]。本研究选择的2个籼稻品种,在遗传背景相对相似的情况下,获得的QTL或基因能更加稳定地表达,而且选择双亲时要注重在性状上互补,在高世代的RILs群体中才可以直接筛选到能稳定遗传的目标株系用于水稻品种选育,从而达到使QTL鉴定与育种同步进行、互相验证的目的。

猜你喜欢
子代亲本多态性
妊娠期高血压疾病与子代心血管疾病关系研究进展
孕前肥胖、孕期增重过度与子代健康
单核苷酸多态性与中医证候相关性研究进展
甘蔗常用亲本的田间自然耐寒性测定及评价
护骨素基因启动子区T950C多态性与2型糖尿病合并骨质疏松症的关系
杉木育种亲本生长和结实性状早期测评与选择
MTHFR C677T基因多态性与颈动脉狭窄及其侧支循环形成的关系
30 个常用甘蔗亲本资源初步评价分析
妊娠期女性MTHFR 677C>T基因多态性分布特征及其与妊娠高血压疾病的相关性
多亲本群体在作物育种中的应用(2020.7.6 莱肯生物)