基于高通量测序的动物基因组研究进展

2016-06-15 03:26梅楚刚王洪程昝林森李安宁赵春平王洪宝
关键词:高通量测序数据处理

梅楚刚,王洪程,昝林森,2,成 功,2,李安宁,2,赵春平,2,王洪宝,2

(1 西北农林科技大学 动物科技学院,陕西 杨凌 712100;2 国家肉牛改良中心,陕西 杨凌 712100)



基于高通量测序的动物基因组研究进展

梅楚刚1,王洪程1,昝林森1,2,成功1,2,李安宁1,2,赵春平1,2,王洪宝1,2

(1 西北农林科技大学 动物科技学院,陕西 杨凌 712100;2 国家肉牛改良中心,陕西 杨凌 712100)

[摘要]动物基因组学研究是进行动物遗传资源保护和利用以及分子育种的一项重要基础工作,高通量测序技术的出现为动物基因组学研究带来了革命性飞跃。文章对基于高通量测序技术的动物基因组从头测序、重测序、简化基因组测序等基因组学研究进行了综述,总结了相关的生物信息分析内容,并对不同分析工具及方法进行了比较分析。最后,讨论了当前高通量测序技术存在的问题,对该技术未来发展方向进行了展望。

[关键词]高通量测序;动物基因组;数据处理

第二代测序技术,也就是下一代测序技术(Next Generation Sequencing,NGS),是相对于以Sanger测序法为主的第一代传统测序方法而言的。相较于Sanger测序,NGS测序平台能一次对几十万到几百万条核苷酸序列同时进行测定,单次运行数据产出量大,因此又被通称为高通量测序技术[1]。NGS 3种主流测序技术分别为:2005年454 Life science公司推出的Roche/454焦磷酸测序、2006年Illumina公司研发的Illumina/Solexa聚合酶合成测序和2007年ABI公司推出的ABI/SOLiD连接酶测序技术。这3种技术在数据产出量及质量、周期运行时间及成本等方面也存在一定的差异[2]。其中,Roche/454技术的缺点是单次运行产出数据量比其他2种技术低,仅为0.5~1 Gb,但是其测序读长是最长的,达400 bp以上,比较适合对未知基因组从头测序;Illumina/Solexa测序读长较454测序短(通常为100 bp左右),但通量大、价位低,性价比最高,常用的Illumina Hiseq2000测序平台可达到200 Gb/次的数据产出,较适合大规模基因组重测序等;ABI/SOLiD读长最短,仅为50 bp,但其特别之处在于其双碱基编码使得测序准确率较高,特别适用于SNPs检测等。

尽管高通量测序技术的测序读段短,但其测序通量高,能与高效的生物信息分析手段结合,发挥出比传统Sanger测序更大的优势,为基因组学研究带来了机遇。本研究就高通量测序技术在动物基因组学中的研究新进展进行综述,并总结了高通量测序后期主要的生物信息分析内容及其数据处理工具。

1高通量测序技术在动物基因组研究中的应用

1.1全基因组De novo测序

全基因组De novo测序亦称为从头测序,是指不参考任何现有的序列信息,对某一未知基因组序列的物种进行基因组测序,然后综合运用多种生物信息学工具和方法对测序所得片段序列(reads)进行组装,进而获取该物种完整的基因组序列图谱。

1990年,人类基因组计划的启动标志着生命科学探索向基因组学研究迈出了里程碑式的一步。Sanger测序技术也逐渐走向成熟,线虫[3]、拟南芥[4]、小鼠等[5-6]多种重要模式物种基因组De novo测序也相继实施并顺利完成。

随着科技的飞速发展和研究的深入,高通量测序技术出现,大规模测序所需的成本相比第一代测序技术显著下降,运行周期也明显缩短。之后,多种测序手段的结合和利用,使得更多的物种全基因组De novo测序迅速且高效地开展,科学家对鸡[7]、猪[8]、牛[9-10]、羊[11]、马等[12]重要畜禽的基因组草图也先后构建完成。Li等[13]运用Solexa测序技术完成了熊猫基因组组装,得到了世界上首个完全运用高通量测序技术完成的大型物种基因组序列图谱,其基因组大小为2.4 Gb,该研究认为熊猫与狗的亲缘关系最近,而且研究还发现熊猫的T1R1基因失活,导致其不能感受到肉的鲜美,从而从分子水平解答了熊猫不吃肉的原因。随后,部分稀有和保护动物基因组序列也已经得到测定(表1)。如今,第二代测序技术应用于从头测序的研究越来越多,为后基因组学研究奠定了基础,促进了全面解析动物生长、发育、进化等遗传规律,对珍稀动物的保护和优异种质资源动物品种的利用具有重要意义。

表 1 部分采用高通量测序的动物基因组信息

1.2全基因组重测序

随着越来越多物种基因组的公布,全基因组重测序成为基因组学研究的一个新思路。通过该方法,可以将重测序结果与已有参考基因组序列进行比对,寻找出全基因组范围的SNPs、插入/缺失突变(Insertion-deletion,Indel)、拷贝数变异(Copy Number Variation,CNV)、结构变异(Structure Variation,SV)等遗传变异信息,预测动物重要经济性状候选基因,同时利用群体SNPs可探索不同亚种的群体结构、进化关系和起源历史等。

近年来,受国外品种的冲击,我国优良地方品种猪数量不断下滑,品种资源流失严重。2012年,我国四川农业大学Li等[23]对一头雌性藏猪进行了131×的从头测序及序列组装,同时对来自6个主要分布地的30头藏猪和18头家猪进行了全基因组重测序,通过比较同源基因构建系统进化树发现,藏猪与家猪的祖先可能分歧于690万年前,稍早于牦牛和家牛(490万年前),和人类与黑猩猩祖先的分歧时间(500~700万年)较接近。同时,经全基因组选择性清除分析,该研究在藏猪基因组中鉴定出268个与高海拔适应性相关的进化基因,在家猪基因组中鉴定出与肌肉生长、脂肪沉积、免疫等相关的516个受到较强人工选择的基因;另外,该研究还挖掘到了一些与低氧、嗅觉、能量代谢和药物反应等相关的选择区域和基因。该研究充分展示了我国地方品种猪在肉质、抗病、抗逆性等方面极具竞争力的性状和巨大的潜在优势,这也对后续地方品种保护和遗传育种工作具有极大的指导意义。

众所周知,大熊猫是我国国宝,是活化石,更是世界生物多样性保护的旗舰物种。然而,目前全世界大熊猫总量不足1 600只,濒危之势令人堪忧。Zhao等[32]对我国秦岭、岷山、邛崃山、大相岭、小相岭和梁山6个地区的34个野生大熊猫分别进行了全基因组重测序,每个个体平均测序深度为4.7×,与参考基因组比对共发现1 300个SNPs。该研究通过群体遗传分析,发现这6个大熊猫群体可以分为秦岭、岷山和邛崃山-大小相岭-梁山三大遗传系;通过重建熊猫的种群进化史,发现从熊猫起源至今经历了2次种群扩张、2次瓶颈和2次种群分化。该项目所涉及的地方适应性研究为挽救大熊猫,寻找其科学有效的保护方法提供了宝贵依据,同时也为其他濒危物种保护方法的评估和建立提供了典范。

目前,关于狗的起源问题仍争论不断。2013年,乌普萨拉大学研究人员[33]为研究狗和狼的不同驯化历史,利用高通量测序平台对来自世界不同地区的12只狼和代表14个不同品种的60只狗进行了全基因组测序,共鉴定出3 786 655个SNPs、506 148个Indels、26 619个CNVs;筛选出36个与狗驯化有关的基因和区域,其中有19个和脑功能相关(8个与神经系统通路发育相关),这或许可以解释狗和狼之间性情、行为差异的原因。另外,该研究还挖掘到了10个与淀粉消化和脂肪代谢相关的重要基因,从一定程度上解释了狗与狼在采食习惯和消化代谢能力方面的差异。通过进一步比较这些参与食物消化的基因,该研究团队认为狗起源于中东。

为研究家鸽的起源历史,国内外科学家联合用Illumina HiSeq 2000平台对一只岩鸽基因组进行了从头测序、拼接组装,并将其作为参考基因组,同时对36只家鸽以及2只野鸽进行了8×~20× 深度的基因组重测序,通过全基因组序列比较分析发现,伊朗与印度两地的鸽子存在很多遗传共性;研究人员还对2种野鸽基因组序列进行了比对,结果暗示了野鸽品种很可能来源于赛鸽[30]。另外,该项目研究人员还发现,EPhB2基因对鸽子羽冠的生长发育起着决定性作用,正常情况下鸽子没有羽冠,但是当EPhB2基因发生突变且为纯合子时,则长有羽冠,并且这一观点通过另外69只无羽冠的鸽子(包含57个品种)和61只长有羽冠的鸽子(包含22个品种)EPhB2基因型的检测分析得到进一步验证。

总体来说,随着高通量测序技术水平的不断提高和不同分析方法的相继研发,全基因组重测序不仅能有效鉴定全基因组范围的遗传变异,还能预测重要性状的遗传基因,探索物种群体遗传结构和进化历史,为优良品种资源的开发、利用和稀有动物的保护提供有力依据。

1.3简化基因组测序

SNPs是基因组中最为多见的遗传变异形式,常被用于QTLs定位研究,也是对经济性状相关的重要基因精细定位和克隆的基础。虽然大规模平行测序技术已被广泛用于全基因组范围内遗传变异的检测,且测序成本不断降低,但是对于基因组复杂的物种来说,大规模测序费用仍旧高得让人难以接受,因此探索高效、廉价的技术用以鉴定一些重要QTLs区域的SNPs有重要的现实意义。为此,简化基因组测序(Reduced Representation Genome Sequencing)技术应势而生,该技术可大大降低基因组的复杂度,快速检测出高密度的SNP位点,因而常用于分子标记的开发和高密度遗传图谱的构建。

简化基因组测序根据基因组文库类型和构建方法的不同可以分为3个大类:(1)简化测序,包括简化代表文库(Reduced-Representation Libraries,RRLs)和简化多态序列复杂性(Complexity reduction of Polymorphic Sequences,CroPS);(2)限制性酶切位点关联DNA测序(Restriction-site-Associated DNA sequencing,RAD-seq);(3)低覆盖基因分型文库测序,包括多元鸟枪法基因分型(Multiplexed Shotgun Genotyping,MSG)和基于测序的基因分型(Genotyping By Sequencing,GBS)[34]。动物基因组研究中常用的简化基因组测序有RRLs和RAD-seq等。

1.3.1简化代表文库测序简化代表文库(RRLs)测序是选择一种内切酶对基因组进行酶切,然后选择一定长度的酶切片段所对应的序列作为整个基因组序列的部分代表,用于测序(图1)。将群体中不同个体基因组DNA混合,用相同的核酸内切酶进行消化,回收相同大小的酶切片段,建立具有代表性的简化文库,然后进行高通量测序。对于有参考基因组序列的物种,直接将测序片段与参考序列进行比对;对于没有参考序列的物种,先对测序片段进行拼接、组装,然后对组装产生的序列进行比对,从而准确寻找SNPs。

图 1 RRLs测序示意图[34]

Van等[35]将取自3个不同品种的66头牛的基因组样混合,经HaeⅢ核酸酶酶切构建RRLs文库,并用Illumina Genome Analyzer测序平台测得5 000万条序列,经检测分析获得了62 042个候选的SNPs,从中随机挑选23 357个SNPs,应用基因分型验证,准确率为92%,经济、高效地开发了大规模的SNPs。

Kerstens等[36]将代表2种品系的6只火鸡个体的基因组样混合,然后经Sau3A核酸酶消化后建立了一个RRLs文库,进行高通量测序和数据分析,共鉴定出1.1万多个SNPs,随后研究人员取具有代表性的340个SNPs进行基因分型验证,准确率为95%。该研究是在火鸡基因组序列公布之前开展的,有力地证明了在物种基因组序列未知的情况下,RRLs测序技术仍可以有效地鉴定出大批高质量的SNPs。

1.3.2RAD-seqRAD-seq是一种基于酶切的简化基因组测序技术(图2),该技术的原理简单来说就是用限制性核酸内切酶对目标基因组DNA进行消化,然后加上P1接头,将带有不同P1接头的片段混合在一起再加上P2接头,最后PCR扩增富集RAD tags并测序。RAD-seq技术比传统方法操作简单,更重要的是不管测序物种有没有参考基因组,都可以实现SNPs的快速开发和分型。在无参考基因组的情况下,RAD-seq技术在获得多态位点信息的同时,也就区分了每一个样本的基因型;而对有参考基因组的物种而言,数据处理分析更为简便,将所得序列与参考基因组比对便可知晓某一多态位点的基因型。

图 2 RAD-seq示意图

2008年,Baird等[37]选用SbfI核酸酶分别对F2代和亲本共96条三刺鱼(Gasterosteusaculeatus)的基因组进行消化,然后首次运用RAD-seq技术测序分析,共鉴定出13 000 个SNPs,并且成功定位得到体侧骨板缺失和弱骨盆结构刺退化2个重要性状的遗传基础。此后,Hohenlohe等[38]也应用RAD-Seq技术对2个海洋和3个淡水群体的100个三刺鱼个体间基因组序列的差异进行了检测, 每个个体获得了45 000多个SNPs,并在群体基因组水平上扫描确认了先前鉴定出来的适应性重要的基因组区域。

2013年,我国科研人员为探究一个包含7只白色个体和9只普通黄色个体老虎家系毛色的遗传规律,对其中3只亲本虎进行了全基因组重测序,并对其后代13个个体分别进行了RAD-Seq测序,分析结果表明,SLC45A2基因中的A477V非同义突变导致了氨基酸的改变,最终决定了白虎的毛色[39]。为验证这一观点,研究人员对另外无亲缘关系的130只虎的SLC45A2基因型进行分析,结果进一步证实了前面的结论。另外,研究人员还对SLC45A2蛋白质的三维立体结构进行了预测,推断其是一种具有12个跨膜区的转运蛋白,认为该基因A477V位点的非同义突变改变了蛋白质氨基酸的组成和结构,影响了转运通道的通畅,从而导致老虎毛色的差异。该研究用RAD-seq技术解开了科学家们心中白虎毛色遗传机制的困惑,也为虎的遗传多样性保护提供了科学依据。

与传统的技术相比,简化基因组测序技术能简化复杂的基因组,且不受参考基因组的限制,可高性价比地大规模开发SNPs标记,在大量样本动物种质资源鉴定和分子育种中具有广阔的应用前景。

2高通量基因组测序数据处理及其常用工具

无论是全基因组从头测序还是重测序,为在一定程度上挖掘并解释高通量基因组测序所产生的海量数据,都需要对测序所得数据进行处理和分析。在2种试验过程中基因组都是被随机打断进行测序得到一定长度的大量短DNA片段序列(reads),由于2种基因组测序的应用目的不同,主要产生2种数据处理办法,分别为短序列组装(assemble)以及短序列与参考基因组的比对(mapping)。

在未知基因组序列的从头测序试验中,最终得到的大量DNA片段并不知道来源于未知基因组的什么位置。因此,需要将高通量测序产生的海量reads排序、拼接,从而组装出完整的基因组序列(图3)。具体的说就是,利用不同reads间的重叠区域(overlap)判断它们之间的前后位置顺序,进而将多条reads短序列组装成contigs,然后构建Paired-end或Mate-pair文库,选取多种大片段(如3,6,10,20 kb)进行测序获得两端reads,再通过这些序列判断上一步所得contigs之间的位置关系,按顺序排列拼接便可组装成 Scaffolds,最后补填空缺(gaps)碱基序列获取全基因组序列。在从头测序试验中,基因组组装拼接常用的软件有:Velvet、SOAPdenovo、AbySS和CLC Genomic Work-bench等[40]。Velvet是一款基于lunix系统的拼接软件,是短序列(25~500 bp)拼接的首选工具,但其缺点在于不能同时使用多个CPU进行工作。ABYSS程序可以对大型基因组进行从头拼接,其可以同时进行多个拼接任务,大大提高了组装速度。SOAPdenovo是BGI公司自主研发的一种拼接软件,在linux系统下运行,可进行不同长度基因组的拼接。CLC Genomic Work-bench是一种综合性跨平台拼接软件,在windows、Mac OS X和Linux操作系统下均可运行,并且可实现拼接结果的可视化。

图 3 De novo测序及组装示意图[41]

与从头测序数据处理方法不同,重测序数据分析的关键环节就是匹配(mapping),即将所得reads比对到现有的参考基因组序列上,其基本思想同Blast类似,但是其处理的数据量和速度要比Blast高很多。目前,对高通量测序数据进行序列比对的常见工具有MAQ[42]、SOAP2[43]、Bowtie[44]、BWA[45]等,不同的比对软件性能也各不相同[46]。MAQ的主要特点是比对速度不受reads序列长短的影响;SOAP2和Bowtie准确率和处理速度较高,而且内存消耗低,但弊端在于二者均处理不了SOLID测序平台产生的csfasta格式数据;BWA对内存消耗也非常低,个人用户的计算机都可以做到,其处理速度和准确度均高于MAQ。

通过比对,分别运用不同的软件或网站(表2)寻找不同个体间全基因组范围的SNP、Indel、CNV、SV等遗传变异,为从基因组水平解释物种某些特殊生理、生态特征等提供依据。与此同时,在群体重测序中,还可以对不同亚群进行群体遗传分析,如群体进化分析、连锁不平衡分析、主成分分析等,探索不同亚群的起源和进化历史(图4)。当然,不同工具都有其各自的优势和弊端,在数据处理过程中,应根据需要选择多种不同工具综合分析,以期得到全面可靠的结果。

表 2 常见生物信息分析内容及其工具

图 4 基因组重测序数据主要分析流程

3展望

近年来,高通量测序技术取得了长足进步,在生命科学的多个领域发挥着极大的作用,使很多以前研究难题的解决成为可能,但其局限性也不容忽视。虽然高通量测序的速度在不断提高,但后期巨大的数据量对生物信息学分析能力的要求也越来越高,研发快速准确的分析软件和方法,有效利用这些数据,从海量的数据中充分挖掘出其中的生物学意义,以及如何方便地检索和交换数据成为一个重大课题。再者,虽然高通量测序技术与第一代测序技术相比价格有了明显的降低,但其较适合大规模的测序,总体价格也会让一般客户望而却步。因此,研发经济实惠的测序技术也是当前测序研究领域的迫切需要。

测序技术日新月异,目前以单分子测序为特点的单分子DNA测序技术、纳米孔单分子测序技术等既经济又实惠的第三代DNA测序技术也已经出现并不断发展成熟[47]。相信测序技术仍会不断地发展和成熟,测序研究的成本定会不断降低,对庞大数据的生物信息学分析水平也会不断地提高,高通量测序将更好、更多的应用到动物基因组学研究中的众多领域。

[参考文献]

[1]Ansorge W J.Next-generation DNA sequencing techniques [J].New Biotechnology,2009,25(4):195-203.

[2]Glenn T C.Field guide to next-generation DNA sequencers [J].Molecular Ecology Resources,2011,11(5):759-769.

[3]Hillier L W,Marth G T,Quinlan A R,et al.Whole-genome sequencing and variant discovery in C.elegans [J].Nature Methods,2008,5(2):183-188.

[4]Kaul S,Koo H L,Jenkins J,et al.Analysis of the genome sequence of the flowering plant Arabidopsis thaliana [J].Nature,2000,408(6814):796-815.

[5]Powell K,Abbott A,Check E.Mouse genome:The real deal [J].Nature,2002,420(6915):456.

[6]Waterston R H,Lindblad-Toh K,Birney E,et al.Initial sequen-cing and comparative analysis of the mouse genome [J].Nature,2002,420(6915):520-562.

[7]Hillier L D W,Miller W,Birney E,et al.Sequence and comparative analysis of the chicken genome provide unique perspectives on vertebrate evolution [J].Nature,2004,432(7018):695-716.

[8]Archibald A L,Bolund L,Churcher C,et al.Pig genome sequence-analysis and publication strategy [J].BMC Genomics,2010,11(1):1-5.

[9]Liu Y,Qin X,Song X Z,et al.Bos taurus genome assembly [J].BMC Genomics,2009,10(1):180.

[10]Zimin A V,Delcher A L,Florea L,et al.A whole-genome assembly of the domestic cow,Bos taurus [J].Genome Biology,2009,10(4):R42.

[11]Archibald A L,Cockett N E,Dalrymple B P,et al.The sheep genome reference sequence:a work in progress [J].Animal Genetic,2010,41(5):449-453.

[12]Wade C M,Giulotto E,Sigurdsson S,et al.Genome sequence,comparative analysis,and population genetics of the domestic horse [J].Science,2009,326(5954):865-867.

[13]Li R,Fan W,Tian G,et al.The sequence and de novo assembly of the giant panda genome [J].Nature,2010,463(7279):311-317.

[14]Dalloul R A,Long J A,Zimin A V,et al.Multi-platform next-generation sequencing of the domestic turkey (Meleagris gallopavo):genome assembly and analysis [J].PLoS Biology,2010,8(9):e1000475.

[15]Xu X,Nagarajan H,Lewis N E,et al.The genomic sequence of the Chinese hamster ovary (CHO)-K1 cell line [J].Nature Biotechnology,2011,29(8):735-741.

[16]Kim E B,Fang X,Fushan A A,et al.Genome sequencing reveals insights into physiology and longevity of the naked mole rat [J].Nature,2011,479(7372):223-227.

[17]Fang X,Zhang Y,Zhang R,et al.Genome sequence and global sequence variation map with 5.5 million SNPs in Chinese rhesus macaque [J].Genome Biology,2011,12(7):R63.

[18]Yan G,Zhang G,Fang X,et al.Genome sequencing and comparison of two nonhuman primate animal models,the cynomolgus and Chinese rhesus macaques [J].Nature Biotechnology,2011,29(11):1019-1023.

[19]Renfree M B,Papenfuss A T,Deakin J E,et al.Genome sequence of an Australian kangaroo,Macropus eugenii,provides insight into the evolution of mammalian reproduction and development [J].Genome Biology,2011,12(8):R81.

[20]Castoe T A,de Koning A P J,Hall K T,et al.Sequencing the genome of the Burmese python (Pythonmolurusbivittatus) as a model for studying extreme adaptations in snakes [J].Genome Biology,2011,12(7):1-8.

[21]Star B,Nederbragt A J,Jentoft S,et al.The genome sequence of Atlantic cod reveals a unique immune system [J].Nature,2011,477(7363):207-210.

[22]Groenen M A M,Archibald A L,Uenishi H,et al.Analyses of pig genomes provide insight into porcine demography and evolution [J].Nature,2012,491(7424):393-398.

[23]Li M,Tian S,Jin L,et al.Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars [J].Nature Genetics,2013,45(12):1431-1438.

[24]Qiu Q,Zhang G,Ma T,et al.The yak genome and adaptation to life at high altitude [J].Nature Genetics,2012,44(8):946-949.

[25]Orlando L,Ginolhac A,Zhang G,et al.Recalibrating equus evolution using the genome sequence of an early Middle Pleistocene horse [J].Nature,2013,499(7456):74-78.

[26]Dong Y,Xie M,Jiang Y,et al.Sequencing and automated whole-genome optical mapping of the genome of a domestic goat (Capra hircus) [J].Nature Biotechnology,2013,31(2):135-141.

[27]Jiang Y,Xie M,Chen W,et al.The sheep genome illuminates biology of the rumen and lipid metabolism [J].Science,2014,344(6188):1168-1173.

[28]Ge R L,Cai Q,Shen Y Y,et al.Draft genome sequence of the Tibetan antelope [J].Nature Communications,2013,4:1858.

[29]Huang Y,Li Y,Burt D W,et al.The duck genome and transcriptome provide insight into an avian influenza virus reservoir species [J].Nature Genetics,2013,45(7):776-783.

[30]Shapiro M D,Kronenberg Z,Li C,et al.Genomic diversity and evolution of the head crest in the rock pigeon [J].Science,2013,339(6123):1063-1067.

[31]Zhan X,Pan S,Wang J,et al.Peregrine and saker falcon genome sequences provide insights into evolution of a predatory lifestyle [J].Nature Genetics,2013,45(5):563-566.

[32]Zhao S,Zheng P,Dong S,et al.Whole-genome sequencing of giant pandas provides insights into demographic history and local adaptation [J].Nature Genetics,2013,45(1):67-71.

[33]Axelsson E,Ratnakumar A, Arendt M L,et al.The genomic signature of dog domestication reveals adaptation to a starch-rich diet [J].Nature,2013,495(7441):360-364.

[34]Davey J W,Hohenlohe P A,Etter P D,et al.Genome-wide genetic marker discovery and genotyping using next-generation sequencing [J].Nature Reviews Genetics, 2011,12(7):499-510.

[35]Van Tassell C P,Smith T P,Matukumalli L K,et al.SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries [J].Nature Methods,2008,5(3):247-252.

[36]Kerstens H H D,Crooijmans R P M A,Veenendaal A,et al.Large scale single nucleotide polymorphism discovery in unsequenced genomes using second generation high throughput sequencing technology:applied to turkey [J].BMC Genomics,2009,10(1):1-11.

[37]Baird N A,Etter P D,Atwood T S,et al.Rapid SNP discovery and genetic mapping using sequenced RAD markers [J].PLoS ONE,2008,10(3):e3376.

[38]Hohenlohe P A,Bassham S,Etter P D,et al.Population genomics of parallel adaptation in three spine stickleback using sequenced RAD tags [J].PLoS Genetics,2010,6(2):e1000862.

[39]Xu X,Dong G X,Hu X S,et al.The genetic basis of white tigers [J].Current Biology,2013,23(11):1031-1035.

[40]朱大强,李存,陈斌,等.四种常用高通量测序拼接软件的应用比较 [J].生物信息学,2011(2):106-112.

Zhu D Q,Li C,Chen B,et al.Comparison of four widely used high-throughput sequencing assembly software [J].China Journal of Bioinformatics,2011(2):106-112.(in Chinese)

[41]Li R,Zhu H,Ruan J,et al.De novo assembly of human genomes with massively parallel short read sequencing [J].Genome Research,2010,20(2):265-272.

[42]Li H,Ruan J,Durbin R. Mapping short DNA sequencing reads and calling variants using mapping quality scores [J].Genome Research,2008,18(11):1851-1858.

[43]Li R,Yu C,Li Y R,et al.SOAP2:An improved ultrafast tool for short read alignment [J].Bioinformatics,2009,25(15):1966-1967.

[44]Langmead B,Trapnell C,Pop M,et al.Ultrafast and memory-effcient alignment of short DNA sequences to the human genome [J].Genome Biology,2009,10(3):R25.

[45]Li H,Durbin R.Fast and accurate short read alignment with Burrows-Wheeler transform [J].Bioinformatics,2009,25(14):1754-1760.

[46]杨烨,刘 娟.第二代测序序列比对方法综述 [J].武汉大学学报:理学版,2012,58(5):463-470.

Yang Y,Liu J.The survey of sequence alignment methods based on the second generation sequencing [J].Journal of Wuhan University:Nature Science Edition,2012,58(5):463-470.(in Chinese)

[47]张得芳,马秋月,尹佟明,等.第三代测序技术及其应用 [J].中国生物工程杂志,2013,33(5):125-131.

Zhang D F,Ma Q Y,Yin T M,et al.The third generation sequencing technology and its application [J].China Biotechnology,2013,33(5):125-131.(in Chinese)

Research progress on animal genome research based on high-throughput sequencing technology

MEI Chu-gang1,WANG Hong-cheng1,ZAN Lin-sen1,2,CHENG Gong1,2,LI An-ning1,2,ZHAO Chun-ping1,2,WANG Hong-bao1,2

(1CollegeofAnimalScienceandTechnology,NorthwestA&FUniversity,Yangling,Shaanxi712100,China;2NationalBeefCattleImprovementCenterinChina,Yangling,Shaanxi712100,China)

Abstract:Animal genomics research is important foundational work for protection,utilization,and molecular breeding of animal genetic resources.The emergence of high-throughput sequencing technology has brought revolutionary leap for animal genomics research.In this paper,we review the development of animal genomics research base on high-throughput sequencing technology,including whole genome de novo sequencing,whole genome re-sequencing,reduced representation genome sequencing (RRGS),and other areas of the genomics research work. We also summarize the main bioinformatics analysis content and compare different tools of data processing.Finally,the disadvantages and development prospects of high-throughput sequencing technology were discussed.

Key words:high-throughput sequencing;animal genome;data processing

DOI:网络出版时间:2016-02-0209:3710.13207/j.cnki.jnwafu.2016.03.007

[收稿日期]2014-07-20

[基金项目]“十二五”国家863计划项目(2013AA102505,2011AA100307-02);国家自然科学基金项目(31272411);“十二五”国家科技支撑计划项目(2011BAD28B04-03);“十二五”国家转基因育种重大专项(2013ZX08007-002);国家肉牛牦牛产业技术体系建设专项(CARS-38)

[作者简介]梅楚刚(1986-),男,河南信阳人,在读博士,主要从事基因组学研究。E-mail:meichugang@163.com[通信作者]昝林森(1963-),男,陕西扶风人,教授,博士生导师,主要从事肉牛、奶牛遗传改良与种质创新研究。E-mail:zanlinsen@163.com

[中图分类号]S813;Q-3

[文献标志码]A

[文章编号]1671-9387(2016)03-0043-09

猜你喜欢
高通量测序数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
无人机测绘数据处理关键技术及运用
环状RNA在疾病发生中的作用
川明参轮作对烟地土壤微生物群落结构的影响
多穗柯转录组分析及黄酮类化合物合成相关基因的挖掘
人参根际真菌群落多样性及组成的变化
LncRNAs作为miRNA的靶模拟物调节miRNA
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用