基于银鲳RNA-seq数据中SSR标记的信息分析

2016-11-24 07:31彭士明高权新张晨捷施兆鸿
安徽农业科学 2016年28期
关键词:基元微卫星碱基

刘 磊,彭士明,高权新,张晨捷,施兆鸿*

( 1.中国水产科学研究院东海水产研究所,农业部东海与远洋渔业资源开发利用重点实验室,上海 200090; 2.上海海洋大学水产与生命学院,上海 201306)



基于银鲳RNA-seq数据中SSR标记的信息分析

刘 磊1,2,彭士明1,高权新1,张晨捷1,施兆鸿1,2*

( 1.中国水产科学研究院东海水产研究所,农业部东海与远洋渔业资源开发利用重点实验室,上海 200090; 2.上海海洋大学水产与生命学院,上海 201306)

[目的]开发银鲳分子标记技术。[方法]通过对银鲳(Pampusargenteus)进行高通量转录组测序(RNA-seq)获得银鲳转录组原始试验数据,经过拼接后,获得3 715 603条unigene序列。采用生物信息学分析软件MISA对所有unigene进行简单重复序列(simple sequence repeat,SSR)位点鉴定。同时,利用软件对银鲳转录组SSR的多态性进行评价。[结果]银鲳转录组水平上,共鉴定出107 007个SSR位点,分布在97 289条unigene中,发生频率为2.62%,SSR平均密度为476个/Mbp。在银鲳转录组SSRs中,单核苷酸与二核苷酸重复序列为主要重复类型,分别占总SSRs的48.14%和34.10%。银鲳转录组数据中SSR序列共包括424种重复基元类型,单核苷酸重复基元A占较高比例,占同一重复类型SSRs的49.57%,二核苷酸重复基元TG/AC和三核苷酸重复基元GAG/AAC是优势重复基元,分别占同一重复类型SSRs的42.43%和9.61%。重复序列长度在12 bp以上的SSR标记位点数占总SSR的76.95%,具有丰富的多态性。[结论]银鲳SSRs位点具有极大的可开发性,可为银鲳遗传多样性研究、遗传图谱构建及分子辅助育种提供有效工具。

银鲳;转录组测序;SSR标记

SSR(Simple Sequence Repeat)标记,又称微卫星DNA,是目前最常用的微卫星标记之一。由于SSR标记与其他分子标记相比,具有保守性高、多态性丰富、共显性遗传以及在基因组中分布广泛等特点[1],近年来在构建动物遗传图谱[2]、种质鉴定[3-4]、基因定位[5]、遗传多样性分析[6]、分类与进化[7-8]以及分子标记辅助育种[9]等领域被广泛应用。目前在水生动物研究中,已经对牙鲆(Paralichthysolivaceus)[10]、二长棘鲷(Parargyropsedita)[11]、兴国红鲤(Cyprinuscarpiovar.singuonensis)[12]、中国明对虾(Fenneropenaeuschinensis)[13]等品种进行了转录组测序,并基于测序结果对所得数据进行了深入分析。

银鲳(Pampusargenteus)属鲈形目鲳亚目鲳科鲳属,为暖温性近海中下层鱼类,分布于印度洋、印度—太平洋、朝鲜和日本西部海域,在我国沿海地区均有分布,是主要的捕捞鱼种之一,属名贵食用鱼类。目前国内外已经开展了银鲳繁育和养殖研究[14-16]。近年来不论是养殖还是自然海域捕捞的银鲳,均出现个体小型化的现象,种质资源有衰退迹象;长期累代的养殖也会导致遗传性状单一;同时我国沿海分布的银鲳,不仅形态上存在差异,而且对环境的适应性也有很大不同。因此,开展银鲳转录组SSR的多态性研究具有重要的理论和现实意义。笔者基于银鲳RNA-seq数据中SSR标记的信息,通过对养殖银鲳群体转录组测序,从其分布特点、频率及多态性方面分析银鲳微卫星在总RNA水平的分布特点,以期为银鲳基因克隆、遗传图谱构建、遗传多样性分析等提供参考。

1 材料与方法

1.1 试验材料 银鲳取自上海市水产研究所启东基地,为中国水产科学研究院东海水产研究所自行繁育的1龄银鲳,从养殖池中随机捞取5尾,平均体重为(18.8±7.2)g,平均体长为(9.1±1.1)cm。采样时间为2015年8月。

1.2 RNA提取及cDNA文库构建 银鲳解剖后分别取肝脏组织装入冻存管内,加入RNA保存液于-80 ℃冰箱保存。银鲳肝脏组织总RNA提取参照Aidlab公司的RNApure超总RNA快速提取试剂盒操作说明书进行。总RNA质量和数量经安捷伦生物分析仪2100( Agilent)、紫外分光光度计Bioanalyzer 2000进行检测,RNA完整数大于8.0即可用于后续cDNA文库构建。

1.3 RNA测序及组装 利用HiSeqTM2500测序仪对构建的银鲳cDNA进行转录组测序,5个被测序的样本总计获得27 G的原始数据,测序共获得347 435 132条原始读数,去除质量较低以及重复的原始读数后,得到338 525 690条纯净读数。使用转录组de novo 组装软件Trinity对纯净读数进行组装,并进行去冗余处理和进一步拼接,共获得3 715 603条unigene序列。

1.4 SSR标记筛选 通过SSR分析软件MicroSAtellite(MISA)对3 715 603条unigene序列进行SSR搜索,设定筛选条件:1~6 bp的SSR单元长度,其序列总长度≥10 bp,单碱基的重复基元数≥10,二碱基的重复次数≥6,三、四、五、六碱基重复次数≥5。

1.5 数据分析 利用Excel对银鲳转录组SSR数据进行分类统计分析。

2 结果与分析

2.1 银鲳转录组中SSR位点的数量与分布 使用软件对组装所得的3 715 603条unigene序列进行比对筛选,结果发现97 289条unigene序列符合SSR序列的条件,发生频率(含有SSR的unigene数目/总unigene数目)为2.62%。在这些unigene序列中有76 774条包含单一SSR位点,占含有SSR序列条数的78.91%,剩余的20 515条unigene的SSR位点数目均超过1个,占含有SSR序列条数的21.09%。

共鉴定发现107 007个SSR位点,重复基元数目为424种,在这些类型的重复基元中,数量最多的SSR类型是五核苷酸基元,为152种,其次为四核苷酸和三核苷酸碱基基元,分别含有143和59种(表1)。微卫星的平均覆盖深度(鉴定出的微卫星个数/uningene总数)为2.88%,有15 233个SSR的存在形式为复合形,占总SSR数量的14.24%。平均距离(银鲳转录所得的unigene总长度/微卫星数量)是最佳体现密度的参数,平均每2.10 kbp出现1个SSR,即平均密度为476个/Mbp。

银鲳转录组中含有大量的SSR,但不同种类核苷酸组成的SSR总量存在较大差异。在这6种类型中,SSR数目最多的是单碱基基元组成的重复形成,为51 510个,所占比例为48.14%,二、三、四、五、六碱基重复类型的SSR数量依次递减,重复形式最少的SSR是六碱基重复,仅有100个,占总SSR的比例为0.09%(表1)。

表1 SSR在银鲳转录组中的出现频率

2.2 银鲳转录组SSR的特点 从SSR类型基元重复次数可以看出,发生频率最高的是6~10次重复,此区间内的SSR数量为46 539个,占SSR总数的43.49%;其次为11~15次重复,有32 473个SSR,占30.35%;5次重复的SSR有8 394个,占7.84%;所占比例较低的类型是25次以上重复的SSR,所占比例仅为3.62%(表2)。表明随着同一重复类型SSR重复次数的增加SSR总数目呈递减趋势。

从出现频率(不同重复类型SSR数目/含有SSR的unigene数量)的角度研究发现,出现频率在不同类型SSR重复中差异较明显,出现频率最高的是单核苷酸重复,所占比例为52.95%;其次是二碱基和三碱基重复,分别为37.51%和16.19%;四、五、六碱基重复出现的频率较低,仅为3.34%,不同SSR类型所占比例随着核苷酸个数增加呈递减的趋势(表2)。在单碱基SSR中,A类型组成的SSR数量最多,为25 532个;C类型组成的SSR数量最少,仅为572个。在二碱基SSR中,TG/AC所占比例最高,为42.43%,其次为GT/CA,GC/CG所占比例最少,为0.05%(图1)。三碱基SSR中,以GAG/AAC、AAT/CAG、ATT/CCT 3种为主,分别占三碱基SSR总数的9.61%、7.55%和7.08%(图2)。出现频率最低的是五、六核苷酸SSR,所占比例仅为0.48%和0.10%。

2.3 银鲳转录组SSR多态性评价 统计SSR长度分布并进行分析,结果显示,银鲳转录组的SSR片段长度大部分分布在10~449 bp,其中,12~<20 bp含有数量最多的SSR片段,共有48 820个,占总SSR个数的45.06%;≥20 bp的SSR有34 125个,占31.89%;<12 bp的SSR数量最少,为24 662个,占23.05%(图3)。按照不同长度将SSR分为2类:具有高度的多态性(Ⅰ型),其SSR长度≥20 bp;多态性中等(Ⅱ型),其SSR长度12~<20 bp;而<12 bp的SSR多态性较低,但其突变潜力较高。根据该结果,可推测该研究中31.89%的SSR为Ⅰ型SSR,多态性高;Ⅱ型SSR的比例为45.06%,具有中等多态性;以上2种类型的SSR具有较高的潜在可用性。

表2 银鲳SSR不同基序长度和重复次数的分布规律

图1 银鲳转录组SSR二碱基基元重复类型分布Fig.1 Distribution of dinucleotide motifis repeat SSR identified by transcriptomoc sequencing in P.argenteus

图2 银鲳转录组SSR三碱基基元重复类型分布Fig.2 Distribution of trinucleotide motifis repeat SSR identified by transcriptomoc sequencing in P.argenteus

图3 银鲳转录组SSR长度分布Fig.3 Length distribution of transcriptomic SSR in P.argenteus

3 结论与讨论

近年来通过转录组数据的研究得到含有微卫星的序列,并对其遗传学研究已有很多报道[17-18]。采用转录组高通量测序,研究者从牙鲆转录组测序所得序列中成功筛选得到了42 183个SSR 标记[10];Fu等[19]从鲢鱼转录组测序结果中鉴定出13 327个SSR 标记;Liao等[20]从鲫鱼转录组拼接所得序列中得到 11 295个SSR标记。由此可知,该研究途径已在鱼类SSR标记位点的大规模筛选中成功应用。该研究通过Illumina 高通量测序平台对银鲳肝组织转录组测序,从大量组装所得序列中筛选获得SSR位点。相对于传统微卫星标记的筛选方式,此方式筛选效率较高,工作量相对较小,适合大范围开拓SSR标记位点。基因的功能可能与这些被发现的位点有关,以此可为后续遗传图谱构建、QTL定位等奠定基础。

该研究发现,在3 715 603个拼接所得的unigene序列中筛选得到107 007个微卫星标记。从得到的微卫星数量上看,其数目远大于其他物种转录得到的SSR数量,分析发现,序列拼接的长度及测序的数据量是其主要原因,李超等[10]在对牙鲆SSR标记信息的分析中,对牙鲆和团头鲂转录组测序获得的微卫星标记数目上的较大差异进行了分析。该研究获得的测序数据量大,它是将5个测序样本混合拼接,拼接得到的unigene数量庞大,因此鉴定出来的SSR标记数量较多,其覆盖度也更广。

该研究发现,银鲳所有鉴定出的微卫星标记中,单核苷酸重复微卫星数目所占比例最高,为48.14%;其次为二核苷酸,所占比例为34.10%,其中TG/AC占主要比例,占该重复类型总数的42.43%。李偲等[21]对草鱼的研究发现,其二核苷酸重复类型数量最多,且 AC/GT 所占比例为50.3%;Wang等[22]对草鱼新型EST-SSR分子标记的开发研究发现,AC/GT的数目最多,为60.19%;宋春妮等[23]对日本蟳(Charybdisjaponica)的研究发现二碱基AC重复类型在基因组中的含量非常高。上述结果与该研究结果有所差异,银鲳二碱基不是占有比例最高的,单碱基重复类型处于优势地位,但在二碱基重复类型的分布中,AC重复类型在各物种中含量极其丰富,这种相似性的原因有待于进一步研究。各物种的重复基元存在种属特异性,该研究结果显示,银鲳中CG类型仅为5个。研究表明,在牙鲆[10]中CG仅占总SSR的0.06%,斑海豹[24]为0.2%,在日本沼虾[25]中未发现,而在桃树[26]、大豆[27]等植物中未发现CG重复基元。该情况产生的原因与生物进化是否相关,有待于后续进一步研究。在该研究中,重复类型所占比例居于第三位的是三碱基重复类型,占SSR总数的14.72%,其中以GAG/AAC、AAT/CAG、AAT/CCT 3种为主,这与徐鹏等[13]和Jin等[25]的研究结果不同,可能是由于研究的组织差异及鉴定的微卫星总数目差异引起的,该研究基于转录组测序得到的微卫星数目多,且是基于公共数据库获得的,从零星EST库中筛选的SSR序列数量不足以支撑整个基因组,其SSR分布情况较片面。

SSR在整个基因组的不同位点都有分布,多态性是分析分子标记性能优劣的重要依据,SSR片段长度又是判断其多态性的重要依据[28]。从转录组数据筛选得到的SSR中,重复序列长度在12 bp以上的SSR标记位点数占总SSR数的76.95%,多态性较丰富,基于该研究结果能够进行有针对性的引物设计。在QTL定位研究及遗传连锁图谱的构建中,SSR多态性越高,所建立的图谱越精密精确,基因的定位越精准[29]。

对于银鲳种质资源衰退、遗传性状单一及种群受环境影响较大等诸多尚未解决的问题,可以通过微卫星标记找出其是否为遗传学方面的原因。基于SSR标记,利用微卫星引物对银鲳不同群体进行扩增,筛选扩增出的稳定条带进行分析。由于微卫星具有高度多态性的特性,且遵循孟德尔遗传规律,可以通过观察不同个体位点扩增情况,进一步判断遗传情况。

该研究基于银鲳转录组的高通量测序信息,初次筛选获得大量的SSR标记,对银鲳SSR的分布特征进行分析,不仅在RNA水平上体现了银鲳SSR的分布特点和规律,而且也为开发银鲳功能基因奠定SSR分子标记基础,同时也为银鲳QTL定位、基因克隆、遗传结构分析及其他遗传学研究提供有效的分子标记。

[1] 赵莹莹,朱晓琛,孙效文,等.虾夷扇贝的多态性微卫星座位[J].动物学报,2006,52(1):229-233.

[2] SONG W T,LI Y Z,ZHAO Y W,et al.Construction of a high density microsatellite genetic linkage map and mapping of sexual and growth-related traits in half-smooth tongue sole(Cynoglossussemilaevis)[J].Plos One,2012,7(11):1-13.

[3] 柳明,喻达辉,黄桂菊,等.中国海南三亚大珠母贝不同年代种群的遗传变异研究[J].南方水产科学,2011,7(1):26-31.

[4] PEREZ E R,TAKAGI M,TANIGUCHI N.Genetic variability and pedigree tracing of a hatchery-reared stock of red sea bream(Pagrusmajor)used for stock enhancement,based on microsatellite DNA markers[J].Aquaculture,1999,173(1):413-423.

[5] OZAKI A,YOSHIDA K,FUJI K,et al.Quantitative trait loci(QTL)associated with resistance to a monogenean parasite(Benedeniaseriolae)in yellowtail(Seriolaquinqueradiata)through genome wide analysis[J].PLoS One,2013,8(6):1-14.

[6] 孙成飞,叶星,董浚键,等.罗氏沼虾6个养殖群体遗传多样性的微卫星分析[J].南方水产科学,2015,11(2):20-26.

[7] 魏继海,赵金良,吴俊伟,等.尼罗罗非鱼(♀)×萨罗罗非鱼(♂)杂交F2与F3群体遗传特征的微卫星分析[J].南方水产科学,2016,12(1):30-35.

[8] TSAI C C,SHIH H C,WANG H V,et al.RNA-Seq SSRs of moth orchid and screening for molecular markers across genus Phalaenopsis(Orchidaceae)[J].PLoS One,2013,10(11):1-18.

[9] BOSAMIA T C,MISHRA G P,THANKAPPAN R A,et al.Novel and stress relevant EST derived SSR markers developed and validated inPeanut[J].PLoS One,2015,10(6):1-19.

[10] 李超,候吉伦,王桂兴,等.基于牙鲆RNA-seq数据中SSR标记的信息分析[J].海洋渔业,2015,37(2):122-127.

[11] 杨兵,林琳,李纯厚,等.基于高通量测序的二长棘鲷微卫星标记开发与评价[J].南方水产科学,2015,11(4):116-120.

[12] 岳华梅,翟晴,宋明月,等.基于转录组测序的兴国红鲤微卫星标记筛选[J].淡水渔业,2016,46(1):24-28.

[13] 徐鹏,周令华,田丽萍,等.从中国对虾ESTs中筛选微卫星标记的研究[J].水产学报,2003,27(3):213-218.

[14] 施兆鸿,马凌波,高露姣,等.人工育苗条件下银鲳仔稚幼鱼摄食与生长特性[J].海洋水产研究,2007,28(4):38-46.

[15] 施兆鸿,彭士明,王建钢,等.人工养殖银鲳子代胚胎发育及仔稚幼鱼形态观察[J].中国水产科学,2011,18(2):267-274.

[16] 彭士明,施兆鸿,高权新,等.增加饲料中VC质量分数对银鲳血清溶菌酶活性及组织抗氧化能力的影响[J].南方水产科学,2013,9(4):16-21.

[17] TIAN C X,GLIAN X F,YANG M,et al.New microsatellite locifor the mandarin fishSinipercachuatsiand their application in population genetic analysis[J].Genet Mol Res,2014,13(1):546-558.

[18] XIAO T Q,LU C Y,XU Y L,et al.Screening of SSR markers associated with scale cover pattern and mapped to a genetic linkage map of common carp(CyprinuscarpioL.)[J].J Appl Genet,2015,56(2):261-269.

[19] FU B D,HE S P.Transcriptome analysis of silver carp(Hypophthalmichthysmolitrix)by paired-end RNA sequencing[J].DNA Res,2012,19(2):131-142.

[20] LIAO X L,CHENG L,XU P,et al.Transcriptome analysis of crucian carp(Carassiusauratus),an important aquaculture and hypoxia-tolerant species[J].PLoS One,2013,8(4):1-11.

[21] 李偲,刘航,黄容,等.草鱼Ⅰ型微卫星标记的发掘及其多态性检测[J].水生生物学报,2011,35(4):681-687.

[22] WANG D,LIAO X,CHENG L,et al.Development of novel EST-SSR markers in common carp by data mining from public EST sequences[J].Aquaculture,2007,271(1):558-574.

[23] 宋春妮,李健,刘萍,等.日本蟳微卫星富集文库的建立与多态性标记的筛选[J].水产学报,2011,35(1):35-42.

[24] GAO X,HAN J,LU Z,et al.De novo assembly and characterization of spotted sealPhocalarghatranscriptome using lllumina paired-end sequencing[J].Comp Bio & Phy:Part D,2013,8(2):103-110.

[25] JIN S,FU H,ZHOU Q,et al.Transcriptome analysis of androgenic gland for discovery of novel genes from the oriental river prawn,Macrobrachiumnipponense,using Illumina Hiseq 2000[J].PloS One,2013,8(10):1-13.

[26] JUNG S,ABBOTT A,JESUDURAI C,et al.Frequency,type,distribution and annotation of simple sequence repeats inRosaceaeESTs[J].Fun & Intege Gen,2005,5(3):136-143.

[27] GAO L,TANG J,LI H,et al.Analysis of microsatellites in major crops assessed by computational and experimental approaches[J].Molr Bre,2003,12(3):245-261.

[28] 孙蛟龙,方扬,靳艳玲,等.浮萍转录组数据SSR位点的生物信息学分析[J].应用与环境生物学报,2015,21(3):401-405.

[29] PINTO L R,OLIVEIRA K M,MARCONI T,et al.Characterization of novel sugarcane expressed sequence tag microsatellites and their comparison with genomic SSRs[J].Pla Bre,2006,125(4):378-384.

Bioinformatic Analysis of SSR Markers Based on RNA-seq of Pampus argenteus

LIU Lei1, 2, PENG Shi-ming1, GAO Quan-xin1, SHI Zhao-hong1,2*et al

(1. Key and Open Laboratory of Marine and Estuarine Fisheries, Ministry of Agriculture, East China Sea Fisheries Research Institute, Chinese Academy of Fishery Sciences, Shanghai 200090; 2. College of Fisheries and Life, Shanghai Ocean University, Shanghai 201306)

[Objective] To develop molecular marker technology ofPampusargenteus. [Method] Transcriptomic sequencing was performed for molecular marker technology development onPampusargenteus, and 3 715 603 unigene was found after assembling. The Microsatellite(MISA) software was used to identify SSRs from unigenes. Meanwhile, SSR polymorphisms were evaluated using software. [Result] 107 007 SSRs were identified, distributed in 97 289 unigenes, which accounted for 2.62% of the whole unigenes and the distribution density of the transcriptomic SSRs from transcriptome were 476/Mbp. The nucleotides were repeated and the dinucleotide were the maintypes, accounting for 48.14% and 34.10%, respectively, of all the SSRs. In total, we found 424 different types of repeat motifs, in which the repeats with A、TG/AC and GAG/AAC as the most frequent motifs, accounting for 49.57%、 42.43% and 9.61%, respectively, of the SSR repeat motifs. Statistics got from repetitive sequence length more than 12 bp SSR markers accounting for 76.95% of all the SSRs, it was very rich polymorphism. [Conclusion] The study also assessed the potential of the transcriptomic SSRs for further use and research. These results provide a useful tool for studies in genetic diversity, genetic mapconstruction and molecular assisted breeding ofPampusargenteus.

Pampusargenteus; RNA-seq; SSR marker

中央级公益性科研院所基本科研业务费项目(东2014Z02-3);国家科技支撑项目(2011BAD13B01)。

刘磊(1990-),男,安徽安庆人,硕士研究生,研究方向:海水鱼类养殖生物学。*通讯作者,研究员,从事海水鱼类养殖方面的研究。

2016-08-17

S 965.3

A

0517-6611(2016)28-0102-04

猜你喜欢
基元微卫星碱基
梅花鹿基因组微卫星分布特征研究
面向游戏场景生成的细分插槽WFC算法研究
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
人体细胞内存在全新DNA结构
林麝全基因组微卫星分布规律研究
基于转录组测序的波纹巴非蛤微卫星标记研究
Numerical Modeling and Analysis of Gas Entrainment for the Ventilated Cavity in Vertical Pipe*