基于转录组测序的椰心叶甲啮小蜂SSR、SNP和InDel位点分析

2021-12-08 06:07刘华伟,李朝绪,李芬,吕朝军,吴少英,覃伟权
热带作物学报 2021年10期
关键词:转录组

刘华伟,李朝绪,李芬,吕朝军,吴少英,覃伟权

摘  要:椰心叶甲啮小蜂(Tetrastichus brontispae)是外来有害生物椰心叶甲(Brontispa longissima)的蛹期寄生蜂,分析其转录组序列中的SSR、SNP和InDel位点信息,可以为开发新的分子标记,深入研究其遗传多样性、种群遗传结构和历史动态等提供数据支撑。本研究基于转录组数据,利用MISA软件和Varscan软件对Unigene进行SSR、SNP和InDel位点进行搜索。在11 802條Unigene中共获得29 754个SSR位点,平均每1.72 kb含有1个SSR位点,发生率为39.96%。SSR片段为10~382 bp,长度具有显著差异,平均长度为23.91 bp。SSR片段中,单碱基重复最多(60.82%),其次是二碱基重复(27.69%),再次为三碱基重复(10.79%)。其中优势重复基元类型为A/T(59.32%),其次为AT/AT(15.28%)。在6895个Unigene中发掘出51 334个SNP位点,转换位点37 445个(72.94%),颠换位点13 975个(27.22%),平均每条Unigene上含有7.45个SNP位点。还在6040个Unigene中筛选出15 644个InDel位点,平均每条Unigene上有2.59个InDel位点。椰心叶甲啮小蜂转录组中SSR、SNP和InDel位点数量多,出现频率高,类型丰富,具有较高的多态性潜能。

关键词:椰心叶甲啮小蜂;转录组;SSR;SNP;InDel

中图分类号:S476      文献标识码:A

SSR, SNP and InDel Analysis Based on Tetrastichus brontispae Transcriptome

LIU Huawei1,2,3,4,, LI Chaoxu1,3,4, LI Fen2, LYU Chaojun1,3,4, WU Shaoying2, QIN Weiquan1,3,4*

1. Coconut Research Institute, Chinese Academy of Tropical Agricultural Sciences, Wenchang, Hainan 571399, China; 2. Hainan University, Haikou, Hainan 570228, China; 3. Hainan Innovation Center of Academician Team (Integrated Management of Arecanut Yellow Leaf Disease), Wenchang, Hainan 571339, China; 4. Hainan Key Laboratory of Tropical Oil Crops Biology, Wenchang, Hainan 571399, China.

Abstract: Tetrastichus brontispae is the pupal parasitic wasp of Brontispa longissima, an exotically invasive pest. The analysis of SSR, SNP and InDel sites in the transcriptome sequences of T. brontispae can provide data support for the development of new molecular markers and the in-depth study of its genetic diversity, population genetic structure and historical dynamics. Based on transcriptional data, MISA software and Varscan software were used to search the SSR, SNP and InDel sites of Unigenes. A total of 29 754 SSR sites were obtained in 11 802 Unigenes, with an average of 1 SSR per 1.72 kb, with an incidence of 39.96%. The length of the SSR fragments was 10-382 bp, with an average length of 23.91 bp. In the SSR segment, mononucleotide was dominant (60.82%), followed by dinucleotide (27.69%) and trinucleotide (10.79%). In all repeating motifs, the dominant repeating motif was A/T (59.32%), followed by AT/AT (15.28%). Among 6 895 Unigenes, 51 334 SNP sites were discovered, and each Unigene contained 7.45 SNP on average. There were 37 445 transition sites (72.94%) and 13 975 transversion points (27.22%). 15 644 InDel sites were also identified out of 6 040 Unigene, with an average of 2.59 InDel per Unigene.SSR, SNP and InDel sites are abundant in the transcriptome of T. brontispae, with a large number, high occurrence frequency, rich type and polymorphism potential.

Keywords: Tetrastichus brontispae; transcriptome; SSR; SNP; InDel

DOI: 10.3969/j.issn.1000-2561.2021.10.011

椰心叶甲啮小峰(Tetrastichus brontispae Ferrière)属膜翅目(Hymenoptera)姬小蜂科(Eulophidae)啮小蜂属(Tetrastichus),是重大危险性外来有害生物椰心叶甲[Brontispa longissima (Gestro)]的寄生性天敌[1],主要寄生蛹期的椰心叶甲,通过野外释放该蜂可以有效地防控椰心叶甲危害。目前国内外已对椰心叶甲啮小蜂的成虫习性、寄主适应性、生物生态学特性、室内大量繁殖和野外释放等方面进行了相关研究[1-5]。

分子标记技术随着分子生物学的快速发展在动植物中被广泛应用。在各种分子标记中,简单重复序列(simple sequence repeat,SSR)又称作微卫星,因具有数量多易检测、多态性信息丰富、呈共显性遗传等优点而成为研究群体遗传学、遗传育种、保护遗传学以及系统进化等方面的有力工具,在动植物、微生物以及人类医学等各领域都得到了广泛的应用。随着高通量测序技术的逐步发展,基于转录组数据筛选SSR位点在动植物研究中也被广泛应用[6-7]。单核苷酸多态性(single nucleotide polymorphisms,SNP)由于其具有分布广、位点多、易检测、准确率高、遗传稳定性高、并且在不同物种中具有显著差异等特点而也被广泛应用[8-9]。插入/缺失多态性(insenion-deletion,InDel)标记是根据核苷酸片段的插入或缺失而开发的,具有分布广(仅次于SNP位点)、可重复性高、密度高、成本较低、变异率低、多态性强且易于检测等优点,可以利用InDel进行优异基因挖掘、基因精细定位、遗传多样性分析等研究[10-12]。

由于椰心叶甲啮小蜂在基因信息方面比较缺乏,所以目前国内外对其分子标记方面的研究仍是空白。本研究利用MISA和Varscan软件,基于椰心叶甲啮小蜂转录组数据对SSR、SNP和InDel位点进行搜索并分析,以期为椰心叶甲啮小蜂及近缘种的SSR、SNP和InDel分子标记的开发深入研究其遗传多样性、种群遗传结构和历史动态提供参考依据。

1  材料与方法

1.1  材料

材料已上传到NCBI SRA数据库中,GenBank登录号:PRJNA678031。轉录组数据质量参照刘华伟等[13]的研究。

1.2  方法

1.2.1  转录组SSR的筛选及分析  利用MISA软件(https://webblast.ipk-gatersleben.de/misa/)从椰心叶甲啮小蜂转录组的Unigene中进行SSR搜索,筛选标准:单核苷酸重复数≥10,二核苷酸重复数≥6,三核苷酸、四核苷酸、五核苷酸、六核苷酸≥5;运用Excel软件对转录组的SSR各类型比例、序列分布和特征进行分析和统计。

SSR发生频率=含SSR的Unigene数与Unigene总数的比值;SSR分布的平均距离=总Unigene长度与搜索到的SSR数量的比值。

1.2.2  转录组中SNP和InDel的筛选及分析  利用Varscan软件(http://varscan.sourceforge.net/),搜索候选SNP和InDel位点。筛选标准:SNP/InDel位点碱基Q>20;覆盖该位点的Reads数目>8;支持突变位点的Reads数目>2;SNP/InDel位点P<0.01。

2  结果与分析

2.1  SSR重复基元的分布

通过MISA软件,在11 802条Unigene检测到29 754个SSR位点,SSR的发生频率为39.96%,平均1.72 kb出现1个SSR位点。包含1个以上SSR位点的Unigene有6177条,复合型的SSR位点有4346个。

2.2  椰心叶甲啮小蜂转录组中SSR的数量和分布特点

各碱基类型中的SSR序列占比差异较大(表1),共有74种重复基序。单核苷酸~六核苷酸碱基重复基元分别有2、4、10、24、12、22种。单核苷酸为优势重复类型(60.82%),其中A/T出现的最多(97.54%);二碱基重复SSR含量约占总数的27.69%,AG/CT出现的频率为55.20%;在三碱基重复SSR(10.79%)中,AGC/CTG出现的频率为30.72%;而四碱基、五碱基、六碱基重复SSR占比较少(0.05%~0.53%)。出现频率最高的重复基元分别是AAAT/ATTT(28.93%)、AAAAT/ATTTTT(18.75%)、AGCCGC/CGGCTG和ACCAGC/CTGGTG(11.43%)。在所有的碱基重复模式中,各种重复基元中在总SSR中的比例> 0.5%有13类,不同类型重复基序SSR比例分布见图1。

2.3  SSR长度分析

SSR长度也存在极显著变异。椰心叶甲啮小蜂转录组SSR片段长度由10~382 bp,平均长度23.91 bp。主要是重复长度≤20 bp的序列,有18 695条,占总数的73.58%,长度大于50 bp的长序列占SSR总数的10.30%(图2)。

SSR数量与重复次数的关系如图3所示,各种SSR的数量均与重复次数呈负相关。其中单核苷酸曲线的下降速率最大,当重复次数达到13次时,下降速率变慢。其他核苷酸曲线的下降趋势趋于平缓。

2.4  椰心叶甲啮小蜂转录组SNP和InDel的特征分析

在获得的转录组数据中,利用Varscan软件进行SNP搜索,在6895个Unigene中检测51 334个SNP位点,平均每1000 bp出现一个SNP位点,在所有的SNP位点中,转换(Transition)位点有37 445个,颠换(Transversion)位点有13 975个,SNP位点统计见表2。

从图4可见,含有1个SNP位点的Unigene最多(25.74%),其次是含有2个SNP位点的Unigene(14.58%),含有3~10个SNP位点的Unigene数量呈下降趋势(136~756个Unigene),在1186个Unigene上发现了超过10个SNP位点,平均每条Unigene上有7.45个SNP位点。

利用Varscan软件对InDel位点进行搜索,最终在6040个Unigene中共找到15 644个InDel位点,每3281 bp出现1个InDel位点。InDel位点分布趋势和SNP位点的分布趋势相同(图5),含有1个SNP位点的Unigene最多(43.77%),其次是2个InDel位点(21.79%),含有3~10个InDel位点的Unigene呈下降趋势(31~726个Unigene),在83个Unigene上发现了超过10个InDel位点,平均每条Unigene上有2.59个InDel位点。

3  讨论

近年来,随着测序成本的降低和组学研究的深入,基于转录组数据筛选、分析SSR、SNP和InDel等分子标记位点在曼氏无针乌贼[7]、大黄鱼[9]、甜菜[10]、大麦[11]等动植物中被大量研究,特别是在品种鉴定和种群关系分析方面。由于椰心叶甲啮小蜂遗传信息的缺乏,对其分子标记方面的研究仍是空白。

本研究在椰心叶甲啮小蜂转录组数据中筛选出29 754个SSR位点,发生频率为39.96%,比已报道的大部分昆虫,如黑腹胃蝇(31.09%)[14]、温带臭虫(18.86)[6]、印度谷螟(8.52%)[15]、沙葱萤叶甲(4.53%)[16]、桔小实蝇(4.23%)[17]和黄粉甲(1.67%)[18]等数量都要高。并且其SSR平均分布距离(每1.72 kb出现一个SSR位点)也比印度谷螟(13.38 kb)[14]和桔小实蝇(10.21 kb)[17]要小得多。出现这种现象的原因可能与物种的特异性、测序数据量大小以及数据的筛选参数有关[6],在一定程度上说明椰心叶甲啮小蜂中含有丰富的SSR标记位点,具有较高的多态性潜能。

在唐培安等[15]的研究中提出,普遍认为基于转录组数据挖掘的昆虫SSR位点以三碱基重复为主。然而在椰心叶甲啮小蜂中最优重复单元为单碱基重复(60.82%),主要重复基序是A/T(97.54%),这与温带臭虫[6]、沙葱萤叶甲[16]的研究结果相一致。另外有一些昆虫以二碱基重复为主,如印度谷螟[15],还有一些昆虫单碱基和三碱基占比相近,都是优势重复单元,如黑腹胃蝇[14]和黄粉甲[18]。推测出现此现象的原因可能与物种本身的基因型和SSR的筛选参数有关[19]。

值得注意的是,在Meglécz等[20]和Yoon等[21]的研究中表示,由于胞嘧啶(C)容易甲基化突变为胸腺嘧啶(T),推测在动植物的转录组或基因组中,GC/CG的数量都几乎接近0。但在李敏等[6]和唐培安等[15]的研究中表示,虽然大部分昆虫中GC/GC的含量非常低甚至没有,不过也在鳞翅目玉米粘虫、二点委夜蛾和细梢小卷蛾中发现GC/GC基序不仅常见而且有较高的占比。本研究中,椰心叶甲啮小蜂的GC/CG同样是二碱基重复SSR中占比最少的重复基元(0.02%),但数量有586个,这与大部分昆虫有差异。

Meglécz等[20]研究表示,SSR的长度越长,其核心基元的重复次数越多,多态性越高。Temnykh[22]的研究认为,当SSR长度≥20 bp时,多态性较高,当12 bp

本研究利用Varscan软件,在6895个Unigene中检测51 334个SNP位点,平均每1000 bp出现一个SNP位点,其中转换位点有37 445个,颠换位点有13 975个。从理论上来说转换∶颠换应该等于1∶2,在本研究中,转换比颠换的比率达到2.68,远大于理论值,这种现象称为转换偏差,这与碱基组成和进化过程中的选择机制有关,说明碱基的转换突变可能不是随机产生的[23]。在轉换类型中,C-T的发生频率最高,并且多是C转换为T,这可能与CG中的胞嘧啶(C)常为甲基化的,脱氨后就变成胸腺嘧啶(T)有关[24]。另外还发现,转换位点和颠换位点的总和与SNP位点总数不相等,这是因为在同一个位点同时发生转换和颠换2种突变而导致。在椰心叶甲啮小蜂转录组数据中,平均每条Unigene上含有7.45个SNP位点,其中含有1个SNP位点的Unigene最多(25.74%),其次是含有2个SNP位点的(14.58%)。除了SNP位点,本研究还利用Varscan软件,在6040个Unigene中15 644个InDel位点,平均每3281 bp出现一个InDel位点。InDel位点的数量分布与SNP大致相同,也是一个InDel位点最多(43.77%),其次是2个InDel位点的(21.79%),平均每条Unigene上有2.59个InDel位点。

本研究利用转录组测序数据挖掘椰心叶甲啮小蜂SSR、SNP和InDel位点,并对其特征进行了分析,为后续开发和应用分子标记的提供了数据支撑。通过进一步的设计、筛选引物,还可应用到椰心叶甲啮小峰的遗传多样性分析、种群鉴定和迁飞能力评估等方面。

参考文献

[1] 吕宝乾, 彭正强, 许春霭, 等. 椰心叶甲蛹寄生蜂: 椰心叶甲啮小蜂的生物学特性[J]. 昆虫学报, 2006, 49(4): 643-649.

[2] 黄山春, 覃伟权, 周焕起, 等. 椰心叶甲啮小蜂的繁殖生物学研究[J]. 华东昆虫学报, 2007, 16(3): 168-171, 238.

[3] 周  祥, 黄光斗, 马子龙, 等. 椰心叶甲啮小蜂对寄主的选择性、适宜性和功能反应[J]. 热带作物学报, 2006, 27(2): 74-77.

[4] 周焕起, 马子龙, 覃伟权, 等. 椰心叶甲的寄生性天敌: 椰心叶甲啮小蜂和椰甲截脉姬小蜂的室内培育[J]. 中国生物防治, 2006, 22(S1): 6-10.

[5] 金  涛, 金启安, 温海波, 等. 利用寄生蜂防治椰心叶甲的概况及研究展望[J]. 热带农业科学, 2012, 32(7): 67-74.

[6] 李  敏, 王  青, 陈  晨, 等. 基于转录组测序的温带臭虫SSR和SNP位点分析[J]. 山西农业大学学报(自然科学版), 2019, 39(4): 52-57.

[7] 孙  扬, 郭宝英, 祁鹏志, 等. 基于转录组的曼氏无针乌贼SSR与SNP位点信息分析[J]. 浙江海洋大学学报(自然科学版), 2019, 38(2): 100-106.

[8] 李小白, 向  林, 罗  洁, 等. 转录组测序(RNA-seq)策略及其数据在分子标记开发上的应用[J]. 中国细胞生物学学报, 2013, 35(5): 720-726, 740.

[9] 王盼盼. 大黄鱼基因组和转录组SNP的挖掘与应用[D]. 厦门: 集美大学, 2016

[10] 黄平仙, 高永明, 刘乃新, 等. 基于全基因组重测序技术分析甜菜InDel标记[J]. 中国糖料, 2020, 42(3): 1-6.

[11] 徐婷婷, 汪巧玲, 邹淑琼, 等. 基于高通量测序的大麦InDel标记开发及应用[J]. 作物学报, 2020, 46(9): 1340-1355.

[12] 刘  宇, 闫彩霞, 李春娟, 等. 花生栽培种InDel有效标记筛选与评估[J]. 核农学报, 2020, 34(2): 256-264.

[13] 刘华伟, 李朝绪, 李  芬, 等. 椰心叶甲啮小蜂转录组分析及基因功能注释[J]. 中国生物防治学报, 2021, 37(3): 412-419.

[14] 陈亘浓, 黄河清, 张博茹, 等. 基于转录组数据的黑腹胃蝇微卫星位点信息分析[J]. 环境昆虫学报, 2018, 40(6): 1219-1224.

[15] 唐培安, 陶冶心, 薛  昊, 等. 基于转录组数据的印度谷螟微卫星位点分析[J]. 植物保护, 2017, 43(3): 43-48, 75.

[16] 张鹏飞, 周晓榕, 庞保平, 等. 基于转录组数据高通量发掘沙葱萤叶甲微卫星引物[J]. 应用昆虫学报, 2016, 53(5): 1058-1064.

[17] 魏丹丹, 石俊霞, 张夏瑄, 等. 基于转录组数据的桔小实蝇微卫星位点信息分析[J]. 应用生态学报, 2014, 25(6): 1799-1805.

[18] Zhu J, Wu G, Yang B. High-throughput discovery of SSR genetic markers in the yellow mealworm beetle, Tenebrio molitor (Coleoptera: Tenebrionidae), from its transcriptome database[J]. Acta Entomologica Sinica, 2013, 56(7): 724- 728.

[19] 郭  睿, 陈华枝, 庄天艺, 等. 利用转录组数据开发意大利蜜蜂的SSR分子标記[J]. 安徽农业大学学报, 2018, 45(3): 404-408.

[20] Meglécz E, Nève G, Biffin E, et al. Breakdown of phylogenetic signal: a survey of microsatellite densities in 454 shotgun sequences from 154 non model eukaryote species[J]. PLoS One, 2012, 7(7): e40861.

[21] Yoon J M. Genetic variations between hairtail (Trichiurus lepturus) populations from Korea and China[J]. Development and Reproduction, 2013, 17(4): 363-367.

[22] Temnykh S. Computational and experimental analysis of microsatellites in rice (Oryza sativa L.): frequency, length variation, transposon associations, and genetic marker potential[J]. Genome Research, 2001, 11(8): 1441-1452.

[23] Zhao H, Li Q Z, LI J, et al. The study of neighboring nucleotide composition and transition/transversion bias[J]. Science in China Series C: Life Sciences, 2006, 49(4): 395-402.

[24] Garg K. Identification of candidate coding region single nucleotide polymorphisms in 165 human genes using assembled expressed sequence tags[J]. Genome Research, 1999, 9(11): 1087-1092.

责任编辑:黄东杰

猜你喜欢
转录组
红麻肌醇加氧酶基因的分离及表达分析
红麻肌醇加氧酶基因的分离及表达分析
基于云计算的RNA—seq转录组数据分析流程初探
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的药用植物“凤丹”根皮的转录组分析
基于高通量测序的玄参根部转录组学研究及萜类化合物合成相关基因的挖掘
多穗柯转录组分析及黄酮类化合物合成相关基因的挖掘
基于转录组测序的山茱萸次生代谢生物合成相关基因的挖掘
金钗石斛转录组SSR位点信息分析
人参属药用植物转录组研究进展