基于简化基因组数据开发岭南青冈微卫星引物

2020-07-13 13:27姜小龙徐刚标

植物研究 2020年4期

宁馨姜小龙邓敏徐刚标

(1.中南林业科技大学林木遗传育种实验室，长沙 410004；2.中国科学院上海辰山植物科学研究中心,上海辰山植物园,上海 201602)

微卫星又称为短串联重复序列(short tandem repeats,STRs)或简单重复序列(simple sequence repeat,SSR)，通常由1～6个核苷酸的串联重复片段构成，一般重复几次到几十次[1]。跟核苷酸的遗传多样性及突变率相比，微卫星具有更高的多态性及突变速率。因此，自20世纪90年代开始，微卫星标记就一直被广泛用于法医、亲子鉴定、保护遗传学、谱系地理学及群体遗传学中[2～3]。不过由于微卫星的侧翼序列在种间也可能存在变异，因此，针对某一物种设计的引物通常只适用于这一物种及其近源种。随着近几年新一代测序技术的快速发展，基于高通量测序技术可在短时期内以较低成本获得大量SNP(Single nucleotide polymorphism)[4]。例如，近几年出现的简化基因组测序技术(restriction-site associated DNA sequence,RAD-seq)现已在群体遗传学、保护生物学及谱系地理学中开始广泛使用[5]。目前微卫星在保护生物学及群体遗传学中还具有一定的优势。首先，微卫星标记能有效地扩增DNA降解严重的样本。虽然RAD-seq能以较低的成本得到大量的直系同源SNPs，但是其对提取DNA质量的要求较高，很多长期硅胶干燥保存的分子样和标本上收集的样本上提取的DNA及古DNA往往不能满足二代测序的建库要求；其次，RAD-seq中所得到SNPs的错误率跟DNA降解程度呈现正相关[6]；再次，微卫星的成本低廉。尽管利用微卫星标记得到的变异位点有限，但对于较少个体的濒危物种群体遗传学研究，微卫星标记仍是一个有效、快捷的手段。并且微卫星数据易于分析。使用普通的个人电脑就可以对其进行数据分析和处理，而RAD-seq产生的数据量较大，通常需要服务器或者工作站进行数据分析，并需要有熟练的数据分析技能。

经典微卫星引物开发的方法有文库法、磁珠富集法和省略筛库法。文库法是先用超声波或酶切方法将DNA切成小片段后建库，然后用含有SSR的探针与文库杂交，筛选出和探针有较强信号的克隆，此方法开发引物所得到的SSR阳性克隆比率低，不过操作简单、容易掌握。富集法通过建立和筛选微卫星富集文库，能极大地提高文库法中SSR克隆得率低的问题。例如，磁珠富集法用生物素标记重复序列特异探针并与基因组DNA酶切片段杂交，再用包被链亲和素的磁珠对生物素进行磁力吸附，从而完成重复序列目标片段的富集。省略筛库法使用5′端带7个简并碱基的SSR引物(5′-KKVRVRV(CT)6-3′)对基因组SSR区域进行PCR富集后进行测序[7]。此方法不需要筛库去识别含SSR的克隆，可以进一步提高有多态位点SSR的得率。近年来，随着测序技术的快速发展，高通量测序技术被广泛用来开发微卫星引物。例如，使用物种转录组序列[8～10]、基因组序列[11]和简化基因组序列[12～13]来进行开发。这些方法直接利用测序序列设计SSR引物，简化了实验流程，并可得到更多的微卫星位点。先前使用简化基因组序列开发SSR引物都是对双端测序数据(2×150 bp)拼接后获得较长的序列，然后再开发引物[14]。SSR扩增片段长度通常多为100 bp，因此，是否能直接使用简化基因组测序中150 bp的R1端序列直接设计引物呢？如果可行，则能进一步简化引物设计的流程。

本次研究我们基于前期获得的岭南青冈(QuercuschampioniiBenth)RAD-seq数据的R1端序列，进行SSR引物的开发，并作验证。岭南青冈是中国南方及中南半岛亚热带中山云雾林的代表种，主要分布于海拔100～1 700 m的森林[15]。本研究旨在证明基于简化基因组测序获得的R1端序列(150 bp)是否能够开发出足够的SSR引物用于群体遗传分析。

1 材料与方法

1.1 样品来源

本研究所用的4个样本来自于Jiang等文章中4个不同群体的岭南青冈简化基因组数据，分别为广东省龙门县南昆山、广州省佛冈县观音山、广西省宁明县公母山和广东省罗博县象头山[16]。

1.2 数据过滤与引物设计

数据的过滤与引物设计按照如下流程进行：

(1)使用pyRAD[17]对序列进行质控过滤，去除低质量的reads。使用SciRoKo v3.4[18]提取包含有微卫星重复序列的reads。

(2)使用pyRAD对提取出来的序列进行个体内和个体间的聚类。由于我们关注的是微卫星中重复碱基数目的变异，这一变异类型在聚类时会包含大量的插入/缺失碱基(Indel base)。因此，为了在聚类中尽可能发现所有的微卫星多态性，将分析的聚类阈值(Clustering threshold)、样本内和样本间允许的最大插入缺失(Indel)碱基数分别设置为0.7，40和40。

(3)过滤掉序列中个体间存在碱基转换/颠换的位点。样本间聚类以后，除了微卫星碱基重复数具有差异以外，侧翼序列还存在碱基转换/颠换的位点。若在存在变异位点的侧翼序列区设计引物会影响后续PCR扩增的成功率。因此，使用python脚本将存在碱基转换/颠换的位点过滤掉。同时，设计微卫星引物时需要引物两侧都要具有一定长度的侧翼序列，故只把微卫星重复碱基位于序列中26～129 bp的序列提取出来。这样，微卫星序列的左侧侧翼序列至少有25 bp，右侧侧翼序列至少有21 bp可用于进行后期的引物设计，得出分析的流程图见图1。

(4)使用primer premier 5.0设计引物(Premier Biosoft International,CA,USA)。在设计引物时，只挑选个体间微卫星重复数存在差异的样本进行设计(见图2)。

图1 基于RAD-seq开发SSR引物流程图 reads中红色表示微卫星重复序列Fig.1 Workflow of SSR Primer development based on the reads obtained from RAD-seq Red segment represents the microsatellite sequence in reads

图2 微卫星引物RAD195设计区域Fig.2 Primer region for microsatellite RAD195

1.3 实验验证

为了减少荧光引物合成的成本，在正向引物的5′端添加一个接头序列M13(序列为:5′-TGTAAAACGACGGCCAGT-3′)，先用接带M13接头的引物进行扩增，然后添加带荧光的M13序列进行二次扩增[19]，PCR扩增体系如下：第一轮PCR扩增体系为：10×PCR Buffer(Mg2+free) 2 μL，dNTP(2.5 mmol·L-1) 0.5 μL，Mg2+(25 mmol·L-1) 2 μL，正向引物(10 μmol·L-1) 0.2 μL，反向引物(10 μmol·L-1) 0.7 μL，Taq酶(5 U·μL-1) 0.2 μL，基因组DNA模板(10 ng·μL-1) 2 μL，牛血清蛋白BSA(20 mg·mL-1) 0.2 μL，ddH2O 12.2 μL，PCR总体积共20 μL。PCR反应程序为:94℃预变性3 min、94℃变性30 s、55℃退火30 s、72℃延伸30 s，35个循环，72℃延伸7 min，12℃保存。第2轮扩增体系为：10×PCR Buffer(Mg2+free) 0.2 μL，Taq酶(5 U·μL-1)0.08 μL，荧光标记M13引物(10 ng·μL-1)0.4 μL，ddH2O 1.32 μL，PCR总体积共2 μL。PCR反应程序为:94℃预变性5 min、94℃变性30 s、53℃退火30 s、72℃延伸30 s，16个循环，72℃最后延伸10 min，12℃保存。

共对3个群体的36个样本进行扩增。扩增结果电泳检测后送美吉生物科技有限公司进行毛细管电泳分型。使用GeneMarker v2.2.0(SoftGenetics,PA USA)对SSR分型结果进行读取和校对。

2 结果与分析

2.1 RAD-Seq测序数据质量评估

所选4个样本的原始序列(Raw reads)数在240～640万条。除去低质量的数据后序列数在180～520万条(见表1)。这些序列中包含微卫星重复片段的序列在46 000～56 000条。

2.2 多态性SSR引物的开发

对样本内进行聚类、过滤掉旁系同源序列后，每个样本包含的位点数在5 546～15 844。样本间聚类后，得到所有样本都具有的位点(一致性位点)1 158个，并得出详细的样本序列信息(见表2)。使用python脚本过滤掉1 158个一致性位点中包含转换/颠换的序列以后，共得到308个位点。进一步过滤掉微卫星重复序列位于reads前25或129 bp以后位置的位点后，得到位点数186个。在这186对引物中挑选出微卫星是2碱基或3碱基重复并最大重复数大于6次,而且在4个样本中至少存在2种不同重复数的引物。共挑选出了40对，使用Primer Premier 5.0设计出了25对引物用于实验验证(见表2)。

表1 用于SSR引物开发的样本信息

表2 开发用于微卫星多态性筛选的引物序列信息

使用设计好的25对引物对36个个体进行扩增。所有引物的PCR扩增条件和体系见1.3。其中，17对引物被成功扩增出来。这17对引物的等位基因数共为106个，每个引物的等位基因数在2～12，平均为6.2。引物的期望杂合度和观测杂合度分别为0.19～0.88和0.11～0.76。得出引物的详细信息(见表3)。

表3 研究成功扩增引物的多态性信息

Table 3 Polymorphism information of the amplified primers

引物名Primername个体数Individualnumber等位基因数Allelenumber期望杂合度Expectedheterozygosity观测杂合度ObservedheterozygosityRAD131730.640.59RAD393160.610.68RAD543380.830.76RAD593440.410.21RAD693440.190.21RAD1012340.400.30RAD10932120.880.75RAD1122950.660.48RAD1232470.770.63RAD1803140.630.55RAD1903390.790.70RAD19134110.850.74RAD1953480.770.74RAD1983320.210.18RAD2023190.810.74RAD2113440.520.44RAD2133560.700.11

3 讨论

本研究基于简化基因组测序方法(RAD-seq)获得的R1端序列成功开发了10多对具有遗传多样性的岭南青冈微卫星引物。根据合成的25对SSR引物，一次性扩增出来17对具有多态性的引物。这17对引物的等位基因数共106个，SSR位点的等位基因数在2～12，平均数为6.2。引物的期望杂合度和观测杂合度分别为0.19～0.88和0.11～0.76。虽然获得的微卫星引物比使用转录组开发的少，但是研究获得的等位基因数目能满足进行物种的群体遗传学、保护生物学及谱系地理学研究的需要。随着测序技术的发展及费用的减低，可以使用PE250对简化基因组数据进行测序。跟本研究采用的PE150测序模式相比，更长读长的PE250测序模式能有更多位点符合微卫星引物的设计。不过对于超大基因组(大于3G)的物种，例如百合科植物的基因组通常达到几十G[20]，为了满足测序位点覆盖度的要求可能需要测十几甚至几十G的数据，这极大地增加了测序的成本。因此，我们不建议使用简化基因组测序的方法开发具有超大基因组物种的SSR引物。本次研究中设计的引物都是物种的直系同源序列，但还存在8对引物不能一次性扩增出来。由于正向引物都加了M13接头序列，会对引物的结构和结合特异性有一定影响，可能导致扩增的失败，虽然通过直接合成荧光引物可以消除这一因素的影响，但会增加引物合成的成本。

跟磁珠吸附法开发微卫星引物相比，本次SSR开发方法简化了实验的流程、减少了工作量，并且所需费用也更低。跟利用转录组序列开发微卫星引物相比，使用简化基因组数据的R1端序列开发引物所需要的测序成本、数据的分析能力及计算机资源要求更低[21]。转录组数据的拼接需要计算机具有较大的内存，通常需要服务器才能满足数据分析的需求。本研究的开发方法只需提取含有微卫星位点的序列进行比对即可，这些位点只占所有序列的1%左右。因此，普通的个人电脑即可快速地(1 d以内)完成整个分析。同时，转录组序列位于基因的编码区，比较保守。为了获得足够的遗传变异信息需要进行大量的实验筛选。而简化基因组序列是均匀分布于物种基因组中，具有更高的遗传变异。再次，本研究使用了4个样本进行样本间的聚类，能有效提高筛选出具有多态性的微卫星引物的概率，极大地减少了微卫星引物后期筛选实验的工作量。对于开发引物用于群体遗传学、保护生物学或谱系地理学分析时，此方法可作为有效的候选方法之一。