屈轶龄,林源,杨子豪,陶瑞旸,夏若成,曹正军,高瑞祥,于欢1,,王紫薇1,,杨琪1,,张晓春1,,张素华,李成涛1,
1.苏州大学基础医学与生物科学学院,江苏 苏州 215123;2.司法鉴定科学研究院 上海市法医学重点实验室 司法部司法鉴定重点实验室 上海市司法鉴定专业技术服务平台,上海 200063;3.华东政法大学,上海 200042;4.盐城市公安局刑警支队,江苏 盐城224000
短串联重复(short tandem repeat,STR)序列由2~6 个核心重复碱基构成,是法医遗传学中应用最为广泛的DNA 遗传标记[1]。大规模平行测序(massively parallel sequencing,MPS)技术也被称为下一代测序(next generation sequencing,NGS),近年来在法医学领域中的应用逐渐增多。相较于传统的聚合酶链反应-毛细管电泳(polymerase chain reaction-capillary electrophoresis,PCR-CE)分型技术,MPS 技术不仅能区分等位基因片段长度大小,还可以区分等位基因的序列差异,并且能够同时对多个样本的多个遗传标记进行高覆盖度的测序分析,极大提高了法医遗传学实验室对DNA 序列的识别能力和对大批量样本的处理能力[2]。
美国Illumina公司基于MiSeq FGx法医基因组学系统针对法医遗传学开发了商业化MPS检测试剂盒——ForenSeqTMDNA Signature Prep 试剂盒(以下简称ForenSeq 试剂盒)。该试剂盒简化了测序流程,提供了从DNA 样本到数据分析的一体化解决方案,单次检测可获得59 个STR 和172 个单核苷酸多态性(single nucleotide polymorphism,SNP)遗传标记的信息,克服了PCR-CE 技术需要多个试剂盒才能检测相同数目遗传标记的难题,展现出良好的应用前景[3-5]。
畲族是我国主要的少数民族之一,起源于中国东南沿海地区,主要分布在浙江省内的广大山区,经过与多个民族的不断融合以及历经不同历史、文化、地理变迁,逐渐发展为具有独特遗传结构的少数民族[6]。本研究基于MiSeq FGx 法医基因组学系统,采用ForenSeq试剂盒对浙江畲族人群中58 个STR 基因座的遗传多态性进行法医遗传学分析,拟探究MPS 技术对STR 基因座的检测能力。
采集浙江省丽水市50 例畲族无关个体的外周血样本,其中女性28 例,男性22 例。所有研究对象在采样前均签署知情同意书,并明确个体在三代内无亲缘关系。以上样本的采集和使用均已获得司法鉴定科学研究院伦理委员会批准(编号为STY2020-W024)。
本研究采用3 个阳性对照品,包括男性标准品DNA 2800M 和9948(美国Promega 公司),女性标准品DNA 9947A(美国Promega 公司)。
使用QIAamp DNA Blood Mini试剂盒(德国Qiagen公司)对外周血进行DNA提取,具体操作参照试剂盒说明书。使用Qubit®dsDNA HS Assay 试剂盒和Qubit®2.0 荧光定量仪(美国Thermo Fisher Scientific 公司)对DNA 进行定量,并依据梯度稀释的原则,使用无核酸酶水将DNA 稀释至0.2 ng/μL。MPS 及CE 实验中稀释DNA 使用量均为5 μL,即1 ng DNA。
基于ForenSeq 试剂盒对50 例畲族个体血样及3 个阳性对照品的DNA 进行文库构建,并设置去离子水为阴性对照。首先利用ForenSeq 寡核苷酸引物混合液以及STR 上下游DNA 序列的特定区域扩增DNA,通过添加特异性标签组合标记DNA 并实现靶点富集,经两轮DNA 分选磁珠对文库进行纯化和标准化,最后将文库混合到一个微量离心管中。混合文库经变性和稀释后,采用MiSeq FGx Reagent 试剂盒(美国Illumina 公司)在MiSeq FGx 法医基因组学系统(美国Illumina 公司)上进行DNA 测序。
采用PCR-CE 技术对ForenSeq 试剂盒中包含的58 个STR 基因座和Amelogenin进行检测,使用的商业化试剂盒包括Sifa STRTM23 plex DNA 身份鉴定系统[基点认知技术(北京)有限公司][7]、21+1 STR 荧光检测试剂盒(无锡中德美联生物技术有限公司)[8]、Investigator®Argus X-12 QS 试剂盒(德国Qiagen 公司)[9]和Goldeneye®DNA 身份鉴定系统Y-Plus 试剂盒[基点认知技术(北京)有限公司][10],均按照试剂盒说明书的指导进行PCR 扩增和毛细管电泳。使用GeneMapperTMID-Xv1.5 软件(美国Thermo Fisher Scientific 公司)对电泳数据进行分析,最终得到STR基因座的等位基因分型结果,用于与MPS 测序结果的一致性验证。基于CE 平台对上述试剂盒未覆盖到的DYS505和DYS612基因座单独设计引物(表1),对各样本进行单点扩增和检测。
表1 DYS505 和DYS612 基因座的引物信息Tab.1 Primer information of DYS505 and DYS612
通过下机数据中的Q30 值初步判断数据质量,利用ForenSeqTM通用分析软件按照默认分析阈值和解释阈值处理原始测序数据,同时使用STRait Razor v2软件[11]对测序的FASTQ 文件进一步分析。从以下三方面对测序质量进行评估:(1)测序序列信息构成比,指27 个常染色体STR 基因座(以下简称A-STR)、7 个X 染色体STR 基因座(以下简称X-STR)和24 个Y 染色体STR基因座(以下简称Y-STR)中等位基因、stutter峰和信号噪声分别占总reads的百分比;(2)测序深度;(3)等位基因覆盖率(allele coverage ratio,ACR),计算方法为用杂合子等位基因中较小的reads 数除以较大的reads 数。采用Arlequin v3.5 软件[12]进行各基因座的Hardy-Weinberg 平衡检验及基因座间的连锁不平衡检验。另外,通过与hg19(GRCh37)参考基因组进行比较,对STR 基因座侧翼序列信息展开分析。最后,采用Cervus 3.0 软件[13]计算各基因座的多态信息含量(polymorphic information content,PIC)、非父排除率(probability of paternity excluding,PE)、二联体非父排除率(probability of exclusion of duo-testing,PEduo)、三联体非父排除率(probability of exclusion of trios-testing,PEtrio)、平均非父排除率(mean probability of exclusion)等,运用群体遗传分析软件[13]计算各基因座的个体识别率(discrimination power,DP),依据《常染色体STR 基因座的法医学参数计算规范》(SF/Z JD0105010—2018)计算累积个体识别率(cumulative discrimination power,CDP)、累积非父排除率(cumulative probability of exclusion,CPE)和累积平均非父排除率(cumulative mean probability of exclusion),依据《法医物证鉴定Y-STR 检验规范》(SF/Z JD0105007—2018)计算基因多样性(gene diversity,GD)、单倍型多样性(haplotype diversity,HD)、单倍型的分辨能力(discrimination capacity,DC)和单倍型匹配概率(haplotype match probability,HMP)。
50 例样本测序共产生4.9 G 的数据,每个样本的总reads均大于14 Mb,Q30≥90%。每个样本在A-STR、X-STR 及Y-STR 基因座中的平均等位基因、stutter 峰和信号噪声占比如图1 所示,结果显示,所有样本的等位基因均可与信号噪声区分开,平均等位基因占比为90.90%,最低为DYS612(61.31%),最高为Penta D(98.93%)。对50 例样本在58 个STR 基因座的MPS测序信息进行测序深度分析,结果如图2 所示。50 例样本的测序覆盖深度在6 463×~376 837×,平均覆盖深度为(2 339±1 652)×;在A-STR、X-STR 及Y-STR 基因座上显示测序深度不均衡,但整体满足等位基因判读要求。
图1 58 个STR 基因座(27 个A-STR、7 个X-STR 和24 个Y-STR)的等位基因、stutter峰和信号噪声构成比Fig.1 The ratios of allele,stutter and signal noise of 58 STR loci(27 A-STR,7 X-STR and 24 Y-STR)
图2 58 个STR 基因座(27 个A-STR、7 个X-STR 和24 个Y-STR)的平均覆盖深度及标准差Fig.2 Average coverage depth and standard deviation of 58 STR loci(27 A-STR,7 X-STR and 24 Y-STR)
对50 例样本在34 个STR 基因座(包括27 个ASTR 和7 个X-STR 基因座)检见的1 235 个杂合等位基因进行均衡性分析,结果如图3 所示。ACR 值最低的基因座是D22S1045(0.347 6),最高的是D17S1301(0.868 5);除D22S1045外,其余基因座的平均ACR 值均高于0.600 0,标准差范围为0.080 0~0.180 0。阳性对照品的STR 分型结果与试剂盒标准分型结果一致。
图3 34 个STR 基因座(27 个A-STR 和7 个X-STR)的ACR 值及标准差Fig.3 ACR values and standard deviation of 34 STR loci(27 A-STR and 7 X-STR)
在50 例畲族个体血样的58 个STR 基因座中共检出448 种序列多态性等位基因,每个基因座检出2~26 种等位基因。其中,A-STR、X-STR、Y-STR 分别检出279、62、107 种序列多态性等位基因,相较于PCRCE 技术所得的片段长度多态性等位基因分别增加了59、9、14 种等位基因,增加的等位基因主要来源于长度一致但序列结构有差异的等位基因,具体信息见表2。结果显示,D21S11、DXS10135和DYF387S1分别为27 个A-STR、7 个X-STR 和24 个Y-STR 中由于序列差异而等位基因增加最多的基因座,其中,部分同一长度等位基因的基序结构多达4 种,而在CSF1PO、DXS8378和Y-GATA-H4等38 个基因座中未发现长度一致但序列结构不同的等位基因。
表2 PCR-CE 技术和MPS 技术在50 名畲族无关个体中检出的等位基因个数及提升率Tab.2 The number of alleles detected by PCR-CE and MPS and the growth rate in 50 She samples
通过参考hg19(GRCh37)基因组对58 个STR 基因座核心序列上下游各延伸50 bp 的核苷酸序列信息进行解读,共在6 个STR 基因座上观察到7 个SNP位点,分别位于D2S441(1 个)、D5S818(1 个)、D7S820(2 个)、D13S317(1 个)、D16S539(1 个)和vWA(1 个),这些侧翼序列变异信息增加了STR 基因座的等位基因个数,提升了其多态信息含量及杂合度。
基于PCR-CE 技术对50 例畲族个体血样的58 个STR基因座进行检测,分型结果与MPS检测结果一致。此外,在MPS数据分析过程中发现,ForenSeq试剂盒所提供的部分STR基因座核心序列信息与国际法医遗传学会(International Society for Forensic Genetics,ISFG)对MPS-STR 的命名建议[14]存在出入,其中D1S1656、D2S1338、D5S818、CSF1P0、D6S1043、D7S820、Penta E、D19S433、FGA、HPRTB、DXS8378、DXS7423、DYS19、DYS389Ⅰ、DYS389Ⅱ、DYS390、DYS392与DYS460基因座的核心序列结构信息与ISFG 建议不一致。
经计算,58 个STR 基因座在本次调查的50 名畲族个体中的分布均符合Hardy-Weinberg平衡(P>0.05),且各基因座间均不存在连锁不平衡现象。根据实验数据,分别基于重复序列多态性等位基因和片段长度多态性等位基因进行群体遗传学参数的计算,无论是A-STR、Y-STR 还是X-STR,基于重复序列多态性进行计算得到的各项群体遗传学参数均高于基于片段长度多态性所得结果(表3)。
表3 基于重复序列多态性和片段长度多态性获得的STR 分型系统效能比较Tab.3 Comparisons of forensic efficiency of STR typing based on repeat sequence polymorphism and fragment length polymorphism
MPS 技术的出现打破了以PCR-CE 技术为主的常规法医实验室检测手段,MPS 技术中可组合的STR基因座个数不受荧光种类和核酸片段大小的限制,极大地增加了同一体系中检测STR 等遗传标记的数目。尽管PCR-CE 技术能够满足法医学检验中的大部分需求,但MPS 技术与其相比具有更高的通量,可以详细提供关于等位基因、stutter 峰以及信号噪声的比例,也可为混合样本的结果分析及复杂亲缘关系的鉴定提供更好的解决策略[15]。
本研究基于MiSeq FGx 法医基因组学系统采用ForenSeq 试剂盒对50 例浙江畲族个体血样中58 个STR 基因座进行MPS 检测,获得了58 个STR 基因座的完整等位基因分型及序列信息(包括核心序列信息和侧翼序列信息),结果显示,所有样本的等位基因均可与信号噪声区分开,均衡性良好,可满足判读要求。此外,阳性对照品的STR 分型结果与试剂盒标准分型结果一致,确保了检测的准确性和稳定性。MPS 检测结果与CE 分型结果一致,与PCR-CE 技术相比,MPS技术能获取STR 基因座上长度相同但序列结构不同的等位基因信息,提高了STR 序列多态性的检测效能,使序列信息得到更充分的利用。比较基于片段长度多态性与重复序列多态性获得的等位基因分型,基于重复序列的等位基因数目增长了22.40%,等位基因数目增加最多的3 个基因座为D21S11、D12S391和D2S1338,分别增加了144.44%、122.22%和110.00%。当等位基因长度相同时,仍可能存在序列结构的差异,在PCR-CE 技术检测中为纯合子的基因座可能拥有不同的序列结构。由于等位基因数目的增加,基于重复序列多态性分析结果中的STR 基因座的PIC、CDP、累积非父排除率等群体遗传学参数均大于基于片段长度多态性的分析结果。因此,MPS 技术对于STR 基因座序列结构的深度解读可提高其应用于法医学个体识别和亲权鉴定的检测效能,对于复杂亲缘关系鉴定案件的侦破等法医学实践具有很好的应用价值和重要意义。
侧翼序列上的SNP变异可能对整个STR基因座的扩增造成影响,因为该SNP 可能位于引物结合区域,从而降低特定等位基因成功扩增的概率。与此同时,侧翼序列的变异信息对STR 基因座的多样性也具有重要价值,MPS 技术可利用这些侧翼序列的多态性变异信息,提高STR 基因座的识别能力。其中,尤其需要注意D13S317基因座侧翼区的SNP,其核心重复序列为[TATC],3′侧翼区以8 个核苷酸(AATCAATC)开始,而在本研究及其他国内外相关研究[5]中观察到多个等位基因在3′侧翼序列第一个碱基上表现出A/T变异(从AATC 变为TATC),这种突变可能会造成基于片段长度多态性和序列多态性的基因分型结果不一致。本研究发现的侧翼序列变异信息仅限于ForenSeq试剂盒中使用引物的指定区域,如果使用其他引物则可能无法检测到本研究中的变异,也可能检出其他变异。
值得注意的是,本研究中D1S1656、D5S818、Penta E、DXS10103、DYS522、DYS19、DYS389 Ⅱ、YGATA-H4、DYS460基因座的测序覆盖深度小于整体的平均值,在今后的实验中可尝试重新设计引物或提高引物的浓度。另一方面,D22S1045基因座的平均ACR 值为0.347 6±0.169 8,而其余基因座的平均ACR值均高于0.6,在CHURCHILL 等[16]的研究中也发现了相同现象,这提示D22S1045基因座的杂合子等位基因不稳定程度高于其他基因座,检测中需要额外注意。
此外,本研究发现,ForenSeq 试剂盒中所提供的部分STR 基因座核心序列信息与ISFG 对MPS-STR的命名建议[14]存在出入,可能是由于采用正链或者反链进行MPS 数据分析时引起序列方向不一致,或是因为分析结果在核心序列结构命名上(如核心序列起始位置与终止位置、重复结构、侧翼序列变异信息等)与之前数据库或文献报道存在差异所致,在今后的工作中应注意。
综上,本研究基于MPS 技术系统地探究了STR 遗传标记的详细信息,为ForenSeq 试剂盒的法医学应用提供了参考。本研究采用ForenSeq试剂盒对58个STR基因座的遗传信息进行解读有助于补充关于浙江畲族人群STR 基因座的MPS 数据报道,尤其是对长度一致但序列信息不同的等位基因的解读,对提升浙江畲族人群族源分析能力及浙江各民族间鉴别能力具有重要价值。此外,基于ForenSeq 试剂盒进行MPS-STR检测,得到的STR 等位基因与目前的数据库格式差异较小,能够实现CE 与MPS 数据的对接。因此,该试剂盒在法医遗传学领域具有重要的研究价值和应用潜力。本研究基于MPS 技术的分型结果计算得到的部分群体遗传学参数较PCR-CE 技术无明显提高,可能与检测的人群样本量不足有关[3-4]。试剂盒引物A中还包含94 个常染色体SNP 位点,相关信息仍有待分析,预期将进一步提高试剂盒的个体识别和亲权鉴定的系统效能。