无创非整倍体产前检查算法研究

2018-05-28 11:10赵更
电脑知识与技术 2018年9期
关键词:高通量测序

赵更

摘要:胎儿的非整倍体检测主要包括对常染色体13,18,21进行检测,以便发现胎儿是否患有T21,T13,以及T18等先天性疾病。传统的产前检测首先是进行血清学和超声诊断学筛查,进行产前初检。对于筛查高风险的孕妇,需要接受绒毛取样或羊水穿刺,进行核型分析,以便明确胎儿是否患有非整倍体疾病。羊水或绒毛穿刺手术虽然准确率和灵敏度非常高,但是孕妇在接受这些手段进行检查的同时,往往有流产的风险。借助高通量测序技术的发展,胎儿非整倍体检测可以以一种无创的形式进行,本文总结了在基于高通量测序技术手段进行无创产前检查所使用的生物信息学算法。

关键词:无创产前检查; 高通量测序;胎儿非整倍体

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)09-0229-03

Abstract: The fetus aneuploidy testing, mainly focus on the analysis of data at chromosomes 13, 18, 21, X and Y, to determine the ploidy state of the fetus. Conventional prenatal testing mainly include serological screening and ultrasound diagnostics screening, at the early state of screening. Pregnant women with high risk of aneuploidy evaluated by above screening should take invasive testing such as chorionic villus sampling or amniocentesis, to do karyotype analysis. Methods such as amniocentesis, chrorion villus sampling have high accuracy, but are invasive and carry significant risks. With the development of high-throughput sequencing technologies, fetal aneuploidy detection can be done in the form of a noninvasive. This paper summarizes the bioinformatics algorithms of NIPD that based on high-throughput sequencing technology

Key words: NIPD; High-throughput sequencing; Fetus aneauploidy

胎儿的非整倍体检测主要包括对常染色体13,18,21进行检测,以便发现胎儿是否患有T21,T13,以及T18等先天性疾病。传统的产前检测首先是进行血清学和超声诊断学筛查,进行产前初检。对于筛查高风险的孕妇,需要接受绒毛取样或羊水穿刺,进行核型分析,以便明确胎儿是否患有非整倍体疾病。羊水或绒毛穿刺手术虽然准确率和灵敏度非常高,但是孕妇在接受这些手段进行检查的同时,往往有宫内感染或流产的风险[1]。

1997年香港中文大学的卢煜明及其团队研究发现孕妇血液中存在胎儿的游离DNA,为孕妇及胎儿的多项疾病检测提供了安全可靠的方法[2]。近年来,胎儿的无创产前检测技术发1展迅速,胎儿的游离细胞可以成功地被提取用于非侵入性胎儿性别鉴定和Rh血型鉴定[3,4]。但是,胎儿游离细胞在母亲血液中所占比例微乎其微的这一客观事实(胎儿游离细胞与母血中母亲细胞比例接近1:1000 000),使得从母血中提取出胎儿游离细胞的技术所花费的成本非常昂贵并且可靠性也比较低[5-7]。随着高通量测序技术的发展及测序成本的降低,人们将越来越多的注意力集中到从母亲外周血中分析胎儿游离DNA进而进行非整倍体检测的研究上来。

1 问题描述

正常人含有23对同源染色体,其中一半来自父亲,一半来自母亲。在胎儿产前染色体整倍性检测中正常的胎儿都是二倍体的。产前检测中的非整倍体,是指染色体组中比正常二倍体增加或减少个别染色体的个体。在胎儿产前检测中,常见的非整倍体相关的疾病有21三体综合症,18三体综合症,13三体综合症,Klinefelter综合症(45,XXY),以及Turner综合症(45,X)等疾病。

现今科学已经明确,胎儿的游离DNA长期稳定的存在于孕妇的外周血中。孕妇怀孕四周左右,就能从其血液中检测出胎儿的游离DNA。孕妇怀孕7周的时候,胎儿的游离DNA就会以比较稳定的比例存在于母血中。研究表明:1)胎儿的游离DNA是以小片段的形式存在于母血中,片段长度范围在75bp到205bp之间;2)胎儿游离DNA约占血浆中全部游离DNA总量的5%到10%[8],并且这一比例会随着孕周的增长而增加;3)胎儿游离DNA在孕妇分娩以后的2小时内,会迅速被清除[2]。

2 主流的高通量生物信息學算法

由于胎儿的游离DNA序列被“淹没”在强大的母亲DNA序列之中,因此,如果要精准的定量胎儿某个编号的同源染色体的个数是非常困难的。高通量测序技术的出现,使得该问题的解决提供了可能。目前国内外关于高通量技术预测胎儿染色体非整倍性的检测方法主流的有两大类,即大规模平行测序技术及配套的分析技术以及目标测序技术。

2.1 大规模平行测序技术生物信息学算法

大规模平行测序孕妇外周血从而进行胎儿非整倍体检测算法的出发点为:当测序深度和比对足够的情况下,胎儿基因组的差异也会引起测序数据在参考基因组不同区域和染色体上比对分布的差异。

受此启发,2008年Rossa W. K. Chiu等人[9]提出了一种基于对母体血浆中 DNA 大规模平行测序的生物信息算法来进行产前非整倍体检测。该方法的算法示意图如图1所示。

该方法的大致步骤为:1)抽取孕妇的外周血進行高通量测序,并将高通量测序获得的reads数据比对到人类参考基因组上,进而确定每个 DNA 片段出自哪一条染色体,而不在意 DNA 在染色体上的具体位置;2)对出自某一具体染色体上的 read 进行计数(只考虑那些只能映射到人类参考基因组上的一个位置的read,并要求没有错配,记为 “Unique” read),并计算比对到每一条人类染色体的 read 的总数量;3)计算出每条染色体的表达率,即精确比对到该染色体上的 read 数量占精确比对到参考基因组上的所有 read 数量的百分数[%ChrN],计算公式为(1)所示;4)根据第三步,将样品数据的感兴趣编号染色体表达率数据与正常样品数据参照染色体表达率数据代入(2)公式获得一个Z-score值;5)根据Z-score值进而判断样品数据的感兴趣染色体的倍数。

该算法提出后,在识别出怀有T21三体综合症胎儿的孕妇方面有较高的准确率(准确率接近100%[11])。然而该算法具有如下一些缺点:1)未考虑测序数据会受到GC偏好性的影响[10];2)未将不同孕期母体胎儿游离DNA浓度不同的这一重要信息融合进入该算法中。

为了解决上述问题,在该算法的基础上,Chen EZ等人提出了一种GC纠正的方法,可以有效地对怀有T13三体综合症胎儿以及T18三体综合症胎儿的孕妇进行筛查[10]。我们国内的贝瑞和康公司也是采用将GC标准化后代入上述的公式从而计算Z-Score值进行非整倍体产前检测的,并且其算法已经应用于临床[12]。2013年哈尔滨工业大学的白鸿叶等人,提出了一种构建 GC 含量偏差的校正模型,以消除 GC 含量对比对分布密度带来的偏差[13]。2012年,华大的无创产前检测团队Fuman Jiang等人[14]提出了将GC纠正及胎儿游离DNA在所检测样品的浓度预测值融合进入大规模测序算法进行产前筛查的算法(NIFTY)。该算法的大体流程如图2所示。

该算法不仅可以对胎儿常染色体的非整倍性做出筛查,还可以对胎儿的性染色体的非整倍性进行筛查。

大规模并行测序进而预测胎儿的非整倍体算法是我们国内目前用于临床中的主流算法。

2.2 目标片段测序技术生物信息学算法

另外一种预测胎儿非整倍体的高通量生物信息算法是目标片段测序技术生物信息学算法。该算法提出的根本出发点为:染色体非整倍性反映到分子水平上,表现为同源染色体的条数不是两条的关系,表现为3条或1条。但是反映到染色体DNA序列上某个SNP位点而言, 如果胎儿的SNP为杂合子,则表现为该位点的等位基因剂量比例将会出现1:1,而对于一个21-三体的患儿,其等位基因的剂量比例将会为1:2 或者2:1。

为了使用目标测序算法不仅可以分析杂合子的非整倍体胎儿,也可以分析其他SNP分型的非整倍体患儿,一种定量分析方法称为DANSR算法[15,16,17]被设计出来用于筛选T21和T18的样品数据。该算法从感兴趣的染色体上选择感兴趣的区域然后再选择感兴趣的SNP位点进行PCR扩增之后再进行测序,使用数字分析方法进行预测。该方法被证实可以识别出21三体和18三体的临床样品数据。然而该方法的实施需要参照染色体数据,并且要求参照染色体数据的扩增与感兴趣染色体片段区域扩增效率应尽可能地接近。2012年Liao等人[18]通过在目标染色体上选择一系列SNP位点进行测序,并计算胎儿和母亲的SNPs 比值,然后将该比值与参照基因组进行再比较,从而给出胎儿的目标染色体的拷贝数。该方法使用一系列SNP位点某种程度上减轻了染色体与染色体之间扩增的偏好性;然而该方法采用参照染色体做对照,某种程度上减轻了该算法的优势。

2012年natera公司研发出了一个在临床上应用非常广泛的目标测序算法[19],可以对胎儿的染色体非整倍性做出筛查。该算法通过确定一个联合分布模型,利用父母基因型数据产生对不同可能的胎儿染色体倍数状态的期望分布,然后比较期望分布和所测量的等位分布模式,观察检测的等位分布频率模式和期望的等位分布模式的哪种最匹配,以此来判断胎儿的非整倍性。该算法的计算流程如图3所示。

该算法提出以后,在临床上得到了广泛的应用,该算法不仅可以对胎儿的常染色体的非整倍性做出检测,还可以对性染色体的非整倍性做出检测。该算法至今还在不断地完善与更新中[20,21]。

3 总结

本文总结了应用于无创产前检测的主流生物信息学算法。主流的生物信息学算法分为两大类:大规模测序算法和目标片段测序算法。这两种类型的算法在预测胎儿非整倍体检测方面都有着很高的准确率,并且已经被广泛地应用到了临床。目标片段测序类型的算法与大规模测序算法相比,需要较低的测序通量并且一次测序可以分析较多的样品数据,但是目标片段算法的实施需要选择较多的SNP位点。随着社会的发展,人类的进步,相信会有更多的无创产前生物信息算法被开发出来,用于预测胎儿的染色体疾病。

参考文献:

[1] Lo Y M D, Tein M S C, Lau T K, et al. Quantitative analysis of fetal DNA in maternal plasma and serum: implications for noninvasive prenatal diagnosis[J]. The American Journal of Human Genetics, 1998, 62(4): 768-775..

[2] Lo Y M D, Corbetta N, Chamberlain P F, et al. Presence of fetal DNA in maternal plasma and serum[J]. The Lancet, 1997, 350(9076): 485-487.

[3] Lo Y M D, Hjelm N M, Fidler C, et al. Prenatal diagnosis of fetal RhD status by molecular analysis of maternal plasma[J]. New England Journal of Medicine, 1998, 339(24): 1734-1738.

[4] Finning K, Martin P, Summers J, et al. Effect of high throughput RHD typing of fetal DNA in maternal plasma on use of anti-RhD immunoglobulin in RhD negative pregnant women: prospective feasibility study[J]. bmj, 2008, 336(7648): 816-818.

[5] Bianchi D W, Simpson J L, Jackson L G, et al. Fetal gender and aneuploidy detection using fetal cells in maternal blood: analysis of NIFTY I data[J]. Prenatal diagnosis, 2002, 22(7): 609-615.

[6] Guetta E, Simchen M J, Mammon-Daviko K, et al. Analysis of fetal blood cells in the maternal circulation: challenges, ongoing efforts, and potential solutions[J]. Stem cells and development, 2004, 13(1): 93-99.

[7] Lo Y M D, Chiu R W K. Prenatal diagnosis: progress through plasma nucleic acids[J]. Nature Reviews Genetics, 2007, 8(1): 71-77.

[8] Lun F M F, Chiu R W K, Chan K C A, et al. Microfluidics digital PCR reveals a higher than expected fraction of fetal DNA in maternal plasma[J]. Clinical chemistry, 2008, 54(10): 1664-1672.

[9] Chiu R W K, Chan K C A, Gao Y, et al. Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma[J]. Proceedings of the National Academy of Sciences, 2008, 105(51): 20458-20463.

[10] Chen E Z, Chiu R W K, Sun H, et al. Noninvasive prenatal diagnosis of fetal trisomy 18 and trisomy 13 by maternal plasma DNA sequencing[J]. Plos one, 2011, 6(7): e21791.

[11] Chiu R W K, Akolekar R, Zheng Y W L, et al. Non-invasive prenatal assessment of trisomy 21 by multiplexed maternal plasma DNA sequencing: large scale validity study[J]. Bmj, 2011, 342: c7401.

[12] http://www.berrygenomics.com/bambnitest/technology/process/

[13] 白鴻叶.高通量DNA测序数据的分布密度分析及其应用[D].哈尔滨工业大学,2013.

[14] Jiang F, Ren J, Chen F, et al. Noninvasive Fetal Trisomy (NIFTY) test: an advanced noninvasive prenatal diagnosis methodology for fetal autosomal and sex chromosomal aneuploidies[J]. BMC medical genomics, 2012, 5(1): 57.

[15] Sparks A B, Wang E T, Struble C A, et al. Selective analysis of cell-free DNA in maternal blood for evaluation of fetal trisomy[J]. Prenatal diagnosis, 2012, 32(1): 3-9.

[16] Sparks A B, Struble C A, Wang E T, et al. Noninvasive prenatal detection and selective analysis of cell-free DNA obtained from maternal blood: evaluation for trisomy 21 and trisomy 18[J]. American journal of obstetrics and gynecology, 2012, 206(4): 319. e1-319. e9.

猜你喜欢
高通量测序
污水处理中压力变化对污泥中微生物群落组成的影响研究