推导IBS评分在全同胞对人群中概率分布的计算公式

2019-02-10 11:15赵琪李燃金云舟孙宏钰赵书民
法医学杂志 2019年6期
关键词:二项分布基因座同胞

赵琪,李燃,金云舟,孙宏钰,赵书民

(1.上海晶准生物医药有限公司,上海 201114;2.中山大学中山医学院法医学系,广东 广州 510080;3.江苏东南证据科学研究院有限公司,江苏 南京 210042)

在亲缘关系鉴定中,原假设H0(被鉴定人间为无关个体)与备择假设H1(被鉴定人间存在所声称的亲缘关系)是一对有机整体。在司法部颁布实施的《生物学全同胞关系鉴定实施规范》(SF/Z JD0105002—2014,以下简称《规范》)中也规定,生物学全同胞(full sibling,FS)关系鉴定的参照系为无关个体[1]。同时《规范》中规定采用状态一致性(identity by state,IBS)评分作为全同胞关系鉴定的判断参数(以下简称IBS评分)。目前已有学者[2]仅依据短串联重复(short tandem repeat,STR)序列遗传标记等位基因的频率数据对IBS评分在无关个体对人群中的概率分布特征进行了描述,但作为逻辑推导过程的一个整体,仍需要对IBS评分在全同胞对人群中的概率分布特征进行推导,才可以形成完整的逻辑链条。

1 方法与结果

1.1 参数定义

比较一对生物学全同胞(C与D)在某一常染色体STR基因座的分型结果,存在3种相互排斥的结果:有2个相同的等位基因、仅有1个等位基因相同、无相同等位基因,分别以a2=1、a1=1、a0=1表示。当对C与D完成n个相互独立的STR基因座分型后,则有A2为n个STR基因座上a2之和、A1为n个STR基因座上a1之和、A0为n个STR基因座上a0之和[1-2]。以ibs表示C与D在单个STR基因座上相同的等位基因个数,依据a2、a1、a0的概念有:

1.2 生物学全同胞对中 a2、a1、a0的概率

依据人类现代婚配习俗,全同胞对C与D的生物学父母A与B为无关个体。在某常染色体STR基因座,A与B最少可检出1种等位基因(以P表示),最多可检出4种不同的等位基因(分别以P、Q、R、S表示)。A与B生育两名个体为两次独立事件,在不考虑STR基因座自发突变的情形下,依据孟德尔遗传规律,可得到A与B不同基因型组合对应C与D在该常染色体STR基因座a2=1、a1=1、a0=1的概率见表1。

表1 亲代不同基因型组合对应全同胞对a2、a1或a0取值为1的概率

若以p2FS、p1FS、p0FS分别表示全同胞对C与D间a2、a1、a0取值为1的概率,则有:

即表1每一行对应的两名子代C与D不同基因型组合的概率和应为1。

依据表1可将p2FS、p1FS、p0FS分解为:

1.3 生物学全同胞间不同参数概率计算公式的推导

设某STR基因座有m个等位基因,并以fi(i=1,2,3,…,m)表示该基因座上第i个等位基因的频率,则有:

1.3.1 推导p2FS计算公式

1.3.1.1p2FS(HoHo)计算公式的推导

式(5)中p2FS(HoHo)指C与D基因型相同且均为纯合子的概率,这一概率为表1中第4列各行概率值与相应A与B基因型组合概率乘积之和,即p2FS(HoHo)可以写作:

依据参考文献[2]中无关个体对相应基因型概率,可以得到:

1.3.1.2p2FS(HeHe)计算公式的推导

式(5)中p2FS(HeHe)指C与D基因型相同且均为杂合子的概率,这一概率为表1中第5列各行概率值与相应A与B基因型组合概率乘积之和,即p2FS(HeHe)可以写作:

依据参考文献[2]中无关个体对相应基因型概率,可以得到:

所以,依据式(5)可以得到:

1.3.2 推导p1FS计算公式

1.3.2.1p1FS(HoHe)计算公式的推导

式(6)中p1FS(HoHe)指C与D在该基因座只有1个相同的等位基因且两者1个为纯合子、1个为杂合子的概率,这一概率为表1中第6列各行概率值与相应A与B基因型组合概率乘积之和,即p1FS(HoHe)可以写作:

依据参考文献[2]中无关个体对相应基因型概率,可以得到:

1.3.2.2p1FS(HeHe)计算公式的推导

式(6)中p1FS(HeHe)指C与D在该基因座只有1个相同的等位基因且两者均为杂合子的概率,这一概率为表1中第7列各行概率值与相应A与B基因型组合概率乘积之和,即p1FS(HeHe)可以写作:

依据参考文献[2]中无关个体对相应基因型概率,可以得到:

所以,依据式(6)可以得到:

1.3.3 推导p0FS计算公式

1.3.3.1p0FS(HoHo)计算公式的推导

式(7)中p0FS(HoHo)指C与D无相同等位基因且两者均为纯合子的概率,这一概率为表1中第8列各行概率值与相应A与B基因型组合概率乘积之和,即p0FS(HoHo)可以写作:

依据参考文献[2]中无关个体对p2(HeHe)概率,可以得到:

1.3.3.2p0FS(HoHe)计算公式的推导

式(7)中p0FS(HoHe)指C与D无相同等位基因且两者1个为纯合子、1个为杂合子的概率,这一概率为表1中第9列各行概率值与相应A与B基因型组合概率乘积之和,即p0FS(HoHe)可以写作:

依据参考文献[2]中无关个体对p1(HeHe)概率,可以得到:

1.3.3.3p0FS(HeHe)计算公式的推导

式(7)中p0FS(HeHe)指C与D无相同等位基因且两者均为杂合子的概率,这一概率为表1中第10列各行概率值与相应A与B基因型组合概率乘积之和,即p0FS(HeHe)可以写作:

依据参考文献[2]中无关个体对p0(HeHe)概率,可以得到:

所以,依据式(7)可以得到:

1.4 推导生物学全同胞对人群中IBS二项分布的特征参数

依据1.1节中关于a2、a1、a0的定义可知,对生物学全同胞对C与D采用包含n个相互独立的STR基因座进行分型检测,a2=1这样的事件所发生的次数(即A2FS)服从总体率为p2FS的二项分布,可记作A2~B(n,p2FS)[3]。同样的,A1FS服从总体率为p1FS的二项分布,记作A1~B(n,p1FS)[3]。其中p2FS为 1.3.1 节推导得到的各STR基因座p2FSl(l=1,2,…,n)的算术平均数,p1FS为1.3.2节推导到各STR基因座p1FSl(l=1,2,…,n)的算术平均数,即有:

依据式(3)和二项分布的可加性[3],IBS亦为服从二项分布的变量。对于包含n个相互独立的STR基因座的分型系统而言,IBS的最大值为2n,则IBS服从总体率为π1的二项分布:IBS~B(2n,π1)。

全同胞对人群中IBS的期望值E(IBS)为:

全同胞对人群中IBS的总体率π1为:

1.5 应用示例

1.5.1FGA等19个必检STR基因座对应各参数二项分布特征

采用参考文献[4-5]中对《规范》中FGA等19个必检STR基因座在华东汉族人群中的等位基因频率,依据每一STR各自的等位基因频率和1.3节推导得到的计算公式,可以分别计算出各个STR基因座对应的p2FS、p1FS、p0FS值,进而得到各参数在全同胞对人群中的分布特征(表2)。依据IBS分布特征可得到相应参数在全同胞对人群中的分布曲线(图1)。

表2 华东汉族人群FGA等19个STR基因座对应各参数在不同研究人群中的二项分布特征

图1 《规范》中19个必检基因座分型系统对应全同胞对与无关个体对的IBS二项分布

1.5.2 全同胞鉴定中遗传学证据价值评估示例

当两名被鉴定人采用FGA等19个《规范》中规定的必检STR基因座进行分型后,依据表1可知,IBS在无关个体对人群中符合二项分布IBS~B(38,0.3110),在全同胞对人群中符合二项分布IBS~B(38,0.6280)。当全同胞对C与D经FGA等19个必检STR基因座分型后,若IBS评分为10,采用Excel软件中的二项分布函数,输入 BINOM.DIST(10,38,0.311 0,FALSE),得到两者为无关个体的概率为pH0=0.11812960,输入BINOM.DIST(10,38,0.6280,FALSE),得到两者为全同胞对的概率为pH1=0.00000426。因此,两者的生物学全同胞关系似然比(likelihood ratio,LR)为:

生物学全同胞相对概率为:

即两者为全同胞的概率是两者为无关个体概率的3.61×10-5倍(或两者为无关个体的概率约是两者为全同胞概率的27730倍),两者的全同胞相对概率为0.000 036 06(或两者的无关个体相对概率为0.99996394)。

1.5.3 对《规范》中FGA等19个必检STR基因座生物学全同胞检验系统效能的评估

依据《规范》中对检验FGA等19个必检STR基因座时的判断阈值,采用1.5.1节中所示IBS在无关个体对人群与全同胞对人群中的二项分布特征可得到:

IBS≤13的真无关个体概率为:BINOMDIST(13,38,0.311 0,TRUE)≈0.726 8;近似为图1所示无关个体对人群对应曲线的IBS≤13的曲线下面积。

IBS≥22的真全同胞概率为:1-BINOMDIST(21,38,0.6280,TRUE)≈0.7876;近似为图1所示全同胞对人群对应曲线的IBS≥22的曲线下面积。

IBS≤13的全同胞(误判为无关个体)概率为:BINOMDIST(13,38,0.628 0,TRUE)≈0.000 3;近似为图1所示全同胞对人群对应曲线的IBS≤13的曲线下面积。

IBS≥22的无关个体(误判为全同胞)概率为:1-BINOMDIST(21,38,0.311 0,TRUE)≈0.000 6;近似为图1所示无关个体对人群对应曲线的IBS≥22的曲线下面积。

因此,检验FGA等19个必检STR基因座时能够得到倾向性意见的概率(灵敏度,即系统效能)约为:(0.7268+0.7876)/2=0.7572;得到的倾向性意见的平均误判率约为:(0.0003+0.0006)/2=0.00045。

2 讨 论

本研究依据IBS评分在无关个体对人群中的分布规律[2]以及常染色体STR基因座的遗传符合孟德尔遗传规律,推导得到了IBS评分在生物学全同胞对人群中的二项分布特征。之所以能够依据IBS评分在无关个体对人群中的二项分布规律来推导该参数在生物学全同胞对人群中的二项分布特征,是建立在一个相对稳固的假设前提之上,即:依照现代人类社会的婚配习俗,生物学全同胞的父母间应为无关个体。另外,对于一个足够大的群体(如我国汉族总人口)来说,可以认为该群体符合Hardy-Weinberg平衡。这两个相对稳固的假设前提构成了推导IBS评分在无关个体对人群与生物学全同胞对人群中的二项分布特征的基础[6-11]。

从图1可以看到,当采用《规范》推荐的FGA等19个必检STR基因座时,IBS评分在无关个体对人群与生物学全同胞对人群中的概率分布仍有不小的重叠区间,这是《规范》在给出生物学全同胞鉴定意见时,单独给出一个“无法给出倾向性意见”区间的原因。例如,采用FGA等19个必检STR基因座对一对个体进行检验后,当IBS=18时,依据参考文献[2]和本文所给出的IBS评分在无关个体对人群和生物学全同胞对人群中的二项分布特征,采用Excel二项分布函数,可得到两者为无关个体的概率约为0.0145、为生物学全同胞的概率约为0.0200,两者为生物学全同胞的概率仅为两者为无关个体的概率的1.38倍。而当IBS=13时,两者为无关个体的概率约为0.124 5,为生物学全同胞的概率约为0.000 2,两者为无关个体的概率是两者为生物学全同胞概率的622.5倍;当IBS=22时,两者为无关个体的概率约为0.0004,为生物学全同胞的概率约为0.1074,两者为生物学全同胞的概率是两者为无关个体概率的268.5倍。这也是《规范》中当检验FGA等19个必检基因座时,分别设定IBS≤13(倾向于两名被鉴定人为无关个体)、IBS≥22(倾向于两名被鉴定人为生物学全同胞)两个阈值的原因,同时这也是《规范》中8.2条款的依据。

1.5.3节对《规范》中检验FGA等19个STR基因座对应的判断标准的系统效能进行了详细的解释。对于一个特定的分型系统(一组STR基因座组合)来说,对一个给定的判断标准均应对其判断的效能进行评估,包括这一判断标准的灵敏度和平均误判率等指标。但在具体个案中,因为已检出特定的IBS值,则可采用IBS值在相应人群中的二项分布直接计算两种假设对应的概率值,参照传统的法医学证据价值评估方法对个案中的遗传学证据价值进行评估,正如1.5.2节所示。

至此,依据参考文献[2]以及本文研究结果,已得到生物学全同胞鉴定中原假设(H0,被检验的两名个体为无关个体)与备择假设(H1,被检验的两名个体为生物学全同胞)的概率计算工具。当检验任意符合《规范》要求的STR基因座组合时,依据该组计算工具以及STR基因座在相应人群中的等位基因频率,即可计算出任意IBS评分所对应的两名被鉴定人为无关个体和为生物学全同胞的概率,并能对相应的系统检验效能加以评估,从而实现《规范》的灵活应用。

猜你喜欢
二项分布基因座同胞
二项分布与超几何分布的区别与联系
以中华文化促进两岸同胞心灵契合的路径思考
深度剖析超几何分布和二项分布
概率与统计(1)——二项分布与超几何分布
广东肇庆汉族人群20个STR基因座遗传多态性
厂窖惨案遇难同胞纪念馆
多拷贝Y-STR基因座在法庭科学领域的研究
二项分布参数的E-Bayes估计及其应用
海外同胞与中国健儿心心相连
杉木半同胞24年生优良家系选择