运用多元回归分析法估算残缺赤足迹的身高

2018-10-15 08:04毅,彪,
关键词:因变量回归方程足迹

高 毅, 王 彪, 马 越

(1.中国刑警学院痕迹检验技术系, 辽宁沈阳 100035; 2.痕迹检验鉴定技术公安部重点实验室, 辽宁沈阳 110035)

0 引言

在案发现场中出现的足迹多为遗留模糊、重叠或者不完整的残缺足迹,血足迹由于血液的流动性强会使得足迹的尺寸变形,不易利用足迹整体全长准确的进行人身分析。而当前侦查办案中,利用现场的足迹来推测犯罪嫌疑人的身高是刑事技术工作的主要任务之一。根据法医人类学可以了解到身高和身体的一些特殊部位具有一定的关联性,如手和脚、上肢和下肢,利用解剖学和数学的思想可为足迹分析身高提供理论基础。足部同人体其他器官一样,构成一个协调的统一体,各个部位的尺寸与足迹长度存在一定的相关关系。基于上述理论,不同于以往,本文利用赤足迹局部特征测量值来实现对嫌疑人身高的推测,运用多元回归分析的方法,多变量约束身高信息,因此计算的结果也更为准确,以期为残缺赤足足迹的身高推算提供了可靠依据。

1 多元回归分析法

回归分析是运用统计学的方法找出因变量与自变量之间的关系,建立数学模型,通过已知的自变量来估算或推测出因变量的值,而多元回归分析就是指建立的数学模型中包涵有两个或者两个以上的自变量。多元回归的方程式为:

Y=b0+b1X1+b2X2+…+biXi

其主要目的是通过统计、回归分析的方法来研究足迹各个测量值(自变量)与人的身高(因变量)的关系,以及得出运用哪些特征测量来分析身高最为准确。实验中主要选取足底的一些骨骼节点作为特征点。对赤足和穿袜足迹均进行分析,以避免穿袜足迹测量值比实际赤足迹大而导致结果误差。

2 材料与方法

2.1 样本选取

由于成年后人身高基本不会再有大的变化,加之刑事案件中作案人为男性的比例远高于女性,笔者采集200名男性的赤足足迹和穿袜足迹捺印样本,身高在165~190 cm之间,除此之外,这200名受试者的出生地、居住地均较分散,从而提高了实验结果的普遍性。要求测试者在正常行走的状态下进行赤足捺印,随机选取每名测试者20枚赤足迹。

2.2 测量方法

考虑到在现场出现率较为稳定的足跖区和足跟区,因此在这两个部位选择6个特征点进行测量。测量方法:足跖前缘最突点到足跟后缘最突点距离L1;足跖内缘最突点到足跟距离L2;足跖外缘最突点到足跟后缘最突点的距离L3;足跖后缘最突点到足跟后缘最突点的距离L4;跖内缘与跖前缘交点到足跟后缘突点的距离L5;第一跖区中心到跟中心的距离L6,特征选取如图1所示。

图1 特征选取测量示意图

2.3 数据预处理

本次研究,利用SPSS19.0统计分析软件,对数据进行回归分析,得出上述6个特征测量值与身高及特征相互之间的相关性。数据在测量和记录过程中会出现不可避免的误差,从而导致个别数据出现异常,往往导致结果出现较大的偏差,而异常数据的出现会掩盖实验数据变化的规律,得出错误结论。因此需要纠偏,将数据进行预处理,剔除异常值,这样才有利于提高实验的精确度。根据统计学可知,T检验准则适合数据库较小的异常值剔除,将数据整理好之后输入excel表格,然后运用t检验准则(又称罗曼诺夫斯基准则)对数据进行预处理。基本思想:首先剔除一个可疑值,然后按照t分布来检验被剔除值是否为异常值,重复此运算直到数据内没有异常值出现。

设样本数据为X1,X2,……,Xn,若认为Xj为可疑值,计算n-1个数据的平均值Xn-1标准差Sn-1,即:

表1 实验对象1样本特征测量数据单位:mm

本次实验利用SPSS(Statistical Program for Social Sciences)19.0统计分析软件进行数据预处理。根据统计学知识可知异常值通常出现在极大值或极小值之间,用SPSS软件中的“分析”计算出6个特征的极值。由于数据量不大,然后根据t检验准则进行检验,如表2所示。

表2 实验对象1特征极值描述统计量N:样本数量

计算较为复杂,文中不做过多阐述,以特征L3的极值151和155为例,将极小值151和极大值155分别进行t检验。将151和155剔除之后再分别进行计算余下数据的平均值和标准差。

表3 剔除极小值151后的样本均值和标准差描述统计表

表4 剔除极大值155后的样本均值和标准差描述统计表

2.4 数据分析

2.4.1 相关性分析

将数据统计好后进行回归分析。然后根据表5可以观察因变量身高和自变量之间的相关性,以及各特征之间的相关性。从表里可以发现身高与特征L2、L5、L6的相关性较高 ,相关系数在0.542~0.651(p<0.01)之间,而身高与特征L1、L3、L4的相关性较低,相关性系数在0.215~0.491(p<0.01)之间,其中与身高与L3的相关性最低,相关系数为0.215。观察表5可以看到L1、L2、L3、L4、L5、L6这些特征之间的相关性总体上是较高的,相关系数在0.425~0.924(p<0.01)之间。这说明这6个特征之间的相关性较好。根据特征之间的相关系数可知这些特征之间存在共线性问题,如果不对这些情况加以考虑,将这些特征全部进行回归分析计算回归模型,结果就可能会出现错误。因此只考虑相关性较高的情况并进行逐步回归分析计算出来的回归模型才会是准确的(如表5所示)。

2.4.2 模型分析

本实验中由于自变量之间相关性较高,存在共线性问题,验证了法医人类学中身体的一些特殊部位具有一定的关联性的观点。正是基于这些观点才能为残缺赤足迹推算身高提供可靠依据。于是在使用回归分析法时,应该利用逐步回归分析对数据进行分析,回归模型会根据各自变量对因变量预测能力的高低,而依次将自变量逐个地选入到回归模型中。当自变量的回归系数没有达到显著水平时,该自变量就会被排除在回归模型之外,从而得到了表6的模型汇总。如表6所示,其中的r表示相关系数,r越接近于1,表明自变量与因变量之间的相关性越强;也就是说模型与样本之间的拟合度越好,模型越能代表样本的观测趋势;而相关指数r2越接近于1,同样说明自变量与因变量之间的相关性越强,如果自变量过多或者样本个数较少,这样得出来的相关系数会高估总体的相关系数,这种情况下,需要采用调整后的相关系数来代替原始相关系数,这样就不用考虑样本个数和自变量个数的变化对方程的影响。因此这次我们可以选择调整r2作为回归模型,F改变的值表示的是回归方程的显著性检验,即对模型中被解释变量与所有解释变量之间线性关系在总体上是否显著做出判断。

表5 身高与各特征指标相关性统计表

**在 .01 水平(双侧)上显著相关。

表6 身高与特征回归分析方程模型汇总表

a.预测变量: (常量),L6;b.预测变量: (常量),L6,L3;c.预测变量: (常量),L6,L3,L5;d.预测变量: (常量),L6,L3,L5,L4;e.因变量: 身高。

在表6中所呈现的模型1、模型2和模型4自变量的回归系数均达到了显著水平。如表6所示,自变量L6建立的模型1与因变量身高的拟合度为46.6%,达到了统计上的显著水平(F改变=253.299,p=0.00<0.01);模型2中加入了自变量L3,这两个自变量L6、L3建立的模型与因变量身高的拟合度为57.3%,排除自变量L6的影响,单独自变量L3建立的模型与对因变量身高的拟合度为10.8%,达到了统计上的显著水平(F改变=72.809,p=0.000.01);模型3中加入自变量L5,3个自变量L6、L3、L5建立的模型与因变量身高的拟合度为59.8%,排除自变量L6、L3的影响,自变量L5对因变量的拟合度为1.3%,没有达到了统计上的显著水平(F改变=9.537,p=0.020.01)。模型4中加入自变量L4,这4个自变量L6、L3、L5、L4对因变量身高的拟合度为62%,排除L6、L3、L5的影响,单独自变量L4与因变量身高的拟合度为0.7%。达到了统计学上的显著水平(F改变=5.271,p=0.220.01),但是这4个模型的F值分别是253.299(p=0.00<0.01)、194.633(p=0.00<0.01)、144.222(p=0.00<0.01)、93.442(p=0.00<0.01)均达到了显著水平,所以模型3和4中并不影响自变量L4和L5的加入。表中Durbin-Watson检验的值为0.431,当DW统计量数值接近0时,自相关越强。说明该回归模型中自变量存在共线性问题。证实了人体各个部分尺寸是具有关联性的,也就是说脚的各部位的尺寸与整个脚的尺寸或身高是有联系的,也正是根据这一点才能依据足迹中各个部位的尺寸进行身高的估算。这一点在法医解剖学和人类体质学上是共同承认的,因此DW的值对本次实验的影响不大,所以这4个模型都可以用来对身高的分析。

2.4.3 选取模型

通过对因变量和选入模型的自变量的回归分析,得出了表7所示的回归模型的回归系数及回归系数的显著性。如表6所示,模型1为一元回归方程,模型2、模型3和模型4都是多元回归方程,多元回归方程标准估计的误差值比线性回归方程更小,这说明多元回归方程计算出来的结果比线性回归方程更准确,误差更小。由表6可知与样本拟合度最低的是模型1为46.6%;模型2和模型3与样本的拟合度位于中间分别是57.3%和59.8%,在模型4与样本的拟合度最强为62.0%。这说明自变量越多对因变量的描述信息就越多,因变量的结果也更准确。这4个模型的显著性虽然都达到了统计学上的显著水平(a=0.01),但在适用上应优先选用模型4(如表6所示)。

表7 回归方程系数表

a.因变量: 身高

由表7内的数据,可以得出两个模型所建立的回归方程:

模型1:身高=87.603+0.603*L6

模型2:身高=101.735+0.942*L6-0.43*L3

模型3:身高=112.494+0.677*L6-0.543*L3+0.221*L5

模型4:身高=122.618+0.668*L6-0.521*L3+0.334*L5-0.208*L4(如表7所示)

3 结语

本次实验的特征选取不再是选取足迹趾区前缘最突点到跟后缘最突点的距离,经过实验发现这种足迹前边缘特征容易受作用力、承痕客体和中介质的影响而发生很大的改变,使得现场足迹的尺寸与实际足迹尺寸不符,从而导致在分析身高时误差较大。文中选取的特征是根据法医人类学的理论知识来选取并加以测量。这些特征大部分是骨骼的节点,不易受现场条件的影响而发生改变。所以根据这些足迹特征进行多元回归分析会得到最准确的身高数值。

同时,根据文中推导出来的多元回归方程在计算作案人身高时,不用再考虑现场足迹是否为穿袜或者赤足足迹,只要在现场上能找到相应的特征时就可以带入公式进行分析。避免了传统足迹分析时容易把穿袜足迹当做赤足足迹使得足迹尺寸偏大,而导致在分析身高时得出的结果比实际身高相差太多的情况。由于人体的结构基本上是对称的,所以在现场不管是左足还是右足,只要具有这些特征就可以直接带入公式进行分析。

本次实验主要是对赤足残缺足迹进行统计和分析,因此,在对穿鞋足迹进行此方法检验时应准确确定特征点的位置,避免特征出现较大误差,导致出现错误结果。本实验对象来自于全国各地的男性,虽然消除了地区不同导致的差异,但是在性别上还需要注意,应充分考虑现场足迹其他因素的综合应用。

猜你喜欢
因变量回归方程足迹
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
走进回归分析,让回归方程不再是你高考的绊脚石
红色足迹
偏最小二乘回归方法
谈谈如何讲解多元复合函数的求导法则
精心设计课堂 走进学生胸膛
中国足迹