朴素贝叶斯模型在驾驶员伤情预测中的应用

2020-03-28 12:25殷越洲谢君平
机械设计与制造 2020年1期
关键词:伤情贝叶斯驾驶员

陆 颖,殷越洲,谢君平

(江苏大学汽车与交通工程学院,江苏 镇江 212013)

1 引言

先进车辆事故自动呼救(Advanced Automatic Crash Notification,AACN)系统能够提供事故现场的精准位置并能预测车内乘员的伤害严重程度,然后由车载记录器记录相关数据[1]。若乘员伤害严重,则AACN对外呼救并将乘员的伤害数据发送至医疗中心,医疗中心根据乘员伤害数据制定相应的治疗方案,从而保障乘员的安全。若乘员伤害程度较低,则AACN不对外进行呼救,从而减少医疗资源的浪费。

目前,国内外研究人员对乘员伤情预测模型研究较多的主要是通过MADYMO、HyperMesh等仿真软件对乘员和车辆进行仿真建模[2-4],并通过实际的碰撞实验来验证乘员、车辆仿真模型的动态响应,最终利用仿真模型来预测乘员伤情,但是该方法无法对乘员的整体伤情进行预测,并且仿真模型集成到AACN系统的控制算法中也比较困难。

因此,国外研究人员提出了在AACN系统中应用统计回归算法来构建乘员伤情预测模型,即将已有的交通事故数据中的乘员信息、车辆运行信息、乘员伤情等级等进行整理和分类,然后对这些信息数据进行回归处理得到预测方程[5-7]。目前该算法已经被广泛地运用到一些豪华车型中的AACN系统中,例如在BMW中的AACN系统中对乘员伤情预测是基于该统计回归算法[8]。

综上可看出,目前针对AACN系统中驾驶员伤害预测的方法研究主要是以Logistic回归模型为主,研究方向主要是基于不同样本,选取不同的影响因素和伤害风险评价标准来提高伤情预测的精度。近年来这一领域也开始引入其他机器学习算法。提出一种基于朴素贝叶斯模型的驾驶员伤情预测算法。首先将驾驶员伤情等级达到MAIS3+作为AACN系统发送的呼救等级,通过数据分析选取变量作为造成驾驶员伤情的影响因素。其次基于朴素贝叶斯模型的基本原理建立驾驶员伤情等级的预测算法。最后通过事故数据进行该算法的仿真及有效性验证。

2 事故数据来源及分析

统计了美国国家公路交通安全管理局事故案列调查(Special Crash Investigation,SCI)数据库中(2006~2015)年共计428例汽车碰撞事故案例。其中,事故信息主要有:

2.1 驾驶员伤情等级

驾驶员伤情等级分为两类:(1)驾驶员伤情等级达到MAIS3+(Max Abbreviated Injury Scale,MAIS),即表示驾驶员严重损伤;(2)驾驶员伤情等级没有达到MAIS3+,即表示驾驶员轻伤。

2.2 碰撞速度变化量

碰撞速度变化量被定义为碰撞速度变化量被定义为车辆发生碰撞时速度与碰撞分离时速度的差值,统计的其范围在(8~120)km/h。

2.3 碰撞方向

碰撞方向主要包括正面碰撞、左侧碰撞(靠近驾驶员侧)、右侧碰撞、追尾碰撞。

2.4 安全带使用情况

统计的事故样本记录了驾驶员是否系安全带的情况。

2.5 驾驶员侧安全气囊

驾驶员侧安全气囊是否打开,影响着驾驶员的伤情等级。故对驾驶员侧安全气囊是否打开进行了记录。

2.6 驾驶员年龄

根据统计的事故样本,驾驶员年龄在(16~90)岁之间。

2.7 驾驶员性别

男性与女性在碰撞过程中的人体耐冲击性不一样,因此对驾驶员性别进行了记录。

综上所述,驾驶员是否达到MAIS3+是多个因素导致的,并且多个因素之间相互独立。将统计的这些变量作为驾驶员是否达到MAIS3+的影响因素。

3 朴素贝叶斯模型

朴素贝叶斯模型是一个包含一个根节点,多个叶节点的树状贝叶斯网,如图1所示。其中,叶节点x1,…,xn是属性变量,描述待分类对象的属性,根节点C是类别变量,描述对象的类别[9]。

图1 朴素贝叶斯模型Fig.1 Naive Bayes Model

朴素贝叶斯模型的工作过程[10]如下:

假设有 m 个类 C1,…,Cm表示,x1,…,xn是类的属性变量。给定一个未知类的数据样本X,分类法将预测X具有的最高后验概率的类,即满足 P(Ci/X)>P(Ci/X),1≤j≤m,j≠i的类 Ci。根据贝叶斯定理P(Ci/X)可以求得:

式中:P(X/Ci)—在类 Ci的情况下 X 的概率;P(X)—样本 X 的概率;P(Ci)—类 Ci的概率。

式中:P(xn/Ci)—在类Ci下的属性变量xn的概率。

式中:Si—类Ci在总的训练样本数据集中的数量;S—总的训练样本数据集为S。

根据式(2)、式(3),即可求出:

4 基于朴素贝叶斯的驾驶员伤情预测算法

4.1 驾驶员伤情预测算法的贝叶斯网络模型

结合上述事故数据来源及分析,选取速度变化量(x1)、碰撞方向(x2)、驾驶员年龄(x3)、驾驶员是否系安全带(x4)、驾驶员侧安全气囊是否打开(x5)、驾驶员性别(x6)作为造成驾驶员伤情是否达到 MAIS3+(C)的影响因素,即将 C 作为类,x1、x2、x3、x4、x5、x6作为类的属性。

4.2 数据的离散分类处理

根据上述美国国家公路交通安全管理局的事故案例数据,建立有关类的属性变量集确定为 X:{x1,x2,x3,x4,x5,x6}。

C有两个类,其中C1表示驾驶员伤情等级达到MAIS3+的情况,C2表示驾驶员伤情等级小于MAIS3的情况。

由于样本数据量比较大,还需对这些类的属性变量的数据进行离散处理,将各个属性变量分好区间段,然后将数据进行相应的标记。各个属性变量对应的值域分别为:

x1:{0-9,10-19,20-29,30-39,40-49,50-59,60-69,70 以上},若速度变化量满足0-9,则在x1中记为1;若满足10-19,则在x1中记为2,以此类推。

x2:{1,2,3,4},其中 1 表示左侧碰撞、2 表示右侧碰撞、3 表示追尾碰撞、4表示正面碰撞。

x3:{16-28,29-39,40-51,51 以上},若驾驶员年龄满足 16-28,则在 x3中记为 1;若驾驶员年龄满足(29~39),则在 x3中记为2,以此类推。

x4:{1,2},其中 1表示驾驶员系安全带,2表示驾驶员未系安全带。

x5:{1,2},其中 1表示驾驶员侧安全气囊打开,2表示驾驶员侧气囊未打开。

x6:{1,2},其中1表示驾驶员为女性,2表示驾驶员为男性。

根据上述对数据的离散处理,将每个事故案例中的x1、x2、x3、x4、x5、x6的数据依次对应记录下。

4.3 驾驶员伤情预测算法的构建

因为在驾驶员伤情预测算法中的类有两个,两个类的概率和为1,所以只需求得一个类的概率即可。

在此列出后验概率为C1的公式:

式中:P(C1)—驾驶员伤情达到 MAIS3+的概率;P(C2)—驾驶员伤情未达到MASI3+的概率;P(xi/C1)—驾驶员伤情达到MAIS3+的情况下的各个属性变量概率;P(xi/C2)—驾驶员伤情未达到MAIS3+情况下的各个属性变量概率。

式(5)中的概率都可以从训练样本数据集中计算得出,即为训练结果。然后将训练结果导入驾驶员伤情预测算法公式中,最后将测试数据导入算法中,即可预测驾驶员伤情是否达到MAIS3+,具体流程,如图2所示。

图2 基于朴素贝叶斯模型的驾驶员伤情预测算法流程图Fig.2 Driver’s Injury Prediction Algorithm Flow Based on Naive Bayes Model

5 仿真实验结果分析

首先在428组数据中,每隔5组数据中选取1组数据作为仿真预测数据,选取的仿真预测数据共有48组。其次将剩下的380组数据作为训练样本数据集,通过MATLAB编程,可以求得式(5)中的各个概率值。然后将测试数据集导入式(5)中,通过式(5)预测测试数据集的驾驶员伤情是否达到MAIS3+。最后将仿真预测结果与实际结果进行对比,得出该预测算法的准确率。驾驶员伤情预测算法的实验流程,如图3所示。

图3 基于朴素贝叶斯模型的驾驶员伤情预测算法的仿真实验流程Fig.3 Simulation Process of Driver’s Injury Prediction Algorithm Based on Naive Bayes Model

部分训练数据集的离散处理结果,如表1所示。根据MATLAB编程,可以得到式(5)中的各个概率。P(C1)为 0.3553,P(C1)为0.6447。在此,列出在类C1情况下的各个属性变量的概率,如表2所示,类C2情况下的各个属性变量概率,如表3所示。最后,根据上述计算所得的概率,将测试数据集中各个属性变量对应的概率代入式(5)中,即可预测测试数据集中的驾驶员伤情是否达到MAIS3+。若 P(C1/x1,x2,x3,x4,x5,x6)≥0.5,则预测的驾驶员伤情等级达到MAIS3+。反之,驾驶员伤情等级小于MAIS3。部分预测结果,如表4所示。

表1 部分训练数据集的离散处理Tab.1 Discrete Processing of Training Data Set

表2 各个属性变量对应的区间值域段在类C1情况下的概率Tab.2 Probability of Interval Values Corresponding to Each Attribute Variable in the Case of Class C1

表3 各个属性变量对应的区间值域段在类C2情况下的概率Tab.3 Probability of Interval Values Corresponding to Each Attribute Variable in the Case of Class C2

表4 部分仿真预测结果Tab.4 Partial Simulation Prediction Results

如图4所示,在48组交通事故数据中,驾驶员伤情预测模型的计算出的仿真结果与实际驾驶员伤情的对比可发现,有5组数据预测错误,该算法准确率为89%。从表5所示的5组预测错误的数据中可见,有3组数据的实际结果是驾驶员伤情等级达到MAIS3+,但该算法预测错误且有2组数据误差较大。另外两组数据的实际结果是驾驶员伤情等级未达到MAIS3+,其中一组数据误差较大。由于训练数据有限,若训练数据足够多,可以减少预测误差。综上所述,该预测算法预测准确率较高,可以为AACN系统预测驾驶员的伤情。

图4 驾驶员伤情等级的预测结果与实际结果对比Fig.4 Comparison Between Prediction Results and Actual Results of Driver’s Injury Level

表5 预测误差Tab.5 Prediction Error

6 结论

结合统计的数据,基于朴素贝叶斯模型建立了驾驶员伤情预测算法,通过将处理好的数据导入该算法中,便可预测在多个变量下的驾驶员伤情是否达到MAIS3+的情况。经过数据仿真及验证,该预测算法的准确率较高,可以应用于AACN系统中,将有助于AACN系统向医疗中心提供驾驶员伤情信息,便于医疗救援中心制定医疗方案。但是由于数据有限,无法对造成驾驶员伤情的更多属性变量进行考虑,比如车辆入侵量和车辆最大变形位置等。并且假设是各个属性变量是相互独立的,但在实际的交通事故中,部分属性变量之间可能存在一定关系,同时每个属性变量的权重也是不一样的,因此还需对更多的属性变量、属性变量的权重以及多属性变量的联合作进一步地研究。

猜你喜欢
伤情贝叶斯驾驶员
基于高速公路的驾驶员换道意图识别
基于眼动的驾驶员危险认知
驾驶员安全带识别方法综述
基于贝叶斯解释回应被告人讲述的故事
伤情驱动在卫生分队演训中的初步探索
384例急诊军事训练伤伤情及心理应激分析
基于贝叶斯估计的轨道占用识别方法
眼外伤围手术期护理50例效果分析
眼外伤围手术期护理50例效果分析
基于互信息的贝叶斯网络结构学习