基于随机森林的电动自行车骑行者事故伤害程度影响因素分析

2021-02-27 08:14李英帅张旭王卫杰居潇凡
交通运输系统工程与信息 2021年1期
关键词:行者机动车交通事故

李英帅,张旭,王卫杰,居潇凡

(1.南京工业大学,交通运输工程学院,南京211816;2.重庆交通大学,交通运输学院,重庆400074)

0 引言

城市交通拥堵问题日益严重,便捷实用的电动自行车成为很多出行者的首选。目前,中国电动自行车的保有量已经超过2.5亿辆。随着其保有量不断提高,涉及电动自行车的事故也随之增加。电动自行车的交通安全问题已经成为重大的民生问题,迫切需要改变。

电动自行车交通安全问题研究方面:Weber等[1]研究发现,45~60 岁的电动自行车骑行者是电动自行车事故的主要参与者;Haustein 等[2]研究发现,大多数电动自行车事故的发生与其他道路使用者低估了电动自行车的速度有关;Schepers 等[3]分析荷兰的调查数据发现,利用电动自行车出行较普通自行车出行更容易发生事故且受伤;Guo 等[4]研究表明,电动自行车骑行者较普通自行车驾驶者更容易违反交通信号。何庆等[5]指出涉及电动自行车的事故及伤害事故逐年增加,其中,伤害事故占40%;王涛等[6]研究发现,电动自行车骑行者违规行为(不按车道行驶、超速驾驶和酒后驾驶)、电动自行车左转和横穿道路等因素对电动自行车事故影响最为显著。

电动自行车交通事故影响因素研究方面:Behnood 等[7]通过使用随机均值法研究发现,乘客的年龄和性别对驾驶员受伤严重程度有较大影响;孙轶轩等[8]通过C5.0决策树方法揭示,影响事故严重程度分类的因素主要有碰撞类型、道路属性、事故致因和驾驶人类型等;李成志等[9]利用多项Logistic 回归模型分析表明,电动自行车骑车人的年龄、户口性质、是否载人等13个因素对电动自行车骑车人伤害严重程度存在显著影响;赵玮等[10]利用Adaptive Lasso,根据威斯康星2004-2014年的交通事故数据预测交通事故严重程度,结果表明,经过变量筛选的随机森林模型比未经过变量筛选的模型预测准确度更高。

综上,国内外对电动自行车交通安全的研究主体集中于电动自行车本身,较少考虑其他因素对电动自行车行驶安全的影响,部分研究聚焦于天气等外部条件影响,鲜有系统地结合道路状况、车辆状况及骑行者状况的分析。本文将系统地整合道路信息、事故信息、机动车辆信息、电动自行车骑行者信息和机动车驾驶员信息等因素,运用随机森林模型鉴别对电动自行车骑行者伤害程度有显著影响的因素及影响程度,为改善电动自行车事故中驾驶人的安全性提供理论支持。

1 数据说明

某地级市2013-2015年发生4536 起涉及电动自行车的事故,其中,电动自行车与机动车发生碰撞事故占比最大,达到74%,共3373起。本文使用这3373起电动自行车与机动车发生碰撞的事故数据作为分析对象,剔除含有缺失值的数据后,共保留2489条事故数据作为研究对象。原始数据统计了22个交通事故相关因素所导致的电动自行车骑行者事故严重程度的样本数量,分别是碰撞类型、路口路段类型、机动车在碰撞中角色、道路类型、车辆行驶状态、道路横断面类型、车辆使用性质、照明条件、机动车驾驶员性别、机动车驾驶员年龄、电动车骑行者年龄、驾龄、电动车骑行者性别、受伤部位、交通方式、车辆间事故类型、电动车违法行为、交通信号方式、道路物理隔离类型、车辆转向灯状态、车辆照明状态、事故时间段。

2 模型建立与结果分析

2.1 数据处理

(1)因变量设置

选取电动自行车骑行者交通事故中的受伤程度为目标变量。《道路交通管理信息采集规范》[11]将交通事故严重程度分为4 个层次:死亡事故、重伤事故、轻伤事故和财产损失事故。国外对事故伤害程度较多采用2分类方法[12-13]。本文研究电动自行车骑行者的受伤害程度而不是研究事故的严重程度,且难以评估骑行者的财产损失程度。因此,将伤害程度分为3 类:死亡事故、重伤事故、轻伤事故。将某地区发生电动自行车骑行者交通事故按受伤程度归类统计,结果如表1所示。

表1 电动自行车骑行者交通事故受伤程度分布Table 1 Distribution of injury degree of e-bicycle drivers in traffic accidents

对电动自行车骑行者交通事故受伤程度按死亡、重伤、轻伤这3 类变量进行赋值,分别为“1、2、3”。

(2)自变量设置

在选取自变量时要综合考虑各方面的影响,从道路信息、事故信息、机动车辆信息、电动自行车骑行者信息、机动车驾驶员信息中选取22 个自变量。具体变量信息如表2所示。

2.2 随机森林模型的建立

随机森林[14]是一个包含多棵决策树的分类模型,由于其结合了Bootstrap采样和随机属性选择的优点[15],在分类问题中取得了良好效果。随机森林不仅可以用于二分类,还可以用于多分类问题,其泛化能力好[16],一般不会出现过拟合,在有噪声的数据上,随机森林也能够获得较好的效果,随机森林算法具有更好的分类精度,且不会产生过拟合问题,故选择随机森林作为分类模型。

基于某市电动自行车与机动车辆碰撞事故数据,通过SPSS 建立随机森林模型。模型训练目标为驾驶人受伤害程度,进过多次实验筛选,每次分枝的尝试变量设置为30,共建立500 个分类树,最大树深度设置为10,最小子节点大小设置为5,缺失值的最大百分比设置为70%,模型信息如表3所示。

表2 自变量分类表Table 2 Classification of independent variables

表3 模型信息Table 3 Model information

此处误分类率达34.4%,这是因为选取的特征变量有22 个,同类型变量较多导致森林中决策树之间相关性较大,减小特征的选择数可以进一步降低误分类率。

2.3 随机森林模型分析

将变量重要性分别按照模型平均精度下降(Mean Decrease Accuracy)作排序,图1为随机森林模型中各变量重要度的排序。由于本文重点在于对伤亡程度的影响因素分析,故选取最严重的死亡或失能伤害做排序。

为进一步降低电动自行车骑行者事故受伤程度,对受伤程度为死亡的事故决策规则进行分析,如表4所示。

图1 随机森林预测各变量重要度排序Fig.1 Ranking of importance degree of each variable of random forest prediction

表4 对于死亡类别排名靠前的决策规则Table 4 Top decision rules for death categories

(1)车辆间侧面直角碰撞、电动车驾驶人头部受伤、道路无物理隔离、等外道路、驾龄5年以内、夜间无照明、12:00-次日6:00、大中型货车、大中型客车、小微型货车、违法驾驶行为、电动车直行与机动车碰撞、年龄大于45 岁、男性因素能显著提高电动自行车事故中电动自行车骑行者死亡或重伤的风险,其中,以头部受伤和大中型货车因素最为突出。

(2)四肢受伤、机非隔离、摩托车和左转因素能显著降低电动自行车事故中电动自行车骑行者死亡或重伤的风险。其中,四肢受伤的伤害程度明显轻于头部受伤的伤害程度。

综上所述,对于人员群体来说,首先需要对驾驶员群体开展系统的安全教育培训,规范电动自行车骑行者的安全意识,强调观察自身周边环境尤其是正在行进间的车辆状态,告诫骑行者不得在行驶过程中突然变道或不规律行驶,积极佩戴头盔骑行。强化对经验尚浅的机动车驾驶员的安全意识教育,强调在转向时对周边环境的观察,提前减速。

对于行政执法部门来说,需要加大执法力度,对电动自行车骑行者不佩戴头盔、后座载人的情况进行严格执法;在道路照明条件较差的城市道路加装照明设备,增添护栏及标志标线实现机非隔离。

对于驾校来说,可以提高机动车驾驶培训的教学质量,提供更接近现实的场景模拟,帮助驾驶员强化对道路情况观察的能力和对潜在危险要素的感知预测能力。

3 结论

本文基于随机森林模型,利用某市2013-2015年发生的2489起电动自行车与机动车发生碰撞的事故数据,通过随机森林模型,分析结果表明,影响交通事故严重程度最主要的3个因素分别是:车辆间碰撞类型、骑行者受伤部位、道路物理隔离。车辆间侧面碰撞类型、电动自行车骑行者头部受伤、道路无隔离设施是影响电动自行车骑行者受伤严重程度的重要因素。针对各相关因素,提出改善建议,如从驾驶员的角度出发强调安全教育的重要性,教育机动车及电动车驾驶员在行驶途中仔细观察周边环境,合理控制车速等。

猜你喜欢
行者机动车交通事故
让机动车交通安全统筹更
做“两个确立”的忠实践行者
由一起厂内机动车事故引发的思考
逆行者
Cлово месяца
不同寻常的交通事故
预防交通事故
最美逆行者
铁路机动车管理信息系统
一起高速交通事故院前急救工作实践与探讨