基于公交驾驶员心理状况的PCA-Logistic交通事故倾向性预测方法研究

2022-04-21 07:21胡立伟张苏航范仔健殷秀芬
关键词:阈值交通事故驾驶员

胡立伟,郭 治,张苏航,范仔健,殷秀芬

(昆明理工大学 交通工程学院,云南 昆明 650500)

0 引 言

人的某种心理活动会诱发相应的肢体行为,对于驾驶员来说某些不恰当的驾驶操作可能会导致交通事故发生。驾驶员过度紧张、畏惧、焦躁等不良情绪会在一定程度上影响其操作行为,甚至会诱发交通事故[1]。

1912年,美国心理学家闵斯特贝格首次利用心理测试仪器研究了电车事故发生的原因,开创了驾驶员心理适应性研究的先河,为后续研究奠定了基础[2];R.ABDU等[3]通过对驾驶员的驾驶行为指标进行风险预测,发现常年维持过长的驾驶时间会导致驾驶员出现易怒、焦躁等情绪状态,驾驶风险显著上升;E.PASCHALIDIS等[4]在碰撞分析和安全研究中发现:驾驶行为会受到驾驶员的精神状态和认知工作负荷影响。国内研究中:凌文辁等[5]采用发放问卷方式,于1997年首次建立了全国各省驾驶员的行驶数据库,利用回归分析证明了驾驶风险与驾驶员心理品质有一定关系;苏华斌等[6]对南宁市60名驾驶员进行EPQ人格问卷和SCL-90症状自评量测评,研究结果显示驾驶员个性特征、心理状况与事故发生率有一定关系;左宇坤[7]针对南宁市驾驶员个性特征和心理健康进行研究,得出事故发生率与心理症状和遗传特质具有相关性。

从国内外研究现状来看,学者们针对不同驾驶员群体提出了心理状态分类及特性,但相关研究应用主要还是倾向于驾驶员的生理特征变化,从驾驶员心理健康角度预测交通事故的研究还不够深入。笔者拟采用Logistic回归方程识别影响公交驾驶员行车安全的心理因子,并利用主成分分析法改进回归方程,根据公交驾驶员操作特征曲线确定合理的二分类阈值,构建PCA-Logistic交通事故预测模型。

1 公交驾驶员心理健康调查

调查小组采用整群随机抽样方法随机从昆明市道路客运企业中抽取调查对象。共抽取该市公交驾驶员1 482名,筛选并剔除量表测评结果不完整或存在明显逻辑错误的驾驶员,将合格的1 004人作为研究对象。

根据SCL-90量表测评结果及问卷调查结果显示:1 004名驾驶员中心理健康的有90.44%;存在心理问题的有9.56%。按照驾驶员近1年内是否发生过交通事故且承担道路交通事故全部责任或主要责任作为划分标准将171人纳入事故组,833人纳入对照组。将存在心理问题倾向的驾驶员按相同比例分别从事故组和对照组抽取驾驶员进行阳性项目人数占比分析,如图1。

图1 事故组和对照组驾驶员9项不良心理因子阳性项目人数占比Fig. 1 Proportion of drivers in accident group and control group withpositive items of 9 negative psychological factors

由图1可知:事故组中9项不良心理因子的阳性项目人数占研究对象总人数的比例基本高于对照组;其中事故组中强迫症状阳性项目人数占比均为最高,达到16.3%。这说明事故组驾驶员的心理健康问题较对照组更为突出。

2 公交驾驶员交通事故预测模型

2.1 Logistic回归方程

Logistic回归方程能有效地校正混杂因子、筛选危险因子。相对于其他回归方程,其优点是通过对数函数描述自变量与因变量之间关系,使得计算结果更符合现实意义。

Logistic回归分析方程通过一般线性回归方程变形获得,如式(1):

(1)

式中:k为解释变量个数;xi为经检验后自变量。

过多的特征变量会导致Logistic回归方程的过拟合,因此在进行回归分析之前需对模型特征变量进行独立样本T检验,将具有统计学意义变量纳入模型,将无统计学意义变量剔除。一般取计算结果sig<0.05变量为输入模型自变量,如式(2):

(2)

笔者将公交驾驶员是否发生过交通事故作为模型因变量,将9个不良心理因子得分作为模型自变量。9个自变量释义如表1。

表1 自变量释义Table 1 Definition of independent variable

2.2 基于主成分分析法的交通事故预测模型

多重共线性是指因线性回归模型中解释变量之间存在精确相关关系或高度相关关系而导致模型失真或预测准确度下降的特性。在利用式(1)建立交通事故预测模型之前,自变量之间存在多重共线性可能会对交通事故预测模型的准确度造成一定影响。多重共线性判别的方法是利用SPSS软件计算条件索引。一般认为,当条件索引在10~30之间具有弱共线性,在30~100之间具有中等共线性,大于100则具有严重共线性[8]。多重共线性诊断结果如表2。由表2可知:9个自变量之间存在弱共线性。

表2 解释变量多重共线性诊断结果Table 2 Diagnostic results of multicollinearity of explanatory variables

采用主成分分析法(principal components analysis, PCA)对原有自变量进行降维处理[9],可大幅降低多重共线性对于线性回归模型影响。PCA分析过程如下:

令原始自变量为x,进行归一化处理,如式(3):

(3)

归一化处理完毕之后计算协方差矩阵,如式(4):

(4)

式中:x为某一样本数据;xmin为样本最小值;xmax为样本最大值;n为样本容量;X为样本矩阵;XT为样本矩阵转置矩阵。

通过协方差矩阵可得到相关系数矩阵特征值及特征向量。根据各主成分方差在总方差中所占的比例大小(即贡献率)选取若干个自变量作为主成分,将选取出来的主成分作为新自变量,将是否发生交通事故作为因变量,结合式(1)得到改进后的PCA-Logistic交通事故预测模型。

2.3 交通事故预测模型阈值

通过建立交通事故预测模型得到交通事故预测混合矩阵,混合矩阵能直观地反映出交通事故预测模型预测准确度,如表3。

表3 交通事故预测混合矩阵Table 3 Mixed matrix of traffic accident prediction

由表3可进一步得到评估事故预测模型度量指标[10],其计算如式(5)、式(6):

(5)

(6)

式中:TPR表示机密性;FPR表示具体性;TP表示实际为交通事故预测也为交通事故;TN表示实际为非交通事故预测也为非交通事故;FP表示实际为非交通事故预测为交通事故;FN表示实际为交通事故预测为非交通事故。

由于预测模型结果是0~1的概率,因此在实际应用时,针对此类“非是即否”问题选取合理的阈值来判断因变量概率输出范围至关重要。ROC曲线是以机密性(TPR)为纵坐标,具体性(FPR)为横坐标绘制的曲线;TPR是指真阳性概率,FPR是指假阳性概率。ROC曲线上的每一点是TPR与FPR的组合,如图2。

图2 ROC曲线坐标示意Fig. 2 Diagram of ROC curve coordinates

当阈值取在直线AC上时,TPR与FPR各为50%,判别结果无实际意义;当阈值取在AD和AB上时,TPR或FPR为1,此时判别准确度最高;当阈值取在曲线AEC上时,表示判别结果存在一定漏判与误判,取值点愈靠近D点,代表判别样本重叠区域愈小,判别准确度愈高。利用约登指数法可快速准确地找到最佳分类阈值[10],分类阈值选取流程如图3。约登指数法计算如式(7):

Y=TPR(n)+FPR(n)-1

(7)

式中:n为ROC曲线中所有数值点。

计算ROC曲线中每个点的TPR和FPR即可进一步得到每个点的约登指数值,选取最大约登指数作为最佳分类阈值。

图3 驾驶员交通事故发生情况的分类阈值选取流程Fig. 3 Classification threshold selection process of driver intraffic accident

3 实例应用研究

3.1 自变量独立样本T检验

笔者以昆明市公交驾驶员为研究对象,根据调查获得数据,将9个自变量代入式(2)进行独立样本T检验,检验结果如表4。检验结果显示:9个自变量均可纳入回归方程。

3.2 影响驾驶员行车安全的危险心理因子

利用SPSS软件,将公交车驾驶员心理因子得分值代入二元Logistic回归方程进行分析;参照计算出的P值对计算结果进行筛选,以P<0.05、P<0.01、P<0.001分别认为有差异、有显著差异、有极其显著差异[11]。根据此标准识别出能够影响、显著影响、极其显著影响驾驶员行车安全的危险因子,其结果如表5。

表5 二元Logistic回归分析结果Table 5 Binary Logistic regression analysis results

根据表5及回归系数,代入式(1)可得Logistic回归模型,如式(8):

(8)

由表5可知:强迫症状和抑郁是极其显著影响驾驶员行车安全的危险因子,躯体化和敌意是影响驾驶员行车安全的危险因子。

3.3 PCA-Logistic交通事故预测模型

采用主成分分析法对原有自变量因子进行降维得到新影响变量,以减少因子之间共线性影响。新影响变量贡献率及特征值如表6;新影响变量主成分向量系数如表7。

表6 公交车驾驶人自变量主成分分析Table 6 Principal component analysis of bus driver’s independentvariables

表7 公交车驾驶人自变量主成分向量系数Table 7 Principal component vector coefficients of bus driver’sindependent variables

根据表6、表7,可确定降维后得到的主成分计算公式,即新影响变量与原自变量的关系如式(9):

(9)

将原有9个自变量代入式(9)进行计算,得到主成分得分Z1、Z2。此时已将原有9个自变量降维为2个。对主成分得分Z1、Z2进行二元Logistic回归分析,如表8。

表8 主成分得分Z1、Z2的二元Logistic回归分析结果Table 8 Binary Logistic regression analysis results of Z1 and Z2 scores ofprincipal components

由表8可知:公交客运主成分因子Z1、Z2的P值均小于0.001,有极其显著差异,可代入式(1)构建PCA-Logistic交通事故预测模型。PCA-Logistic交通事故预测模型如式(10):

(10)

3.4 预测模型阈值确定及预测准确度对比

公交驾驶员交通事故预测模型及改进后的PCA-Logistic事故预测模型ROC曲线如图4。将图4中的TPR与FPR代入式(7),借助MATLAB中的ROC函数计算约登指数,将传统交通事故预测模型阈值确定为0.41;将改进后的PCA-Logistic交通事故预测模型阈值确定为0.38。

图4 ROC曲线Fig. 4 ROC curve

实验采集的1 004份样本中共有833组非事故样本,171组事故样本。传统交通事故预测模型预测结果显示:在833组非事故样本中有693组样本被准确预测;在171组事故样本中有138组样本被准确预测。PCA-Logistic事故预测模型预测结果显示:在833组非事故样本中有738组样本被准确预测;在171组事故样本中有152组样本被准确预测。这两种预测模型的预测准确率如表9。

表9 两种交通事故预测模型的预测结果对比Table 9 Comparison of prediction results of two kinds of traffic accident prediction models

由表9可看出:传统交通事故预测模型预测整体正确率百分比为81.9%;而PCA-Logistic交通事故预测模型预测整体正确率百分比为88.8%,比传统交通事故预测模型预测整体正确率高出6.9%。

3.5 管理措施和建议

由于昆明市官渡区、盘龙区、五华区的城市基础建设较为落后,道路纵横交错,常常出现不良道路线形且道路堵塞严重,从而使得昆明市公交客运驾驶员在行车过程中往往因堵塞需长时间保持注意力集中和驾驶姿势固定,过度谨慎驾驶心理问题及躯体化障碍逐渐凸显。复杂的道路交通环境和个别乘客不文明行为也可能使驾驶员容易产生消极低落情绪(长期消极低落情绪会引发抑郁问题)和敌对情绪。

结合研究结果,建议相关企业在内部加大与心理健康相关的宣传力度的同时,应努力引导公交驾驶员关注和重视自身心理健康问题,防止对心理健康错误认知造成驾驶员的心理压力;加强心理健康和行车安全教育培训,引起企业管理人员和驾驶员对心理健康和行车安全的重视,进一步掌握必备的心理健康知识和防治方法;定期安排驾驶员进行心理健康问卷测评,对测评结果未达到标准的驾驶员提供免费心理咨询服务,必要情况下要求驾驶员到有资质的医院进行相应治疗。

4 结 论

1)通过对驾驶员心理测评及二元Logistic回归分析结果表明:公交驾驶员自变量中强迫症状和抑郁因子是极其显著影响行车安全的危险因子,躯体化和敌意因子是影响行车安全的危险因子。

2)传统交通事故预测模型和改进后的PCA-Logistic交通事故预测模型预测准确率分别为81.9%和88.8%,改进后的PCA-Logistic交通事故预测模型相对于传统交通事故预测模型的预测准确率提升了6.9%,说明PCA-Logistic交通事故预测模型预测准确性优于传统交通事故预测模型。

3)虽已经识别出影响驾驶员行车安全的因子,并建立了交通事故预测模型,但由于自变量之间存在或多或少的关联性,下一步应对自变量之间与驾驶员行车安全风险耦合作用及风险控制技术进行研究。

猜你喜欢
阈值交通事故驾驶员
基于BPNN-AdaBoost的隧道交通事故数预测研究
基于高速公路的驾驶员换道意图识别
非平稳声信号下的小波变换去噪方法研究
基于眼动的驾驶员危险认知
驾驶员安全带识别方法综述
土石坝坝体失稳破坏降水阈值的确定方法
一种改进小波阈值去噪法及其仿真
一种小波阈值函数构建的图像去噪算法研究
预防交通事故
请你发明