基于粗糙集理论的交通事故形态成因分析

2014-12-25 07:00闫永刚
交通运输研究 2014年21期
关键词:粗糙集交通事故成因

陶 刚,闫永刚,刘 俊,邹 娇

(1.长安大学信息工程学院,陕西 西安710064;2.安徽科力信息产业有限责任公司,安徽 合肥230088;3.智能交通安徽省重点实验室,安徽 合肥230088)

0 引言

随着现代道路交通运输业的飞速发展,交通事故猛增已经成为一个严峻的公共安全问题,据2004 年由世界卫生组织发布的《世界预防交通伤害报告》统计,从2000 年到2020 年,全球道路交通伤亡总数将上升65%左右,而中低收入国家道路交通伤亡人数将增加80%。预防交通事故发生的首要任务就是分析事故成因,找出引发事故的主要原因,进而制定相应的对策。但道路交通事故的发生是道路、交通、环境等多种因素综合作用的结果,要判别哪种因素是引发事故的主要原因目前还比较困难。因此如何判别众多含有不确定性的因素对交通事故的影响程度以及有效治理和防范交通事故是当前面临的重要课题。

目前,许多学者开展了这方面的研究,如2005 年,姚智胜、邵春福等[1]运用粗糙集理论对路段事故多发点的成因进行了分析,提出了路段交通事故成因分析的模型和方法。张鹏等[2]提出了通过粗糙集理论对公路交通中的不利因素进行筛选,找到形成事故多发点的最大诱因并提出了有针对性的整治策略。刘红、何鹏[3]为定量分析海事事故的影响因素,从最新国内外168份海事事故报告中选择100 份事故报告作为研究样本,运用粗糙集理论从人、船、环境的角度研究事故类型、事故发生时间、船旗国、吨位、船型、船龄、气象、人等与事故等级之间的重要性隶属度关系。王迎、罗小强等[4]归纳总结了现有事故成因分析方法的特点和适用条件,提出了包括人、车、路和环境的山区高速公路交通事故影响因素,分析了各因素间的交互作用,提出了基于FCM 聚类的山区高速公路事故多发点成因分析方法。李桃迎、陈燕等[5]通过对交通事故潜在规律的研究,将关联规则方法用于交通事故分析,借助FCM 算法进行了仿真和可视化显示,结果表明模糊关联规则方法挖掘出的规则符合现实情况,可以为交通管理提供有效方法。此外,富宏、张雷等[6]通过一些事实、数据及道路交通事故原因分析,论述了道路交通事故在偶然的背后隐藏着必然,是可预防的,说明道路交通事故发生、发展也是受一定的客观规律所支配。

综上所述,本文考虑在事故成因分析中引入不确定分析方法,相对于现有的不确定性分析和推理方法,粗糙集理论能在无先验知识且没有事先对数据或知识进行主观评价的条件下,仅利用数据本身所含信息,就可以客观有效地分析和处理不精确、不确定数据,并从中发现隐含的知识,揭示潜在的规律。本文的研究思路是基于已有交通事故统计资料,构造影响道路交通事故的因素与事故形态之间的映射关系,为防止道路交通事故发生提供决策依据。

1 粗糙集理论

粗糙集理论是由波兰数学家Z.Pawtak 于1982年提出的,是一种处理不精确、不确定与不完全数据的新的数学理论。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。到20世纪90年代,该理论在数据决策与分析、模式识别、机器学习与知识发现等方面已取得大量成功应用,引起了世界各国学者的广泛关注[7-15]。为方便描述粗糙集理论,现给出如下定义。

(1)定义1:不可区分关系

设R是U上的一个等价关系,U/R表示R的所有等价类构成的集合,[x]R表示包含元素x⊆U的R的等价类,U上的一簇划分称为关于U的一个知识库。一个知识库就是一个关系系统K=(U,R),其中U为非空有限集,称为论域,R是U上的一族等价关系。若P⊆R,且P≠Ф,则∩P(P中所有等价关系的交集)也是一个等价关系,称为P上的不可区分关系,记为ind(P),且有:

(2)定义2:知识表达系统

知识表达系统是一个四元组S=(U,A,V,f),其中U={x1,x2,…,xn}是一个有限对象集合,A是一个有限属性集合,v是属性α的值域,f:U×A→V是一个信息函数,它的每个对象的每个属性赋予一个信息值,即:∀a⊆A,x⊆U,f(x,a)⊆Va,如果A=C∪D,C∩D=∅,C为条件属性,D为决策属性。

(3)定义3:上、下近似集

下近似集是指当一个集合X不能利用有效的等价关系来恰当地分类时,则可通过另外的集合R来表达这个集合的近似。上近似集是所有与X的交不为空的R的基本集的并,对于任意的X⊆U,R是U上的等价关系,则上、下近似集分别如式(2)、式(3)所示:

(4)定义4:属性依赖度

令P和Q为U中的等价关系,Q的P的正域posp(Q)为:

Q的P正域是U中所有根据分类U/P的信息可以准确地划分到关系Q的等价类中去的对象集合。设T=(U,A,P,Q)是一个决策表,其条件属性和决策属性分别是P和Q,则称Q在T中以程度k依赖于P,Card(U)为集合的基数,k的计算公式为:

(5)定义5:属性重要度

单一属性重要度是指某一条件属性对决策属性的重要性,属性集重要度是指两个或两个以上的条件属性构成的属性集对决策属性的重要性。

设在一个决策表中,其条件属性集合决策属性集分别是P和Q,属性子集P′⊆P 关于Q的重要性定义为:

特别当P′={a}时,单一属性a⊆P关于Q的重要性为:

设属性a∈C,C是条件属性集,D是决策属性集,则a的属性重要度定义为γC(D)-γC-a(D)。其中,γC(D)为条件属性集C对D的属性依赖度或分类相似度;γC-a(D)为条件属性子集C-C′对D的属性依赖度或分类相似度。

根据条件属性集和决策属性集可构造一个二维系统,每行表示一个对象,每列表示对象一种属性。把具有条件属性和决策属性的知识表达系统称为决策表。根据决策表和粗糙集理论简约算法,利用知识推理的过程,计算出各个条件属性集相对于决策属性集的支持度和重要性。重要性表征当前信息条件下条件属性对决策属性的重要程度,它根据有无该属性的支持度变化进行考察。若去掉该属性,条件属性对决策属性的支持度变化较大,则说明该属性强度大,即重要性高;反之,说明该属性强度小,即重要性低[16]。

2 道路交通事故形态成因分析

2.1 数据准备

本文收集某省2008—2013 年道路交通事故数据,共计3 065 条记录,该数据共涉及100 多维数据,因许多字段值域分布严重不平衡,如果直接进行粗糙集计算,不仅会降低计算效率,而且会误判字段失衡的属性重要度。因此,本文从人、车、道路、环境及事故本事因素出发,综合考量数据本身的质量,最终定义了24 维参数,如表1所示。

表1 实验字段属性概况表

因本文道路交通事故属性重要度识别研究仅考虑事故形态,故以下实验只针对事故形态展开。

2.2 数据预处理

数据预处理是数据挖掘的首要步骤,也是极其重要的一环,研究本实验的数据可以发现,数据预处理主要体现在空缺值的插补以及连续值的离散化两方面,其中连续值的离散化字段有:JL(驾龄)、NL(年龄)两个字段,处理策略如下:

(1)NL 字段:按照儿童、青少年、成年人、老年人四个阶段进行划分,1(0~10岁)、2(11~20岁)、3(21~60岁)、4(≥61岁);

(2)JL 字段:1(0~5 年)、 2(6~10 年)、3(≥11年)。

数据中其余字段均出现不同程度的空缺情况,为提高数据质量,本文采用的插补方法是基于C&RT算法预测来实现的,而非简单的均值插补或人为猜测,所有的数据预处理均在SPSS Modeler数据挖掘平台上实现,处理过程如图1所示。

图1 数据预处理实验图

2.3 基于粗糙集理论的事故形态成因分析模型

2.3.1 概念约束

根据粗糙集理论中计算属性重要度的基本原理,现提出如下基于粗糙集理论的事故形态成因分析模型:

构造知识表达系统S=(U,A,V,f),其中:U={u1,u2,…,u|U|},A={a1,a2,…,a|A|},A=C∪D,C∩D=∅。条件属性集C为所有事故成因的集合{x1,x2,…,xn},详见表1 中的条件属性一列。决策属性集D为所发生事故的形态{y},y的值可为11-碰撞运动车辆、12-碰撞静止车辆、31-侧翻、32-翻滚、33-坠车等,本文据此建立起事故形态分析决策表模型。

2.3.2 算法步骤

基于(1)中的概念约束,依据粗糙集理论,算法共包含以下五个步骤:

第1 步:计算分类U/(C-{xi}),U/C,U/D,i=1,2,3,…,n,可以假设U/y={W1,W2,…,Wt};

第2 步:分别计算分类U/y的各个子集Wj关于条件属性集C-{xi}和C的支持子集:

式中,j=1,2,3,…,t;

第3步:计算决策属性y⊆D关于条件属性C-{xi}和C的支持子集:

第4 步:计算条件属性xi在条件属性集C中相对于Wi和y的重要性:

第5 步:根据条件属性xi的重要性判别该路段第i个事故成因相对于第j个事故形态集的影响以及相对所有事故集的影响程度,本文的计算只针对所有事故形态的重要性。

2.3.3 实例分析

针对本文整理的道路交通事故数据,在应用上述模型计算后可得到各条件属性相对事故形态的重要度,详见图2、表2。

图2 属性重要度计算结果图

表2 高层属性重要度分布表

表2(续)

通过分析图2、表2可以得出如下结论。

(1)各因素对道路交通事故形态的影响程度不同,即道路交通事故的条件属性存在主次之分。依据计算结果,按照影响作用从大到小将道路交通事故因素依次排列顺序:交通方式、交通信号方式、驾龄、道路类型、能见度、照明条件、文化程度、路侧防护设施类型、天气、道路线形、性别、路面结构、路口路段类型、地形、道路物理隔离、年龄、道路安全属性、路表情况、路面状况(因主要违法行为字段值域分布稀疏以及车辆安全状况值域过于单一,根据重要度计算可以推算,若其参与重要度计算将没有意义)。

(2)根据表1的重要度分布表可知:道路因素对事故形态的影响程度最大,人、车、环境对事故形态的影响程度相差不大,进一步分析可知:交通方式、交通信号方式、驾龄、道路类型、能见度这五个字段对事故形态的影响最大(占总重要度的58%),仔细分析这五个字段的来源可以发现它们分别来自车、道路、人、道路、环境四大类别,此结论亦印证了道路交通事故的形态是由人、车、道路、环境综合作用的结果,此外,路面状况和路表情况对事故形态的影响微乎其微。

3 结论

本文通过运用粗糙集理论计算、分析了影响道路交通事故形态的各个成因的影响程度,相比于以往的交通事故成因分析模型,本文提出的成因分析模型能够在没有先验知识和事先主观评价的条件下,仅利用交通事故统计数据本身所含信息,就可以比较客观、有效地从数据中发现隐含规则,从众多的成因中找出主要影响因素并加以防范和治理,这对于尽快预防和避免交通事故的发生具有重要意义。

在模型建立过程中,决策表的构造是关键步骤,为建立合理有效的事故成因分析模型,条件属性和决策属性的选取和赋值需要根据不同的情况进行深入细致的研究,如本文就创新性地去除了字段值域分布严重不平衡的字段,这样不仅提高了计算效率,而且也能防止重要度误判情况出现。然而本文提出的事故形态成因分析模型,仅考虑了条件属性对整个事故形态集的成因分析,并没有针对每个具体的事故形态展开研究,此外,由于事故数据数量和类型的限制,本文只对简单的算例进行试验,实际中交通事故统计数据类型要复杂的多,数据规模也大得多,因此,上述模型和算法的合理性和实用性有待于更大规模的实际数据的检验。

[1] 姚智胜,邵春福,龙德璐.基于粗糙集理论的路段交通事故多发点成因分析[J]. 中国安全科学学报,2005(12):107-109.

[2] 张鹏,张靖,刘玉增.粗糙集在事故黑点成因分析中的应用[J].电子科技大学学报,2007(2):267-270.

[3] 刘红,何鹏.基于粗糙集的海事事故影响因素分析[J].上海海事大学学报,2013,34(2):17-19.

[4] 王迎,罗小强,袁长伟.基于FCM 聚类的山区高速公路事故多发点成因分析[J].公路,2013(8):218-222.

[5] 李桃迎,陈燕,张琳,等.基于模糊关联规则的交通事故分析应用研究[J].计算机仿真,2011,28(9):335-337.

[6] 富宏,张雷.浅议道路交通事故的可预防性及防治措施[J]. 内蒙古农业大学学报:社会科学版,2013,15(68):45-48.

[7] Paw1akZ. Rough Sets[J]. International Journal of Computer Information Science,1982(11):341-356.

[8] 任重,邵军力.粗糙集理论在通侦信息融合中的应用[J].解放军理工大学学报:自然科学版,2002(6):96-99.

[9] 王凯,张永祥,李军.粗糙集理论在故障诊断专家系统中的应用[J].计算机测量与控制,2003(11):827-829.

[10] 王明慧.粗糙集理论在铁路行车调度指挥系统中应用的研究[J].中国铁道科学,2004,25(4):103-107.

[11] 姚琛,罗霞,汉克·范少伦.基于粗集和神经网络耦合的短时交通流预测[J]. 公路交通科技. 2010, 27(11):104-107.

[12] 易正俊,张业亭,黄华.基于粗糙集的道路交通事故预警算法研究[J].西华大学:自然科学版,2007,26(5):26-29.

[13] 叶明全,胡学钢,胡东辉,等.基于属性值分类的多层次粗糙集模型[J].模式识别与人工智能,2013,26(5):481-484.

[14] 李巧茹,程长广,陈亮.基于GA-BP神经网络算法和粗糙集理论的交通事故黑点模型[J].武汉理工大学学报:交通科学与工程版,2011,35(4):756-759.

[15] 王倩,苗德华,邓三鹏.基于粗糙集的汽车驾驶员疲劳监测方法的研究[J]. 车辆与动力技术,2011(4):18-20.

[16] 张文修,吴伟志,梁吉业,等. 粗糙集理论与方法[M].北京:科学出版社,2001.

猜你喜欢
粗糙集交通事故成因
说说两种『白气』的成因
基于Pawlak粗糙集模型的集合运算关系
不同寻常的交通事故
预防交通事故
晕纹石成因解读(上)
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
翻译实践问题及成因
一起高速交通事故院前急救工作实践与探讨
两个域上的覆盖变精度粗糙集模型