基于关联规则的铁路事故致因网络构建与分析

2020-11-30 07:50何世伟刘朝辉王沂栋王梦瑶毛伟文
铁道运输与经济 2020年11期
关键词:项集置信度关联

许 未,何世伟,刘朝辉,王沂栋,王梦瑶,毛伟文

(北京交通大学 交通运输学院,北京 100044)

0 引言

铁路系统安全需要从人员、设备和复杂的内外部环境等多方面进行管控,当前对事故的致因分析大多基于专家经验构建事故模型,主要有顺序事故模型、传染病事故模型和系统化事故模型等[1-2],分析结果的优劣往往取决于模型及其假设与实际事故的符合情况。铁路事故致因复杂且种类繁多,在系统结构复杂性和非线性背景下,研究不同致因因素的重要程度和各致因因素间的内在联系并提出相应的管控措施,对保障铁路的运营安全具有重要意义。

利用关联规则挖掘可以快速分析事物之间的强弱关系。杨剑红[3]基于数据挖掘理论,利用Apriori算法在Weka平台上挖掘道路交通事故数据间的联系;杨余垒[4]将改进的Apriori算法应用到高血压患者的体检数据处理中,挖掘符合医学规律的关联规则,准确判断高血压患者的心血管风险水平,为实现自动化判诊提供理论基础。网络化分析方法是探索复杂系统内部特征的有效手段。王亚浩等[5]和曾俊伟等[6]基于复杂网络理论分别构建铁路客运复杂网络模型和公共交通站点复杂网络模型,通过分析相关拓扑参数对网络可靠性展开研究;Fan等[7]基于复杂网络理论提出一种新型的有人机与无人机协同作战网络模型的构建方法,并通过分析网络拓扑参数评估协同作战效果。

在既有研究的基础上,结合关联规则挖掘和复杂网络理论,对大量铁路事故调查报告进行预处理,挖掘铁路事故致因关联规则并确定致因间的相互关系,基于关联规则挖掘结果构建铁路事故致因网络并分析网络拓扑特征,从而高效处理繁杂的铁路事故数据,挖掘事故发生的内在机制和潜在规律,辅助铁路安全监管决策。

1 基于关联规则的铁路事故致因网络构建与分析方法

1.1 建立铁路事故致因数据集

基于关联规则的铁路事故致因网络构建与分析方法主要分为以下3个步骤:①数据预处理,确定铁路事故致因因素,并通过文本提取建立铁路事故致因数据集;②利用Apriori算法挖掘因素间的强关联规则;③结合复杂网络理论,构建铁路事故致因网络,并划分网络社团结构和计算网络拓扑结构指标,得到网络关键节点和节点间的相互关系。基于关联规则的铁路事故致因网络构建与分析过程如图1所示。

图1 基于关联规则的铁路事故致因网络构建与分析过程Fig.1 Process of constructing and analyzing the railway accident causation network based on association rules

铁路事故调查报告详细记录了事故概况、事故过程、原因分析和所暴露的问题等对铁路事故进行分类,通过分析典型事故报告,从人、机、环、管4个方面确定铁路事故致因因素。基于python语言利用正则表达式找到事故调查报告中的“原因分析”和“暴露问题”等段落,将致因因素拆解为相关的关键字,对重点段落的内容进行关键字抓取,从而得到每起事故的致因因素,建立铁路事故致因数据集。

1.2 挖掘铁路事故致因关联规则

铁路系统内一个或多个因素的非正常状态会对其相关联的因素产生影响,影响逐步蔓延致使风险不断积累与传播,最终可能导致事故的发生。这个过程涉及到了众多因素,部分因素间关系紧密且当这些因素同时故障时,很容易导致某种特定事故的发生,这就需要挖掘因素间的关联关系。关联规则挖掘会得到大量因素之间的关联,为接下来铁路事故致因网络的构建和分析做准备。

记某起铁路事故的事故类型及其全部致因因素的集合为一个事务T,D为铁路事故致因数据集中所有事务的个数,X表示一个非空项集,且X⊆T。关联规则是形如X⇒Y的蕴含式,表示项集X和项集Y间的关联关系,其中X为关联规则的前项,Y为后项,且X∩Y= ∅。通常采用支持度(Support)和置信度(Confidence) 2个指标作为关联规则的衡量标准,关联规则的频繁程度和强度分别可以表示为

式中:Support(X⇒Y)为X⇒Y的支持度,满足最小支持度阈值的关联规则的项集又称为频繁项集;Confidence(X⇒Y)为X⇒Y的置信度;σ(X)为所有事务中包含项集X的个数;σ({X,Y})为所有事务中同时包含项集X和Y的个数。

由于通过支持度和置信度挖掘得到的关联规则中,存在前后项呈负相关的情况,采用提升度(Lift)反映关联规则中前项和后项之间的相关性,当Lift(X⇒Y) > 1时,X出现和Y出现是正相关的,即X出现促使Y出现。关联规则的提升度可以表示为

式中:Lift(X⇒Y)为X⇒Y的支持度;P(Y)为所有事务中包含项集Y的比例;P(Y|X)为所有事务包含项集X的同时包含项集Y的比例。

Apriori算法是挖掘布尔关联规则的经典算法[8],该算法使用逐层搜索迭代的方式,通过低维频繁项集产生高维频繁项集,主要包括频繁项集的产生和强关联规则的生成2个阶段。可利用Apriori算法进行铁路事故致因关联规则挖掘,算法主要流程如下。

(1)设定最小支持度、最小置信度和最小提升度的阈值。

(2)扫描铁路事故致因数据集,产生候选1-项集的集合C1,并根据最小支持度阈值,由C1产生频繁1-项集L1。

(3)由L1自连接产生候选2-项集C2,得到满足最小支持度阈值的频繁2-项集L2。重复该过程,直到算法进行到第k次循环并产生频繁k-项集Lk后,无法进一步产生Ck+1,由此获得全部的频繁项集。

(4)根据最小置信度和提升度阈值,产生铁路事故致因的强关联规则。

1.3 铁路事故致因网络分析

1.3.1 铁路事故致因网络构建

在关联规则挖掘过程中已经过滤掉了较不重要的事故致因、事故类型及这些因素间的弱关联关系,铁路事故致因网络的构建分为3个步骤:①将所有强关联规则的前项和后项表示为网络中的节点,根据项集的实际含义,可将节点划分为人因层、设备层、环境层、管理层、事故类型层和组合层6种类型;②每条强关联规则中,前项和后项间的关系表示为节点间的边;③选择关联规则的提升度作为边的权重,提升度>1的规则表示因素间正向相关,值越大则相关性越大。

1.3.2 网络社团划分

复杂网络中的节点可以划分为组,组内节点之间的联系更为紧密,而组间节点间的连接较为稀疏。基于模块度的Louvain算法是一种常用的社区检测算法[9],该算法以最大化整个社区网络的模块度为目标,划分效率较高。借助复杂网络分析软件进行网络社团划分。

1.3.3 网络拓扑特征

复杂网络呈现特定的拓扑特征,表征着网络的连通性、相互作用和动态过程。通过分析铁路事故致因网络拓扑特征,可挖掘网络中的关键节点及节点间的相互关系,实现对大量铁路事故数据的高效处理和分析。网络拓扑特征相关统计指标如下。

(1)节点的度。节点的度指与该节点相邻的所有节点的数目,节点的度越大,表示节点对周围节点的影响力越大,一定程度上表征节点的重要性越大。

(2)网络直径和平均路径长度。2点间最短路上边的数量为节点间的距离,网络直径指所有节点对间距离的最大值,网络中任意2点间距离的平均值称为平均路径长度,表明网络间节点的分离程度。

(3)聚类系数。聚类系数指某观察点的邻点之间连线数占预期最大连线数量的比例,衡量该点将邻点紧密聚集成团的程度,较高的聚集系数意味着该观察点的邻点之间存在更高程度的交互关系。

(4)节点紧密度。节点紧密度衡量一个节点通过网络连接其他节点的能力,反映了网络的整体通达性。相较于节点的度,这一指标更具有全局性。

2 案例分析

以实际铁路事故数据为例,搜集2016—2018年共2 618起铁路事故调查报告,建立相应的铁路事故致因数据集和铁路事故致因网络,挖掘关键致因和因素间的关联特性。

2.1 建立铁路事故致因因素数据集

参考《铁路交通事故调查处理规则》中对事故的分类方法,将主要铁路事故分为列车碰撞或挤压(A01)、列车火灾或爆炸(A02)、列车或车辆脱轨(A03)、列车延误(A04)、列车错误进入区段或线路(A05)、未按规定接发列车(A06)、未按规定行车(A07)、列车分离(A08)、设备故障或损坏(A09)、未按规定作业(A10)10类。同时选取300份典型铁路事故调查报告进行分析,提取71个铁路事故致因因素,建立铁路事故致因因素集如表1所示。

在表1基础上对所有铁路事故调查报告进行文本提取,除去因调查报告本身格式问题等原因导致抓取失败的165起事故报告外,最终得到总计2 453起事故的致因因素,抓取成功率达93.70%。将抓取结果储存在数据集中,部分铁路事故致因数据集示例如表2所示。

表1 铁路事故致因因素集Tab.1 Set of railway accident causes

表2 部分铁路事故致因数据集示例Tab.2 Example of the data set of railway accident causes

2.2 挖掘铁路事故致因关联规则

设定最小支持度阈值为0.025,最小置信度阈值为0.1,最小提升度阈值为1,并将最大前项数设置为2。利用Apriori算法得到455条强关联规则。其中,84.8%的关联规则的支持度介于0.025 ~ 0.06之间,“{安全培训不到位(M02)}⇒{列车延误(A04)}”的支持度最大,值为0.188;82.2%的关联规则的置信度较为均匀地分布在0.1 ~0.6之间,之后随着置信度的提升规则的数量逐渐减少,“{翻车作业操作不当(H28),钢轨状态不良(Eq10)}⇒{列车或车辆脱轨(A03)}”的置信度最大,值为1;同时74.9%的关联规则的提升度都介于1 ~ 2.25之间。强关联规则体现了铁路系统内较为重要的因素及因素间紧密的联系,给铁路系统的安全带来了隐患。455条关联规则的支持度、置信度和提升度散点图如图2所示,提升度排名前5的关联规则如表3所示。

2.3 铁路事故致因网络分析

2.3.1 铁路事故致因网络构建

图2 455条关联规则的支持度、置信度和提升度散点图Fig.2 Support, confidence and lift of 455 association rules

基于强关联规则可以确定118个节点及它们间的相互关系,构建铁路事故致因网络如图3所示。该网络共包含118个节点和334条边,其中包含16个人因层节点、12个设备层节点、2个环境层节点、5个管理层节点、79个组合层节点和4个事故类型节点。边的权重为相应规则提升度的大小,在图3上表示为边的厚度。

表3 提升度排名前5的关联规则Tab.3 Top 5 association rules by lift

图3 铁路事故致因网络Fig.3 Railway accident causation network

对除事故类型节点外的各层节点进行合并精简后,得到精简化铁路事故致因网络如图4所示,合并后边的权重即为原网络各边的权重之和。由图4可以看出,组合层、人因层和设备层节点处于重要地位,与其他节点关系更为紧密,而环境层节点仅与A04产生了关联。4个事故类型节点中,A01和A04与各层致因节点连接频繁,而A09仅与设备层节点产生了关联,说明A09类型事故的发生主要受设备层致因因素的影响。

图4 精简化铁路事故致因网络Fig.4 Simplified railway accident causation network

2.3.2 社团划分

借助复杂网络分析软件Pajek中的社区检测功能对铁路事故致因网络进行分析,得到社团划分结果如表4所示。该网络有较明显的社团结构,各社团内部的节点联系更为紧密,更容易相互触发,从而导致事故的发生。同时可以看出各社团中节点类别不单一,且除社团7外均包含人因层节点,但环境层节点出现比例较小,为非必需因素,因而铁路运输系统内部因素应为防控重点。

2.3.3 网络拓扑特征分析

(1)节点的度。铁路事故致因网络的累计度分布服从y= 1.384 2×x-0.990(R2= 0.968)的幂律分布,节点的平均度为5.7,低于平均度的节点比例高达76.3%,少部分度较大的节点与大多数节点都有关,是在安全管控中比较值得注意的因素。节点的度不低于10的节点如图5所示。由图5可知,M02,H04,Eq09是其所属致因层中度最大的节点,A04为节点度最大的事故类型。这些度较大的节点散落在各个社团,也是各自所属社团中的重要节点。通过计算发现组合层节点的度普遍较低,这是由于特定因素组合对网络中其他节点所产生的影响更为专一化,导致其仅与少数节点产生了关联。这些度较大的节点如果得到有效控制和防护,网络将变得十分脆弱并且将分解为若干个小的子网络,从而使致因间的相互影响能力大幅降低,提高整个系统的安全性。

表4 社团划分结果Tab.4 Results of community division

图5 节点的度不低于10的节点Fig.5 Nodes with degree not less than 10

(2)网络直径与平均路径长度。铁路事故致因网络的网络直径为5,平均路径长度为2.634,意味着该网络中每个节点平均2.6步就可以与另外一个节点产生较强的关联。不同类型节点与关键事故节点间的平均路径长度如图6所示。经分析,可知人因层、管理层和设备层节点更易导致事故发生,且A04 (列车延误)到各层节点的平均距离都较小,是最容易被触发的事故类型。

图6 不同类型节点与关键事故类型节点间的平均路径长度Fig.6 Average path length between different types of nodes and key accident nodes

(3)聚类系数。铁路事故致因网络的平均聚类系数为0.644,节点聚集程度较高。当某些聚类系数较低的单因素组合发生时,其聚类系数会迅速增大,如M07和H04,因而组合层节点普遍聚类系数较高,除组合层节点外聚类系数大于0.5的节点如图7所示。这些聚类系数较大的节点一旦发生异常,很容易导致其邻居节点状态的改变,从而引起网络的连锁反应并导致事故的发生。

图7 除组合层节点外聚类系数大于0.5的节点Fig.7 Nodes with clustering coefficient larger than 0.5 besides combination layer

(4)节点紧密度。铁路事故致因网络的平均节点紧密度为0.389,紧密度排名前20的节点如图8所示。发现管理层节点紧密度普遍较高,除A04外,紧密度排名前3的节点分别为M02,M07,M04,这也间接说明管理层节点对网络中其他节点间接施加影响的能力更大,往往是铁路事故发生的根源所在。

综上所述,铁路事故致因网络的拓扑特征总结如下。①网络存在着核心节点。列车延误、列车或车辆脱轨等为关键事故类型节点,更容易被其他节点间复杂的耦合关系所触发,而安全培训不到位、安全检查不到位和司机操作不当等节点是防控关键事故类型时应注意的关键致因因素。②网络的节点平均聚类系数较高。聚类系数较大的节点状态一旦发生改变,很容易大范围触发其关联节点并造成网络中的连锁反应,从而导致事故的发生,如列车检修或维护不到位、钢轨或路基状态不良和车钩缓冲装置故障等。③关联规则呈较明显的聚集特征。人因层和设备层节点与其他节点关系更为紧密,而管理层节点更容易对其他节点产生间接影响,如安全培训不到位和安全检查不到位等。

图8 紧密度排名前20的节点Fig.8 Top 20 nodes ranking by tightness

3 结束语

铁路事故致因繁多且种类复杂,构建基于关联规则挖掘结果的铁路事故致因网络,并分析其网络拓扑特征,多角度直观且深入地揭示铁路事故致因关联规则,挖掘铁路事故的关键致因与因素间的内在联系,对高效、精准地处理大量铁路事故数据、提升铁路运输系统安全性有重要意义。在铁路安全监管过程中,应当综合考虑事故数量、事故严重程度等,建立基于铁路事故致因网络分析结果的分级监管体系,明确各级监管部门针对具体事项的管理办法。另外,还应结合复杂网络动力学,深入研究风险在网络中的动态传播过程和演化规律,为建立和完善铁路安全动态防控机制提供参考。

猜你喜欢
项集置信度关联
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
奇趣搭配
不确定数据中的代表频繁项集近似挖掘
智趣