基于数据建模的高速铁路供电故障指数计算方法

2020-06-29 03:53郭剑峰柯在田王卫东张文轩刘金朝王婧汪海瑛杨志鹏
中国铁路 2020年5期
关键词:高速铁路特征提取聚类

郭剑峰, 柯在田, 王卫东, 张文轩, 刘金朝,王婧, 汪海瑛, 杨志鹏

(中国铁道科学研究院集团有限公司,北京 100081)

0 引言

安全评估是工程领域重点关注的问题之一,故障是指系统不能执行规定功能的状态,因此,对故障进行量化描述是安全评估中的重要环节。通常而言,故障定义为系统中部分元器件功能失效而导致整个系统功能恶化的事件。设备的故障一般具有5个基本特征:层次性、传播性、放射性、延时性、不确定性。安全评估是指对一个具有特定功能的工作系统中固有或潜在的危险及其严重程度进行的分析与评估工作,并以既定指数、等级或概率值做出定量的表示,最后根据定量值的大小决定采取预防或防护对策。通常利用系统工程或数据建模的原理和方法对拟建或已有工程、系统可能存在的故障及其可能产生的后果进行综合量化评估,并根据可能导致的故障指数大小,提出相应的安全对策和措施,以达到工程或系统安全的目的。

1 数据建模故障指数研究现状

近年来,国内外诸多学者研究了基于数据建模的故障指数计算方法。2003年,大连大学的王红[1]提出一种根据大规模传感器检测数据计算故障指数的方法,通过传感器检测数据计算出系统的故障率、稳定性、可维护性等指标,进而构造了故障指数评估粮食测温系统的优劣。2007 年,荷兰半导体公司的Gils 等[2]引入一种基于区域释放能量的新型故障指数,可以对半导体制造过程中不同的后端结构故障进行快速定性比较。2008 年,美国密苏里大学的Lee 等[3]引入节点故障指数用于确定地下水系统修复成功概率低于设计要求的节点位置和数目,节点故障指数计算方法的优势在于可以对感兴趣的特定区域进行分析,并为该目标区域确定最佳的补救设计方法。应用实例表明,在地下水修复设计中,可靠性和故障指数的空间分布可以辅助维修支持系统的决策。2011 年,同济大学的朱海宏等[4]提出基于贝叶斯网络的高铁系统概率安全评估方法,引入贝叶斯网络技术,充分利用传统事件树、故障树的分析优势,将事件树中各安全环节的故障分别转化为贝叶斯网络,并按照逻辑关系最终融合成为一张完整的贝叶斯网络。通过整合的贝叶斯网络不仅可以分析系统的安全性,同时还能得到其他有用的概率推理信息。2011年,西南交通大学的王亚飞等[5]提出基于线性参照模型的铁路空间数据建模方法,使用地理信息数据对铁路空间进行建模试验。2012 年,中铁第四勘察设计院集团有限公司的戚广枫[6]从可靠性角度论述高速铁路牵引供电安全技术发展,并对提高供电系统安全性的方法进行了展望。2015 年,中国科学院的赵阳等[7]提出一种基于文本数据挖掘的高铁信号系统车载设备故障评估方法,针对故障追踪表中记录数据的非规范性和随意性,采用主题模型对故障追踪表进行分析和特征提取;在此基础上,对高铁信号系统车载设备故障评估的不确定性,采用贝叶斯网络构造了分类器作为故障分类的方法。2015 年,西南交通大学的杜静等[8]提出一种融合规则的多准则特征评估算法,通过不同标准集合对特征进行综合评估并去除冗余特征,提高了分类的准确性,采用多准则特征评估算法对高速列车的故障数据进行了评估,可对各速度级下的特征做出有效评估,具有较强的适用性和较高的准确率。2016 年,罗马尼亚布加勒斯特大学的Păun Andrei 等[9]在对有已知可靠性问题的高性能计算应用程序的日志文件进行检查过程中,提出定义高性能计算可靠性的一种故障指数,可以揭示出在一系列高性能计算平台上运行的应用程序的故障率与平均故障间隔时间随各种运行条件和时间的波动规律。2016 年,北京交通大学的王克楠[10]提出基于关联特性分析的铁路事故数据挖掘及预测、预警方法。基于真实数据,首先对影响铁路安全的各因素进行归纳统计得到可供深入分析的数据样本,结合数据挖掘技术把关联规则分析用于实际数据的研究中,对运输过程的事故影响因素及其相互关系进行量化研究,形成以安全隐患为切入点的安全预警应用。2018 年,国际铁路联盟发布欧洲铁路安全报告[11],该报告是基于2001 年建立的铁路安全数据库而形成的,数据库涵盖了欧洲以及中东地区24 个成员国提供的事故和故障等信息,包括安全事故统计数据,根据欧盟法律规定提供的事故原因、后续情况调查以及事故影响等分析。基于上述数据构造模型并计算出铁路安全指数,不仅统计了事故数量,还考虑了每件事故的类型、原因、受害者人数和事故类别,能综合评估安全状况。结果表明,近年来欧洲地区铁路安全指数持续下降,反映出欧洲地区铁路的安全管理水平正在稳步提升。为此,如何基于我国高速铁路运营10年来各专业的故障数据,构造出我国高速铁路各专业的故障指数,是安全评估中有待通过研究解决的问题之一。

2 高速铁路牵引供电故障与数据概况

2.1 牵引供电故障

为保证高速铁路安全高效运营,保持其供电系统的稳定可靠十分重要。近年来,伴随着电气化技术的快速发展,我国高速铁路牵引供电技术也在不断进步,与此同时,牵引供电系统的复杂性也随之提高。牵引供电系统的正常运转是高速铁路重要的行车保障,牵引供电系统一旦发生故障,可能会造成供电中断直接影响行车,干扰正常的运输秩序,因此应当尽量减少高速铁路牵引供电系统故障的发生。

结合对我国高速铁路牵引供电专业故障数据的初步统计分析及相关调查研究[12],高速铁路牵引供电故障主要包括牵引变电所故障、接触悬挂及接触网相关故障、隔离开关相关故障、分段绝缘器相关故障、避雷器相关故障和弓网接触相关故障六大类。例如,由于外界环境、过负荷或机车车辆引起的牵引变电所跳闸属于牵引变电所故障;由于季节性变化或施工等操作引起的承力索、接触线、弹性吊索、吊弦及接触悬挂设备故障属于接触悬挂及接触网相关故障;由于隔离开关电机部件损坏、刀闸开合角不到位、螺栓力矩不够等机械故障造成虚接和电气烧伤属于隔离开关相关故障;分段绝缘器被电弧灼伤或销弧角断裂等属于分段绝缘器相关故障;避雷器爆裂、计数器或脱离器损坏属于避雷器相关故障;各类线夹以及在特殊区段的弓网作用故障属于弓网接触相关故障。

通常,在这些故障发生后,会给部分区段造成一定时间的停电影响,有时还将影响车辆、电务、工务、机务等其他相关专业。因此,需要对高速铁路牵引供电故障数据进行多维度的统计分析和数据挖掘后,建立数据模型计算故障指数,才能评估故障影响及发生趋势。

2.2 故障数据概况

高速铁路牵引供电故障分析以我国2009—2018 年的高速铁路供电设备故障分析报表作为数据样本,报表中的大量数据为以文本形式记录和描述的非结构化数据。由于高速铁路牵引供电系统在日常运行过程中发生的任何故障情况都可以通过文本描述的方式记录,因此近年来文本记录是故障信息的主要载体。在高速铁路牵引供电故障非结构化文本数据中,主要包含故障发生的时间、地点、故障情况的详细描述、影响范围等信息,大多以Word和Excel等形式存储,由于受到传统技术的限制,难以有效分析和挖掘蕴藏在文本数据中的巨大价值。因此,使用文本分析和数据挖掘技术对上述故障文本数据进行预处理和特征提取,利用提取后的特征数据建立数据模型以计算高速铁路供电故障指数(CRHFI供电),探索数据分析技术在铁路安全分析领域的应用方法。

3 高速铁路供电故障指数数据建模

3.1 供电故障指数

高速铁路供电故障指数是中国高速铁路故障指数(CRHFI)的重要组成部分之一,可以通过数据建模的方法计算得出。首先在数据挖掘平台上对故障数据原始记录进行人工文本标注等预处理和自动的文本特征提取,之后使用分类挖掘、聚类分析等技术获得中间结果参数,利用这些中间结果参数可以建立数据模型计算出故障指数,通过参数调整和模型调优等方法进行指数更新,最终对指数进行分析和可视化展示,研究其中的安全规律或进行安全管理评估。高速铁路供电故障指数总体技术路线见图1。

3.2 数据建模

3.2.1 数据模型与建模流程

高速铁路供电故障指数计算模型可用以下公式表述:

式中:N定义为归一化系数,视样本计算结果数量级和每年高速铁路运营里程共同确定,可以将计算结果归一化至指定的范围之内;Ft定义为故障时间系数,取值范围从0(发生故障未造成停电时间)至n1(待通过文本数据聚类分析后确定)。其数值含义如下:0 代表发生故障但未造成停电时间,1代表时间聚类结果1,2代表时间聚类结果2,……,n1代表时间聚类结果n1;Fs定义为故障空间系数,取值范围从0(发生故障未造成停电区段)至n2(待通过文本数据聚类分析后确定),其数值含义如下:0 代表发生故障但未造成停电区段,1 代表空间聚类结果1,2 代表空间聚类结果2,……,n2 代表空间聚类结果n2;Fi定义为故障影响系数,取值范围从1(发生故障未涉及其他专业)至4(发生故障涉及4 个专业),其各数值含义如下:1 代表未涉及其他专业,2 代表涉及2 个专业,3 代表涉及3 个专业,4 代表涉及4 个专业;Fr定义为故障责任系数,取值范围从1(发生故障由于外因导致)至2(发生故障由于内因导致)。

上述各参数可以通过对故障数据的原始文本记录进行特征提取、分析挖掘、聚类分类分析等方式计算得出,基于数据建模的高速铁路供电故障指数计算流程见图2。

图2 基于数据建模的高速铁路供电故障指数计算流程

3.2.2 数据建模过程与技术

按照上述计算流程,数据建模具体过程主要包括对故障数据进行预处理、特征提取、时空聚类分析、故障影响分析和故障原因分析5个过程,其中涉及文本数据预处理、特征提取、聚类分析等数据挖掘技术。

(1)数据预处理。由于故障原始数据在记录过程中存在缺失值、不同的异构格式、计算错误、标注错误、输入错误等问题,因此首先需要对采集的故障原始记录数据进行预处理。这些问题大多发生在故障引起的停电时间字段中。例如,发生故障后若未造成停电,则部分停电时间记录为空(见图3)。此外,不同记录人员记录的数据格式也不同(见图4)。

对于上述2种问题,首先进行缺失值填补和异构记录格式自动转换。在缺失值填补和异构格式转换后,需要对数据的正确性即总计停电时间进行自动校验。在校验过程中发现原始故障记录数据中主要包含计算错误、未累加求和、标注错误、输入错误等问题(见图5)。

图3 故障后若未造成停电存在缺失值

图4 异构格式记录的数据有待转换

图5 故障数据预处理修复结果与原始记录对比

(2)数据特征提取。通过数据预处理得到正确数据后,可以对数据进行特征提取。对故障数据特征提取使用中国铁道科学研究院集团有限公司杨涛存和杨连报等提出的基于有限状态机的快速非结构化数据特征提取方法和铁路故障文本特征提取模型[13]。对于铁路非结构化故障文本数据,应用文本数据分析技术实现非结构化故障文本分析,基于模式匹配法从大量故障情况的文字描述记录数据中提取出线别、起始站、终点站、区间倍数等重要特征,以便从线路车站里程表中查询里程后计算故障发生时的停电区间里程,为后续时空聚类分析工作提供有效数据。

(3)时空聚类分析。对故障原始数据进行预处理和特征提取分别得到准确且有效的故障停电时间和故障停电区间长度后,采用时空聚类分析方法求取式(1)中的故障时间系数和故障空间系数。时空聚类分析方法基于K 均值聚类算法(K-means)[14],通过迭代求解实现聚类分析。操作时首先随机选取K个对象作为初始聚类中心,然后计算每个对象与各种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表1 个聚类。每分配1个样本,聚类的中心会根据聚类中现有对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类、没有(或最小数目)聚类中心再发生变化、误差平方和局部最小。

对故障发生后的停电时间和停电区段数据使用K-means进行时空聚类的结果见图6。

图6 故障数据K-means时空聚类结果

从图6的聚类可视化结果可以看出,对故障发生后的停电时间和停电区段数据进行时空聚类的结果分为6类,各聚类中心和样本数量见表1、表2。

表1 时间聚类结果

表2 空间聚类结果

表中,时空聚类结果所属类别分别为式(1)中的故障时间系数Ft和故障空间系数Fs的取值。若发生故障未造成停电时间或停电区段,则Ft和Fs取值为0,定义为第0类,不属于上述6类聚类分析结果。

(4)故障影响分析。在故障原始记录数据中,发生故障时影响车辆、机务、电务、工务4个专业,故障发生时可能涉及其中的1项或者多项。因此,此处按影响专业数量定义故障影响系数Fi。

(5)故障原因分析。故障原因分为内因和外因2类。若故障由于外因导致,故障责任系数Fr取值为1;若故障由于内因导致,故障责任系数Fr取值为2。其中外因主要包括自然环境因素和人为因素两大类;内因主要包括变电设备、电力设备、动车组、接触网设备引起的故障。

3.2.3 计算结果

通过上述数据建模过程对数据进行预处理、特征提取、时空聚类分析、故障影响分析和故障原因分析5 个步骤后,得到每条故障记录数据的故障时间系数Ft、故障空间系数Fs、故障影响系数Fi和故障责任系数Fr,带入式(1)中计算高速铁路供电故障指数。由于我国近10 年中高速铁路的运营里程不断增长,因此,归一化系数N按每年的高速铁路运营里程数确定,并归一化至个位数量级,计算结果见图7。

图7 2009—2018年CRHFI供电计算结果

4 结论与展望

4.1 结论

基于我国高速铁路供电专业近10 年积累的大量故障数据,采用文本分析、特征提取、时空聚类分析、影响分析和原因分析等手段对数据进行挖掘分析与处理。通过分析得到故障发生的时间和空间类别、影响因素和故障原因,并用分析结果作为输入数据,基于数据建模技术提出一种高速铁路供电专业故障指数的计算方法,计算结果定量描述了故障发生的总体情况。结果表明,过去10 年我国高速铁路处于飞速发展和建设期,每年开通了大量新建线路,伴随着供电专业维护管理的投入,供电专业故障指数呈现总体下降和平稳波动的趋势。

4.2 展望

随着我国高速铁路的长期运营,故障指数可作为研究我国高速铁路故障长期发展规律的重要手段。此外,还可在故障指数研究基础上建立安全状态分析预测模型,探索基于故障指数的安全控制策略,也是未来的发展方向之一。提出的供电故障指数计算方法尚需使用更多的故障数据进行模拟计算,从而对现有计算模型进行验证、训练、调整和完善,使之更加科学有效地反映现实的故障情况与安全规律。

猜你喜欢
高速铁路特征提取聚类
《高速铁路技术》征稿启事
《高速铁路技术》征稿启事
《高速铁路技术》征稿启事
预制胶拼架桥法在高速铁路工程中的实践
空间目标的ISAR成像及轮廓特征提取
基于K-means聚类的车-地无线通信场强研究
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
基于Daubechies(dbN)的飞行器音频特征提取
基于高斯混合聚类的阵列干涉SAR三维成像