接触网定位点智能识别方法

2019-02-19 02:43汪海瑛张文轩李向东
中国铁道科学 2019年1期
关键词:定位点角点接触网

汪海瑛,周 威,张文轩,李向东

(中国铁道科学研究院集团有限公司 基础设施检测研究所,北京 100081)

根据2015年底发布的TG/GD 124—2015《高速铁路接触网运行维修规则》和2017年初发布的TG/GD 116—2017《普速铁路接触网运行维修规则》,在接触网动态运行质量评价过程中,以跨距为鉴定单元对线路质量进行打分。因此,在动态检测过程中准确地识别出定位点,以划分出跨距对后续的运行质量评价来说是非常重要的工作。

目前对于定位点的识别按照技术原理可以分为如下几种:第一种是采用激光测距技术,在检测过程中连续向垂直车顶方向发射高频激光脉冲,通过测量距离特征实现识别。意大利的MENMEC公司以及德国DB早期的检测系统均采用此种方式实现。这种方法处理实时性要求高,在隧道内极易发生误识别;第二种是采用视频摄像技术,利用固定拍摄角度的相机获取线路两侧照片,然后通过光学字符识别等图像处理技术实现支柱定位和杆号识别。这种方法计算量大,且目前普速铁路杆号标识不统一,因此不具有通用性;第三种是以实时检测的接触网几何参数[1]为基础,根据拉出值数据拐点特征进行识别,这种方法不需要额外增加硬件设备,要求的数据量小,计算效率高,但该方法在曲线处较容易出现误识别。为解决该问题,本文提出一种基于机器学习的定位点识别方法,首先将一定距离内接触网拉出值检测数据视为二值图像,对其进行变换降噪处理后,采用基于滑动矩形的角点检测方法,初步识别出候选定位点。在提取出其特征属性向量后,通过已有拉出值检测数据训练出的分类模型确定该定位点的有效性。最后通过试验结果验证方法的合理性和可行性。

1 拉出值曲线变换降噪处理

与通常基于图像边缘特征的检测对象不同,一定距离内接触网拉出值检测数据视为由线路公里标和拉出值组成的二值图像,则接触网拉出值曲线可以描述为1条没有闭合的多态曲线,为

P={Pi=(xi,yi),i=1,…,n}

(1)

式中:P为拉出值曲线;Pi为拉出值曲线上第i个点的坐标;xi为第i个点的横坐标,与线路公里标相对应;yi为第i个点的纵坐标,与实测的拉出值相对应。

拉出值曲线由n对坐标组成,以曲线上第i个点为中心的轮廓支撑域Ns(Pi)为

Ns(Pi)={Pj|i-s≤j≤i+s}

(2)

式中:s为轮廓支撑域半径。

接触线在空间布置上要满足与行进过程中的受电弓碳滑板均匀接触的需要,因此在直线区段其被定位装置拉成“之”字形状,曲线区段拉成相对受电弓中心行迹的割线,那么拉出值曲线上相邻点之间的理论拉出值差值为

(3)

式中:yi,i+1为相邻点拉出值差值;ls为1跨内拉出值的变化量;ds为跨距;Nd为拉出值曲线上单位距离内的采样点数。

依据接触网平面设计时在直线和不同半径曲线线路上拉出值的常用取值[2]及式(3),计算出的yi,i+1可能取值见表1。

表1 相邻点拉出值差值

由表1可以看出:在典型情况下,yi,i+1取值为1.5~4.0 mm,表明拉出值曲线相邻点的离散度较大,考虑到跨距的差异、特殊困难地段的布置以及测量误差,该值有可能进一步扩大。这使拉出值曲线的连通性变差,从而影响角点检测时轮廓支撑域的选取,因此需要对其做变换降噪处理,以降低接触线的结构特征对于定位点识别的影响。

通过对拉出值差值进行标准化变换降噪处理后得到的拉出值曲线为

(4)

其中,

式中:P′为变换处理后的拉出值曲线;y′为变换后的拉出值;I为单位值。

通过数据变换降噪处理,拉出值曲线的连通性问题已经解决,而且分类依赖的特征属性向量值空间也得到压缩,从而避免了在应用分类算法时泛化能力差和过拟合的问题。

2 候选定位点检测

角点检测算法按照处理图像的类型分为2

类[3-5],一类是基于图像灰度信息的算法,此类算法通常采用预定义的检测算子对图像的每个像素进行计算,并按照阈值选取特征点;另外一类是基于图像边缘特征的算法,实际上是先利用边缘检测算子对灰度图像进行处理获取轮廓后,再根据边缘曲率或夹角等几何特征[6-7]进行处理的一种方法。以下研究中采用后一种算法,将一定距离内的接触网拉出值检测数据视为已经获取了轮廓的图像,再进行处理。

在既有的滑动矩形角点检测算法中[8],考虑到角点的各向性,检测过程中需要依据轮廓边缘的斜率构造矩形,该斜率由左、右各连续4个点位置坐标的均值决定,以保证角点检测结果的旋转不变性。由接触线的布置特性及其已有的检测数据可知,沿线路行进方向布置的接触线其拉出值在大部分定位点处都是关于线路中心线的垂线左右对称,因此可以利用该特性,对原有的滑动矩形检测算法进行简化,即忽略拉出值曲线上被测点邻域内的夹角变化,仅考虑垂直方向上存在的角点,从而构成的滑动矩形检测示意图如图1所示。图中:Si为实施检测的滑动矩形;Pci为检测出的候选定位点,其中Pc1为错误定位点,Pc2为正确定位点;L为滑动矩形的长度,与轮廓支撑域半径相关;b为滑动矩形的宽度,与轮廓支撑域内数据点的拉出值大小相关。

图1 接触线拉出值的滑动矩形检测示意图

采用滑动矩形角点检测算法,检测出的候选定位点集合为

Pc=

(5)

3 定位点智能识别

由式(5)检测出的是包含错误定位点在内的所有候选定位点集合,为最终智能识别正确定位点还需要以下2个步骤。

3.1 特征属性向量提取

对拉出值曲线进行变换降噪处理的另外一个重要目的是提取适合机器学习算法训练的候选定位点特征属性向量,使其既可以很好地刻画定位点和非定位点的特征,又可以避免由于过拟合导致的分类模型效果不佳问题。

采用候选定位点与其轮廓支撑域内各点拉出值差值的分布描述定位点的特征,可得其特征属性向量为

vc={a0,a1,…,ak,…,as}ak∈N

(6)

式中:vc为候选定位点的特征属性向量,该向量的空间大小与轮廓支撑域相关;ak为描绘候选定位点特征的第k个属性,其与轮廓支撑域内任意一点的变换后拉出值相关;N为自然数。

3.2 分类模型构造

由对拉出值检测数据的拐点特性分析可知,无论是利用k余弦曲率还是U弦长曲率等方法去逐点计算反映拐点特征的值,最终都需要通过确定1个阈值对是否为定位点进行判定,这种采用绝对单一阈值的方法不仅识别效果不好,而且适应性也不强。因此考虑采用随机森林算法,它能够克服基学习器输出结果不稳定及在训练数据复杂和存在噪声的情况下出现过拟合的问题[9-10]。对是否为定位点的判定属于1个二分类问题,因此可采用决策树算法作为随机森林算法的基学习器。

应用随机森林算法对拉出值检测数据中定位点信息进行分类,步骤如下:①对已有拉出值检测数据按照式(4)进行变换降噪后,按照式(6)提取其中定位点的特征属性向量构成样本集;②在该样本集中,随机抽取一定比例的数据预留作为测试集,以代替交叉验证;③将样本集中除测试集外的数据利用有放回抽样构建训练集,使训练集的大小与样本集相当,且训练集与测试集没有交集;④在构造的训练集中随机抽取部分属性并应用SPRINT方法生成决策树,进行基分类器训练;⑤根据投票决定最优分类。算法的整个处理流程如图2所示。

图2 分类模型算法流程

训练集的构造依赖式(6)进行,通过对已有的拉出值检测数据中定位点信息进行抽取,形成供算法实施的样本集,其中同时包含正、负样本。随机森林的构造基于有差异性的样本集,即在样本集大小固定的情况下,采用自举(bootstrap)抽样方法,对训练集进行有放回抽样。同时,参与训练的属性也由随机抽取产生,每次训练时随机抽取的属性个数NA为[11]

(7)

每次基分类器训练时属性的随机抽取,使训练集之间更加独立,相关度更低,从而可以显著地提高分类精度。同时,由于在基分类器的训练时仅需对特征属性向量中的部分属性进行处理,可以减少算法运行时间。

生成决策树的过程实际上是根据训练集特征选择最佳分类指标,并据此对数据集进行迭代处理,直至获得1个属性与类别的最佳匹配规则。以信息增益作为指标容易产生多值偏向问题,考虑拉出值数据的分布特性,选择基尼指数[12]作为节点分裂的指标,为

(8)

式中:T为按照式(6)建立的训练集,由于该集合中只有定位点和非定位点2种分类,因此它可以描述为1个拥有m=2种类别、nP条记录的集合;Gs(T)为候选分裂点处的基尼指数;nT1和nT2为训练集执行分裂后的2个子集中的样本数;G(T1)和G(T2)分别为分裂后2个子集的基尼指数;Pm1和Pm2为分裂后的子集中定位点和非定位点的概率,可用样本在集合T中相对频率的估计值代替。

在定位点分类决策树的建立过程需要根据选择的属性以及属性值空间逐次计算每种分类后对应的基尼指数,每轮计算完毕后选择产生最佳指标的结点作为分类依据。

分类错误率是一种简单直接且应用广泛的分类效果验证指标,等于分类错误的样本数与样本总数的比值,分类错误意味着其中既包含未识别出的正确定位点,也包括被误识别的错误定位点。因此以该指标判定使用随机森林算法后的效果。

4 试验验证及分析

为验证本文提出方法的有效性,采用国内某普速线路的接触网检测数据进行试验验证。

首先需对拉出值曲线进行变换降噪处理,处理前后的对比结果如图3所示。由图3可以看出,变换后的曲线在保留拉出值曲线形状特征的同时,也统一了尺度,这为后面顺利实施候选定位点检测提供了条件。

图3 拉出值曲线变换前后对比

采用滑动矩形角点检测算法,检测出的候选定位点如图4所示。图中:在这段由直线过渡到曲线的区段上,用圆圈圈起的部分是正确定位点,小方框圈起的部分是错误定位点。由图4可以看出:由于利用了接触线的布置特性,所有拐点都可以很容易地被识别出来。但是这种方法还不足以绝对排他性消除同样符合条件的伪角点即错误定位点,因此,需要利用随机森林算法根据已有拉出值检测数据将正确角点识别出来。

图4 滑动矩形定位点识别效果

依据文中方法对定位点样本进行曲线变换降噪处理后,再按照式(6)提取其中定位点的特征属性向量构成样本集。其中部分特征属性向量与类别见表2。

表2 特征属性向量与类别对应

表3给出了用SPRINT算法构造出单棵定位点分类决策树和由决策树构成的随机森林分类效果对比,第2~4列代表在构造单棵决策树时随机选取的属性子集,最右侧2列分别代表单棵决策树和由其构成的随机森林在测试集上分类错误率。从表3可以看出:根据分类属性及样本集构成的不同,单棵树的分类效果存在着较大的差异,这种基学习器的不稳定性也是引入随机森林算法这种集成模型的原因;此外,采用随机森林的确可以获得更好的分类结果,而且即使构成森林中的单棵树分类效果不佳,但并不会影响随机森林算法总体分类效果。

表3 分类模型效果

图5 随机森林采用树数目与分类错误率对应关系

采用随机森林模型得到的定位点智能识别结果如图6所示。对比图4和图6可以看出:通过采用随机森林,拉出值曲线初步识别时错误定位点得到纠正,同时识别正确的定位点也得到了确认与保留,因此整体识别效果有较为明显的改善。

图6 定位点智能识别结果

5 结 语

本文提出一种算法可对接触网定位点进行智能识别。该方法针对车载接触网几何参数检测系统拉出值数据,从历史检测结果中抽取数据建立样本集,应用随机森林算法构建分类识别模型,其中基学习器采用SPRINT决策树算法实现,定位点的判断标准以投票方式决定。应用该分类模型对通过滑动矩形角点检测方法识别出的候选定位点进行筛选,得到最终的定位点识别结果。试验结果表明,该方法可以在保证性能的前提下有较好的定位点识别效果;而且,通过树模型数量的合适选取,该算法能够应用于准实时接触网几何参数检测系统中。

猜你喜欢
定位点角点接触网
基于DS证据理论的室内移动目标RSSI定位算法
BIM技术在电气化铁路接触网中的应用研究
为开通打下基础!这条国际铁路完成接触网平推验收
多支撑区域模式化融合角点检测算法仿真
数独小游戏
中老铁路两国同步架设电气化接触网第一线
角点检测技术综述①
基于接触网下部材料厂型螺栓的改进研究
基于灰度差预处理的改进Harris角点检测算法
基于超宽带TSOA定位原理的掘进机定位误差分析