基于Python的交通流数据清洗

2016-10-21 17:26李红梅唐岚
电子技术与软件工程 2016年9期
关键词:交通流

李红梅 唐岚

【关键词】交通流 Python 数据清洗

1 引言

随着交通检测技术和智能交通系统的发展,交通管理者能够获得海量的交通数据。但是现实中,往往由于各种因素如环境、道路突发事件、采集设备故障等导致采集的数据存在缺失、异常、冗余等现象,这会降低智能交通系统分析和诱导能力。因此,如何将获取“脏数据”进行科学合理的清洗是各国学者亟待解决的问题。

2 交通原始数据的选取

本文中使用的数据为四川省某市2014年8月6日的交通流数据,这个数据中有很多路段信息,并且数据采集设备的采集数据周期为5min,相应的信息可以从图1中看出。

每条交通数据都有唯一的VID_LANE_ID号与之对应。而VID_LANE_ID前四位指代某路段的某一具体设备。TRAFFICDATA代表采集数据的时间。DIRECTION为方向编码,代表车辆行驶的方向,TRAFFICDATA_ID记录时间间隔为5分钟,这个时间段非常适合数据分析与预测建模。对于VOL为该路段在5分钟内所经过的车辆总数;SPEED为在观测时间内所有车辆的速度平均值;OCC为占有率,指检测时间周期内有车辆经过的时间总和与检测总时间的之比(本文采集数据OCC省略了百分数)。

3 交通流数据清洗

采集到的真实的交通流数据往往会由于诸如信息传输、设备自身故障、突发交通事故等因素影响会导致其包含有真实数据和不真实的数据。为了使数据分析或者数据预测工作具有科学性和可靠性,往往不能直接使用这些“脏数据”,在这之前需要对这些采集到的原始的交通流数据进行降低甚至消除噪声、简约冗余数据、对异常错误数据进行修正、对缺失数据进行填补等工作,用以提高数据质量,通常称这一过程为数据清洗。

一般说来,脏数据主要存在异常、缺失和冗余这三类。

3.1 异常数据的判断与处理

本文异常数据的剔除算法分为两个步骤,第一步是采用阈值法去掉比较明显的错误数据;第二步是采用交通机理法去掉在数据中隐藏的错误数据。阈值法要求数据取值在一定的区域范围之内,如果相应的区间内数据超出了这个区域,那么就表示相应的数据为错误数据,需要对其进行清洗。也就是说,根据采集到的数据的历史统计规律、设定相应的数据阈值,对待处理数据进行上下阈值比较,在这区间的为正常数据,不在此区间的为异常数据。通常会将交通流数据的特征参数联合起来进行综合判断。通过对数据的研究分析,发现所采集到的数据存在很多异常数据,如速度为零,流量却不为零;流量不为零,占有率却为零等。根据城市道路交通机理知识,交通流数据中的参数数据应该是同有同无,也就是说不可能三者中有某一个或几个为零,其余参数数据不为零的情况。这就是进行数据逻辑判断的准则,用以剔除错误的数据。

因此,异常数据的逻辑判断和处理准则为:

(1)当流量VOL大于2000辆/h时,流量为异常数据,剔除;

(2)当速度SPEED大于100km/h时,速度为异常数据,剔除;

(3)流量、速度、占有率、车头时距都为零时,剔除。

3.2 缺失数据的处理

数据缺失可能是由多种原因造成的,那么其表现出的形态也有多种,所以在进行缺失数据处理之前要遍历在一定时间内某路段的所有数据。在这过程中发现某时刻没有数据,则称这种现象为数据缺失。在补齐数据的过程中需遵循以下两条原则:首先要保证原始数据的完整,及对于原始数据最大限度不作修改和删除,以保证有足够充足的历史数据可作为修补数据的基础,并且此文档应单独完整存储,方便后续的检测和使用,缺失数据的处理在异常数据剔除之后,在异常数据处理后存储为剔除异常后的数据文档,缺失数据则基于此文档,修改过后另外保存。其次是对于缺失数据修补的方法和过程应用文档独立记载,这将有利于后续的检查工作并且为数据的取舍提供基础,也提高了数据处理的透明性。因为交通流缺失数据和已有的数据存在着一定的能够确定的关联关系。

3.3 冗余数据的简约

在正常的交通流数据应该是一条记录对应一条完整的检测信息,但是在现实中,由于设备布置、调试等原因,使采集到的数据集可能存在冗余问题。冗余的交通数据会增大交通流数据容量,掩盖关键信息,甚至可能会诱导错误的分析和预测。所以,预测分析前要简约冗余数据。简约方法主要有:如果冗余的多条数据相似则取平均值,若数据都相同则只取一条。

4 结语

对某市交通流数据清洗后进行流通统计如图2所示。

从图2中可以看出,某市整体交通流量从早上6点开始向上攀升,到早上8点到达最高峰,然后缓慢下降,持续到上午11点,这与人们出行的早高峰相吻合。晚上5点到达最高,然后缓慢下降,与晚高峰出行吻合。

参考文献

[1]马寿峰,贺国光,刘豹.智能交通系统中短时交通流预测系统的研究预测[J].2004,23(2): 28-34.

[2]魏强.基于固定检测器的区域交通状态判别方法研究[D].吉林:吉林大学.2011.

[3]宫晓燕.基于数据挖掘的交通流预測及辅助诱导[D].北京:中国科学院自动化研究所,2003.

猜你喜欢
交通流
基于LSTM的沪渝高速公路短时交通流预测研究
一种平稳化短时交通流预测方法
交通流随机行为的研究进展
路内停车对交通流延误影响的定量分析
具有负压力的Aw-Rascle交通流的Riemann问题
考虑车辆间博弈行为的交通流