应用ARIMA模式于车辆侦测器数据填补

2015-05-08 09:11林大杰艾嘉铭陈哲先郑家豪吴渊展
交通信息与安全 2015年3期
关键词:差分流量车辆

林大杰 艾嘉铭 陈哲先 郑家豪 吴渊展

(1.逢甲大学运输科技与管理学系 台湾台中40724;2.台中市交通局交通规划科 台湾台中40341)

1 绪 论

1.1 研究背景与动机

高速公路是台湾地区重要的交通动脉,南来北往重要的交通道路。尤其高速公路之感应线圈车辆侦测器资料对于交通管理者而言,是掌握交通状况相当重要的来源,其资料可应用于匝道仪控、事件自动侦测反应上,以有效解决交通重现性与非重现性问题。而感应线圈车辆侦测器系主要利用车辆通过侦测器时的电通量之变化来计算车流量、占有率,并利用密度与占有率之公式推算出速度值。但是目前感应线圈车辆侦测器面临着1个严峻的考验,那就是经常发生数据的遗漏,依照Federal Highway Administration(FHWA)研究发现,数据的遗漏可以分成5种主要的原因,分别是当机(stuck sensors),脉冲分裂(pulsing),高频跳切现象(chattering),压占(hanging)及间歇性的故障(Intermittent malfunctioning)。

对于车辆侦测器数据的遗漏[1-4],是交通分析上相当大的1个问题,车辆侦测器数据在先进交通管理系统(advanced traffic management system)中是一基本且重要的数据源,若是数据产生缺漏将会对于交通管理决策缺乏效率,而且无法彰显出投资车辆侦测器之价值,故本研究利用时间序列(times series)以及模糊时间序列(fuzzy time series)对于缺漏的车辆侦测器数据进行填补,期望能建立1个优良的数据插补模式,对于短时间内所漏失的数据能够进行实时的填补,在当日缺乏前后数据时能够发挥时间序列短时间内因参考自我历史数据,而绩效高的优点,进行数据的填补。

1.2 研究范围

本研究将以国道高速公路中部路段的国道3号152.800km,环路式线圈车辆侦测器2013年1月1日~12月31日的流量数据进行研究。之所以选定此车辆侦测器是因为其所在之路段并非是上下网关的位置[5-7],Coifmanet提到车辆侦测器设置的位置会影响数据收集的准确度,而国内外亦有许多研究是在讲述车辆侦测器布设位置优化的课题,例如,唐婉玲[5]利用回馈式类神经插补探讨路段车辆侦测器布设间距、廖梓淋(2009)[2]利用数据填补概念探讨车辆侦测器布设间距与黄琳桂(2002)[6]环路线圈车辆侦测器之最佳布设方式研究,都是在探讨侦测器布设间距与地点优化之问题。另1个原因为此车辆侦测器之整年妥善率为92.3%,为中部路段中整年度平均妥善率最完善之侦测器。将80%的数据投入来训练模式,而另外20%的数据则为对照组,来对照其预测的准确度。期望能够藉由大量的数据训练提升数据填补模式的准确度,进而比较2种填补方式的绩效以及优缺点。期望能够将数据填补的精确度提升,使得数据的有效性提升。

1.3 研究架构

本研究利用国道3号152.800km的环路式线圈车辆侦测器流量数据来进行数据填补的研究[8],首先会区分成平日以及假日2种不同的模式,因为平日与假日的交通尖峰时间并不相同,如图1可见平日的尖峰时间会大致上落于上午07:00~09:00时,以及下午的17:00~19:00时这2个时间区块,然而假日的尖峰时段则会落于上午11:00~13:00时以及下午的16:00~19:00时这2段时间,所以必须先将此2种不同的流量型态分开来讨论,以免影响了填补模式的精准度。分成2种不同型态的模式之后,利用2种不同的填补方式进行数据的填补,分别是时间序列以及模糊时间序列,进而比较是否模糊时间序列会比时间序列的填补绩效来的更好,也会回顾国内外各种数据探勘以及车辆侦测器的文献来做1个综合性的比较。最后将训练好的模式以另外20%的真实数据相互比较填补的绩效,是否应用了模糊集合的概念能够比现今已知的人工智能法来的优秀,期望能够帮助交通分析者提供更完整的数据,不受到数据缺漏的限制,提升交通决策的效率及准确度。

1.4 研究方法

ARIMA时间序列模型中其中有很大的一部分是Box,Jenkins所著作的结果。1个ARIMA模式,乃由3个要素所组成,①为自我回归(auto regression,AR(p))模式;②为差分difference;③为移动平均(moving average,MA(q))模式。参考相关文献,将3个要素之内容及下列3大部分。

1)自我回归模式。若时间序列{Xt}可以表成下式,则称此时间序列 {Xt}为自我回归模式,记成AR(p):

式中:C 为常数,p 为阶次(order),at为干扰项(shock),(1,…,p)为自我回归参数

2)差分。当时间序列 {Xt}为非稳定型时,则可以经由差分,使其成为平稳型。差分作法为:

一般,将Xt称为一阶差分。因此,dXt为d阶差分。经一阶差分即可成稳定型时,是属于部分水平(local level)不平稳,通常是适合股票价格及其他财务变数的情况。而部分水平不平稳型中带有斜率趋势(slope trend)时,则要进行二阶差分,使之平稳。因此,非定态性的时间序列,对其采取连续差分后,终可化为定态性的序列。

3)移动平均模式。若时间序列{Xt}可以表成下式,则称此时间序列{Xt}为移动平均模式,记成 MA(q):

式中:μ为常数,(θ1,θ2,…,θq)为移动平均参数。

为了凸显ARIMA是由3个要素组成,本研究将非稳定型的ARMA(p,q)经d阶差分后成稳定型的 ARMA(p,q)模式记成 ARIMA(p d q)。所以,ARIMA(p d q)模式可表成:

2 文献回顾

2.1 算法填补回顾

Chu Lianyu[9]经由测试结果发现:①如果实时交通数据不精准时,历史数据推估可能是唯一的选择,且若无特殊车流情形发生,此方法亦有不错的预测效果;②ARIMA适用于稳定车流情形,当车流变化幅度较大时,预测结果将有所延迟;③类神经网络可仿真复杂的车流情形,尤其是尖峰时期车流变化迅速之时,但须利用充分的数据进行训练其权重;④无母数回归与类神经网络之适用条件相似,若无法获得较充分的交通数据时,此方法为不错的替选方式。

Chun-Hsin Wu[10]使用支持向量回归进行旅行时间之预测,其中建立一非线性优化模式,并利用 Karush-Kuhn-Tucker(KKT)求解。所建构之模式中考虑到旅行时间误差值,说明只有旅行时间在正负误差值间拉式函数才会为一非零值并且其向量值才可以被运用。Zhong等比较调整因子法、ARIMA、类神经网络算法、基因回归法等4种模式对漏失数据进行脱机插补效率的比较,结果发现这4种方法中以基因回归法最准。其克服了多笔漏失资料连续出现的情形,适用于年平均每日交通量(annual average daily traffic,AADT)的资料插补。Peeta和Anastassopoulos尝试利用傅里叶变换侦测并修正联机式交通控制系统(online traffic control architectures)中的错误数据,其利用历史数据以及漏失数据发生当时稍早的当日资料,发展具强健性(robust)的插补方法,供实时交通控制系统能逐分地预测交通参数,包含流量、速率及占有率,并在交通参数发生错漏时实时进行插补。其提出傅立叶变换可以同时完成侦测及预测漏失数据的工作,且快速傅里叶变换(fast Fourier transform)可以提高拟合 (curving fitting)历史数据的效率。

2.2 ARIMA应用于预测填补之文献回顾

Pliar,Moral[11]应用结构时间序列模型,分析影响国际观光客到西班牙之因素,资料期间为1979年至1993年的月资料。其将结构性时间序列模式和ARIMA模式、转换函数等,结果发现ARIMA的预测结果较优。陈敦基[12]以SARIMA模型,来建构来台观光旅客人数短期之预测模式。并以一般回归和自我回归模式来建立长期预测模型,发现短期和长期预测模型均具有相当良好的有效性以及稳定性。李佳倩(2011)发现利用ARIMA(0,2,1)可以作为预测黄金价格变化的合适ARIMA模式。利用判断系数(R2)以及绝对平均误差(MAPE)2种指针比较回归模式与ARIMA(0,2,1)模式,发现 ARIMA(0,2,1)的R2较大而且MAPE较小,是1个较为优良的预测模式。陈敬元[13]利用ARIMA模式取得线性的预测值,之后再将现性的残差带入支持向量机(SVM)模型去做训练,把ARIMA的预测值与SVM的残差预测值相加得到模拟的结果。结果显示,陈敬元[13]所提出的模型是可行的且比其他相关文献所提出的模型,具有更高的准确率与预测能力。

郭翊翔[14]应用时间序列分析法之ARIMA预测模式,以单变量及多变量方法探讨样本晶圆代工厂未来之晶圆需求量,利用1997年1月至2007年5月晶圆之历史销售量为样本内数据,提出该晶圆厂未来需求量之ARIMA单变量及多变量预测模型,并将此需求预测模型所产生之预测结果与2007年6月~2007年12月之该晶圆代工厂晶圆销售数字(样本外数据)做比较,结果显示,郭翊翔[14]所使用之 ARIMA 预测模型由MAPE值判断可得到合理之预测绩效,整体而言也会比现行样本晶圆代工厂之业务单位、区域规划单位、总部规划单位之需求预测绩效来得好,足见其确实可帮助企业提高需求预测的准确度。

3 研究结果分析

本研究使用SPSS17.0的ARIMA预测模式,将国道3号南向152.800k的侦测器2013年1/1~8/31号的流量数据,切分为平日与假日两种模式[15-18]。研究步骤如下:

1)利用净自我相关图来判断是否为平稳数列。

2)使用Expert Modeler选出最佳的ARIMA(p,d,q)模式,SPSS17.0有一功能是能够自动的计算最适合的ARIMA(p,d,q)模式,经过本研究发现平日流量所计算出的最适合ARIMA(p,d,q)模式为ARIMA(0,1,1),而最适合假日流量特性的模型是ARIMA(1,1,1)。

3)检视模式的R2与MAPE值是否能够充分解释变异数,BIC值是否最低并且残差符合白噪声之假设。

图1是平日模式的流量净自我相关图,在其落后数5之时才进入了最低信赖界线,在ARIMA模式中代表数据需要差分处理。

图2是假日模式的流量净自我相关图,在其落后数7之时才进入了最低信赖界线,在ARIMA模式中代表数据需要差分处理。

依照统计学家Lewis所提出的衡量标准,MAPE值小于20%即为优良的填补模式,而模式的BIC值则是越小越好,R2代表模式的解释程度,R2越高代表解释变量的能力越高。表1是平日模式的挑选准则,可以看出由Expert Modeler所得到的模式4项准则皆为最优,比较的模式为符合残差接受白噪声假设的模式。其MAPE值也低于20%为1个优良的模式。

图1 平日模式之净自我相关图Fig.1 Usual pattern of net self-correlation diagram

图2 假日之流量净自我相关图Fig.2 Holiday traffic net self-correlation diagram

表1 平日模式之挑选准则表Tab.1 Usual mode of choice is the criteria table

图3 平日ARIMA模式建构Fig.3 ARIMAmodel constructed on weekdays

4 结论与建议

根据本研究以国道3号南下152.800km之环路线圈车辆侦测器流量数据为例,归纳出下列结论。

1)以不同的方法来比较填补的绩效,也提出ARIMA结合模糊时间序列的应用方法以及使用ARIMA进行短时间的在线填补。

2)以ARIMA(0,1,1)可以作为1个可接受的平日流量填补模式,因其MAPE值小于20%,而ARIMA(1,1,1)则可以当作一个假日

3)结合ARIMA模式以及模糊时间序列,得新的混和模式,其绩效表现优良,并且不论在平日流量填补或是假日流量填补都比ARIMA模式和平均法来的优秀。

4)模糊时间序列所预测值为一梯度函数,其模糊集合的大小决定了梯度的大小,所以模糊集合数目为影响模糊时间序列很显著变量。

8)试着使用建构好的ARIMA(0,1,1)平日模式与只使用历史前5笔的数据提出1个实时的数据填补模式,初步发现前5笔数据的实时填补模式,利用逐步增加权重的方式加入以年历史数据建构完成的ARIMA(0,1,1)平日模数据,为1个可行且简易的填补方式。

因本研究尚有些许地方不尽完善,所以下列提出几点未尽之处可供后续研究者参考。

1)本研究以单1车辆侦测器数据来建立模式,其后研究者可考虑以路网或是路段流量来讨论填补议题,可考虑建立流量、速度与密度三大车流理论要素的填补模式。

2)本研究旨在建立可实用于交控中心的填补模式,希望简化以往研究所发展模式过于复杂的问题。此混和模式后续可发展成自行撰写之套装程序应用于交控中心实时数据填补。

3)实时填补模式里的权重订定尚有可研议之处,后续研究者可依此建立更佳的权重配置。

[1] 黄宏仁,张堂贤.车辆侦测器数据补偿与正规化研究[D].台北:国立台湾大学,2009.HUANG Hongren,ZHANG Tangxian.Compensation and regulation for vehicle detector data[D].Taipei:National Taiwan University,2009.(in Chinese)

[2] 许程咏.利用灰色理论于侦测器遗失资料插补之研究[D].新竹:国立交通大学,2011.XU Chengyong.Using Grey Theory in the interpolation for missing value of detector study[D].Hsinchu:National Chiaotung University,2011.(in Chinese)

[3] 黄智建.车辆侦测器不完整信息推估旅行时间之研究[D].台中:逢甲大学,2007.HUANG Zhijian.The study on incomplete vehicle detector data for travel-time estimation[D].Taichung:Feng Chia University,2007.(in Chinese)

[4] 马韵婷.车辆侦测器校估准则之建立研究[D].台中:逢甲大学,2009.MA Yunting.A research on construction the vehicle detector of adjustment criterion[D].Taichung:Feng Chia University,2009.(in Chinese)

[5] 唐婉玲.利用回馈式类神经插补探讨路段车辆侦测器布设间距[D].桃园:国立中央大学,2011.TANG Wanling.A study on the installation spacing of vehicle detectors on road section using data imputation based on recurrent neural network[D].Taoyuan:National Central University,2011.(in Chinese)

[6] 黄琳桂.环路线圈车辆侦测器之最佳布设方式研究[D].台北:国立台湾大学,2002.HUANG Lingui.Research of coil loop vehicle detectors the best way[D].Taipei:National Taiwan University,2002.(in Chinese)

[7] 吴健生,廖梓淋.利用数据填补概念探讨车辆侦测器布设间距[J].运输学刊,2010,22(3):307-326.WU Jiansheng,LIAO Zilin.A study on the installation spacing of vehicle detectors using the concept of missing value treatment[J].2010,22(3):307-326.(in Chinese)

[8] 逢甲大学先进交通管理研究中心.100年度台中市交通信息管理中心整合与时制重整实作计划[R].台湾,台中:台中市政府,2011.Feng Chia University Advanced Traffic Management Research Center.Taichung city 100annual traffic information management center integration and semaphore reformed implementing plans[R].Taiwan Taichung City Government entrusted to handle.2011(in Chinese)

[9] CHEN H,GRANT ULLER S,MUSSONE L,et al.A study of hybrid neural network approaches and the effects of missing data on traffic forecasting[J].Neural Computing and Applications,2001(10):277-286.

[10] WU Chun Hsin,HO Jan Ming,LEE D T,Trav-el-time prediction with support vector regression[J].IEEE Transactions On Intelligent Transportation Systems,2004,5(4):276-281.

[11] GONZLEZ P,MORAL P.An analysis of the international tourism demand in Spain[J].International Journal of Forecasting.1995(11):233-251.

[12] 陈敦基.来华观光旅客之需求特性与时间序列分析[D].淡江:淡江大学,1991.CHEN Dunji.Taiwan go sightseeing passenger demand characteristics of the time series analysis[D].Tamkang:Tamkang University,1991.

[13] 陈敬元.运用ARIMA与SVM模型于软件可靠度预测之研究[D].宜兰:佛光大学,2012.CHEN Jingyuan.Applying the ARIMA and SVM models to software reliability forecasting[D].Ilan:Fo Guang University,2012.(in Chinese)

[14] 郭翊翔.晶圆代工厂的需求预测模型-以ARIMA模式分析[D].新竹:国立交通大学,2007.GUO Yixiang,Demand forecast model in wafer foundry-analysis by ARIMA model[D].Hsinchu:National Chiao Tung University,2007.(in Chinese)

[15] 许正宪.数据融合技术应用于事故影响下高速公路旅行时间预测之研究[D].高雄:成功大学,2006.XU Zhengxian,Development of freeway travel time forecasting models with accident characteristics using data fusion techniques[D].Kaohsiung:Kung University,2006.(in Chinese)

[16] 蔡继光.高速公路旅行时间预测-K-NN法与分群法探讨[D].新竹:国立交通大学,2009.Tsai,Chi Kuang,Freeway travel time prediction by using the k-NN method and comparison of different data classification[D].Hsinchu:Taiwan National Chiao Tung University,2009.(in Chinese)

[17] DAILEY D J,HARN P,LIN P J.ITS data fusion[R].Washington D.C.:Washington State Department of Transportation,1996.

[18] CHEEVARUNOTHAI P,WANG Yinhai,NIHAN N L,Identification and correction of dual-loop sensitivity problems[D].Washington D.C.:University of Washington,2005.

猜你喜欢
差分流量车辆
冰墩墩背后的流量密码
张晓明:流量决定胜负!三大流量高地裂变无限可能!
数列与差分
寻找书业新流量
车辆
冬天路滑 远离车辆
提高车辆响应的转向辅助控制系统
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
五位一体流量平稳控制系统