基于ARMA平稳时间序列的机票价格预测模型

2016-05-14 04:04林鑫解沐萱陈巍立孟楠王雪莹梁晨旭
中国高新技术企业 2016年5期
关键词:ARMA模型

林鑫 解沐萱 陈巍立 孟楠 王雪莹 梁晨旭

摘要:伴随着网络订票平台的普及,越来越多的人选择这些平台来订购飞机票,然而航空公司会根据自己的一套复杂定价机制随时调整机票价格,机票的价格波动幅度比较大。文章基于山海关机场的某航线,连续追踪了半年的数据建立了时间序列模型,并给出了预测机票价格的ARMA模型,为顾客节省费用提供了一定的理论依据以及实际帮助。

关键词:机票价格;价格预测;ARMA模型;山海关机场;时间序列模型 文献标识码:A

中图分类号:TP393 文章编号:1009-2374(2016)05-0019-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.010

1 概述

航空公司根据收益管理系统进行实时价格调整,票价变化明显,所以机票价格浮动大这一特点使价格预测极具实际应用价值。目前,国内针对机票价格预测模型的研究多在超售模型、价格走势规律、航空公司定价机制等方面。而国外已有如FareCast和FareCompare等成熟的机票价格预测工具,是机票价格预测和追踪网站中的佼佼者。由于国内的航空公司使用的收益管理与国外有所不同,导致国外的预测方式大多不适合国内的机票价格变化。在此基础上,国内有许多学者对机票价格的预测进行了研究。顾兆军以北京首都机场某航线为例,主要从飞机的离港时间入手,结合时间序列算法建立了机票的价格预测模型;陈岩松主要从技术层面利用垂直搜索技术和HBase分布式数据库建立了机票价格预测系统;黄承真主要从云计算的视角,利用Hadoop的任务分配策略从技术层面上建立了机票价格预测的模型。

本文将在此基础上以国内航线为例,研究某既定日起飞的航班机票在预售期内的价格浮动,利用时间序列算法建立某既定日期与航班的机票在未来几天内的价格走势预测模型。

本文的组织结构如下:第一部分为理论基础,介绍了时间序列的重要概念和定义,并引入了ARMA模型的基本理论;第二部分为模型建立,从数据预处理,包括缺失值的填补和异常值的剔除,并从数据的平稳性及随机性的检验、模型识别、参数估计和检验详细介绍了整个模型的建立过程;第三部分为模型预测,通过建立的ARMA模型预测未来5期的机票价格,并与实际值进行对比确定误差率;第四部分为模型结论,总结了本文对于基于ARMA模型的机票价格预测所做的工作,并指出了模型的优缺点,对未来的研究工作提出了建议。

2 理论基础

在统计研究中,常用按时间顺序排列的一组随机变量表示一个随机时间的时间序列,简记为或。对于一个时间序列来说,通过平稳性检验可以分为平稳序列和非平稳序列两大类。对于平稳序列而言,我们已经有一套非常成熟的平稳序列建模方法。在统计上,通常可以建立一个线性模型来拟合该序列的发展,并借此提取该序列中的额有用信息。其中ARMA(auto regression moving average)即自回归移动平均模型是目前最常用的平稳序列拟合模型。

一般而言,我们把具有如下结构的模型称为自回归移动平均模型,简记为ARMA(p,q):若=0,该模型称为中心化ARMA(p,q)模型。特别是当q=0时,ARMA(p,q)模型就退化成了AR(p)模型;当p=0时,ARMA(p,q)模型就退化成了MA(q)模型。

3 模型建立

3.1 模型假设及数据搜集

由于当今网络订票平台的普及,人们可以提前数天就预订飞机票。而由于种种原因,机票的价格始终在不断波动,即某天的机票在航班起飞之前会有不同的价格。为了方便模型的建立,我们考虑如下假设:(1)机票的最低价必然出现在飞机起飞之前的30天内;(2)顾客没有航班偏好性以及时段偏好性,购买机票时始终以“最便宜”为目的;(3)机票价格在一天内保持不变;(4)飞机航班始终能满足顾客需求。

在此基本假设下,我们利用网络爬虫在去哪儿、携程等多个网站获得了山海关机场从秦皇岛飞往石家庄半年的数据。而同时为了反映同一天机票价格在不同预订时期的变动,我们对连续30天的数据取算术平均值,进行模型的建立。

3.2 数据预处理

数据预处理主要可以分为三部分:数据清洗、异常值剔除、缺失值的填补。

由于机票价格数据是通过网络爬虫在网络订票平台获取的,因此会出现数据冗余、无关数据等问题,我们首先需要对数据进行基本的数据清洗。

对于清理之后的数据,我们要识别出时间序列的异常值。考虑到进行时间序列建模时在模型定阶上我们很大程度上地参考了自相关图和偏自相关图的拖尾性和结尾性,而其判断标准为两倍标准差,即两倍标准差以外的值为异常值。利用这个原理,我们计算了时间序列观察值的Z分数,并剔除大于两倍标准差的数据。

对于缺失数据的处理一般有删除个案、删除缺失值等会丢失样本信息的方法,也有插补法,即利用其他数据替代或者估算缺失值,常见的有均值插补法、线性插补法、EM算法等。本文针对时间序列数据的特性,选择了均值插补法,弥补被剔除了的异常值以及原本就存在的缺失值,以便于进行模型的下一步分析。

3.3 平稳性及随机性的检验

拿到了完整的、无缺失的时间序列数据之后,我们首先对它的平稳性和纯随机性进行检验。对于平稳性检验,我们首先进行直观、简洁的观察。我们可以发现,除了某几个跳跃点以外,该序列基本上始终在一个常数值附近随机波动,没有明显的趋势或者周期性。为了更精确地确定该序列是否平稳,我们使用单位根检验中最常见的PP检验对序列平稳性进行进一步分析。

我们不难发现,当置信水平为0.05的条件下,无常数均值、无趋势的时间序列可基本认为平稳,但阶数为1和2时该序列表现出不平稳的特点,没有通过PP检验。而对于有常数均值、无趋势的时间序列和既有常数均值、又有线性趋势的时间序列来说,该时间序列显著平稳。因此,该序列可基本认为平稳,可进行下一步的时间序列建模。而对于纯随机性检验而言,我们构造相关的统计量来进行检验。

原假设,

备择假设至少存在某个,,

构造LB(Ljung-Box)统计量:

式中:n为序列观测期数;m为指定延迟期数。证明LB统计量近似服从自由度为m的卡方分布,因此我们在软件中计算可得结果。

检验结果显示,在各阶延迟下LB检验统计量的P值都非常小(<0.0001),所以我们可以以很大的把握(置信水平>99.999%)断定该事件序列数据属于非白噪声序列,即该序列蕴含着值得提取的相关信息,值得建模,可进行下一步的分析。

3.4 模型识别

现在我们使用SAS软件编程来对模型进行识别。在SAS中,我们运用MINIC命令对于在自相关延迟阶数≤5,移动平均延迟阶数也≤5的所有ARMA(p,q)模型中,以BIC信息量最小为原则选出相对最优模型。

结果显示,适合该序列做预测的最优模型为ARMA(3,1)模型,结论一致。

3.5 参数估计和检验

对于该序列的参数估计,我们采用条件最小二乘法。它假定过去未观测到的序列值等于0,即通过迭代法,使得上式达到最小值的估计值即为参数的条件最小二乘估计。

同样地,我们利用SAS软件编程得到模型的参数

估计。

我们发现,除了的P值为0.0008以外,其余三个参数P值都非常小(<0.0001),所以我们可以以很大的把握(置信水平>99.999%)断定该模型的四个自变量对因变量的影响都很明显。

同时,我们仍然使用LB统计量对模型进行显著性检验。模型的有效与否即看它的信息提取是否足够充分。如果所用的模型足够好,拟合的残差项中将不再蕴含任何相关信息,即白噪声序列,仍然在SAS中进行检验。

4 结语

本文针对山海关机场的秦皇岛到石家庄航线的机票数据,提出了一种基于ARMA平稳时间序列的机票价格预测模型。该模型着重考虑了对于某天的机票在不同日期预订的价格变化,给出了供顾客参考的平均价,与真实值相比,其平均相对误差只有2.58%,误差价格都在70元以内,具有一定的现实意义。同时,本文仍有一定的局限性,尤其是时间序列模型需要的样本量较大,同时需要实时更新最新的机票数据,以此达到最佳的机票预测效果。因此,如何充分利用网络上庞大的数据库为模型建立提供更多的训练样本以此来提升模型的精确度以及利用云计算的巨大计算能力和储存能力来提升算法效率都有待我们继续研究。

参考文献

[1] 顾兆军,王双,赵亿.基于时间序列的机票价格预测模型[J].中国民航大学学报,2013,(31).

[2] 陈岩松.机票价格预测系统设计与实现[D].大连理工大学,2013.

[3] 黄承真.云计算环境下机票价格预测及任务分配研究[D].中国科学技术大学,2014.

[4] 王燕.应用时间序列分析[M].北京:中国人民大学出版社,2013.

[5] 杨池然.SAS从入门到精通[M].北京:电子工业出版社,2011.

[6] 陈剑,肖勇波,刘晓玲,等.基于乘客选择行为的航空机票控制模型研究[J].系统工程理论与实践,2006,(1).

[7] 段智彬,孙恩昌,张延华,等.基于ARMA模型的网络流量预测[J].中国电子科学研究院学报,2009,(4).

[8] 唐玉娜,李启会.ARMA模型在预测问题中的应用

[J].嘉兴学院学报,2006,(18).

作者简介:林鑫(1994-),男,福建漳州人,东北大学秦皇岛分校数学与统计学院学生,研究方向:数据挖掘、应用统计。

(责任编辑:周 琼)

猜你喜欢
ARMA模型
基于ARMA模型的城乡居民收入差距分析与预测
基于ARMA模型的我国居民消费价格指数的分析及预测
基于集合经验模态分解的农业灌溉用水量预测
中国柑橘出口的潜力研究
企业工资增长模型与养老保险基金收支平衡模型
风电功率波动特性分析