基于自组织数据挖掘的区域物流需求预测

2011-10-18 10:32许沛沛何跃
统计与决策 2011年6期
关键词:输入输出需求预测数据挖掘

许沛沛,何跃

(四川大学工商管理学院,成都610064)

基于自组织数据挖掘的区域物流需求预测

许沛沛,何跃

(四川大学工商管理学院,成都610064)

文章将自组织数据挖掘方法应用于区域物流需求预测,建立了参数GMDH输入输出模型和非参数模糊规则归纳区域物流需求预测模型,鉴于单个模型预测的局限性,以最小二乘法为最优化准则,建立了最优线性组合预测模型。实证分析表明组合预测结果比较满意,自组织数据挖掘方法是区域物流需求预测的有效工具。

区域物流;物流需求;GMDH;组合预测

0 引言

区域物流预测的研究始于上世纪90年代,我国学者对于物流需求预测的研究开始于本世纪初。由于区域物流概念从国外引入的时间不长,因此缺乏统一的标准,统计数据很不全面,很多区域物流统计数据没有能够全面反映物流需求量的指标。目前物流需求的量度大多通过实物量或价值量两种度量体系来获得,实物量主要有货运量、存货量、加工量、配送量等,价值量则是反映所有物流环节的全部服务的价值构成。大多数学者[1-3]在研究过程中用货运量来替代物流需求量,也有学者认为利用货运量这一类的实物量不能如实反映物流需求。另外,目前物流需求预测的研究方法主要有统计学方法和人工智能方法[4]。统计学方法主要有投入产出模型、回归分析、灰色理论模型和马尔科夫链等,例如黄虎[5]通过构建了主成分-SVR的“影响因素-区域物流需求”模型,对上海物流需求进行预测,取得了良好的效果。人工智能方法主要有:人工神经网络及其改进算法,林荣天[6]等建立了区域物流需求的BP神经网络模型,较好的拟合了区域经济与区域物流之间的非线性关系。

上述方法在模型可解释性和学习样本数量方面存在一定的局限性,而自组织数据挖掘在复杂系统的模拟和预测方面有着独特的优势,所以论文将自组织数据挖掘技术应用到区域物流需求预测中。从投入产出的角度,选择交通运输、仓储和邮政业产值来代表物流需求,主要是考虑到它可以大致代表物流供给量,在供需平衡的情况的下,其数值也代表物流需求量。首先分别建立了参数GMDH输入输出模型和非参数模糊规则归纳模型,得到单模型的预测结果,然后利用最优线性组合建立了组合预测模型,得到更为理想的组合预测结果,最后对预测结果进行了分析。

1 模型介绍

1.1 自组织数据挖掘

最早的自组织数据挖掘的思想由乌克兰科学院A.G.I-vakhnenko院士于1967年提出,经过不断发展,如今在复杂系统的模拟、预测等方面,成为辅助人们进行系统分析和决策的有力工具。

自组织数据挖掘是建立在“进化—遗传—变异—选择”的进化论原理基础上的,其建模方法体现了由简单到复杂的事物演化过程,是基于复杂系统的前沿科学。利用自组织数据挖掘理论建立复杂系统动态模型时,根据因变量及自变量样本数据,在计算机上采用人机对话方式产生大量竞争模型,再根据外准则选择一部分“最有希望”的模型,在利用这些模型产生大批新的竞争模型。按这样的方式将模型的结构从简单到复杂逐步改进,最后选择出最优的复杂模型来。自组织算法的外准则是基于某些补充信息,即是在估计模型参数时没有使用过的信息。使用外准则筛选竞争模型,是自组织数据挖掘算法的特色[7]。

GMDH(Group Method of Data Handling)是自组织数据挖掘的核心技术。具体来说包括以下四类模型:(1)参数GMDH输入输出模型。(2)参数GMDH自回归模型。(3)非参数相似合成模型。(4)非参数模糊规则归纳模型。论文选择的是参数GMDH输入输出模型和非参数模糊规则归纳模型。参数GMDH输入输出模型能够自动筛选进入模型的自变量,因此常用于复杂系统的关键变量提取。这也符合物流需求预测的需要。同时,该模型允许变量延迟,可以直接利用建立的模型进行预测。非参数模糊规则归纳模型使用黑箱方法分析处理系统输入、输出变量之间的关系,运用GMDH技术,能够客观地从系统所有可能的模糊规则中产生关于系统的最优模糊规则。因此它的最大优势是可以比较直观有效地描述模糊系统,是定性与定量的结合[8]。

1.2 组合预测

所谓组合预测,就是将不同的预测方法进行适当的组合,综合利用各种方法所提供的有用信息,从而尽可能的提高预测精度。论文根据参数GMDH输入输出模型和非参数模糊规则归纳模型的预测结果,建立了最优线性组合预测模型得到最终预测值,即:

其中b0、b1、b2通过最小二乘法估计得到。

2 实证研究

论文通过对成都物流需求预测来进行实证研究。由于物流需求与区域经济发展存在着很大的相关关系,所以论文选择利用区域经济指标对区域物流需求进行预测,而不是直接利用物流数据本身。影响区域物流需求的因素从宏观上考虑主要有四个:区域经济规模、产业结构、经济空间布局和区域行业因素。根据文献[9]、[10]、[11],结合成都实际情况和自组织数据挖掘能够自动筛选进入模型的自变量的特点,选择以下指标作为影响物流需求的自变量:本地生产总值X1(万元)、固定资产投资总额X2(万元)、第一产业增加值X3(万元)、第二产业增加值X4(万元)、第三产业增加值X5(万元)、货物发送量X6(万吨)、货物周转量X7(亿吨公里)、区域零售总额X8(万元)、人均消费水平X9(元)、区域外贸总额X10(亿美元)。选取指标交通运输、仓储和邮政业产值Y(万元)来代表物流需求。

论文利用成都市1985~2008年的数据作为预测模型的原始数据,其中1985~2005年的数据用作拟合模型,用2006~2008年的数据做模型检验。数据来自成都市统计年鉴。

2.1 参数GMDH输入输出模型预测

利用Knowledge Miner软件建立参数GMDH输入输出模型,根据多次试验和检验,发现当选择最大时滞为3的线性模型时结果最理想。具体模型如下:

Y参数GMDH=-0.0078X4(t-3)+0.0978X5-125.3969X7(t-1)+ 23.6988X9(t-1)+36392.9460(2)

由上式可知进入模型的自变量有:第二产业增加值X4(万元)、第三产业增加值X5(万元)、货物周转量X7(亿吨公里)、人均消费水平X9(元)。Adjusted R-squared值为0.998。具体预测结果见表1.

表1 三种预测方法得到的成都市物流需求量预测结果

2.2 非参数模糊规则归纳模型预测

利用Knowledge Miner软件建立非参数模糊规则归纳模型,根据多次试验和检验,发现当选择最大时滞为12时模型结果最理想。由于非参数模糊规则归纳模型使用黑箱方法分析处理系统输入、输出变量之间的关系,所以无法得到具体模型形式,但根据模型输出结果可知入选的变量为交通运输、仓储和邮政业产值Y(t-1),第一产业增加值X3(t-3),区域零售总额X8(t-12)。具体预测结果见表1。

2.3 组合预测

利用参数GMDH输入输出模型和非参数模糊规则归纳模型的预测结果和模拟值,建立的最优线性组合预测模型如下:

其中,Adjusted R-squared值为0.998。具体预测结果见表1。

2.4 结果分析

参数GMDH输入输出模型、非参数模糊规则归纳模型及组合预测模型的预测结果如表1所示。

从表1得到的预测结果来看,参数GMDH输入输出模型平均绝对误差是1.66%,相对误差最大为3.37%。非参数模糊规则归纳模型的平均绝对误差是3.65%,相对误差最大为7.55%,超过了5%,误差比较大。所以,参数GMDH输入输出模型的预测效果要好于非参数模糊规则归纳模型。组合预测模型平均绝对误差为1.42%,相对误差最大为2.67%。即平均绝对误差及最大相对误差均小于单个模型,总体来说预测结果要优于两个单个模型,得到的预测结果相对比较满意、可靠。

3 结语

论文讨论了参数GMDH输入输出模型和非参数模糊规则归纳模型在区域物流需求预测中的应用,针对两种预测模型建立了最优线性组合预测模型,实证表明组合预测模型的预测结果是比较准确,自组织数据挖掘可以作为区域物流需求预测的有效工具。未来可以在提高模型的预测精度和可解释性方面做进一步研究,另外,在组合预测方面,最优准则一般为“误差平方和最小”、“误差的绝对值之和最小”等,可以进一步研究不同的最优准则,更好地发挥组合预测的优势。

[1]程肖冰,张群.区域物流需求预测方法比较分析[J].工业工程与管理,2008,(1).

[2]缪桂根.基于BP神经网络技术的区域物流需求量预测[J].中国水运,2007,(5).

[3]王新利.计量经济模型在物流需求预测中的应用[J].物流科技,2005,(29).

[4]夏国恩.区域物流需求预测现状和发展研究[J].中国物流与采购, 2010,(4).

[5]贺昌政,俞海,卢跃奇.自组织组合预测方法及其应用[J].数量经济技术经济研究,2002,(2).

[6]黄虎.区域物流需求预测模型研究[J].统计与决策,2008,(17).

[7]林荣天,陈联诚等.基于灰色神经网络的区域物流需求预测[J].价值工程,2007,(2).

[8]肖进,贺昌政.基于SODM和贝叶斯的时序预测模型比较[J].统计与决策,2007,(20).

[9]耿勇,鞠颂东,陈娅娜.基于BP神经网络技术的物流需求分析与预测[J].物流技术,2007,(7).

[10]宿梦思,张志清.基于BP神经网络和证据理论的区域物流需求预测[J].物流工程与管理,2009,(10).

[11]后锐,张毕西.基于MLP神经网络的区域物流需求预测方法及其应用[J].系统工程理论与实践,2007,(7).

(责任编辑/易永生)

F252

A

1002-6487(2011)06-0058-02

国家自然科学基金资助项目(70771067)

许沛沛(1987-),女,山东菏泽人,硕士研究生,研究方向:数据挖掘、工业工程、管理信息系统。

何跃(1961-),男,重庆人,博士,副教授,研究方向:管理信息系统、数据挖掘、决策支持系统。

猜你喜欢
输入输出需求预测数据挖掘
探讨人工智能与数据挖掘发展趋势
Camtasia Studio高清视频输入输出原理及方法
铁路信号系统安全输入输出平台
输入输出理论在大学英语听说课堂中的教学探索
输入输出视角下高职英语教学研究
基于并行计算的大数据挖掘在电网中的应用
基于计算实验的公共交通需求预测方法
浅谈电网规划中的电力需求预测
基于灰色理论的山东省能源需求预测及分析
一种基于Hadoop的大数据挖掘云服务及应用