基于Holt—Winters时间序列的图书选题预测模型

2017-05-17 10:26林海康宝中
数字技术与应用 2017年3期
关键词:R语言数据挖掘

林海++康宝中

摘要:针对出版选题策划依赖主观经验的问题,提出了采用Holt-Winters时间序列预测模型按图书类别预测图书销量的方法。为出版单位作出合理的选题策划提供依据。通过选题预测可有效把握市场规律,迎合用户消费倾向,有效减少因错过最佳销售时机造成库存积压导致人力物力的消耗。

关键词:图书销售预测;数据挖掘;R语言;图书选题

中图分类号:TM73 文献标识码:A 文章编号:1007-9416(2017)03-0051-03

图书选题作为图书出版的最初环节,历来被出版单位所重视。本文主要解决出版单位确定某一时间出版选题类别的问题。如提供未来几个月内,某些类别的图书将会有较好的收益。出版行业选题策划的基本流程包括信息筛选、选题设计、选题论证、选题优化等[1],图书销售数据直观反应市场规律与用户消费倾向,对选题策划有着至关重要的影响。近年来随着图书销售数据管理的规范化、信息化,选题策划人员面对书城近期销售排行榜,销售月报以及《开卷图书调查报告》等众多报表,进行深度研究、定量分析,获得的结果极有价值,是未来图书市场调查研究的趋势。[2]

鉴于图书市场具有短期的波動性与中长期的周期性、销售数量巨大与销售品种的繁多同时并存的特点,给出版机构进行选题策划带来很大的困难。根据图书市场中长期周期性特点,提出了使用时间序列方法预测图书销量,可为出版单位推荐选题类别和选题规划的最佳时段。

1 基于Holt-Winters模型的销售预测分析

1.1 预测模型应用

Holt-Winters模型是较常见的预测模型,由Winters(1960)提出的,又由后人不断改进(如Hyndman et al.(2002),Cipra and Romera(1997),Cipra et al.(1995)),才有了现在的形式[3]。Holt指数平滑法加入了趋势指数作为修正而建立的模型,无论用在什么领域,Holt指数平滑法都被有效的验证,并且具有优秀的预测能力(Holt,2004;Eddie & Everette,2010;Luis,2011)[4]。Holt-Winters模型通常分加法模型和乘法模型,分别适用于季节变动大致相等和长期趋势大致成正比的情形。

时间序列预测方法在众多预测领域得到了应用广泛,文献通过运用时间序列对黄河径流量等水文数据预测,为黄河防汛作出预,进而减弱自然灾害的影响;文献[6]同样采用时间序列方法对自动售货机的销量进行预测分析,可提出一个快速的销售方案,减少人力物力不必要的耗费。

通过大量论文例证表明时间序列预测方法不仅广泛应用于各预测领域,而且适用于销售数据的预测分析,鉴于图书销售市场具有一般普遍性,故本文选用的时间序列方法对图书销售数据进行预测是切实可行的。

1.2 Holt-Winters三参数指数平滑方法原理

指数平滑法是移动平均法的改进和发展,Holt-Winters三参数指数平滑模型本质上是一种高级指数平滑模型,可同时处理趋势和季节性变化,可适当地过滤随机波动的影响,对兼有长期趋势和季节模式的数据进行预测。

当时间序列图显示的时间序列的季节变动大致相等时,采用加法模型;当时间序列的长期趋势大致成正比时,应该采用乘法模型。鉴于本文讨论的数据规律与加法模型相符合,故本文选择季节和趋势为加法模型,假设要进行指数平滑的序列为{xt},则Holt-Winters三参数指数平滑模型构造如下:

at=α(xt-st-π)+(1-α)(at-1+bt-1) (1)

bt=β(at-at-π)+(1-β)bt-1 (2)

st=γ(xt-at)+(1-γ)st-π (3)

其中:π为季节性时间的长度π=12,对于月度数据;s季节调整因素;xt为现行数值;at为平滑值;bt为长期趋势值;γ为加权值;α,β为调整因子;t为当前时间。(1)式中xt为图书销售数据的序列值,经过参数α的平滑处理得到平滑序列at,同理长期趋势序列bt与周期序列st经过参数β与γ的处理后得到。

预测值由下式计算:

y= at+ kbt+ st+k-π

其中k表示向后平滑期数,即决定预测未来几个月份的序列的参数,y值即所预测图书销量序列。

1.3 数据清洗

以《开卷图书销售报告》(2013-2016)为例,该数据覆盖全国2000余家实体书店门市,20余家独立网店及天猫书城,具有良好的连续性、代表性和完整性。采用2012-2013连续2年的图书零售市场逐月观测数据作为训练集,2014-2015年为测试集,销售总码洋31.77亿元、销售图书总计2300余万本。

首先对原始销售数据进行数据清洗,剔除冗余字段、缺失字段后,保留规范化和有效的数据,如销售分类、销售量、售价、时间等字段;然后按年份与销售分类分组统计。筛选后对各图书销售分类数据分析,包括销售类别、码洋与市场占有率。

鉴于每本图书作品在图书出版过程中都要进行ISBN号申请,申请目的主要是为了图书市场更好的管理与规范,确保出版发行高质量图书。申请时长作为一个重要因素影响出版单位出版选题的规划,ISBN的平均申领时长是一个需要获取的重要指标。

1.4 确定预测模型

图书销量的训练和预测过程大致如下所示,首先在(1)式之前将数据dataframe1准备就绪,通过(2)式建立预测模型,将测试集带入预测模型由plot函数比对拟合程度后,确定参数后即可由(3)式预测图书销量。

s1=ts(dataframe1,frequency=12, start=c(2012,1)) (1)

bookforecasts <- HoltWinters(s1,alpha=TRUE,beta=0, gamma=0.1) (2)

forecasts <- forecast.HoltWinters(bookforecasts, h=4)(3)

采取对少儿类图书举例分析,其它类别图书分析方法类似,在此不再赘述。首先通过对Holt模型与Holt-Winters模型进行对比分析,如图1所示横轴表示年份,纵轴表示销售码洋,图中黑色曲线表示实际图书销售码洋变化规律,粗体曲线为模型对训练集的拟合效果。

根据训练集选取的时间序列预测模型,对测试集做时间序列预测。对比效果如图2所示,横轴表示年份,纵轴表示销售码洋,图中黑色曲线表示实际图书销售码洋变化规律,粗体曲线为模型对测试集的拟合效果。由图2可表明Holt-Winters模型拟合效果优于Holt模型,所以选取Holt-Winters模型进行销量预测。

通常评估模型拟合程度与误差分析,通过预测误差残差偏移做自相关和偏相关分析,可判定预测模型的统计学意义。然后对Holt-Winter时间序列模型预测结果的误差残差偏移做自相关ACF和偏相关PACF分析,如图3所示,图3中第一部分横轴表示时间,纵轴表示误差残差偏移量,曲线描述了预测值与实际值波动范围的差值。图3中的第二部分和第三部分表示残差自相关图与残差偏相关图,ACF与PACF随着阶数的升高,残差均在意义界限虚线之内,表示预测结果符合统计学意义。由此表明选定的预测模型符合预期要求。

2 实验结果及应用

2.1 预测图书销量

因为时间序列预测随受近期数据影响因子较大,预测时间较长会丢失预测精确度,所以选取预测模型预测未来四个月的各类别图书销量。预测结果如图4所示,其中横轴表示时间,縱轴表示销售码洋,黑色曲线为实际销售码洋的值,其中圆点表示2016年1月只4月的月销售码洋,深灰色区域表示85%的置信区间,灰色区域表示95%的置信区间。

预测得到的预测结果如表1所示,时间表示预测时间,为2016年1月至4月,预测结果为各月份的销售码洋数值。

同理可得其余类别图书未来4个月的销售预测和所占比例。

2.2 预测结果分析与应用

根据本文预测数据,可以通过用户输入一定范围内的年月信息(输入的年月信息跨度较大会有较大的误差,造成推荐方案的不准确性),由表2中的数据可以为出版单位提供出版选题比例结果推荐方案;如输入2016年1月后,可以推荐给用户该月份的选题比例,如推荐可提供较多盈利的类别TOP 8(排名前8种类别),如法律、文学、传记、政治经济与管理、少儿以及这六种类别选题的推荐比例,出版单位用户可以由此可获得各类别选题的结构比例推荐方案。

另一方面,由出版单位提供选题基本信息,可根据分类图书平均申领时间表为出版单位选题规划日期给出精确到日的信息。如出版单位提供的选题类别、页数、开本、装订形式、首印量等信息,可以根据类别得到选题的ISBN申领时长;因为不同页数、开本、装订形式的图书作品印刷周期不同,如页数较多并且装订形式是精装版的图书耗费的印刷时间也比较长,所以根据页数、开本、装订形式、首印量等信息可以估算出印刷时耗。由以上两部分时长可较为准确的得到该类选题的时耗,出版单位便可根据选题耗费时长提前规划相应类别选题。

通过以上分析,从数据层面提供了选题预测的可靠性,并且从数量给予出版单位用户直观的反应,为出版单位某一时间出版什么类别选题提供了依据。由此使用以上方法可以建立起一整套根据图书销售数据对图书选题规划的应用,为图书出版行业建立大数据分析的奠定基础。

3 结语

本文运用时间序列的方法,基于图书销售数据采用数据挖掘分析方法,预测出各销售类别图书的销售码洋,进而为出版单位提供未来一段时间内某一类选题的推荐方案,并针对选题规划周期时长提供预测,为出版单位选题规划周期提供精确到日的推荐方案,为实现出版单位收益最大化提供良好的保障。

参考文献

[1]傅祚华.选题策划与出版流程[J].中国编辑,2016.2.

[2]李长青.如何透视图书销售数据背后的奥秘——图书销售数据定量分析方法浅探[J].科技与出版,2008(03).

[3]沙川.Holt-Winters时间序列模型参数估计和预测[D].南京大学,2011.

[4]厦瑞鸿,郑博文.医院卫材需求预测与存货管理[J].国立云林科技大学全球运筹管理所硕士论文,2013.1.

猜你喜欢
R语言数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
注重统计思维培养与应用为主导的生物统计学课程建设
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究