基于IP品质因子的早期电影票房预测研究

2018-01-19 11:35尹聪敏竹翠赵枫朝
软件导刊 2018年10期
关键词:多元线性回归支持向量机BP神经网络

尹聪敏 竹翠 赵枫朝

摘 要:目前针对早期电影票房预测的研究较少,且预测精度不高。通过对中国电影票房市场的研究,发现随着IP电影热的兴起,热门小说IP改编成为电影票房的一大卖点。研究基于IP品质的影响因子对电影票房预测的影响,选取电影票房预测中的3种经典模型加以验证,分别是多元线性回归模型、支持向量机模型、BP神经网络模型。通过对比实验得出增加IP品质这一影响因子可使模型的R平方值得到提高。

关键词:电影票房预测;多元线性回归;支持向量机;BP神经网络;IP品质

DOIDOI:10.11907/rjdk.181174

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2018)010-0060-04

英文摘要Abstract:There are few studies on the prediction of the early movie box-office revenue,and the prediction accuracy is not high. Through the research of Chinese movie box-office market,we find that IP(Intellectual Property,IP) adaptation is a major selling point of movie box office.Therefore,we put forward the influence of IP quality factors on movie box-office prediction.Three classic models of movie box-office prediction are selected to be verified,which are multiple linear regression model,support vector machine model and BP neural network model.Through comparative experiments,it is concluded that the R square of the modelsare increased respectively by adding the influence factor of IP quality.

英文关键词Key Words:movie box-office prediction;multiple linear regression ;support vector machine ;BP neural network ;IP quality

0 引言

不同国家和地区之间有着不同文化,而电影已成为文化交流的重要媒介。不仅如此,优秀的电影能通过一则故事启发人们对生活的思考,丰富人们的精神世界[1]。电影投资机构迫切希望利用高票房为电影赢得口碑,并获取可观利润。然而,要评判一个电影是否具有高票房的潜质,则需要对电影进行投资风险评估。因此,电影票房预测对于电影投资决策具有重要意义[2]。 在业界,根据所选自变量数据的性质,将电影票房预测方法分为两类:早期预测与实时预测。早期预测所需数据来自于电影本身,实时预测所需数据则与电影无关,而是来自网络社交媒体对电影的评价[3]。本文主要研究早期电影票房预测,由于针对早期电影票房预测的研究相对较少,且预测精度不高,本文通过对中国电影票房市场的调查,发现随着IP(Intellectual Property)电影热的兴起,根据热门小说IP改编的电影是高票房的重要保障之一,因此将IP品质因子作为电影票房预测的一个新加变量进行早期电影票房预测研究。

1 相关研究

上世纪80年代,西方学者开始进行电影票房相关问题的研究,他们不断进行实验,希望找出影響电影票房的因素,进而指导电影投资与拍摄。此后,很多学者也进行了电影票房预测研究,并取得了一些成果[4]。西方学者对电影票房的预测研究基本上形成了一套体系,但是精度不高,缺乏实际应用价值[5]。

Barry Litman[6]的电影票房预测模型在引入新增因素 MAPP、奥斯卡获奖情况基础上,利用回归分析,经过多次实验得到一个基于多元线性回归的电影票房预测模型。然而,该模型有很大的局限性,Barry采用电影租金收入代替电影票房,虽然电影票房与租金收入有一定关系,但仍存在差距。此后,Barman等[7]提出基于BP神经网络的电影票房预测方法,但其仅把电影类型作为自变量输入,并且使用简单的布尔型数值表示输入输出结果,这在实际应用时存在很大问题,仅提供了理论指导。近年来,很多学者也针对该领域进行了大量研究,如赵伟[8]提出一种基于粗糙集与支持向量机(Support Vector Machine,SVM)的电影票房预测模型,通过集合粗糙集强大的数据处理能力与支持向量机的分类机理,设计出基于粗糙集的支持向量机。然而由于粗糙集理论尚存在缺陷,该方法在严格的数学证明方面仍有待进一步研究。

通过调研发现,国内针对电影票房预测的研究起步较晚,相关文献较少。由于电影票房的影响因子很多,且没有统一的量化标准,在获取电影数据方面也有较大难度,从而使研究难度增大,导致电影票房预测研究进展相对缓慢。本文通过对中国电影票房市场的研究,发现近几年根据热门小说IP改编的电影是电影票房的一大保障,因此增加IP品质作为电影票房预测的新加因子,以提高早期电影票房预测精度。

2 模型选取

用于进行电影票房预测的模型有多种,近年来随着神经网络的兴起,学术界多采用神经网络模型进行电影票房预测。本文选取3种最具代表性的预测模型,分别为线性回归模型、支持向量机模型和BP神经网络模型。

通过观察图1可知,图中有(d+l+1)q+l个参数需要确定:输入层到隐藏层的d*q个权值、隐藏层到输出层的q*l个权值与l个输出层神经元阈值。BP是一个迭代学习算法,在迭代的每一轮中采用广义感知机学习规则对参数进行更新估计。

BP算法是一种最有效的多层神经网络学习方法。其基本思想为:在前馈网络中,输入信号经输入层输入,通过隐层计算后由输出层输出,输出值与标记值进行比较,若有误差,将误差由输出层向输入层反向传播。在该过程中,利用梯度下降算法对神经元权值进行调整。

3 变量研究

西方学术界对电影票房影响因素的研究起步较早,研究结果表明,演员、导演、档期、发行商、分级、获奖、制作成本等因素都会对电影票房造成影响。我国电影产业起步相对较晚,发展尚不成熟,在参考西方学术界的研究结果时要综合考虑我国电影产业现状。由于中西方文化差异以及不同的管理制度,在变量选取方面,要结合我国电影产业实际情况进行取舍。

3.1 因变量选取

本文因变量为电影票房,电影票房是一部电影放映期间的累计总收入。电影票房相关数据来源于电影票房数据库,本文主要获取年度票房中的电影数据。

3.2 自变量选取

本文选取以下几个因素作为解释变量。

(1) 主演和导演。由于对明星效应的量化比较模糊,因此本文参考比较权威的量化标准,如Litman[6]提出的根据主演和导演是否获得奥斯卡等权威奖项,设定虚拟变量以衡量明星效应。在不同国家有不同的奖项划分标准,根据获奖重量级别将导演和主演划分为3类。

(2) 电影类型。不同电影类型有不同的受众人群,本文根据业内通用标准对电影进行分类。在进行变量处理时,电影类型中含有爱情、动作、喜剧、科幻冒险时变量设为1,否则为0[13]。

(3)上映档期。上映档期决定了人们是否有充裕的时间观看。作为影响票房成败的一个重要因素,目前国内电影放映时间被分为贺岁档、五一档、暑期档等多个档期。在这些档期内,影迷观影活动会相对集中。因此,在档期处理方面,热门档期取值为1,否则取值为0[13]。

(4)出品地区。由于进口电影在大陆市场受欢迎程度较高,出品地区对大众选择也产生一定影响。因此,在出品地区方面,国内(包括港澳台)出品取0,其余取1[13]。

(5)IP改编。近年来IP改编热潮持续不断[14],优质IP为影视剧改编提供了高质量内容,并且具有大量粉丝基础,所以根据IP改编的电影更容易产生高票房[15]。因此,根据畅销小说改编的电影变量值取1,非改编电影即原创剧取0。

3.3 IP品质

2015年,我国电影票房超过440亿元,其中IP改编的电影票房为85.87亿元,较2014年增长了121%,占2015年国产片票房的36.1%,比2014年的24.04%高出12个百分点。在2015年票房前10名中,IP电影占7部,其中票房过10亿的有4部,说明IP改编在很大程度上影响着票房收入[16]。但是如何定义一个IP的影响力呢?本文将其称为IP品质。考虑将IP品质作为影响电影票房的一个新加因素,但由于条件限制,初步选取影响IP品质的因素为:①热门小说IP改编的知名度,用W表示;②相同IP系列电影的平均评分,用Avg表示。

4 实验验证

本文用于实验的电影数据来源于电影票房数据库(http://58921.com/alltime)。电影票房数据库可提供全国各院线包括电影票房在内的多项权威数据,本文选取2015-2017年间的546部电影在中国内地上映的票房及电影数据,作为本次实验数据。在实验模型选择方面,本文选取3种具有代表性的模型:多元线性回归模型、支持向量机模型、BP神经网络模型,主要调用机器学习中的sklearn库构建不同模型进行实验,采用70%作为训练数据集,30%作为测试数据集。在回归结果度量中,选用可解释方差(R平方)的回归评分函数作为评价指标。

通过实验得到如图2所示的回归预测结果对比柱状图。分别是不加IP影響因子、新加IP改编因子、新加IP品质3种情况下,回归预测的R平方值。通过对比发现,增加是否为IP改编这一因子能提高R平方值,但由于其变量处理机制比较粗糙,所以通过参考贝叶斯投票机制计算出IP品质,并在电影票房预测中新加IP品质作为影响因子,将对电影票房的提高有较大影响。

5 结语

本文提出IP品质因子,并采用3个有代表性的模型完成验证性实验,从而验证了在早期电影票房预测中,通过新加IP品质影响因子,可以使票房预测准确度得到提升。后续研究重点是基于本文提出的IP品质计算方法,对其它影响因子进行合理量化,以进一步完善早期电影票房预测方法,从而帮助电影投资人规避投资风险,获取最大利益,并对我国电影市场的发展起到一定推动作用。

参考文献:

[1] GINSBURGH V A,THROSBY D.Handbook of the economics of art and culture[J].David Throsby,2006,32(1):79-81.

[2] JEHOSHUA E,ELBERSE A,LEENDERS M A. The motion picture industry:critical issues in practice,current research,and new research directions[J].Marketing Science,2006(6):638-661.

[3] 谢静.基于微博数据的电影票房预测[D].保定:河北大学,2016.

[4] MARSHALL P,DOCKENDORFF M,IBEN··EZ S.A forecasting system for movie attendance[J].Journal of Business Research,2013,66(13):1800-1806.

[5] SAWHNEYMS,ELIASHBERGJ.A parsimonious model for forecasting gross box-office revenues of motion picture[J].Marketing Science,1996,15(2):113-131.

[6] LITMAN B R,KOHL L S.Predicting financial success of motion pictures:The ′80s experience[J].Journal of Media Economics,1989,2(2):35-50.

[7] BARMAN D,CHOWDHURY N,SINGHA R K.To predict possible profit/loss of a movie to be launched using MLP with back-propagation learning[C].International Conference on Communications,Devices and Intelligent Systems,2013:322-325.

[8] 赵伟.基于粗糙集与支持向量机的票房预测研究[D].大连:大连理工大学,2009.

[9] GUO Y,GOH H L."I Have AIDS":content analysis of postings in HIV/AIDS support group on a Chinese microblog[J].Computers in Human Behavior,2014,34(34):219-226.

[10] 代亮,許宏科,陈婷,等.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866.

[11] 丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.

[12] 闻新,张兴旺,朱亚萍,等.智能故障诊断技术:MATLAB应用[M].北京:北京航空航天大学出版社,2015.

[13] 王一帆.我国电影票房影响因素分析[J].市场研究,2015(5):30-32.

[14] 徐霞.著作权视角下的IP改编与影视产业发展[J].现代视听,2016(6):26-29.

[15] 熊芳.中国IP影视剧改编现状研究[J].西安电子科技大学学报:社会科学版,2017(2):136-140.

[16] 袁国宝.互联网+IP如何深度挖掘IP价值[J].互联网经济,2016(8):12-15.

(责任编辑:黄 健)

猜你喜欢
多元线性回归支持向量机BP神经网络
基于支持向量机的金融数据分析研究