基于离散选择模型的票房预测研究

2020-07-09 22:03董永聪施一梁
现代信息科技 2020年23期

董永聪 施一梁

摘  要:该文基于随机性原则抽取了1 205个中国大陆电影市场2014年至2019年的电影数据作为样本,使用离散选择模型对票房进行预测。最终得到:IP、电影质量得分、票价、演员得分、3D放映技术、地区、电影种类、档期、电影时长对票房的影响显著。通过模型的稳健性检验和预测效果两方面证明模型的估计结果是可靠,精确的。根据实证结果,文章为电影制片方面提供一些可行性建议。

关键词:电影票房预测;离散选择模型;电影质量得分

中图分类号:TP391.3;J943      文献标识码:A 文章编号:2096-4706(2020)23-0137-04

Research on Box Office Forecast Based on Discrete Choice Model

DONG Yongcong,SHI Yiliang

(Zhejiang A & F University,Hangzhou  311300,China)

Abstract:Based on the principle of randomness,the paper selects 1 205 Chinese mainland movie market data from 2014 to 2019 as samples,and uses discrete choice model to predict box office. The final results are as follows:IP,movie quality score,ticket price,actor score,3D projection technology,region,movie type,schedule and movie duration have a significant impact on box office. It is proved that the estimation result of the model is reliable and accurate through two aspects of the models robustness test and the prediction effect. According to the empirical results,this paper provides some feasible suggestions for film production.

Keywords:movie box office forecast;discrete choice model;movie quality score

0  引  言

近年来,随着收入水平的提高,人民生活娱乐需求不断增加,促使国内电影市场繁荣发展。我国电影市場具有规模大,发展快,增长稳的特点,在推动我国经济发展的过程中展现出蓬勃的动力。票房是衡量电影商业价值的重要指标之一,它是指一部电影的影院放映收益情况。电影票房收入既是制片方最主要的收入来源,也从经济学角度上反映了大众对电影的认可程度——一部电影的票房越高,说明有更多人愿意为这部电影票买单。因此在电影市场生产者和消费者双方决策过程中,票房都起着至关重要的作用。

我国电影票房分布呈正偏态,总体上符合“二八定律”,即20%的电影占据了80%的票房市场[1]。一些电影产生的票房是令人惊异的。2017年的《战狼2》总票房达到56.39亿。而排名第二的《速度与激情8》票房未及其一半,与之同年上映的电影仅有15部票房超过10.00亿(数据来自猫眼专业版)。事实上在电影市场中,绝大多数的电影票房难以突破1亿大关。故本文对影响电影票房的因素进行研究具有直接的现实意义。

自20世纪80年代以来,票房预测方面的研究有许多,如Litman票房预测模型[2],Sochay票房预测模型[3]。学术界普遍采用普通最小二乘法(OLS),使用多元线性回归模型对票房进行拟合回归,分析票房的影响因素。但使用离散选择模型的研究较少。离散选择模型能有效解决数据中的极端值对回归时的影响。由于票房分布为有偏分布,使用离散选择模型是合理的。

1  实证研究

1.1  变量设置

本文将电影的一些基本特征设为票房的解释变量,下文对各变量进行分析、描述。

1.1.1  电影质量得分

电影本身的根本属性是商品[4]。作为商品,电影质量的高低决定电影票房,即“价值决定价格”。纵观影史,票房轰动一时的电影绝大多数是质量绝佳,广受人称赞的。然而电影质量具体表现为人们主观的观影感受。所谓“一千个读者就有一千个哈姆雷特”,每个人的观影感受都不尽相同。为相对客观的得出电影质量得分,使用专业电影评分网站的评分进行计算。

本文假定专业电影评分网站常出现“水军控评”现象并不影响评分结果。在专业电影评分网站为电影打分的人足够多,以豆瓣为例,热门电影的评分人数常在百万级左右。根据大数定理,电影得分最终会趋于一个稳定的值,这个值就是所需要的相对客观的电影质量得分。

本文选取两个较为权威的、评分人数足够多的电影评分网站:猫眼专业版和IMDb。将两个网站的电影评分的算术平均数作为电影质量得分,该得分为十分制。得分越高,表示电影质量越高。

1.1.2  导演和演员得分

知名导演和演员往往意味着更强大的粉丝基础,更雄厚的资金投入,更可靠的电影质量保障,这些都对高票房电影的产生有正向促进作用。受“马太效应”影响,一部电影的观影人数越多,更多人就越容易去观看这部电影[5]。故总体来看,观众流量向导演和演员阵容强大的电影倾斜。导演和演员出名能为电影票房起飞带来较高的起点。

根据电影界的七个较出名的奖项(分别为奥斯卡奖、金棕榈奖、金熊奖、欧洲电影奖金鸡奖、金马奖、金像奖)的提名和获奖次数,设置导演得分。

根据截至2020年12月9日的微博粉丝数,将前三位主演的粉丝总数作为演员得分,单位为百万,不足百万的记为0。

在实际搜索中,一些演员(主要为台湾、香港和国外演员)未注册微博账号,导致缺失值的出现。本文根据演员作品和主观认识计算出近似数据作为粉丝数来弥补缺失值。

1.1.3  档期

在国内,电影放映集中在四个档期,分别为贺岁档、五一档、暑期档、国庆档。划分档期的主要原因是电影消费者的消费集中在节假日。节假日人们的娱乐需求提高,观影意愿普遍更强。然而集中放映带来需求量的提高的同时也会导致同期竞争更加激烈。故电影放映的档期选择与票房之间可能具有较强的相关性。本文将档期分为五种,即五一档:5月1日至5月8日;国庆档:10月1日至10月7日;暑假档:6月1日至9月1日;贺岁档:1月1日至各年农历正月十五;其他。

1.1.4  电影种类

近年来,我国电影创作的类型化意识越来越强[6]。电影种类繁多,由于消费者的偏好不同,不同类型的电影票房也存在差异。本文根据业界标准将电影分为15种:爱情片、动作片、惊悚片、悬疑片、喜剧片、动画片、战争片、剧情片、灾难片、科幻片、奇幻片、冒险片、武侠片、纪录片、历史片。根据这14个电影种类分别设置了15个虚拟的0-1变量,值为1表示是,值为0表示否。

1.1.5  票价

理论上,票价在电影市场中对观影人数的影响总体上满足市场均衡理论,即票价越高,观影人数越少。2013年,王峥得到的结论是票价与票房正相关,且在1%水平下显著[1]。但近年来随着人民生活水平提高,对于大多数人来说,看电影已经不是一种奢侈消费,而是一种寻常的休闲娱乐方式。当人们有观影需求时,对价格的敏感性大大降低,电影价格弹性較低。

本文选取电影的平均票价作为票价变量的取值。由于2014年至2019年货币实际购买力不同,需要使用居民消费价格指数(CPI)对变量取值进行调整。CPI计算公式为:

将2014年1月设为基期,电影的平均票价除以基期至电影上映当月的定基比,最终得到较为准确的票价变量取值。

1.1.6  IP

IP,即“知识产权”。诸如漫威的漫威宇宙、DC的DC宇宙、哆啦A梦系列,都是出名的影视IP。近年来,IP热潮迅速兴起,猫眼数据显示,IP类电影中动画、漫画、电影翻拍比重上升,“猫眼想看”观众购票指数远超非IP类电影。有研究表示,IP热的根本原因在于,IP对核心用户的聚集能力强以及核心用户群对其他人群的发散影响能力强[7]。受“品牌效应”影响,对于一些IP电影,观众往往对影片表现出更多的消费意向,对影片质量表现出更强的包容性。

本文将IP设为0-1变量,值为1表示影片是IP类电影,值为0表示影片不是IP类电影。

1.1.7  电影时长

电影时长是一把双刃剑。电影时长过长往往使人感觉电影的叙事节奏拖沓。而电影时长过短也不利于完整的讲述电影内容。这些都直接影响观众的观影体验及影片口碑,反映在电影票房的数字上。故研究票房与电影市场之间的关系是有意义的。

1.1.8  3D放映技术

3D放映技术在影院的广泛使用,极大地提高了观众的观影体验。相较于传统2D放映,3D放映技术给观众带来的是更深层的沉浸式体验——更真实的画面,更震撼的特效,更强的代入感。而观众能否获得满意的观影体验直接影响到影片票房的高低。故研究票房与影片是否采用了3D放映技术之间的关系有意义。

本文将3D设为0-1变量,值为1表示使用3D放映技术,值为0表示未使用3D放映技术。

1.1.9  地区

受不同国家文化影响,电影创作在风格、质量等方面均会有明显差异。这些差异都会反应在票房数据上。国产片可能更加符合中国人的审美标准,票房会更高。

将地区变量根据是否为中国大陆,设置为0-1变量,值为1表示是中国大陆,值为0表示不是中国大陆。

1.2  分析流程

使用Stata 16对数据建模进行回归分析。由于电影票房的解释变量并不满足线性假设,且电影票房数据中存在许多极端值,容易影响模型的估计结果,故本文不使用传统的多元线性回归模型,而是使用Probit模型作为基准回归模型进行实证分析。为解决使用Probit模型导致的原数据信息利用不充分的问题,本文还使用到了Oprobit模型。通过对比Oprobit模型与Probit模型回归结果,进行稳健性检验,并使用模型进行预测。

1.3  数据描述

本文爬取猫眼专业版中国大陆电影市场2014年至2019年的影片信息,对数据进行清洗,删除冗余项,补充缺失值,并根据随机性原则,最终抽取了1 205个样本。该样本数据具有时效性,对当下中国大陆电影市场具有实际意义,数据描述表如表1所示。

根据表1中的电影数据分布特征,得到一些初步结论:(1)电影票房方差极大,说明不同电影之间票房差异显著。(2)IP类电影占比达到了23%,说明IP类电影占比不小。(3)电影评分均值为6.91,且方差较小,说明电影评分相对稳定。(4)电影平均票价为31.92元,且方差较小,说明电影票价相对稳定。(5)采用3D放映技术电影仅占比30%,说明3D放映技术在电影制作中使用不够广泛。(6)58%的电影不选择在五一、国庆、暑假、贺岁这四个热门档期上线。说明大多数电影选择不参与竞争。可能是因为这四个热门档期竞争激烈。(7)动作、喜剧、剧情为电影种类的票房前三甲。战争、灾难、武侠、记录、历史占比低。

1.4  模型介绍

本文使用的离散选择模型为Probit模型和Oprobit模型。

电影票房预测的Probit模型使用公式为:

电影票房预测的Oprobit模型使用公式为:

其中,βi为各估计系数,Xi为各解释变量,复合函数Φ(x)为标准正态分布的分布函数。

probit_bo为Probit模型的被解释变量。本文分别取分界值为10 000万元、20 000万元和60 000万元建立3个Probit模型。根据给定的分界值设置probit_bo的值,将票房大于分界值的设为1,小于分界值的设为0。

oprobit_bo为Oprobit模型的被解释变量,取10 000万元、60 000万元作为分界值。根据分界值设置oprobit_bo的值,票房小于10 000万元的设为1,为低票房电影,票房在10 000万元至60 000万元之间的设为2,为中票房电影,票房大于60 000万元的设为3,为高票房电影。

由于引入的电影类型、档期两个虚拟变量具有完全的多重共线性,为避免陷入“虚拟变量陷阱”,选择style1和schedule1作为电影类型和档期的基准组。

1.5  实证结果

注:表中数据为变量估计系数和对应的标准差,*表示在10%水平下显著,**表示在5%水平下显著,***表示在1%水平下显著。下同。设置预测正确的标准:Probit和Oprobit模型将预测发生概率最高的区间作为预测的结果,预测结果与实际票房所在区间相同的视为预测成功。

根据表2得到以下结论:

IP元素对电影票房具有正向影响。电影得分、电影票价、演员粉丝数与电影票房正相关。导演对票房影响不显著。惊悚片和喜剧片的票房最高,动画片、武侠片的票房最低。国产片的票房比国外片更高。采用3D放映技术的电影票房更高。电影时长越长,票房越高。贺岁档的票房最高,国庆档的票房最低。

Probit模型的预测正确率最高,均在80%以上。说明使用Probit模型进行票房预测是合理的。Oprobit模型正确率其次,但由于Oprobit预测区间划分的更多,故预测结果相较于Probit模型更加精准。

1.6  稳健性检验

对基准回归模型——Probit模型进行稳健性检验,本文的思路是更改电影质量得分数据。使用猫眼得分和IMDb得分代替原数据进行回归。更改数据后的模型结果估计系数符号及显著性与原基准模型的估计结果无明显差异,进一步证实了Probit模型的估计结果是稳健的。

2  结  论

本文使用的几种票房预测模型适用于目前中国大陆的电影市场,具有时效性和直接的现实意义。由于电影票房分布的二八定律,最终能在同期竞争市场中脱颖而出的影片屈指可数。而影片制作又具有周期长,成本高的特点,故在电影制作过程中制片方常面临着“收不回本”的挑战,承担的风险极大。为了保证电影收益,电影制片方常处于理想与现实的取舍困境。这不利于形成电影创作百家齐放、百家争鸣的局面。而使用本文的票房预测模型,能为投资方与制片方的决策提供参考依据,起到降低风险的作用。

参考文献:

[1] 王铮,许敏.电影票房的影响因素分析——基于Logit模型的研究 [J].經济问题探索,2013(11):96-102.

[2] LITMAN B R. Predicting Success of Theatrical Movies:An Empirical Study[J].The Journal of Popular Culture,1983,16(4):159–175.

[3] SOCHAY S. Predicting the Performance of Motion Pictures [J].Journal of Media Economics,1994,7(4):1-20.

[4] 钟淯媛.电影消费需求经济分析 [J].中国报业,2020(14):44-45.

[5] 王晓通.大数据背景下电影智能推送的“算法”实现及其潜在问题 [J].当代电影,2019(5):64-70.

[6] 刘藩.中国电影的现状和问题 [J].北京电影学院学报,2014(1):2-11.

[7] 程武,李清.IP热潮的背后与泛娱乐思维下的未来电影 [J].当代电影,2015(9):17-22.

作者简介:董永聪(2001—),男,汉族,浙江台州人,本科在读,研究方向:应用统计;通讯作者:施一梁(1982—),男,汉族,浙江杭州人,就职于艺术学院,专任教师,导演,硕士,研究方向:纪录片拍摄。