在线评论大数据下旅游景区网络口碑研究

2019-12-12 06:05肖文杰张艳芳
软件导刊 2019年11期
关键词:在线评论旅游景区

肖文杰 张艳芳

摘 要:从微观尺度出发,利用在线评论大数据对景区的网络口碑进行研究。选取张家界国家森林公园为研究对象,从大数据视角入手,以新浪微博和马蜂窝等平台为信息中介,抓取并研究案例相关评论数据,构建朴素贝叶斯情感分类器对张家界国家森林公园的网络口碑进行分析。结果表明,与近几年相比,研究案例在2018年的网络口碑有一定程度的下降,与现实情况吻合;此外评论的分类准确率、召回率以及F值等评价指标均在90%左右,研究结果和研究方法对分析景区的网络口碑具有参考价值。

关键词:在线评论;网络口碑;旅游景区;情感分类器

0 引言

互联网的发展经历了Web1.0到Web2.0的转变,信息传播方式由被动接收转变为如今的双向互动。双向互动的信息传播方式促使一大批互动交流平台如雨后春笋般出现,为互联网用户通过网络表达自己的意见和观点提供了有效渠道。微博和微信就是典型。以新浪微博为例,截至2019年3月底,微博活跃用户数达4.65亿,日活跃用户数达2.03亿,大规模用户评论体现了用户群体的观点。在大数据时代,深入挖掘大数据的内在价值,是开展相关研究的新途径和新思路,可为决策提供客观、理性的参考依据。

旅游目的地的网络口碑关系到旅游目的地的旅游形象,影响到游客的旅游决策,因此旅游目的地的网络口碑成为旅游研究热点之一。所谓网络口碑(internet word-of-mouth,IWOM)[1],是指客户在网上发布、借助互联网传递给其他潜在消费者的与企业产品以及服务等有关的各种评价[2],而将网络口碑引入旅游学科最早由林巧等[3]完成。国外学者对于旅游行业的网络口碑主要聚焦于酒店领域,具体而言涉及酒店网络口碑传播[4]、酒店网络口碑满意度[5]和网络口碑预测[6]等方面。国内不少学者关注旅游城市的旅游网络口碑,主要从网络口碑的影响力[7-11]和形象感知[12-13]进行研究。通过网络口碑对潜在赴藏游客产生从众心理进而间接影响潜在赴藏游客的购买行为是网络口碑影响力的表现之一[11]。网络口碑也可对一个旅游城市产生正反两面的旅游形象感知,如朱翠兰[13]通过AHP方法以福建省厦门市为研究对象,研究了网络口碑文本,分析出厦门市旅游形象感知的正反两方面因素。上述文献虽然涉及到网络口碑评价,但是相关文献较少,主要采用内容分析等方法进行定性研究。

近几年,网络口碑评价获得了较多关注,学者们从不同角度对其进行定量研究。张若愚[14]利用LTP语言云分析句子之间的依存关系,形成景区特征与情感词的关联词对,然后采用LDA主题模型将景区相关的在线评论划分为18个主题,并将与主题相关的词语归类,构建网络口碑评价指标体系,接着将之前得到的情感词并入指标体系并根据情感词数量赋予指标权重,最终对情感词进行情感倾向判断后采用层次分析法得出网络口碑的综合得分;邱燕[15]则根据旅游要素理论构建了网络口碑指标,并利用层次分析法(AHP)为每个关键词赋予相应的权重,最后以网络爬虫技术获取有关景区的网络舆情信息为数据源,计算每个景区的网络口碑指数。

上述文献的研究思路都是通过构建网络口碑指标体系后采用层次分析法评价网络口碑。然而,研究过程主要采用层次分析方法(AHP),学者在赋予评价指标权重时,所参考的依据主要是网络爬虫数据中与指标相关的词汇量。而网络爬虫得到的数据不一定全面,也即网络爬虫的词汇量并不一定具有代表性。因此,研究结论的科学合理性不可避免地受到影响。

本文创新之处在于利用朴素贝叶斯算法分析游客的情感倾向后,结合词频工具分析游客网络口碑中正负面因素,最终给出提升网络口碑的建议。虽然在网络口碑研究领域,有不少学者利用朴素贝叶斯、神经网络、Kmeans等机器学习算法研究情感倾向[16-20],但是聚焦到旅游行业的相关文献较少,并未发现有依据新浪微博、马蜂窝等OTA网络平台评论数据进行张家界国家森林公园网络口碑相关研究。

本文选取典型旅游景区作为微观尺度的研究案例,从大数据视角入手,以新浪微博及马蜂窝等OTA网络平台的评论数据为数据源,采用朴素贝叶斯方法对景区网络口碑评价进行研究。

4.3 进一步实验与讨论

根据上述结论,除2018年外,近几年张家界国家森林公园的网络口碑整体属于良好状态,但还有提升空间。对在线评论作进一步实验分析和讨论,过程如下:在对所有在线评论进行情感分类后,形成“好评”和“差评”两个数据集,通过Python应用Jieba工具的词频统计接口统计两个数据集中出现的高频词汇,对高频词汇进行归纳总结,即可得出张家界国家森林公园网络口碑的正负面因素,深入分析正负面因素,为提升张家界国家森林公园的网络口碑提出相应建议。

(1)张家界国家森林公园网络口碑正面因素。在线评论中“好评”数据集出现频率较高的词汇有“风景”“优美”“漂亮”“美不胜收”“巧夺天工”“性价比高”“值得”等。歸纳起来,游客对张家界国家森林公园的“好评”集中在风景美、性价比高这两个因素上。风景美在山有山的奇特、水有水的清秀;性价比高在景区内景点多,可游玩时间长,一张门票有效期可达3天。

(2)张家界国家森林公园网络口碑负面因素。在线评论“差评”数据集中出现频率较高的词汇有“排队”“等待”“人多”“乱”“累”“热”等。游客对张家界国家森林公园的“差评”主要表现在人多排队现象严重,造成了游客在旅游过程中出现拥挤、线路混乱等现象,进而严重影响了旅游体验。

(3)提升张家界森林公园网络口碑的建议。以扬长避短为原则,加大宣传正面因素、有效改进负面因素。具体而言,有如下建议:加强与游客在微博等新媒体上的互动频率,对游客的评论及时给予反馈,对优秀的评论可给予奖励并以多种渠道进行宣传;在旅游旺季限制游客流量,一方面限制每日的售票数量,为提高游客体验,提前以多种方式公布每日已售票数和剩余票,并开通多种订票渠道,另一方面在景区内对人流较多的景点和路线采取分流措施;景区内增加相应公共设施减少因天气变化对游客造成的不便,如阶梯处增设防滑垫、景点增设躲雨或遮阳之处、在公共区域提前告示天气变化。

猜你喜欢
在线评论旅游景区
在线评论情感属性的动态变化
天津市旅游景区英文译文错误分析
旅游景区营销管理一般模式及实证研究
洛阳文化旅游资源外宣资料日译现状
旅游景区公示语汉英翻译研究
消费者个体行为偏好对在线评论真实性的影响机理研究