基于统计和情感分析的在线酒店服务质量监测

2019-10-21 18:19马海容
度假旅游 2019年1期
关键词:在线评论统计方法情感分析

马海容

摘要:由于在线评价的主观性强,本研究提出基于统计和情感分析模型,将文本挖掘技术引入到酒店顾客在线评论研究中,避免内容分析法的主观性并实现批量化处理;且对用户评分进行统计分析,从而对酒店质量进行监测。研究随机选定携程网武汉地区各类酒店顾客在线评论为研究对象,结合主客观指标对酒店服务质量加以衡量和监测,发现三星级酒店现阶段质量亟待改进。

关键词:统计方法;情感分析;在线评论;酒店服务质量监测

中图分类号:F274       文献标识码:A    文章编号:1672-7517(2019)01-0091-02

1 引言

随着国民经济的增长和人们生活水平的提高,人们对旅行和精神上的享受越来越重视,酒店作为旅游行业不可缺省的部分,占举足轻重的地位。到目前为止,我国各层次类型酒店的设施设备已经相对完善,但是仍存在很多问题:1)硬件设施良莠不齐;2)服务水平参差不齐;3)地域差异明显等。随着人们生活水平的提高,人们越来越追求舒适度和良好环境,价格优势已被逐渐弱化。随着互联网的快速发展使网上预订势不可挡,但网上预订用户不能真实感知酒店服务质量,前用户评价很大程度上直接决定了现用户选择。现阶段人们对酒店服务质量的评判多数仅限于客观指标,例如地理位置、价格范围、房间设施等。本文提出一种结合客观指标和用户主观评论指标的模型,通过自然语言处理技术,对无结构的客户评论进行数据的自动挖掘,对有结构的评分数据进行统计分析,结合客观和主观指标双指标对酒店质量进行评价,从而达到酒店服务质量监测的目的。

2 相关研究

目前,酒店在线评论的研究主要集中在评论信息挖掘和评论影响研究两个方面。但以下三点还有些欠缺:一学者往往对服务质量的测量、控制和管理方法加以探讨,研究方法以定性研究为主,较少运用定量研究方法;二在各类型各地区等细化维度上的分析或对比研究较少;三多数研究的方法为内容分析法,不能对评论批量处理。因此,本文提出基于统计和情感分析的模型,将文本挖掘技术引入到酒店顾客在线评论研究中,尽量避免内容分析法的主观性并实现批量化处理;对用户评分进行统计分析,从而对酒店质量进行客观评价。随机选定携程网武汉地区各类型酒店顾客在线评论为研究对象,结合主客观指标对酒店服务质量加以衡量和监测。

3 基于统计和情感分析的模型

3.1 基于统计和情感分析的模型

本文的研究方法主要是文本挖掘,是在非结构化的文本数据中抽取有价值的信息,包括对从在线酒店评论文本进行预处理、分词与词频统计、特征选取、情感分析等过程。对有结构的评分统计分析,结合主客观指标对酒店质量做出评估。

3.2研究过程

(1)样本选取

本文定向选取携程网酒店评论5000多条。选取携程网的理由:a.携程网有酒店位置、设施、服务和卫生的打分项(满分5分);b.对比去哪儿网和艺龙网等多个网站,发现该网用户评论长度长,包含有用信息的可能性较大,艺龙网站评论对本研究来说有用内容偏少;c.该网多数配图评论,更真实;d.该网排名靠前更具权威性。

(2)数据预处理

过滤无意义和质量低的评论以降低数据噪音,过滤内容:a.广告评论。销售或转手产品的广告帖,一般含电话号码、QQ号或网页链接。b.宣传评论。宣传酒店把产品、返现作为活动奖品的宣传帖。c.无用评论。仅仅包含纯大量重复或者无任何价值的评论,例:好,很好,赞,差,等。以上评论对酒店评论挖掘无意义,在预处理时删除,同时只选取了中文评论加以保证语言的统一性。

酒店评论信息预处理后对文本进一步处理:a.采用NIPIR分词。一条评论分词后得到一个词向量,且每个词都带词性标记,如名词、动词、形容和方位词等,且以“,”“。”“!”等将评论划分为独立句子;b.根据需要对分词后的结果去停用词,去掉还、也、的、地、语气助词、方位和时间副词等;c.观点抽取,本文情感分析方面选硬件设施、位置和交通、酒店环境、服务、卫生、餐饮和价格七个指标对酒店质量评价,给定指标选取特征词为:硬件设施:设施、装修、空调、床、房间、卫生间、淋浴、WIFI、隔音;位置:位置、交通;环境:环境;服务:前台服务、服务、大堂服务、门童;餐饮:餐饮、早餐;卫生:卫生间、卫生;价格:价格。后根据给定的特征词对评论文本分类。

计算每句评论中的形容词与给定特征词的距离,找到离给定特征词最近的形容词(修饰词)作为观点词,形成特征-观点对。例[早餐也不错],提取后特征-观点对是<早餐、不错>。

(3)情感分析

用SO-PMI方法计算特征-观点对情感倾向,Turney提出基于情感词组的SO-PMI语义分类方法,定义逐点互信息量(PMI,Pointwise Mutual Information)计算两个词w1和w2间的语义相关性:

计算抽取的观点词与情感词Positive和Negative的PMI,并利用SO(semantic opinion orientation)來计算该词的语义倾向性:

[SO(w)=PMI(w,"Positive")-PMI(w,"Negative")]         (2)

若SO>0,则表示该特征-观点对好评(即正面情感),即在这条评论中用户对该特征好评,若SO<0,说明酒店给了用户这个特征方面不好的体验,即酒店要在这个特征方面做必要的改进。计算每个评论中的特征-观点对的SO值,然后将七个特征方面SO值汇总,即是每个特征的用户情感。

(4)评分统计分析

使用SPASS软件对抓取的每个星级最受欢迎的前50家酒店的设施、位置、服务和卫生统计分析,满分5分,且对来自不同星级酒店数据进行离散程度、均值分析和双变量线性相关分析。

4 实验结果

4.1情感分类结果分析

为保证情感分析实验的准确性,选取武汉以下4个类别最受欢迎的酒店各5家,并从每个酒店随机选取2016年至今的评论50条。部分数据为:五星级:硬件设施389,位置171,环境70,服务344,餐饮:132,卫生:126,价格84。注:以涉及的评论句子个数为计量单位。例:视野不错,前台服务专业,酒店位置也很好。该评论涉及“服务”“位置”两个指标。

从提取的评论分布可看出评论中提到较多的是硬件设施、位置和服务,且服务占比最大,由此可见,服务型行业未来发展应该更加注重服务质量的提升。

由分类和情感倾向值计算部分结果展示为:五星级正向情感概率为:硬件设施39.85%,位置70.18%,环境58.57%,服务87.21%,餐饮:58.01%,卫生:80.16%,价格23.80%。发现:a.星级越高,相对来说位置、环境和服务好评率越高;b.经济型酒店价格优势较明显。c.所有酒店普遍设施陈旧,星级越低,空调、隔音等硬件设施问题越突出。当然本实验获取的评论样本有限,可能存在不同程度的偏差,原因如下:a.大部分网站会好评优先,且本实验评论覆盖有限,因此好评率可能偏高;b.不同星级的评价标准不同,星级越高,用户对酒店要求越高;c.情感分类存在错分,以“,”“。”“!”分割会忽略上下文的关系,例“没的说”在文本中不结合上下文很容易产生歧义使得情感分类出错。

4.2评分统计结果分析

对星级酒店最受欢迎前25家酒店评分统计分析。得到五星级酒店在位置、设施、服务和卫生四方面的评分均值为4.5120、4.4560、4.5000和4.5960,除设施外其他指标均达90%,方差分别为0.045,0.060,0.030,0.032,分数差异较小,无突然地跳跃点,说明评分较可靠。由此,五星级酒店需优化设施保证其质量。四星级酒店评分均值分别为4.4600,4.3440,4.4280,4.5240,服务和设施相对较低,三星的酒店评分均值低于二星级及以下的评分均值,说明三星级酒店需要全面整顿,注重服务质量。

为明确酒店位置、设施、服务和卫生间关系,对其做双变量相关系分析得:在0.05水平上位置和设施、位置和服务、位置和卫生显著相关;在0.01水平上设施和服务、设施和卫生、服务和卫生室显著相关。各因素之间都有相关关系,一般位置越差设施也会越差,服务差的酒店卫生情况也差。全面的评价酒店质量须着眼于全局。

5 结束语

本研究取得良好效果,说明基于统计和情感分析的模型确实可行,综合分析可知:a.酒店最大的问题是设施老旧,客户对设施满意度低;b.三星级酒店整体质量有待加强,各要素都需要严格按照星级要求改进;c.所有星级酒店都存在某要素不达星级标准的情况,例如,设施老旧,管理专业化程度欠缺;d.服务质量有待加强。

在本次研究中,发现三星级酒店问题最大,需要及时改进,且对比效果明显。当然试验中仍有不足之处:a.数据量相对较小;b.情感分类中一句为单位,忽略了句子之间的关系,可能导致误分。接下来我会增大数据分析,并且通过语义分析和依存句法分析,使得实验结果更加精准。

参考文献:

[1] 熊伟,许俊华.基于内容分析法的我国经济型酒店服务质量评价研究[J].北京第二外国语学院学报,2010(11):57-67.

[2] 曹彬.互联网上旅游评论的情感分析及其有用性研究[D].哈尔滨:哈尔滨工业大学,2008.

[3] 张紫琼,叶强,李一军.互联网商品评论情感分析研究综述[J].管理科学学报,2010,(13):85~96.

[4] 熊伟 , 高阳 , 吴必虎. 中外国际高星级连锁酒店服务质量对比研究——基于网络评价的内容分析 [J]. 经济地理 ,2012,32(2):160-165.

[5] 张慧 . 基于内容分析法的高星级饭店服务质量实证比较研究 [J].華中农业大学学报 ,2012(2):77-84.

[6] 贺飞艳,何炎祥,刘楠,等.面向微博短文本的细粒度情感特征抽取方法[J].北京大学学报:自然科学版,2014,50(1):48-54.

[7] 李湘东,巴志超,黄莉.基于LDA 模型和 HowNet的多粒度子话题划分方法[J] .计算机应用研究, 2015,32(6):1625-1629.

[8]J. Z. Zhai, H. Xu, J. Li, P. JIA.Sentiment Classification for Chinese Reviews Based on Key Substring Features[C]. Proceedings of the Conference on Natural Language Processing and Knowledge Engineering[J]. Dalian, China: IEEE Computer Society, 2009:1-8.

[9]Detecting Implicit Expressions of Sentiment in Text Based on Commonsense Knowledge. Alexandra Balahur,Jesus M Hermida,Andres Montoyo. Proceeding of the 2th workshop on computational approaches to subjectivity and sentiment analysis ACI-HLT . 2011.

[10]Automatically generating annotator rationales to improve sentiment, classification. Yessenalina Ainur,Choi Yejin,Cardie Claire. Proceedings of the ACL 2010 Conference Short Papers (ACL) . 2010.

猜你喜欢
在线评论统计方法情感分析
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
汉语词汇研究中的统计方法述评
统计方法的改革与创新分析
统计方法在企业财务分析中的应用
文本观点挖掘和情感分析的研究
消费者个体行为偏好对在线评论真实性的影响机理研究