基于关联分析的互联网商户评分研究

2017-05-10 00:29郭少友简丹
创新科技 2017年2期
关键词:相关分析回归分析

郭少友+简丹

[摘 要] 本文通过采集网站上1 500家餐饮商户的评分数据,利用SPSS软件对其进行相关分析和回归分析,挖掘餐饮商户评分数据之间的关联关系。通过相关分析找出用户评分时的打分习惯,发现用户对于各项评分打分时存在关联关系,通过回归分析判断商户的总评分与各项评分之间的关联,发现他们之间存在线性关系。

[关键词] 商户评分数据;相关分析;回归分析;SPSS

[中图分类号] F713 [文献标识码] A [文章编号] 1671-0037(2017)2-44-3

Research of Internet Business Rating Based on Correlation Analysis

——A Case of the Rating Data for Catering Businesses

Guo Shaoyou Jian Dan

(School of Information Management,Zhengzhou University,Zhengzhou Henan 450001)

Abstract: In this paper, we collected the rating data of 1500 catering businesses on the website, and conducted correlation analysis and regression analysis using SPSS software to find the relation between the rating data of the catering businesses. We found out users' grating habit via correlation analysis and found that there was a correlation between different individual scores of the users. And we judged the correlation between the overall score and individual scores via regression analysis and found that they had linear relationship.

Key words: rating data for businesses; correlation analysis; regression analysis; SPSS

1 引言

現代的消费模式往往会伴随着口碑评价信息,人们在选择商户的时候经常会参考网站上的商家评分信息,为了研究这些网站上的评分数据,笔者采集了1 500家餐饮商户的评分数据,对其进行关联分析,使用相关分析和回归分析的方法,找出用户打分习惯之间的关联,计算出商户总评分与各项评分之间的关联。

在学术领域,对于商户评分数据的分析方面研究较少,只有此篇文章供参考。曾晨、张瑾[1]利用数据堂网站上的商户评分数据集,使用R语言编写程序,对商户评分数据进行聚类分析、关联分析、决策树分析,探索不同类别商户的评分高低,利用聚类分析将商户分级,利用决策树分析帮助消费者选择商家。

笔者受此研究的启发,选择研究商户评分数据之间的关联关系。在数据上,根据分析需求直接从网站上采集最新的数据集合,保证数据集的针对性和时效性;在分析方法上,采用统计学上的回归分析与相关分析方法,分析商户评分之间的关联关系;在分析工具上,选择已有的统计学软件SPSS对于数据进行计算处理[2]。

2 餐饮商户评分数据的关联分析

本文的商户评分关联分析主要分为两个部分,首先使用相关分析找出不同商户评分间的关联,之后使用回归分析找出商户总评分与各项评分之间的关联,挖掘商户评分间的关联关系。

2.1 餐饮商户评分数据的来源

笔者所用的数据是使用八爪鱼采集器[3],于2016年8月将大众点评网郑州地区人气最高的1 500家商户的评分数据采集下来,汇总成excel形式,采集的字段信息包括商家的名称、地址、总评分、口味评分、环境评分和服务评分六个字段信息。

2.2 餐饮商户评分数据的相关分析

相关分析指的是分析两个变量之间相关关系的一种分析方法,常使用两个变量间的相关系数来衡量,相关系数越接近于1,变量之间的相关关系越密切[4]。在本文研究中,笔者通过计算商户评分之间相关关系,找出不同评分之间的关联关系。

在该电商网站上用户对商家进行打分的时候,需要从口味、环境和服务这三方面对商户进行打分,为了验证这三个评分是否存在某种关联,我们通过两两计算商户不同评分间的相关系数,来判断二者间的关系[5-6],评分A与评分B之间的关系系数计算公式如公式1所示。

R= (1)

R表示评分A与评分B间的相关系数,和分别为评分A和评分B的样本值,和分别表示评分A和评分B样本值的均值,在实际操作中,该相关系数可通过将样本值录入到软件中,由软件直接计算得出。

笔者选择使用SPSS分析软件,将这1 500家商户的评分输入到SPSS中进行相关分析,结果如表1所示。

用Pearson相关系数来判断变量间的关系时,相关系数越大,二者的相关关系越大。从表格当中,我们可以看到关系系数的P值都约等于0,所以该统计分析显著。

环境与服务评分的相关系数是0.887,二者相关度极强;口味与服务评分的相关系数为0.822,二者相关度较高;口味和环境评分的相关系数为0.713,二者比较相关。可以看出,关系最密切的是环境与服务评分间的关系,因为通常一家装修环境较好的餐厅,代表其定位比较高,会在各方面为顾客考虑,所以通常服务质量也会比较高,因而环境与服务评分之间的关系比较紧密。

2.3 餐饮商户评分数据的回归分析

回归分析是将有关变量还原到数学模型当中,从而来评估事物间关系的一种分析方法。通过样本值来估计回归模型中的各项参数,再将参数值带入回归模型生成回归方程,利用回归方程表达事物之間的关联关系。

商户的总评分代表商户的综合水平,与各项评分间应该具有某种关系,为确定商户的总评分与各项评分之间的关联,验证商户总评分的依据,我们假设商户的总评分与各项评分存在线性关系,使用回归分析对其进行分析。令商户的总评分为y,表示因变量;令口味评分为,服务评分为,环境评分为,表示三个自变量,令设自变量的参数为、、,常数为c,则该回归分析的回归模型如公式2所示。

由于回归分析是根据变量的样本值计算变量的参数,从而来判断不同变量之间的关系,参数的估计方法使用最小二乘法,依次将变量的样本值带入回归模型,联立方程求出参数,实际过程中,可以利用软件实现参数的计算[7]。

将采集的1 500家餐饮商户的总评分与餐饮商户的口味、环境、服务三方面的评分输入到SPSS软件中,进行回归分析,为了避免三个评分之间互相影响,我们选择逐步回归对数据进行处理,依次将重要的变量引入方程当中,避免共线性的问题,回归结果如表2所示。

通过表2我们可以看到,把对回归模型影响最大的变量依次回归入方程中,R方的值越来越趋近于1且误差值越来越小,当三个变量都引入回归模型时,此回归模型的R方值为0.825且误差为0.677 2,D-W值为1.855,表明该回归方程较为准确,商户的总评分与口味、服务和环境评分确实呈线性关系,假设成立,商户的总评分与各项评分呈线性关系。

该回归分析的回归系数如表3所示,将方程的各项系数带入到回归模型中,此时,该回归方程如公式3所示。

可以看出,商户的总评分与用户打的三个评分之间呈线性关系。自变量前的参数越大,表明该变量与因变量商户总评分间关系越密切,所以最能影响商户总评分的因素依次为口味评分、服务评分、环境评分,该网站商户的总评分依靠商户的各项评分计算出来,所以值得信任。

3 结语

本文通过统计学中的相关分析与回归分析方法,找出商户评分数据之间的关联关系,分析发现,商户的口味评分与环境评分关系极为密切,商户的总评分与各项评分间呈线性关系,验证了商户总评分的可信度。遗憾的是本文依然存在一些不足之处,体现在:一是样本量不足,在原始数据上,样本量为1 500条,属于对餐饮商户的一个抽样调查,如果能得到所有的餐饮商户评分,会使得分析的结果更为准确;二是依赖软件计算。在计算方法上主要是用SPSS软件实现计算,并没有考虑到软件计算的误差问题。

参考文献:

[1] 曾晨,张瑾,张瑞.基于数据挖掘方法下的大众点评网美食类商家评分研究[A].中国统计教育学会.2015年(第四届)全国大学生统计建模大赛论文[C].中国统计教育学会,2015.

[2] 黄中文.SPSS统计分析与应用[M].北京:电子工业出版社,2016.

[3] 尤建新,孟银薇.基于Web数据挖掘的网站知识获取及应用——以大众点评网为例[J].上海大学学报(自然科学版),2014(3):261-273.

[4] 郑淞月,刘益,杨伟,等.基于美团网的产品因素对网络团购影响因素实证研究[J].管理学报,2013(3):397-403.

[5] 丁学君.网络环境下口碑信息可信度影响因素的实证研究[J].中国经贸导刊,2012(29):75-77.

[6] Yan X,Wang J Chau.Customer revisit intention to restaurants:Evidence from online reviews[J].Information Systems Frontiers, 2015(3):645-657.

[7] 黄冰毅.餐饮类网络团购策略研究——基于大众点评网的数据分析[J].电子商务,2016(3):48-49.

猜你喜欢
相关分析回归分析
城乡居民医疗费用的相关性与回归分析
基于变形监测的金安桥水电站坝体稳定性分析
宝鸡市区空气质量变化分析
森林碳汇影响因素的计量模型研究
河北省城镇居民人均可支配收入与消费统计分析
河南省经济增长质量与创新能力关系的实证分析