基于情感倾向的众包模式下接包方声誉评价模型构建

2018-10-09 05:54卢新元黄梦梅李梓奇

统计与决策 2018年17期

卢新元，卢泉，黄梦梅，李梓奇

（华中师范大学信息管理学院，武汉 430079）

0 引言

在线评论（OnlineCustomerReview，OCR）通常是指由其他购买过特定产品或服务的顾客发表的，在网页中紧邻商品描述的，为促进用户接受、增进用户交流的第三方评价。在众包模式中，这种评论信息，实质上就是接包方释放的一种声誉信号，是对接包方能力的一种披露方式。接包方通过浏览、分析这种声誉信息，做出购买决策，因此无论在日常网购还是众包过程中，卖方的声誉都是潜在买方尤其重视的一种信息。

一般电商网站大多是通过平台上的每个卖家付出一定的广告、推广费用来盈利，因此它希望卖家数量尽可能多。而好的声誉机制会使低质量卖家交易量减少，直至最终退出电商平台，因此电商平台目前的声誉得分差距小，区分度不明显。而众包网站的盈利模式大部分是通过每笔交易抽取一定的中介费用，即使采用高区分度的声誉机制，导致低质量卖家减少，众包网站的收益也不会降低。相反，通过帮助发包方方便快捷地找到优质的服务方，众包网站甚至能实现更多的交易量，获取更大的收益。

遗憾的是，目前众包网站所采用基于评论得分（通常为5分制），计算平均分并排序的声誉评价模型并不能使发包方满意。本文收集了在线交流社区“知乎”上关于猪八戒网的451条讨论，大部分评论为字数超过50字的长篇讨论留言，发现绝大多数对于猪八戒网的评价均为负面评价（417/451），这说明众包网站的使用感受偏向负面。

目前，关于电商网站的评论研究已经取得了实质性进展，不少研究者从评论有用性的角度出发，对评论内容的质量进行区分[1-5]。本文试图借用评论有用性的研究成果，结合评论得分以及评论文本二者，收集了猪八戒网的95364条评论数据，经过去重、去无用评论的处理后，进行中文分词并构建了一套评论文本的词库。结合人工归纳正、负面情感词，计算文本的情感倾向，并根据评论有用性影响因素如时间、金额等对评论情感得分进行集结，最后构建出一套接包方声誉的评价机制。

1 基于众包网站评论文本的情感词典生成

1.1 研究设计

因此，本文将整个研究的流程划分为5步，如图1所示。首先是对猪八戒网站的评论数据进行抓取与储存。随后对这些数据进行预处理，包括去除重复评论及无意义内容，以及对所有文本进行中文分词之后，进行词频统计。接下来将得到的高频词按照程度、情感倾向进行人工筛选划分，构建各类别的情感词典。最后，对评论文本进行处理，根据文本长度和特征确定评论是否有效，计算文本情感倾向得分，并按任务价格、成交时间等维度对情感倾向得分进行加权，集结得到最终的接包方声誉得分。

图1研究流程

通过实际操作发现，高频词并没有出现一定的聚合规律，因此本文并未继续对高频词进行聚类，而是采用人工分类的方式对去重、去停用词、分词后所得的11836个词语进行划分，得到了正、负面情感词、最高级、次高级、否定词等词典。最后根据这些词典，构建了一套计算情感倾向的算法，并在此基础上对声誉值进行计算。

1.2 数据收集

众包模式因其高效地发挥利用了外部群体的创造性，得到了如Threadless、Kickstarter、猪八戒、威客中国等网站的广泛应用。以猪八戒网（http://www.zbj.com/）为例，该公司成立于2006年，是国内较早从事众包类业务的平台网站，根据网站公开资料称，目前拥有500万家中外雇主，1000万家服务商，市场占有率超过80%。本文对截止到2017年8月20日的猪八戒网上“logo设计类”店铺中成交量最高的前81家店铺的评论数据进行了收集，利用Python语言进行网络爬虫的编程实现，共得到95364条评论数据，主要内容如表1所示。

表1 主要评论数据类型及说明

1.3 评论去重与高频词提取

在阅览评论的过程中，“习惯性好评”“系统默认好评”类的评论并不能为其他用户带来有用的信息。本文将此类评论认定为并未按照真实想法给出的评论，在分析的过程中予以剔除。本文对收集到的95364条评论数据进行了如下的操作进行筛除。

第1轮：

（1）删除文本内容重复的评论。

（2）删除雇主明显为自身系列店铺的评论。

以上操作完成后得到59578条数据，对这些数据进行分词，得到12000余条词汇，人工对这些词汇进行整理，找出无意义的评论词和过短的评论词，加入停用词表，共得到1080个停用词，继续进行第二轮筛除操作。

第2轮：

（3）删除文本长度少于2个字节的评论。

（4）删除内容明显无意义的评论。

筛选后得到58824条评论数据。其中好评总数为58565条，中评总数154条，差评总数105条。对其进行分词后，得到11836个词汇。限于篇幅，现将词频前100的词汇进行简要的统计，结果表明在这100个词频最高的词汇中，所有词汇的词频均大于600，并且没有一个负面情感词汇。表2是对情感词汇数量的统计结果。

表2 情感词频数统计

结果显示，有效评论占全部评论的61.42%，好评占到全部评价的99.56%，评论文本中正面情感词的个数为424个，大于负面情感词个数185个。这一结果充分证明了众包网站充斥着大量的、无用的好评，因此原有的5分制评价得分机制并不能真实反映接包方的声誉与能力。

2 众包模式下接包方声誉机制影响因素分析

近年来在众包模式、开放式创新的研究过程中，许多研究者采用购物网站中的声誉评分机制来解决众包中的信息不对称问题。由于开放性网络建立在不确定性环境中，使用者都以匿名形式进行宽泛灵活的交流。在缺乏强制性法律约束的情况下，信誉是用户建立相互了解和信任的最重要的手段。然而现存的网站声誉评价系统还存在以下一种或多种问题：

（1）计算公式并不能准确地反映声誉。

（2）初始声誉值设定得太低以至于可能会成为一个新用户的进入壁垒。

（3）对评价他人的行为缺乏有效的激励。

（4）不能对声誉值进行分类或搜寻。

（4）采用的大多为单一简单的声誉得分值。

（5）大多数系统按照用户的全部历史纪录计算声誉。

为了解决这些问题，一方面，计算机领域的研究者们根据不同的应用环境提出了许多用于计算信任和声誉的模型。比较典型的有基于相关性的声誉计算公式，用Pearson相关系数计算用户i和相关物品之间的相关性的值；基于文本的声誉计算模型，引入权重矩阵与关联性矩阵，以此来解决不同用户对因子重视程度不同以及相关任务之间声誉得分存在关联的问题。

另一方面，关注声誉激励作用的管理学家们对影响声誉、信任的因素做出了研究，李聪和梁昌勇[6]提出了从交易时间维度、交易金额维度、买家信誉度维度、欺诈惩罚维度、商盟维度、消费者保障服务维度这6个维度计算在线交易中的声誉；蒋伟进等[7]从信誉反馈的评分、近期信任度、交易价值、时间权重、评分用户的信任度、社区贡献6方面构建了动态信任计算模型，孙宝文等[8]和张娥等[9]提出了保证金制度使得交易不偏离诚信交易。如表3所示，时间、交易金额、惩罚与保险3个因子被采纳的次数较多，本文将从这3个方面以及文本的情感倾向得分上构建接包方声誉评价模型。

表3 前人研究中的声誉影响因子

3 模型构建

本文在得到评论文本的情感倾向得分后，根据此得分和时间、金额、欺诈、声誉得分这4个因素构建最终的接包方声誉得分。

（1）时间维度

在时间维度上，如果声誉得分拥有无限制的记录，那么对于新卖家来说是不友好的。因为一个新卖家可能并不了解网站的功能或者众包的规章制度，这使得新用户需要一段时期去适应，而初期出于无意而导致的违规行为被计入全局的声誉中将会使该用户的真实声誉值受到影响。针对这种问题，有两类处理方法，一种是截取近期的声誉计算局部声誉；另一种是将早期的声誉值乘以一个系数做衰减。由于单纯的截取为声誉伪造提供了可能，本文采用第二种方式，在时间维度对声誉值进行衰减。本文构建了时间维度的声誉因子如公式（1）所示，Rt(i)为第i笔交易的时间维因子，ti为得到第i笔交易的评价的日期，tpre为当前的日期，本文中设为2017年8月20日。之所以采用反余切公式是因为其具有递减性和收敛性，并且时间间隔越短，函数值差异越小；间隔越大，函数值差异越大。由于反正切函数在(0，+∞)上的值域为，对其除以将R(i)值域变为(0，1〕，并乘上了1000以避免时间

t间隔过大导致最终所得数值过小。

（2）交易金额维度

交易金额能侧面反映本次交易的重要性。交易金额越大，该次交易的评价越能反映出个体的真实行为，则该次交易产生的声誉在最后的模型中所占的比例也应该越重。在评论文本分析过程中发现大部分无用评论的文本仅含“好评”2字，但其交易金额明显高于店铺的平均交易金额，这类评论首先就被剔除在情感得分中。同时，还应当保证商家难以通过小额交易的评论改变最后的声誉得分。因此本文构建的交易金额维度声誉因子及情感倾向维度如公式（2）所示：

其中，Rm(i)为第i笔交易的声誉维因子，Mi为第i笔交易的金额，Li是表示交易是否完成的状态参数，且有：

（3）欺诈惩罚维度

关于网络诚信交易的研究表明，对于欺诈行为的惩罚是必须的，惩罚一般有两种类型：一种是直接处以金钱的惩罚，本文将这部分归结为平台的保证金维度中去；另一种则是在声誉评分中扣除一定的数值，并采取相应的措施进行制裁。表4总结了猪八戒网对欺诈行为的惩罚措施。

本文定义如下的欺诈惩罚因子：

将类别为差评的得分记Rb(i)，欺诈惩罚因子记为Rd(i)。公式（3）中分母表示所获得的所有差评总数，分子表示所有差评中金额高于平均交易金额的差评总数。若不存在此类差评，则令Rd(i)=1。

（4）情感倾向维度

本文利用前文收集到的关键词构建了包括正面情感词、负面情感词、否定词（如“不”）、最高级（如“完全”）、次高级（如“非常”）、较高级（如“十分”）、稍微级（如“有点”）、不足级（如“算是”）在内的8项词典，如表5所示，限于篇幅，只汇报8个情感词典的前5个词语。

表5 情感词典中所含的部分词汇

在此基础上本文提出如下的算法计算各条评论文本的情感倾向：

第1步：读取评论数据，对评论进行分句。

第2步：逐条匹配每一条分句中所含有的情感词，记录评论是否含有正、负面情感词，以布尔变量标注，每一条正面情感词的基础得分为1，负面情感词基础得分为-1。

第3步：逐个情感词前匹配程度词，若程度为最高级的在情感词得分基础上乘以4；次高级乘以3；较高级乘以2；稍微级乘以1/2；不足级乘以1/4。采用乘法而非加法更能区分情感倾向的程度。

第4步：在情感词前查找否定词，统计否定词个数，若否定词总数为奇数，表示该句为否定，在情感词得分基础上乘以-1，即该词表示的是相反的含义，如“不错”，含有1个否定词“不”和负面情感词“错”，但表示的是情面情感。同理，若否定词个数为偶数，则在情感分值的基础上乘以1。

第5步：计算完一条评论所有分句的情感值，若同时含有正、负面情感词，则用正面情感词得分减去负面情感词得分，得出总分。

同理，在对接包方的全部评论进行计算后，也应对情感倾向进行加权处理，定义情感倾向维度声誉因子如公式（4）所示：

其中,Fi为该名接包方每条评论的情感倾向得分。

将4个维度的因子进行集结，最后得到的全局声誉为：

由于猪八戒网并未提供每条评论的具体的得分，本文规定，每条好评的评论得分为5分，中评为3分，差评为1分。在每条评论在得分的基础上乘以3个维度的声誉得分因子，从而计算得出最终的接包方声誉，下文将以9家店铺的计算结果进行说明。

4 实例验证

本文按照猪八戒网中好评率排名，在“logo设计”任务分类中挑选了好评率在67%～72%之间的9家店铺，依据前文构建的声誉评价模型，对其店铺评论文本进行分析。按照前文的规则计算得出了各自的声誉得分，将按照好评率排名和按照本文规则排名的结果进行对比，如表6所示。

表6 采用本文规则的9家店铺声誉得分与排名结果

通过表6的结果可以发现：

（1）最终声誉得分及排名基本符合实际情况，“完成质量、工作速度、服务态度”得分高的商家，最终得分相对也更高。但本文的声誉得分区分度大，分数从0.03到3.71分布广泛。例如I商家与B商家在得分上仅差1.4分左右，差别并不明显，但最终声誉得分相差近10倍，易于区分。

（2）文本信息能够帮助分辨“刷好评”行为，并反映在最终得分上。由于网页展示一般不显示退款率，商家A虽然拥有很高的评论得分和好评率，但实际上通过有效评论数与总评论数的对比，可以推断该商家存在“刷好评”的行为，故最后得分低于原排名第2的B商家。基于评论文本内容中情感倾向的声誉得分能够有效发现其能力与好评率并不相符这一重要信息。

（3）本文得出的最终声誉评分体现了评论的时效性。例如商家A的评论大多为2012年给出的，对现在的参考价值不大，事实上该店铺近2年内没有任何交易。最终的声誉得分考虑了时间维度的衰减，该店铺的最终排名由第1降为了第3，且与前2名差距较大。

（4）最终的声誉得分更能体现买家的真实感受。商家E拥有较高的评论得分（均高于4.8）及好评率（88%），然而，该商家的纠纷退款率高达15.6%，可见买家对于其提供的服务并不满意。而文本的情感倾向比原有评分更清晰地反映了这一情况，其最终声誉得分仅为0.15，远低于原排名6、7的商家。

由此可见，本文构建的这套基于情感倾向的众包模式下接包方声誉评价模型能帮助买家更加清晰、便捷地分辨接包方的能力与态度，具有一定的实际应用价值。

5 结论与展望

本文的研究数据主要来源于猪八戒网站中的发包方对接包方的评价，这种单方面的评价本身难免会存在失真的情况。这种失真，一方面是由于存在潜在的“刷单者”发表虚假的评论信息，另一方面是由于缺乏对评论者的激励，导致现有众包任务评论信息质量不高。另外，即使不考虑评论数据中存在的噪声，现有的评价机制规定，发包方必须在和接包方完成交易的基础之上才能发表评论，这一要求使得在沟通过程中对接包方存在不满，放弃进行交易的发包方无法发表基于自身经历的私有信息。这种现象导致了大多数发表评论的发包方都是对交易满意的，他们也倾向于发表满意的正面评论，导致了目前网站中接包方声誉的普遍偏高，以至于现有声誉机制的有效性不高。本文搜集整理的此类数据也面临以上两方面的问题，这是下一步研究需要解决的问题。