基于在线评论的服装电商退货意愿挖掘及对策

2022-07-08 09:53王蓓蓓
物流工程与管理 2022年6期
关键词:分类器意愿特征

□ 王蓓蓓

(浙江理工大学 经济管理学院,浙江 杭州 310018)

1 引言

天猫、京东、亚马逊等主流平台提供的数据显示,整体上服装类电子商务的退货率最高可达30%,居高不下的退货率始终是困扰服装电子商务企业的难题,洞察消费者退货的原因并且进行分类标注,由此制定具有针对性的交易策略显得格外重要。电商平台的在线评论作为一种重要的消费信息来源,企业能从中得到消费者对产品和服务的反馈,对于企业的运营管理具有重要意义[1],因而受到国内外学者的普遍关注。以往的基于在线评论的研究聚焦于描述消费者的购物体验或购买决策,缺乏对消费者退货问题的讨论。在线评论作为一种重要的新型信息来源,若能从中挖掘出消费者退货信息,有利于电商企业更有针对性地优化零售策略以降低退货率。大部分研究倾向于利用在线评论的数量、分数、情绪、长度等特征属性刻画消费者的行为偏好。相对而言,利用评论文本挖掘退货行为的关联因素并且进行解释的研究比较欠缺。在线评论直观地表达了消费者对产品和服务各方面的描述和感受,Alec Minnema等[2]提出,在线评论文本可能蕴含着消费者退货行为信息,能在一定程度上反映出消费者退货意愿。为了验证在线评论蕴含的消费者退货信息的有用性,本文以在线评论为研究对象,挖掘其中蕴含的消费者退货信息。不同程度的退货意愿对消费者实际产生的退货行为的影响也不同。一般来说,消费者的退货意愿越高,其退货的概率就越大;反之,消费者退货的概率就越小。因此,分类讨论消费者退货意愿,对在线零售商有针对性地制定零售政策具有重大意义。

基于此,本文综合运用LDA主题模型和机器学习方法探究消费者在不同退货意愿的情况下对商品特征的选择偏好的差异。相比现有的研究,本文的贡献体现在以下几个方面:第一,面向垂直电商退货行为挖掘的进一步深入,是从描述性分析向可解释性挖掘的推进,有利于更深刻地揭示退货行为背后蕴含的关联驱动机理。第二,综合运用文本挖掘技术,从在线评论中挖掘出服装电商退货行为的关联因素,开辟了新的退货信息收集渠道,有利于服装电商企业据此优化退货策略,进而减少非必要的退货。第三,本文的研究从理论上验证了Minnema提出的假设,揭示出不同的商品特征因素对消费者退货意愿具有不同程度的影响,有利于服装电商企业据此进行分类管理,使服装电商的营销策略更具有针对性和实效性。除此之外,立足于服装电商企业对高退货率的关切,论文从理论和实践两方面揭示在线评论挖掘对服装电商运营的适用性和有效性,所得结论对降低服装电商退货率具有很好的指导意义。

2 相关研究综述

本文属于在线评论的主题挖掘研究范畴,相关研究均致力于从海量的信息和数据中挖掘出有价值的关键信息,挖掘在线评论中蕴含的退货行为信息已取得一些进展。

刘红文等[3]对54篇文献中涉及的七组变量关系进行了系统检验,发现在线评论质量、消费者信任倾向、在线评论数量、评论者的情感倾向性、在线评论时效性、评论者资信度与消费者购买意愿均具有显著正相关性。Nachiketa Sahoo等[4]发现评论数量过少时,消费者会购买多种替代品,选择其中最合适的留下,并将其余产品退回,从而导致退货率上升。Wang Yang等[5]发现商家提供的衣服合适性信息和用户评论的合身参考信息相结合能降低退货率。耿师导[6]通过量化在线产品评论研究消费者对退货运费险的投保需求,发现根据消费者对商品的预期心理分布估计商品退货情况,并制定合理的运费险定价策略,可减少退货现象。Lohse等[7]发现正面在线评论会导致较低的退货率及较高的销售率和转化率,而Alec Minnema[2]和Nachiketa Sahoo[4]则认为过于积极的评论或商家指定的评论会提高退货率,因为积极的评论会让消费者产生过高的期望,若实际产品达不到消费者预期就会发生退货。

梳理现有的研究成果可以发现,在线评论数据会从不同的角度影响消费者退货行为,在线评论与退货行为存在一定程度的关联。已有研究聚焦于以实证为支撑的描述性研究,以数据智能为支撑的解释性研究相对欠缺。基于此,本文主要以在线评论为研究对象,结合LDA主题模型与机器学习方法挖掘在线评论内容中影响消费者退货意愿的信息。

3 研究思路与关键技术

3.1 研究框架

在所有商品类别中,服装鞋帽类商品退货率一直居于首位,相关的评论数据十分丰富。如何从繁杂冗余的评论文本中凝练高价值信息,深入挖掘不同情况下,影响消费者退货意愿的差异是本文的关键性问题。研究的基本思路如图1所示,首先,采集主流服装电商平台在线评论数据,以经过质量校验后的数据为样本,进行LDA评论主题挖掘,提取消费者在讨论退货时关注的焦点。在此基础上,通过word2vec训练同义词库,整合并归纳与退货关联的产品特征因素。其次,为了分析不同退货意愿的情况下消费者的选择偏好,本文运用机器学习中的分类模型将退货评论分成三种情况。具体步骤如下:抽取部分样本数据并根据预先定义的规则标注数据,作为分类模型的训练集,类别标签分为退货意愿高、退货意愿中等以及退货意愿低,将已标注数据分为训练集和测试集,训练多种分类器;根据评价指标选取最优模型,再对未标注的数据进行分类。最后,分别对三种情况下,消费者选择偏好进行统计分析,讨论退货意愿程度不同的消费者,关注的产品特征因素重要性是如何排序的,以此针对不同情况为在线零售商提供合适的政策或建议。

图1 基于在线评论的服装电商退货意愿挖掘实验框架

3.2 LDA主题模型

本文以评论文本为研究对象,利用主题模型判断在线评论中是否包含消费者退货信息。计算机领域的现有研究成果表明,LDA(Latent Dirichlet Allocation)[8]主题模型因其优异的大规模语料处理能力、良好的降维能力和算法的扩展性逐渐成为主题挖掘领域的佼佼者,是当前最具活力的文本挖掘技术之一,具有十分广泛的应用前景。LDA文档主题生成模型由词、主题和文档三部分组成,其作用是以概率分布的形式给出评论集中每篇评论的主题分布和每个主题的词分布,通过人工解读每个主题高频关键词来归纳主题的实际意义。确定LDA模型的主题数对主题提取的效果具有至关重要的作用,若主题数过多,会导致主题之间相关性较高;若数量过少,则会出现主题关键词信息杂乱无章,以致实验结果太抽象而无法解读。困惑度(Perplexity)是Blei等提出的并将其作为模型评判指标。部分学者如廖列法等[9]和刘江华[10]等采用最小化困惑度(Perplexity)指标确定主题个数。理论上,困惑度越小,模型的聚类效果越好,但仅用困惑度指标确定主题数缺乏逻辑严谨性,以致主题数过高,出现主题间辨识度不高的问题[11]。主题一致性(Topic Coherence)是另一种确定最优主题数的指标[12-13],它通过衡量主题中高分词语之间的语义相似度来为一个主题评分,CUMass是主题一致性指标之一。本文采取Wenxin Wang等[14]的方法,结合困惑度和主题一致性度量选取最优主题数,确保LDA模型的主题提取结果具有准确性和可解释性。基于LDA模型生成主题-词多项式分布,概率较高的关键词能较好地描述主题内容,本文选取排名前十的关键词进行可视化分析。

3.3 机器学习——构建分类器

在机器学习中,分类器的作用是在标记好类别的训练数据集上预测一个新的观察样本的所属类别。在监督学习中,算法从已标记的数据中学习。在理解数据背后隐藏的规律之后,算法通过将模式与未标记的新数据关联来确定新数据应该映射的对应类别标签。构建分类器的步骤包括随机选取训练样本集并人工标注类型、确定分类器的输入特征、训练评估不同的分类算法,根据评价指标选取最优模型,最后对余下所有数据进行分类预测。本文为分类任务中的文本分类,文本分类是根据文本的特征将其划分到已有的类别中。输入是由评论分割而成的单个词语,作为特征向量,输出是评论的类别。

4 实验结果及讨论

4.1 数据收集及特征归纳

4.1.1 评论文本数据

本研究在线评论数据来自京东电商平台。京东年度活跃购买用户数达4.719亿[15],作为国内知名的电商平台,其数据具有代表性。本研究通过自主开发的网络爬虫工具采集京东电商平台服装评论数据作为分析对象,删除重复、短句评论,最终得到120656条有效数据。为了聚焦退货信息的挖掘,本文通过关键词筛选出有关退货的评论,如“退货”“退款”等,一共获得5413条退货评论。然后对所得数据进行数据清洗,包括剔除噪音数据、分词及去除停用词操作。

4.1.2 LDA主题挖掘

消费者一般通过在线评论对商品的属性进行反馈,为了获取消费者在提及退货问题时真实关切的问题,本文运用LDA模型以退货评论为研究对象,挖掘在线评论中与退货有关的商品特征。数据清洗之后,语料库中的词语大部分都具有明确的含义,此时主题提取的可解释性更佳。运用第三小节所介绍的方法确定最优主题数T,最终主题数T=11时,困惑度指标和一致性度量都在特定范围内达到极值。理论上,LDA模型在此时的聚类效果最好。

LDA算法可以得到每个主题在所有词上的概率分布,本文选择概率排名前三十的部分关键词进行归纳总结,结果如表1所示,T1~T11表示主题一到主题十一。分析LDA主题挖掘的结果可大致归纳出与消费者退货有关的产品特征。根据各个主题的关键词分布,可以推断出消费者描述的退货问题与消费者退货意愿有关。如T1的关键词“麻烦”“申请”“售后”“懒得”等词,说明消费者在申请售后服务时,可能因为售后流程繁琐复杂,加上自身惰性而选择不退货。T2的关键词如“速度”“很快”等词特别强调了物流速度与退货的关系。根据关键词“尺码”“大小”“太大”等,可以推断出商品大小的合适与否关系着消费者的退货意愿。T11的特征词清晰地表述了商品价格与消费者退货存在关联,如“差价”“降价”“便宜”等词。同样的,其他主题的关键词分布也能很好地概括消费者在谈及退货问题时主要讨论的话题,最后共归纳总结为11个特征因素,分别为售后流程、物流、质量、尺码、外观、效果、服务态度、品牌、商品描述、产品做工以及价格。这些商品特征因素一定程度上能解释部分与消费者退货意愿有关的原因。

表1 LDA主题提取结果

4.2 构建分类器

为了呈现不同退货意愿的情况下,消费者的选择偏好差异以及各个特征因素的重要性,需要对所有退货评论进行分类,类别标签分为退货意愿高、退货意愿中等以及退货意愿低。本文通过特定领域的数据集来构建分类器实现所有退货评论的分类预测。构建分类器之前需要一批已经标注好的训练样本,因此,本研究通过人工标注得到训练样本。首先,组内标注成员统一根据退货意愿程度的定义确定标注的规则:根据消费者对不同商品特征的描述及满意度情况,并观察消费者的退货倾向性来判断消费者的退货意愿高低;其次,随机抽取1650条数据,由三个人分别对样本数据进行标注;最后,根据少数服从多数的原则确定最终的类别标签,部分数据标注情况如表2所示。为了提高分类预测的准确性,本文选取被业内普遍认可的几种机器学习分类器进行训练,分别为高斯朴素贝叶斯模型(Gaussian Naive Bayes)、多元逻辑回归模型、随机森林以及LightGBM算法。通过比较各个模型的准确率、召回率及F1值,最后选取最优模型分类剩余的退货评论。将1650条文本作为输入变量,每个输入样本对应的类别标签作为输出变量。样本数据以8∶2的比例被分割成训练集和测试集。为了减小数据划分对模型效果的影响,本文通过引入k折交叉验证的方法选择最优模型。最后四个模型在测试集上的表现如表3所示。

表2

表3 各分类器训练效果

由表3可知,LightGBM算法训练的分类器效果最好,因此本文利用此模型对剩余评论进行分类,一共得到4294条退货意愿高的评论、550条退货意愿中等的评论以及569条退货意愿低的评论。由此可知,消费者在电商平台发表的涉及退货问题的评价大部分都有较强的退货意愿。

4.3 特征因素重要性分析

基于分类器完成所有退货评论对应的类别预测之后,为了分析不同程度退货意愿的情况下,各特征因素的重要性排名,本文分别统计退货意愿低、退货意愿中等以及退货意愿高这三类评论数据的11个特征因素的分布情况。

由于在线评论中消费者描述某个特征时,经常会用不同的词语表达相同的意思,即同义词,因此需要将与此类意思相近及对同一主体进行刻画的关键词合并成为新的特征因素。本文利用word2vec训练同义词模型,其原理是将词汇表示成向量,计算两个向量之间的相似度,若相似度较高,则归为同一类词语,训练结果如表4所示。11个商品特征因素所对应的词语大部分都表示相同的意思,说明训练结果较好。这11个特征因素一定程度上可以解释大部分消费者产生退货意愿的原因。

表4 word2vec训练结果

在此基础上,分别统计三种情况下评论数据中的11个特征因素的分布情况。各个特征因素在三个类别的占比情况如图2所示,横轴表示各特征因素在所有特征因素中所占的比例,表现的是该特征因素对消费者退货意愿的重要性。由图2可知,整体来看,影响消费者退货意愿的主要因素是做工、价格、描述、物流、大小、售后流程以及质量。其他因素如品牌对消费者退货意愿影响不显著。

图2 各特征因素占比图

对于退货意愿低的情况,产品大小和质量对消费者的影响最大,其次是价格和商品描述,最后依次是售后流程、做工、物流、效果等。由训练分类器所制定的标注规则可知,退货意愿低的消费者在退货条件宽松的情况下不倾向退货甚至排斥退货,说明消费者在在线评论中所描述的商品特征满意度较高。由此可知,大小合适、高质量、价格优惠的产品会降低消费者退货意愿。另外,商家呈现给消费者的商品信息与实物差距越小,消费者的退货意愿也越低。对于退货意愿中等的情况,物流占比明显高于其他特征因素,其次对消费者退货意愿影响较大的特征分别为价格、大小、售后流程以及质量。退货意愿中等的消费者对于退货问题保持中立的态度,说明消费者所描述的问题没有严重到需要使用退货手段进行风险规避或是降低自身损失。物流作为商品的外部因素,在商品本身没有重大缺陷时,消费者对产品和服务具有一定包容度。但由物流导致的商品损坏会让消费者产生退货意愿。最后,退货意愿高的群体是零售商最需要关注的群体,这类消费者最关注产品大小、售后流程及质量,与退货意愿低的群体最关注的产品特点存在多处重合,再一次验证了产品大小和质量能否满足消费者预期会很大程度影响消费者的退货意愿。退货意愿高的群体还特别关注售后流程,他们对零售商的售前、售后行为提出了更高的要求,若产品大小、质量或售后服务不符合消费者的期望,那么消费者退货意愿也就越高。

5 结论和建议

5.1 结论

本文以在线评论为研究对象,利用文本挖掘的方法,分析在线评论中的退货信息。立足于Minnema的假设,验证在线评论中蕴含的消费者退货信息的有用性。同时在不同退货意愿的情况下,分层次讨论影响消费者退货意愿的特征因素,以此细粒化消费者对商品特征的选择偏好。研究表明:①在线评论蕴含着大量消费者退货信息,能反应消费者退货意愿,从理论上验证了Minnema提出的假设,发现了用户数据的新价值,为后续的研究开拓新思路;②通过机器学习训练不同分类器,将有关退货的在线评论分为退货意愿低、中、高三种情况,最终得出,LightGBM算法的分类效果最好,能够有效区分消费者的退货意愿程度;③退货意愿高往往是因为商品大小不合适、质量不可靠以及售后流程不完善,消费者真实的退货行为很大可能是由这些因素驱动的。同样的,合适的大小和高质量产品能降低消费者退货意愿。另外,商品的做工、价格、描述和实际效果在一定程度上也会影响消费者退货意愿。物流对消费者退货倾向性的影响并不是很明显,大部分消费者持中立态度。

5.2 政策及建议

综上所述,在不同退货意愿的情况下,消费者的选择偏好也有所差异,因此,零售商应该有针对性地制定零售策略以降低消费者退货意愿。在此,本文提出以下几点政策建议以供参考:①规范员工培训,提高客服服务水平以及完善售后流程。如制定合理的补偿机制,在商品无重大缺陷的情况下,消费者购后出现问题时,通常首先与客服进行联系,如果客服能及时有效地解决客户问题或者给予补偿,那么也能减少非必要的退货情况;②商品表述以真实为主,不可过分美化商品。线上购物对比线下购物最大的劣势就是消费者不能接触实物进行判断后再购买,因此,服装电商企业应该尽量减小图片与实物的差距。另外,提供全面完善的商品信息,如商品尺码表、材料表等,可以减少消费者由于信息不确定导致错误的购买决策,进而退货的情况;③企业需严格把控商品质量,若是为了降低成本而无法为消费者提供高品质的商品,那么也应制定合理的价格,做到商品价值与商品价格对等。大部分消费者认为只有买到物有所值或物超所值的商品才是一次成功的购物,若商品性价比高、质量可靠,那么消费者保留交易商品而不退货的概率也会增加;④对于物流而言,电商企业和第三方物流企业应相互合作,提高商品配送的效率,保证商品流通过程中不受损坏,以减少消费者损失。虽然物流速度对消费者退货意愿的影响不大,但是由物流原因造成商品实质性损坏也会使消费者退货。因此,物流过程的首要任务是保证商品完好无损,在这个前提下,提高物流配送的速度能给消费者带来较好的服务体验。

猜你喜欢
分类器意愿特征
健全机制增强农产品合格证开证意愿
离散型随机变量的分布列与数字特征
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
汪涛:购房意愿走弱是否会拖累房地产销售大跌
抓特征解方程组
不忠诚的四个特征
一种自适应子融合集成多分类器方法
浅谈多分类器动态集成技术
An Analysis on Deep—structure Language Problems in Chinese