基于在线评论的智能手机需求偏好判别及客户细分模型构建研究

2023-09-25 19:32朱韦光

计算机时代 2023年9期

朱韦光

摘要：为了帮助商家从在线评论中挖掘产品的需求偏好及客户构成，构建了基于LDA主题模型、情感分析，以及改进的K均值聚类算法等方法的产品需求偏好判别及客户细分模型。通过LDA模型挖掘用户需求偏好，利用情感分析进行情感打分，再用改进的聚类算法得到客户细分群体。最终得到用户对于手机的需求偏好以及客户细分群体构成，帮助商家更好地作出经营决策。

关键词：在线评论；需求偏好； LDA模型；情感分析；聚类算法

中图分类号：TP391 文献标识码：A 文章编号：1006-8228（2023）09-132-04

Research on the construction of smart phone demand preference

discrimination model based on online review

Zhu Weiguang

（School of Business， Jiangnan University， Wuxi， Jiangsu 214122， China）

Abstract： In order to help merchants mine product demand preferences and customer composition from online reviews， a product demand preference discrimination and customer segmentation model is constructed based on LDA topic model， sentiment analysis and improved K-means clustering algorithm. The LDA model is used to mine user needs and preferences， sentiment analysis is used to score sentiment， and the improved clustering algorithm is used to obtain customer segmentation groups. Finally， users' demand preferences for smart phones and the composition of customer segments are obtained， which helps merchants make better business decisions.

Key words： online comments; demand preference; LDA model; sentiment analysis; clustering algorithm

0 引言

隨着互联网技术及购物平台快速发展，线上购物逐渐成为人们交易商品最为主要的渠道。根据中国互联网信息中心（CNNIC）发布的第50次《中国互联网络发展状况统计报告》，截至2022年6月，我国网络支付用户规模达9.04亿，较2021年12月增长81万，占网民整体的86.0%。用户们更多地在购物平台上发表对于购物的体验以及产品的个性化看法。

用户需求挖掘方法可以分为两大类：基于问卷调研的传统需求获取方法[1-3]和基于文本挖掘算法的自动化需求提取方法。数据激增背景下，基于在线评论的各类文本挖掘算法/方法应用广泛，如何从用户的在线评论中挖掘需求，成为热点问题。研究者采用关键词提取算法来提取评论中的主题，获取用户关注的产品特征，典型算法如隐含狄利克主题模型[4]、词频—逆文档频率[5]和TextRank[6]等；一些研究者进一步结合情感词典来分析用户对于产品特征的情感倾向，进而分析用户的消费需求[7-11]。

现有方法能够快速、低成本地处理大规模用户评论，但仍面临频数不突出的特征内容容易被忽略、产品特征被过分切分等问题。在客户细分方面，现有的在线评论尚未涉及。有鉴于此，本文在爬取四款智能手机的在线评论后，挖掘出了产品的潜在特征，并且在此基础上进行了客户细分，最终不仅得到了用户对产品的需求偏好，还将客户群体进行了分组，帮助商家更加有的放矢地去改进产品、采取经营策略，提升了决策效率。

1 模型构建

基于在线评论构建的主题发掘、情感分析及其聚类模型主要分为五个步骤，分别为数据获取及预处理、Word2Vec近似词识别、LDA主题挖掘及词向量聚类分析，以及主题细粒度情感分析比较。

1.1 数据获取及预处理

本文的数据来自于京东电商平台的在线评论。运用Python爬虫技术，共获得四款智能手机的在线评论。本次爬取的数据包括产品名称、用户名称、评论内容、评论时间。对四款智能手机的评论文本进行去重、去除部分评论内容，运用Jieba分词对评论文本进行分词，通过知网停用词表去除停用词及表情图案。考虑到主题挖掘和分析的效果，将名词和形容词搭配组成的词语中的形容词从用于主题挖掘的文本数据中去除。

1.2 基于Word2Vec的词意相似度判别

由于存在多个特征词在多个主题中重复出现、多个特征词之间词义相近等问题，另一种是不同形容词和形容词表达含义相同，含义相近词汇会影响主题挖掘效果。

而Word2Vec可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，表示文本语义上的相似度，从而识别出近似词。本文选用Skip－gram模型进行训练，该模型通过随机梯度下降算法训练目标函数。根据当前词语预测上下文的信息，提取的名词和形容词作为输入语料，借助Word2vec函数训练生成词向量文件，利用相似度函数公式⑴，计算词语的相似特征词，将表达相同含义的相似词设置为同一个词。

[Similarity=u.vu‖v‖] ⑴

其中，[u]和[v]分别表示两个词汇的词向量。

1.3 于LDA主题模型的产品特征挖掘

根据Word2Vec近似词识别中的Similarity的大小，将相似度高的产品特征词归到一起之后，采用隐含狄利克雷分布。从评论文本数据中提取潜在主题。在使用主题模型对评论文本进行分析时，确定最佳主题数以及主题的命名非常重要，本文采用网格搜索法，利用一致性评分来确定最佳主题数，通过主题整合得到了不同的用户关注的产品特征维度。

1.4 情感倾向分析

基于LDA主题—特征词挖掘结果，运用词典分析方法进行情感分析，计算各主题属性的情感值。本文所用情感词典是HowNet词典，并根据电子数码产品评论文本内容特征，添加人工自定义词典。

⑴ 分离出文本单元。将评论文本原始数据按照标点符号和连接词分成独立的文本单元，对所有文本单元进行分词，将含有两个或两个以上特征词的文本单元进一步分离，使每个文本单元仅含有一个特征词。

⑵ 标记情感词。将分词后的文本单元与完善后的情感词典进行匹配，标记每个文本单元中情感词的位置及其情感权重，每个正面情感词得分+1，每个消极情感得分-1。得出每个文本单元的情感得分。

⑶ 考虑否定词。若情感词前有奇数个否定词，则情感倾向改变；若短句中有偶数个否定词，则情感倾向不变。

⑷ 考虑程度副词。建立程度副词词典，并赋予相应的权重，确保计算所得情感值的准确性。参照HowNet程度副词词典，依据相关文献和消费者对程度副词的实际使用和区分情况，对程度副词词典进行扩充和赋值如表1。

⑸ 修改情感得分。依据文本单元中否定词词表和程度副词词典，对各个文本单元情感得分进行修改，假设文本集合[D={d1，…，dm，…，dM}]，其中[dm]是第[m]个文本单元，[M]是文本单元数量，[m=1，2，…，M]：

[scoredm=（-1）ii=1kPtj=1nDj] ⑵

其中，[j]、[n]和[k]分别表示第[m]个文本单元中否定词、程度副词和情感词的数量，[Dj]表示第[m]个文本单元中第[m]个程度副词的权重值，[Pt]表示第[m]个文本单元中第[t]个情感词的值。

⑹ 计算各主题情感得分。假设特征词集合为[Wij={w11，w12，…，wij}]，其中[wij]表示第[i]个主题的第[j]个特征词。将特征词与文本单元进行匹配得出每个特征词所在的文本单元及其出现次数[aij]，则每个特征词的情感得分为：

[scorewij=score（dm）aijwij∈dm] ⑶

则各主题的情感得分为：

[scorezk=i=ksore（wij）aiji=kaij] ⑷

1.5 于K-means聚类分析的用户分类

本文将上文得到的每个用户的产品需求偏好的多维分值向量作为数据基础，利用K-means聚类算法来进行用户群组的分类。用轮廓系数来评判聚类效果，以此来确定聚类的个数。计算样本i到同簇其他样本的平均距离[a（i）]值，该值越大，说明样本i越应该被聚类到该簇。将[ai]称为样本i的簇内不相似度。计算样本[i]到其他某簇Cj的所有样本的平均距离bij，称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度：[b（i）=minb（i1），…，b（ik）]。该值越大说明樣本越不属于其他簇。根据样本i的簇内不相似度[a（i）]和簇间不相似度[b（i）]定义样本i的轮廓系数：

[Si=bi-a（i）max {ai，b（i）}] ⑹

当[S（i）]接近1时，则说明样本i合理；[S（i）]接近-1，则说明样本i该分类到其他的簇；当[S（i）]近似为0，则说明样本i在两个簇的边界上。所有样本的[S（i）]的均值称为聚类结果的轮廓系数，[S（i）]越大，说明聚类效果越好。

2 实证分析

2.1 数据来源

本文选取的研究对象是四款智能手机。京东在数码产品方面具有更好的口碑，因此选用京东商城作为数据获取平台。运用了Python爬虫技术在京东商城上获取了这四款手机在不同店铺的共17723条有效在线评论。评论时间在2020年5月15日到2021年3月15日。

2.2 智能手机主题发掘及产品需求判别

根据主题一致性得分确定最佳主题数。实验结果表明，四款智能手机京东平台的在线评论最佳主题数为6，此时一致性得分最高（Coherence Score=0.945）。通过不断调试迭代，将每个主题中词频超过30的特征词进行保留。

最终得到了六个主题组为性价比组、娱乐体验组、软硬件组、外观组、物流服务组以及拍照组以及47个产品特征词。如表1所示。

2.3 情感分析及词向量各维度分值的确定

本文针对每一条智能手机产品评论中涉及的一种或多种主题特征的偏好程度进行打分。基于LDA挖掘得出的主题-特征词结果，通过领域词典的方法进行情感分析判断评论文本正面、负面和中立三元情感态度，并得出情感得分，情感倾向和情感得分结果如表2所示。

从情感得分情况来看，这四款智能手机的用户对于各个主题的关注度由高到低分别是软硬件组、娱乐体验组、性价比组、物流服务组、外观组、拍照组。根据每个主题的情感得分情况。进一步地，本文将每个智能手机的用户用一个六维向量来。其中，每个维度为该用户在各个主题特征上的分值。最终确定得到17723个词向量。

2.4 消费群体聚类分析

本文将上文中得到的17723个词向量作为数据基础，基于Python对这些用户进行了聚类分析。首先，根据实验结果该组评论数据在聚类个数为7时，轮廓系数最大为0.956，此时聚类效果最好。因此最佳聚类个数为7。即可以将智能手机用户划分成七个分组。对消费者进行K-means算法聚类，设定聚类个数为7，最大迭代次数为10。得到结果如表3所示。

由表3可知，可以將四款智能手机的消费者分为七个群组。

第一个消费者群组有3135人，占比17.69%。这个群组的消费者注重的手机品质比较全面，在性价比、性能体验、软硬件、外观、物流服务以及拍照六个维度上表现的关注没有非常高也不没有很低。该为均衡体验组。

第二个消费者群组有2160人，占比12.19%。这个群组的消费者对于手机的性价比以及物流服务上的关注程度不高，而对手机的外观具有最高的重视程度。该组是外观偏好组。

第三个消费者群组有616人，占比3.48%。这个群组里都消费者对这四款手机的六个维度都没有什么关注程度。该组是差评组。

第四个消费者群组有1931人，占比10.90%。这个群组的消费者最看重手机的性价比，而对手机其他的方面都有差不多的关注程度。该组为性价比组。

第五个消费者群组有4407人，占比24.87%。这个群组的消费者最注重手机的性能体验和软硬件，同时也对手机的拍照有着较高的关注程度。该组为品质功能组。

第六个消费者群组有1756人，占比9.91%。这个群组的消费者则最看重手机的物流服务，对手机的性价比和拍照关注程度很低。该组为购物体验组。

第七个消费者群组有3718人，占比20.98%。这个群组的消费者非常注重手机的性能体验、物流服务以及拍照。对手机的软硬件有较高的关注度，而对手机的性价比关注程度很低，看重物流服务这方面的购物体验。该组为综合性能组。

3 结论

本文对商家在识别用户对于产品偏好需求以及消费者分组领域进行了研究，构建了基于在线评论的产品需求偏好判别以及客户细分的模型，帮助手机商家更精准地识别用户需求以及确定客户细分的构成。区别于一般评论影响产品的研究方向，本文以结果作为出发点，来分析用户对于产品的需求诉求，并为在线评论在客户细分领域的研究拓宽了思路。为在线评论挖掘产品特征的探索提供现实数据参考，同时对评论文本挖掘模型进行了优化并验证了可行性。本研究不足之处主要在于选取的研究对象具有行业局限性，此外，所提模型对于其他行业的产品的适用性还需要进一步验证。

参考文献（References）：

[1] CHEN LIU， ALEJANDRO RAMIREZ-SERRANO， GUOFU

YIN. An optimum design selection approach for product customization development[J].Journal of Intelligent Manufacturing，2012，23（4）：1433-1443.

[2] SANJAY R. GANGURDE， MILIND M. AKARTE.Customer

preference oriented productdesign using AHP-modified TOPSIS approach[J].Benchmarking，2013，20（4）：549-564.

[3] FELIX GEYER， JENS LEHNEN， CORNELIUS HERSTATT.

Customer Need Identification Methods in New Product Development： What Works "Best"？[J]. International journal of innovation and technology management，2018，15（1）：1850008.1-185000.26.

[4] 阮光册.基于LDA的网络评论主题发现研究[J].情报杂志，

2014（3）：161-164.

[5] JONES KS. A statistical interpretation of term specificity

and its application in retrieval[J].The Journal of Documentation，2004，60（5）：493-502.

[6] 宛艳萍，张芳，谷佳真.基于双窗口TextRank关键句提取的

文本情感分析[J].计算机应用与软件，2022，39（4）：242-248.

[7] ZHANG， LEI， CHU， XUENING， XUE， DEYI. Identification

of the to-be-improved product features based on online reviews for product redesign[J].International journal of production research，2019，57（7/8）：2464-2479.

[8] LAI， XINJUN， ZHANG， QIXIANG， CHEN， QINGXIN， et al.

The analytics of product-design requirements using dynamic internet data： application to Chinese smartphone market[J].International journal of production research，2019，57（17/18）：5660-5684.

[9] 李贺，曹阳，沈旺，等.基于LDA主题识别与Kano模型分析的

用户需求研究[J].情报科学，2021，39（8）：3-11，36.

[10] GUAN， XINYU， CHENG， ZHIYONG， HE， XIANGNAN，

et al. Attentive Aspect Modeling for Review-Aware Recommendation[J].ACM transactions on information systems，2019，37（3）：28.1-28.27.

[11] Turney P D.Learning algorithms for keyphrase extrac-

tion[J].Information Retrieval，2000，2（4）：303-336.