基于机器学习的企业产品评论数据的情感分析研究

2019-11-19 07:20李艳红
微型电脑应用 2019年11期
关键词:文档短文分类

李艳红

(西安外事学院 工学院, 西安 710077)

0 引言

随着中国经济的快速发展,中小企业已成为我国经济发展的重要力量。相对于大型企业应对风险的能力,中小企业相对较弱,主要是中小企业缺乏信息化管理,决策者大都是依靠个人经验进行决策,缺乏对市场和风险的科学论断[1]。随着互联网的发展,用户在各大类论坛、微博、媒体网站可以发表对某些产品的信息和看法。中小企业如果能够充分利用海量网页数据提供的信息帮助,可以极大的降低企业风险,并一定程度上弥补由于数据不足导致经营过程中出现问题[1]。消费者一般是通过网页、博客和新闻等获取相关产品的信息,中小企业如果能够及时发现相关负面评论,并收集起来,以作为产品和服务改进的指导,可以极大的降低企业的经营风险。现有的研究成果大都是独立考虑短文本评论,并且一般是针对电子商品观点的挖掘,没有从主题文章观点和评论相结合角度进行观点挖掘。基于此,本文通过利用爬虫技术收集相关数据,并利用机器学习技术对文章进行分类、观点预测,从而为企业决策者提供帮助,降低中小企业经营风险。

1 大数据和中小企业

随着数据挖掘技术的成熟,其技术可以更好的帮助中小企业进行科学决策,通过调研相关资料,总结大数据技术对于中小企业的促进主要包含以下几个方面:

销售风险预测:通过利用行业文章,结合微博实时数据,同时参考历史销售数据,对相关产品的销售风险进行预测,帮助管理者降低企业经营风险。

新产品和新市场的发现:通过分析相关行业报告和行业文章走向预测观点,来为中小企业管理者提供对未来产品走向的把握和理解,及时跟进市场动向,掌控市场风向,降低经营风险。

流程效率提升和成本缩减:通过利用机器学习技术,分析产品销售生产过程中的数据,对各个环节进行科学监控和调整,达到优化支出,降低成本的目的[2]。

新客挖掘:通过利用机器学习技术,分析相关产品的评论数据以及相关产品的微博数据,在此基础上获取消费者的相关偏好,进而聚类客户的分布区域,并有针对性的发掘新客户。

本文主要是利用数据挖掘、机器学习相关技术,针对销售风险预测、新产品和新市场的发现进行研究,通过利用行业新闻等长文本数据、微博等短文本数据,从多维数据角度探索新的中小企业风险控制模型。

2 风险评估预测算法

行业相关的产品信息文章观点可以反映用户对该行业该产品的观点和倾向,可以帮助中小企业一定程度上规避销售风险。但是不同角度发表的信息,对该行业发展的影响也不同。基于此本文首先对文章进行分类,主要分为供应商、潜在进入者、购买商、替代产品等四类,同时将问题抽象成分类模型,通过借鉴文献[3-4]的文档分类方法进行分析,并在此基础上进一步分析文章观点的倾向性:正面/负面评价,从而为构建相关产品的预警和提示。同时微博相关的行业产品相关的数据具有实时性,可以迅速的帮助企业了解消费者对行业相关产品的喜好。相对于行业新闻博客等长文本数据,微博等短文本数据,具有信息少,表达不规范等问题,不能直接使用长文本相关的文档分类技术。针对这些问题,提出了具体如何对短文本进行构建正负观点分类模型。

2.1 行业文章分类模型

文本首先通过提取特征,然后在此基础上利用SVM模型进行预测,同时采用one VS all的模式进行页面多分类。其中特征提取,主要是通过LDA(Latent Dirichlet Allocation)模型进行特征提取。原理所示如下。

1. Fort= 1…T

(a)φtDirichlet(β)

2. For each documentd∈D

(a)θd~Dirichlet(α)

(b) forωnind

首先对文档进行切词,通过LDA算法获取和文档类别最相关的30w个单词,然后利用特征选择算法,筛选6w左右的特征,计算相关单词的TF值,并利用SVM算法进行文档类别分类。在识别出文档类别以后,通过利用相似技术进一步进行正负面评价观点分类。

2.2 流式数据分类模型

2.2.1 问题定义

R={r1,r2,…,rn}表示微博数据集合,每条微博样本的特征集合用X表示,相应的类别标签用Y表示:{正面评论,负面评论}。P表示正负面评论的可能概率。P([0,1]。F表示n×m的特征矩阵,n表示样本的总数,m表示特征的总数|X|,yi表示第i条样本的预测结果:

其中Θ表示分类模型的阈值。实验过程中该值是0.65。

2.2.2 模型特征

本文假定微博数据是一个无格式的纯文本。相对于传统的篇章级文本而言,微博数据内容属于短文本类型,这种短文本有着突出的问题就是其文本向量稀疏。现有的诸多方法在短文本分类的效果并不理想,机器学习的理论表明,特征决定了模型性能的上限[5]。因此对于短文本的单纯分词特征是远远不够的,在应对特征稀疏问题时,本文通过特征选择的方法提取对于产品观点预测最具表现力的特征,同时发掘产品评论的其他特征,如:词特征、字节级N元语法特征,词组合特征,评论信息量特征,评论与产品描述的相似度特征等。

(1) 词特征

利用中科院中文分词工具ICTClas对微博信息分词处理得到词特征,例如手机微博信息,“华为拍照效果还是不错,就是电池不是太耐用。”分词处理后为:“华为 拍照v效果 还是d不错a,wp就是v电池 不d是v太d耐用a。wp”。

(2) 字节N元语法特征

例如微博数据中的信息如“5月23日”先换成为字节形成,然后用N元语法模型选取特征,这里N取4,这样可以有效提取微博数据的隐藏形式的强特征,避免繁杂的微博文本解析。

(3) 词组合特征

利用哈工大LTP自然语言处理工具包中的句法分析功能,在评论信息中获取词组合特征,如评论信息“待机时间还可以”句法分析处理后可以发现名称+动词结构“待机时间可以”。

(4) 微博数据的信息量特征

其中,L表示微博数据的字符长度,K为调节因子,b为信息平滑因子。

(5) 特征选择方法

统计模式识别中,费希尔线性判别是有效的特征选择方法。主要思想是:假设在d维数据空间中有两类样本点,我们期望在原有的样本数据空间找到一条分割线,使得样本点在其上的投影可以尽可能的分离出来[6]。换句话说就是在两类样本点投影在分割线上,获得较大的样本差异平方,较小的类内散度。可以定义费希尔率为:

2.2.3 算法设计

1) 预处理微博数据,对微博数据集进行分词、词性过滤、去停用词得到微博数据的词向量;

2) 计算微博数据的信息量特征。

3) 对微博数据句法分析、辅以人工的手段得到词组合特征。

4) 计算微博数据的字节N元语法特征。

5) 对微博数据随机洗牌,增量式迭代多次,并依次在词特征基础上引入字节N元语法、词组合特征、信息量特征,然后在此基础上利用SVM算法进行分类。

在以上算法流程的基础上,增加加强错误边界学习的逻辑,如图1所示。

步骤操作1w=0; // 初始化参数向量w为02for each xi,yi3p=exp(x→i∗ω→)1+exp(x→i∗ω→)4if p > 0.55预测为正面评论6else7预测为负面评论8if abs(p-0.5) <Θ or prediction error // tone9if yi == 110w→=w→+(1-p)∗x→i∗rate11else12w→=w→-p∗x→i∗rate

图1 错误边界学习逻辑

3 实验结果与分析

3.1 实验数据

我们使用了两个现实生活中的数据集来进行实验,第一个数据集是一个标准公开的多领域情感分析数据集,该数据集DataSet1有13120个短文本数据,涉及四个不同的产品类别。第二个数据集是通过手动编写爬虫程序在微博和行业网站手动爬取的数码产品的文章和微博数据,DataSet2包含34121条微博数据,DataSet3包含6812个行业文章,并进行了人工标注。行业文章和微博存在很多转发情况,为了消除重复的内容,需要进行文本去重,本文认为信息有超过90%的 bigram 匹配,则认为数据是重复的。

3.2 评价指标

实验采用评估分类性能方面的常用评价指标:召回率、准确率、F1值[8]。召回率和准确率是分类任务借鉴信息检索任务中的评价指标。在信息检索中,通常采用精准率(Precision)和召回率(Recall)来衡量检索出来的文档的质量。一般将相关文档称为为正例(Positive),不相关文档称为负例(Negative)[9]。在整个信息检索过程中,一般会产生四种结果:TP、TN、FP和FN。对应关系如表1所示。

表1 信息检索过程中的四种结果

精准率是被正确检索的相关文档和所有被检索出来的文档的比例,对应的召回率是指被正确检索出来的所有相关文档与系统中所有相关文档的比例。通常精准率又被称为查准率,召回率又被称为查全率。它们的取值范围介于0到1之间,通过公式可以知道,二者的值越大,表示算法的效果越好,不过一般情况下,二者不会同时达到最优值。

3.3 实验结果与分析

行业文章分类算法在DataSet2中供应商类别分类的实验结果如表2所示。

表2 DataSet3数据集的实验结果

从上表中可以看出,LDA+SVM对于行业文章的分类效果比较好,满足实际需要。

在训练数据集 DataSet1 和 DataSet2采用词特征+不同学习方法的对比实验所获得的效果,如下表3所示。

表3 DataSet1和DataSet2数据集的实验结果

从上表可以看出,在两个数据集,传统SVM算法的分类效果,比本文提出的学习方法的分类效果表现稍差,统计学习理论表明特征决定了分类器的性能上限,因此本文从其他方面挖掘特征来对分类模型进行改进实现[10],同时考虑在线短文本数据分布的环境应该是个动态变化的过程,所以,通过在微博信息的词特征基础上增加字节N元语法特征、词组合特征、信息量特征、相似度特征等,对微博数据的分类器性能有着一定程度的提升。

5 总结

文章首先分析了中小企业存在的风险问题,具体介绍了大数据对于提升中小企业风险控制能力和效益的方法。在此基础上本文利用海量互联网文本数据,从行业文章智能分类着手,为中小企业决策者提供对从不同角度提供对行业信息的认知情况,利用微博数据等流媒体的实时性对行业产品相关的微博进行观点挖掘,帮助中小企业管理者及时了解消费者对产品的态度和反馈情况。行业文章智能分类模型,采用LDA+SVM的算法策略进行文档分类,微博短数据分类模型采用增量学习模型,考虑微博数据的向量空间模型的高维稀疏的特点,从字节N元语法、评论信息量、词组和和产品评论和产品描述相似度等方法对模型的输入特征进行扩展,

相较于传统的SVM算法模型,扩展后的新模型对分类器的性能有了一定的提升。

猜你喜欢
文档短文分类
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
KEYS
Keys
按需分类
教你一招:数的分类
说说分类那些事
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
给塑料分分类吧