基于信息增益与CHI 卡方统计的情感文本特征选择∗

2020-12-23 11:49杨新怡肖利雪
计算机与数字工程 2020年11期
关键词:特征选择分类器预处理

杨新怡 肖利雪

(西安邮电大学计算机学院 西安 710121)

1 引言

随着互联网技术的飞速发展,人们获得信息的方式越来越多,而现今社会中新媒体的盛行,让更多的人选择互联网来记录自己在某一时刻的心理情感,而这些用户越来越多的评价情感文本随之增加,因此就会产生很多的文本数据,但是如何管理和筛选这些文本是至关重要的[1]。数据挖掘方法中最值得研究的是文本分类,它是将根据文本中的情感词的情感偏向,给定整个文本的情感。文本分类一般过程是第一步进行初始文本预处理,将预处理后的文本进行特征降维,将降维后的文本表示成计算机可以识别的方式,分类器的选择与训练、将需要分类的文本进行分类以及结果评价[2]。文本表示就是将文本表示成计算机可以识别的方式,一般是将一个分词后的一个中文词条看作最小的表示单位,一个中文词条视为一维的语义载体,特征空间就是由全部的中文词条组成,而有些特征项是对于文本分类没有帮助的[3]。所以,文本分类的流程中必须要做特征降维。特征降维主要有两种方法,分别是特征选择和特征提取[4~7]。

目前,特征选择方法是:信息增益法(IG),文档频率法(DF),互信息方法(MI),卡方检验法(CHI),加权对数似然(WLLR)和加权频率和可能性(WFO)[8]。其中就特征选择实验结果最优的是IG和CHI。但是它们还是存在一些不足的地方,针对它们的优缺点的改进算法也是层出不群。在信息增益的方法上,李学明等[9]提出一种基于信息增益与信息熵的TFIDF算法,主要的研究点是发现权重的影响因素有特征词在不同位置的分布,对特征词在类内和类间做了研究。LIU[10]等提出一种新的结合LW 索引与序列正向搜索算法的特征选择算法。文献[11]使用不同的加权方法,特征选择方法是自适应遗传算法,采用多种不同的分类方法对文本分类进行研究。HE等[12]通过添加权重因子来平衡特征项对分类的影响。在卡方统计的方法上,文献[13]等是对CHI特征选择算法的优化算法,它的优化方法是基于特征项的分布位置差异以及文献[14]通过对传统CHI 方法选择精度的影响因素进行分析,提出了消除特征项与类别负相关对特征选择精度影响的改进算法。以上两者都是传统的文本分类卡方统计改进方式。

上述的方法大多数都是对传统文本的分类有较好的效果,相比较而言,情感文本就包含更多的情感信息,观点信息。所以,如果只使用传统文本的分类方式,对情感文本去做分类是片面的,我们要做到剖析其隐含的情感色彩[15]。本文主要是在众多特征选择算法中,选择出两种较优的特征选择算法,将其进行算法融合,经过实验证明,融合后的特征选择算法在情感文本分类有较好的实验效果。

2 文本分类过程及关键技术简述

2.1 文本分类过程

文本分类的主要目的是对于提供的文本信息进行分类。在数据挖掘中,对文本分类主要有两大主要部分组成。第一是训练分类效果良好的分类器,第二就是文本分类。在训练分类器是通常是将已经准备好的训练样本作为输入,经过一些预处理工作,再选择一些有代表性的分类算法进行分类,最终的分类结果就是如图1(a)所示。那对于文本分类,其实就是将我们已经训练好的文本分类器对指定待分类数据集的使用,如图1(b)所示。总的来说,文本分类整体过程就是预处理、训练、分类的过程。

图1 文本分类流程图

2.2 关键技术简述

文本分类预处理即中文分词和去停用词。中文分词,即Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。本文选用专用分词的python 库jieba,具有分词效果好,分词快等特点[16]。去停用词主要是要确定停用词表,目前使用最多的停用词表就是哈工大停用词表,百度停用词表,四川大学机器智能实验室停用词库[17~18]。本文是将主流的三种停用词表做了整合,然会将文本预处理后得到的特征词与此整合的词表做匹配。如果文本预处理后的特征词有在停用词表中,则表明这个特征词是无用的。

在文本预处理后得到特征项,但是这些特征项还是包含了很多的无用干扰项,所以还需要进行进一步的筛选。本文采用空间向量模型(VSM)将预处理后的特征项做了初始化,将每一个特征项表示为该文档的特征向量的一个分量。最后,经过初始化的特征集就是后续特征选择步骤的输入。

3 传统特征选择算法

3.1 信息增益方法

在信息增益中,选出的特征词是否有用其判断标准是这些特征词的区分力,如果这个特征词蕴含的区别信息越明显,那它就是有用的,即计算存在特征t 与不存在特征t 两种情况之间的计算差值。

对于分类器而言,类别C 为变量,n 表示类别的总数,取值范围为C1,C2,…,Cn,而其类别出现时所相对应的概率是P(C1),P(C2),…,P(Cn),此时分类器的熵表示为

对于无特征t 的状况下,所表达的是分类器中已经包含特征t,但是t 已经是一个定值,这种情况下的信息的熵就是计算t 固定时的信息熵,即条件熵,则无特征t 时的信息熵计算公式可以表示为

式中:P(t)表示T 出现的概率,P(tˉ)表示T 不出现的概率。最终特征T 给分类器带来的信息增益分类器原来的熵与固定特征T 后的条件熵之差:IG(T)=H(C)-H(C|T )

3.2 CHI特征选择算法

CHI 特征选择算法是以假设特征词与类别相互独立为前提,计算这两个变量之间的值(即偏差程度)。如果计算得到的值越大(即偏差越大),则特征词与类别越相关。假设特征变量t 与类别c相互独立,则t 对于类别c 的CHI统计量表示为

式中,参数A 表示属于类别c 且包含特征词t 的文档数,参数B 表示不属于类别c 但包含特征词t 的文档数,参数C 表示属于类别c 但不包含特征词t的文档数,参数D 表示既不属于类别c 也不包含特征词t 的文档数,参数N 表示文档的总数,上述公式计算特征词t 与类别c 之间的相关性,当t 与c相互独立时,χ2( )t,c =0 ;当t 与c 相关性越强,χ2(t,c)值越大,即特征词t 中与类别c 就越相关。

4 基于传统特征算法的改进

针对CHI 和IG 特征选择方法存在的不足进行研究和分析,本文提出一种通过加权实现IG和CHI两种特征选择算法的融合的特征选择算法,使用IG_CHI 特征选择算法选出具有较强类别表征性的特征项,可以在两种方法中取一个权值α,综合其弊端

同时为了更加突出蕴含情感的词条,在选取合适的特征词时,对情感特征词的IG(T,C)_CHI 值乘上β 值,即

式中:y 取0 和1,当特征词为情感特征词时,y 取1,反之取0。

5 实验过程及结果分析

实验环境:操作系统是Windows10 64 位,处理器是Inter Core i7-8550U,内存是8GB,实验数据集是爬取京东电脑的评论数据,总共爬取相关数据50152 条,其中对商品好评为25065 条,差评为25087 条。以此作为样本集对本文改进的算法进行验证,特征加权方式是TFIDF,分类器选择是SVM分类器。

先对数据进行分词,去掉停用词等预处理操作,其中分词使用python 的jieba 库,对分词后的结果进行进一步筛选去除无用信息,再采用选取的两种传统的特征选择算法,以及本文中优化后的算法,将传统算法与改进算法做对比实验。

5.1 评价指标

对于情感分类结果评价的指标有查准率(Precision),召回率(Recall)和F-测度值(F-measure)。

对于情感倾向性分类问题,可将样例根据其真实类别与预测类别的组合划分为真正类(True Positive,TP),假正类(False Positive,FP),真反类(True NegatIverson,TN),假反类(False Negative,FN)四种情况,真实类别与预测类别组合划分的标识结果如表1所示。

表1 真实类别与预测类别组合划分

其中,FP 是将原本属于正类的样本预测成正类,分类正确;FN 是将原本属于正类的样本错分到负类,分类错误;FP 是将原本属于负类的样本错分到正类,分类错误;TN 是将原本属于负类的样本预测成负类,分类正确。

查准率P,查全率R 以及F -测度值分别定义为

其中β 是一个调整因子,用来调节P 和R 之间的相互关系,β 通常取为1,则有

5.2 实验结果与分析

本文分别采用传统CHI方法,IG方法以及本文提出的IG_CHI 方法进行特征提取,并采用SVM 进行分类。表2 为CHI、IG 方法以及本文提出的IG_CHI 方法在不同维度下情感分类的结果。由表可以看出,基于信息增益与CHI融合的特征选择算法提取的特征采用SVM 算法在相同特征维度下的识别率要高于其他两种特征提取算法,当特征维度达到1500 本文提出的算法识别率较高,达到87.22%。说明本文提出的特征选择算法能够较准确地提取出文本中的特征。

表2 在不同维度下的情感分类准确率

6 结语

本文提出了一种基于CHI 和IG 的特征选择融合算法,通过大量的传统特征选择算法与融合算法的对比实验,结果也证明了该算法对于文本情感分类有明显效果。对于不同的语言环境,权重值的设定是一个动态不确定因子,对特征提取的准确性具有一定的影响,因此,将进一步研究根据不同语言环境下的准确率自适应的调整情感词的权重,成为本文后续研究的方向。

猜你喜欢
特征选择分类器预处理
KR预处理工艺参数对脱硫剂分散行为的影响
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
求解奇异线性系统的右预处理MINRES 方法
手术器械预处理在手术室的应用
学贯中西(6):阐述ML分类器的工作流程
污泥预处理及其在硅酸盐制品中的运用
基于朴素Bayes组合的简易集成分类器①
基于AdaBoost算法的在线连续极限学习机集成算法
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择