结合情感词典与规则的微博情感极性分类方法

2014-07-18 00:29郑诚杨希张吉赓

电脑知识与技术 2014年13期

郑诚　杨希　张吉赓

摘要：随着微博在网民中日益火热，社会热点问题容易快速地演变成微博热门话题。由于微博用户多、数据量大、情感复杂的特性，通过情感分析来准确地获取微博潜藏的社会价值、商业价值变得十分迫切。该文通过构建情感词典，查找语义规则，并将情感词典与规则结合，建立微博情感分析模型，实验结果表明本文方法在负向情感判别方面效果优于SVM，并且在微博语料较短时，整体分类效果也优于SVM。

关键词：微博；情感分析；情感词典；规则

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2014）13-3111-03

微博是一个基于用户关系信息分享、传播以及获取的平台。用户可以通过电脑、手机等各种客户端组建个人社区，以140字以内的文字更新信息，并实现即时分享。随着微博在网民中的日益火热，微博效应正在逐渐形成，它已经成为中国网民上网的主要活动之一。

微博用户多、消息数量大的特性，使得越来越多的专家学者开始热衷于研究它。微博世界里社会热点遍布，其间充斥着各种情感，因而针对微博的情感分析也上升为了一个备受关注的研究热点。通过对微博内容进行情感分析，我们可以准确地挖掘并发现微博中潜藏的商业价值[1-2]以及社会价值[3-4]。

目前，进行情感分析主要有两种方法——情感词典的方法和机器学习的方法[5-8]。运用情感词典的方法，是根据语料中包含的正向、负向、中性情感词的数目或其权值等元素来判别情感分类；运用机器学习的方法，是先对语料进行特征选取，对训练集、测试集进行标注，然后利用支持向量机SVM等分类器来判别情感分类。

但是，这两种方法各有弊端。情感词典的方法，仅通过情感词的数目或其权值来判别情感，这就忽略了微博文本的语义规则[9]，考虑不全面使得分类效果较差。机器学习的方法，因其本身需要先验知识来训练出分类器，再进行情感判别，这就导致了更换微博预料后，分类效果下降较明显，方法的普适性不强。

鉴于以上存在的缺点，该文将运用情感词典与规则结合的方法，通过构建较为完备的情感词典，分析获得能涵盖大部分微博文本的语义规则，建立微博文本情感分析模型，对微博语料判别情感分类。

本文的组织架构如下：第二章对相关背景进行介绍；第三章分析所提出的模型及其设计；第四章将实验结果进行对比分析；第五章是总结。

1 背景

自然语言处理作为计算机学科中一个重要的研究方向，多年来一直吸引了广大专家学者对其进行研究。针对微博文本的情感分析，是这几年自然语言处理的一个研究热点。相较于英文微博，因为中文自身存在的语法、语义复杂性，使得中文微博的情感分析研究起步较晚，研究成果较少。

国内较为知名的、参与度较高的中文微博文本情感分析测评主要有COAE和NLP&CC两个会议测评。COAE是中文倾向性分析评测的简称，它以全国信息检索学术会议（CCIR）为依托，迄今为止已成功组织了六届，并从第五届即COAE2013开始，增加设置了中文微博情感判别的测评任务。NLP&CC是自然语言处理与中文计算会议的简称，目前共举办了两届，它的评测作为中国计算机学会（CCF）中文信息技术专委会学术年会的一部分，测评任务设置包含了中文微博情感识别。这两个会议测评都受到了国内外相关领域的许多研究人员积极参与，共同促进了中文微博情感分析的发展。

目前，中科院张华平博士团队研发的ICTCLAS分词工具，经过十余次版本更新，已包含了微博分词、新词发现与自适应分词、关键词识别等新功能，为本领域研究人员提供了效果令人满意的中文分词系统。大连理工大学林鸿飞[10]教授团队人工整理标注完成的情感词汇本体库使用较为广泛，该资源在情感分析计算领域，为中文文本情感分析和倾向性分析提供一个便捷可靠的辅助手段。虽然许多专家学者对中文文本情感分析的研究不断取得进展[11-12]，但由于中文自身存在的语法、语义复杂性，依然存在着分词较难、情感词典不完备等问题。

2 模型介绍

针对以上问题，该文研究了如何对微博语料判别情感分类效果进行提高，接下来阐述主要研究内容分为：构建情感词典、获取语义规则、建立情感分析模型。

2.1 情感词典构建

本文以大连理工大学情感词汇本体库来初步构建情感词典，选取了其中的词语、词性、强度、极性四个属性，经过必要的精简保留，共获得27466个情感词及其属性值。我们将COAE和NLP&CC提供的101865条测评微博语料，利用ICTCLAS分词工具进行新词发现，获得了263个新词并将其各属性进行人工标注加入情感词典。词典的词性分为7类，分别是名词（noun），动词（verb），形容词（adj），副词（adv），网络词语（nw），成语（idiom），介词短语（prep）。情感强度分为1，3，5，7，9五档，9表示强度最大，1为强度最小。情感极性分为0代表中性，1代表褒义正向，2代表贬义负向。

表1 构建的情感词典格式

[词语＼&词性＼&强度＼&极性＼&热情＼&adj＼&5＼&1＼&]

2.2 语义规则获取

本文从分词后的微博语料中，随机抽取了500个情感词组合（由子句中情感词和其前面两个词构成且不包含上一个情感词，若其前面不足两个词则按实际情况组合）。通过人工判别这500个情感词组合，获取到了能涵盖大部分微博的语义规则，以情感词为中心，具体组合如下：

表2 含情感词的组合模式

[序号＼&类型＼&示例＼&1＼&仅含情感词＼&热情＼&2＼&否定词+情感词＼&不热情＼&3＼&程度副词+情感词＼&太热情＼&4＼&否定词+程度副词+情感词＼&不太热情＼&5＼&程度副词+否定词+情感词＼&太不热情＼&6＼&否定词+否定词+情感词＼&没有不热情＼&]endprint

然后通过查阅《现代汉语词典》等文献，并对微博语料进行词频统计分析，构建了常用的否定词表（不、没、非等共19个）和程度副词表（很、最、非常等共22个），并依日常经验对其赋予了适当的权值。

2.3 情感分析模型建立

通过以上构建的情感词典，结合语义规则组合、否定词表、程度副词表，运用权值计算方法，给出每个情感词组合的情感值计算公式如下：

[Ei=（-1）Oiaipim]

Ei为情感词组合的情感值，等于0代表中性情感，大于0代表褒义正向，小于0代表贬义负向；Oi代表组合中否定词的数目；ai代表组合中程度副词的权值；pi代表组合中情感词的权值（含符号）；m代表组合权值，在组合4中设m=0.4，起修正程度副词的作用，在其他组合中设m=1，不起加强或削弱作用。

接着给出每个微博子句的情感均值计算公式如下：

[E=i=1Np（-1）Oiaipim+j=1Nn（-1）OjajpjmNp+Nn]

其中[E]为微博子句的情感均值，等于0代表中性情感，大于0代表褒义正向，小于0代表贬义负向；Np代表正向情感词的数目，Nn代表负向情感词的数目；Oi、Oj代表组合中否定词的数目；ai、aj代表组合中程度副词的权值；pi代表组合中正向情感词的权值（含符号），pj代表负向情感词的权值（含符号）；m代表组合权值，设置如上。

最后，含有多个子句的微博文本的总情感值E等于各微博子句情感值[E]之和，等于0代表中性情感，大于0代表褒义正向，小于0代表贬义负向，从而实现微博语料情感分类。

3 实验结果

3.1 实验设置

本文选取NLP&CC会议测评提供的已标注微博语料10000条进行实验，其包含微博子句32185条，具体结果如下表。

表3 已标注实验语料（单位：条）

[类型＼&正向情感＼&负向情感＼&中性情感＼&总数＼&中性占比重＼&微博语料＼&2224＼&2114＼&5662＼&10000＼&56.62%＼&微博子句集＼&5034＼&5445＼&21706＼&32185＼&67.44%＼&]

我们采用SVM方法进行对比，对每条微博选取分类特征如下：正向情感词个数、负向情感词个数、否定词个数、形容词个数、动词个数、感叹号是否出现、问号是否出现共7个特征。选用台湾大学林智仁团队的libsvm工具，进行5-折交叉验证，评价指标为精确率。

实验前，我们对微博语料进行了如下预处理：繁体简体统一成中文简体，全角半角统一成半角，去除冗余标点符号，去除回复，去除博主名等。

3.2 实验对比及分析

我们分别在微博语料、微博子句集下做实验进行对比，具体结果如下表。

表4 两种数据集下的精确率

[实验方法＼&精确率（微博语料）＼&精确率（微博子句集）＼&SVM＼&63.17%＼&63.744%＼&本文模型＼&62.55%＼&64.281%＼&]

我们又分别统计了两个实验的正向情感、负向情感、中性情感语句的准确率，具体如下表所示。

表5 微博语料下的各种情感语句准确率

[＼&SVM＼&本文模型＼&正向情感＼&62.185%＼&61.646%＼&负向情感＼&42.621%＼&43.377%＼&中性情感＼&71.229%＼&70.064%＼&]

表6 微博子句集下的各种情感语句准确率

[＼&SVM＼&本文模型＼&正向情感＼&62.336%＼&63.707%＼&负向情感＼&42.975%＼&45.381%＼&中性情感＼&69.280%＼&69.156%＼&]

最后，我们分析实验结果得到如下结论：（1）划分子句后，微博语料较短，两种方法的实验效果均得到提升；（2）在微博语料较短的情况下，该文模型分类效果优于SVM；（3）本文模型在负向情感判别方面效果优于SVM。

我们分析数据得到如下原因：（1）当微博语料较短时，SVM所提取的特征更明显，该文模型计算单句的情感值也更为准确，减少受到句间关系的影响；（2）当微博语料较短时，该文模型是通过结合情感词典与语义规则，利用了权值计算而不是特征提取，比SVM更准确地判别情感分类；（3）因为中国人语言表达较含蓄，表示负面情感时使用“否定词+正面情感词”多于直接使用“负面情感词”，比如说“不喜欢”多于直接说“讨厌”，而本模型涵盖了带否定词的情感组合模式，所以在判别负向情感方面较SVM更好。

4 总结

这几年，越来越多的专家学者将目光投向于中文微博语料的情感极性分析，而目前普遍采用较多的是基于SVM的研究方法及其改进算法。针对中文微博的一些特性，该文从提高准确度和增强普适性的角度出发，通过结合情感词典和语义规则，建立微博情感分析模型。实验结果表明本模型在负向情感判别方面效果优于SVM，并且在微博语料较短时，整体分类效果优于SVM。

接下来的研究中，本模型还有如下几点值得进一步改进：（1）情感词典更加完备，微博世界新词不断涌现，发现更多的新词扩充到情感词典能提高分类精确率；（2）增加对微博的子句与子句间关系的利用，使得转折、递进、并列、让步等句式能被用于情感计算；（3）逐步修正各个词表中所赋的权值，于计算时得到更好效果。

参考文献：

[1] Bo Pang， Lillian Lee. Opinion mining and sentiment analysis[C]//Foundations an Trends in Information Retrieval， 2（1-2）： 1-135.

[2] M.Q. Hu， B. Liu. Mining and Summarizing Customer Reviews[C]//ACM SIGKDD 2004： 168-177.

[3] 姚天昉，程希文. 文本意见挖掘综述[J]. 中文信息学报， 2008（3）.

[4] 赵妍妍，秦兵，刘挺. 文本情感分析[J]. 软件学报， 2010， 21（8）： 1834-1848.

[5] Long Jiang， Mo Yu， Ming Zhou， et al. Target-dependent Twitter Sentiment Classification[C]//ACL 2011.

[6] 代六玲，黄河燕，陈肇雄. 中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报， 2004（1）. （下转第3123页）

（上接第3113页）

[7] 谢丽星，周明，孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J]. 中文信息学报， 2012（01）.

[8] 谢丽星. 基于SVM的中文微博情感分析的研究[D]. 清华大学， 2011.

[9] Xiaowen Ding， Bing Liu. 2007. The Utility of Linguistic Rules in Opinion Mining [C]//SIGIR-2007（poster paper）， 811-812.

[10] 徐琳宏，林鸿飞等. 情感语料库的构建和分析[J]. 中文信息学报， 2008（1）.

[11] 娄德成，姚天昉. 汉语句子语义极性分析和观点抽取方法的研究[J]. 计算机应用， 2006（11）.

[12] 王素格，李德玉，魏英杰. 基于同义词的词汇情感倾向判别方法[J]. 中文信息学报， 2009（5）.endprint

2.3 情感分析模型建立

通过以上构建的情感词典，结合语义规则组合、否定词表、程度副词表，运用权值计算方法，给出每个情感词组合的情感值计算公式如下：

[Ei=（-1）Oiaipim]

接着给出每个微博子句的情感均值计算公式如下：

[E=i=1Np（-1）Oiaipim+j=1Nn（-1）OjajpjmNp+Nn]

3 实验结果

3.1 实验设置

本文选取NLP&CC会议测评提供的已标注微博语料10000条进行实验，其包含微博子句32185条，具体结果如下表。

表3 已标注实验语料（单位：条）

实验前，我们对微博语料进行了如下预处理：繁体简体统一成中文简体，全角半角统一成半角，去除冗余标点符号，去除回复，去除博主名等。

3.2 实验对比及分析

我们分别在微博语料、微博子句集下做实验进行对比，具体结果如下表。

表4 两种数据集下的精确率

[实验方法＼&精确率（微博语料）＼&精确率（微博子句集）＼&SVM＼&63.17%＼&63.744%＼&本文模型＼&62.55%＼&64.281%＼&]

我们又分别统计了两个实验的正向情感、负向情感、中性情感语句的准确率，具体如下表所示。

表5 微博语料下的各种情感语句准确率

[＼&SVM＼&本文模型＼&正向情感＼&62.185%＼&61.646%＼&负向情感＼&42.621%＼&43.377%＼&中性情感＼&71.229%＼&70.064%＼&]

表6 微博子句集下的各种情感语句准确率

[＼&SVM＼&本文模型＼&正向情感＼&62.336%＼&63.707%＼&负向情感＼&42.975%＼&45.381%＼&中性情感＼&69.280%＼&69.156%＼&]

4 总结

参考文献：

[1] Bo Pang， Lillian Lee. Opinion mining and sentiment analysis[C]//Foundations an Trends in Information Retrieval， 2（1-2）： 1-135.

[2] M.Q. Hu， B. Liu. Mining and Summarizing Customer Reviews[C]//ACM SIGKDD 2004： 168-177.

[3] 姚天昉，程希文. 文本意见挖掘综述[J]. 中文信息学报， 2008（3）.

[4] 赵妍妍，秦兵，刘挺. 文本情感分析[J]. 软件学报， 2010， 21（8）： 1834-1848.

[5] Long Jiang， Mo Yu， Ming Zhou， et al. Target-dependent Twitter Sentiment Classification[C]//ACL 2011.

[6] 代六玲，黄河燕，陈肇雄. 中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报， 2004（1）. （下转第3123页）

（上接第3113页）

[7] 谢丽星，周明，孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J]. 中文信息学报， 2012（01）.

[8] 谢丽星. 基于SVM的中文微博情感分析的研究[D]. 清华大学， 2011.

[9] Xiaowen Ding， Bing Liu. 2007. The Utility of Linguistic Rules in Opinion Mining [C]//SIGIR-2007（poster paper）， 811-812.

[10] 徐琳宏，林鸿飞等. 情感语料库的构建和分析[J]. 中文信息学报， 2008（1）.

[11] 娄德成，姚天昉. 汉语句子语义极性分析和观点抽取方法的研究[J]. 计算机应用， 2006（11）.

[12] 王素格，李德玉，魏英杰. 基于同义词的词汇情感倾向判别方法[J]. 中文信息学报， 2009（5）.endprint

2.3 情感分析模型建立

通过以上构建的情感词典，结合语义规则组合、否定词表、程度副词表，运用权值计算方法，给出每个情感词组合的情感值计算公式如下：

[Ei=（-1）Oiaipim]

接着给出每个微博子句的情感均值计算公式如下：

[E=i=1Np（-1）Oiaipim+j=1Nn（-1）OjajpjmNp+Nn]

3 实验结果

3.1 实验设置

本文选取NLP&CC会议测评提供的已标注微博语料10000条进行实验，其包含微博子句32185条，具体结果如下表。

表3 已标注实验语料（单位：条）

实验前，我们对微博语料进行了如下预处理：繁体简体统一成中文简体，全角半角统一成半角，去除冗余标点符号，去除回复，去除博主名等。

3.2 实验对比及分析

我们分别在微博语料、微博子句集下做实验进行对比，具体结果如下表。

表4 两种数据集下的精确率

[实验方法＼&精确率（微博语料）＼&精确率（微博子句集）＼&SVM＼&63.17%＼&63.744%＼&本文模型＼&62.55%＼&64.281%＼&]

我们又分别统计了两个实验的正向情感、负向情感、中性情感语句的准确率，具体如下表所示。

表5 微博语料下的各种情感语句准确率

[＼&SVM＼&本文模型＼&正向情感＼&62.185%＼&61.646%＼&负向情感＼&42.621%＼&43.377%＼&中性情感＼&71.229%＼&70.064%＼&]

表6 微博子句集下的各种情感语句准确率

[＼&SVM＼&本文模型＼&正向情感＼&62.336%＼&63.707%＼&负向情感＼&42.975%＼&45.381%＼&中性情感＼&69.280%＼&69.156%＼&]

4 总结

参考文献：

[1] Bo Pang， Lillian Lee. Opinion mining and sentiment analysis[C]//Foundations an Trends in Information Retrieval， 2（1-2）： 1-135.

[2] M.Q. Hu， B. Liu. Mining and Summarizing Customer Reviews[C]//ACM SIGKDD 2004： 168-177.

[3] 姚天昉，程希文. 文本意见挖掘综述[J]. 中文信息学报， 2008（3）.

[4] 赵妍妍，秦兵，刘挺. 文本情感分析[J]. 软件学报， 2010， 21（8）： 1834-1848.

[5] Long Jiang， Mo Yu， Ming Zhou， et al. Target-dependent Twitter Sentiment Classification[C]//ACL 2011.

[6] 代六玲，黄河燕，陈肇雄. 中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报， 2004（1）. （下转第3123页）

（上接第3113页）

[7] 谢丽星，周明，孙茂松. 基于层次结构的多策略中文微博情感分析和特征抽取[J]. 中文信息学报， 2012（01）.

[8] 谢丽星. 基于SVM的中文微博情感分析的研究[D]. 清华大学， 2011.

[9] Xiaowen Ding， Bing Liu. 2007. The Utility of Linguistic Rules in Opinion Mining [C]//SIGIR-2007（poster paper）， 811-812.

[10] 徐琳宏，林鸿飞等. 情感语料库的构建和分析[J]. 中文信息学报， 2008（1）.

[11] 娄德成，姚天昉. 汉语句子语义极性分析和观点抽取方法的研究[J]. 计算机应用， 2006（11）.

[12] 王素格，李德玉，魏英杰. 基于同义词的词汇情感倾向判别方法[J]. 中文信息学报， 2009（5）.endprint