商品隐式评价对象提取的方法研究

2015-04-16 08:52邱云飞倪学峰邵良杉
计算机工程与应用 2015年19期
关键词:子句特征词语料

邱云飞,倪学峰,邵良杉

QIU Yunfei1,NI Xuefeng1,SHAO Liangshan2

1.辽宁工程技术大学 软件学院,辽宁 葫芦岛125100

2.辽宁工程技术大学 系统工程研究所,辽宁 葫芦岛125100

1.Software College,Liaoning Technical University,Huludao,Liaoning 125100,China

2.Institute of Systems,Liaoning Technical University,Huludao,Liaoning 125100,China

1 引言

随着互联网技术的飞速发展,消费者更喜欢在网络上发布一些自己内心真实的观点,如去网站论坛发布一些针对某商品或服务的评论,同时在消费之前也会上网浏览下他人的观点意见。这些评论中往往包含了用户的最真实的观点意见,因此,评论挖掘作为非结构化信息挖掘的一个新兴研究领域也随之而生。目前对于网络评论挖掘的问题,学者Popescu[1]将其归结为以下几个重要问题:(1)挖掘重要产品特征;(2)挖掘用户对产品特征的主要观点;(3)判断评论观点的情感导向;(4)根据观点的重要性进行排名。

国内外对商品特征提取的研究方法正处于发展阶段,文献[2]提出如何从消费者评论中挖掘商品特征,但只能处理英文文本,并不适用于中文评论。文献[3]采用基于句法分析技术的评论对象抽取方法;文献[4]采用基于关联规则分类的产品特征挖掘算法,这两种方法虽然能很好的处理中文文本评论,但提取出的全部都是显式评价对象。而文献[5]采用特征词库对评论进行特征标注,虽然特征标注的准确率能达到87.47%,但是需要人工核查获取特征词库,其中耗费了大量的人力、物力。商品评论中的商品特征可以分为显示特征和隐式特征[6],本文称之为显式评价对象和隐式评价对象。如果一个特征f出现在一个评估文本r中,那么被称为r的一个显式特征。如果f没有在r中出现,但是被暗指,那么将其称为r的一个隐式特征。例如“这家店位置非常好下车就看到了”,就能简单地识别出“位置”这一显式属性。而“地方不好找但是交通还是很方便的”,需要通过分析理解才能识别出“位置”这一属性。现有的产品特征抽取方法所提取出的大都是产品的显式特征,也就是通过各种模型提取出产品评论中的个别词或词组作为评价对象,但是这样一来好多评价对象虽然描述不同但评价对象却从属于同一个方面。

本文提出并实现了一种有监督的商品隐式评价对象提取方法。第2 章详细描述隐式评价对象提取的相关工作,主要包括候选评价对象提取、候选评价对象聚类、特征词权值计算以及隐式评价对象识别。第3 章叙述了对大规模真实文本的实验,并与相关的研究工作进行了比较。最后是对工作的一个小结。

2 隐式评价对象提取的相关工作

本文提出的商品隐式评价对象提取的方法,首先从评论语料中根据评价对象模型提取出候选评价对象,并根据k-means 算法[7]将候选评价对象聚类从而提取出隐式评价对象及其相关的特征词集合,然后计算出每个特征词指示隐式评价对象的能力,最后根据特征词指示能力的引导抽取出用户在评论语料中提出的观点。图1给出了实验方法框架图。

图1 实验方法框架图

2.1 候选评价对象提取

2.1.1 评价对象模型

由于评论内容比较短,评论子句大都是由简单的词或短语以一定的顺序组合而成的,而且每条评论子句通常也就只描述了某一事物的一个特征,因此采用句式语义的形式分析方法提取出评论子句的主干[8],并构建一个二元组C(np,ap)或C(np,vp),其中np、ap、vp分别表示具有名词、形容词、动词词性的词或短语,且np即为此评论子句中的候选评价对象,ap或vp即为该候选评价对象的特征词。二元组的构建遵循如下三条原则(定义N为词的个数):

2.1.2 特征词扩充

针对评论子句仅由数个词或词组构成,评论子句中对评价对象的描述不够清晰,相应的评价对象特征词也不足以明确的指示该评价对象,为此需要寻求一种解决办法,能从简单的评论子句中获取充足的指示特征词,使得候选评价对象模型中有价值的信息有所增加。正是由于候选评价对象模型是由一个包含两个元素的二元组组成,借此可以凭借这两个词或短语相似的词扩充到特征词集合T中。

HowNet(《知网》)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间的概念所具有的属性之间的关系为基本内容的常识知识库[9]。对于汉语词汇,知网中的描述基于“义原”这一基本概念。义原,可以被认为是汉语中最基本的、不易于再分隔的最小语义单位。将通过HowNet 获取的np、ap、vp义原npi、apj、vpk扩充到特征词集合T中,最终得到的候选评价对象模型为C(np,T),其中,T=(ap,N,A)或T=(vp,N,V),N=(np1,np2,…,npr),A=(ap1,ap2,…,aps),V= (vp1,vp2,…,vpt)。

2.2 候选评价对象聚类

根据评价对象模型获取的候选评价对象分布不够集中,排列比较松散,不能明确的展现出用户的观点态度,而且存在一种多个候选评价对象模型实际描述的却是同一个评价对象的现象。为此采用k-means 聚类算法将候选评价对象C(np,T)根据T=(ap,N,A)或T=(vp,N,V)的相似度聚类。k-means 聚类算法的核心思想是找出k个聚类中心c1,c2,…,ck,使得每一个数据点xi和与其最近的聚类中心cr的平方距离和被最小化(该平方距离和被称为偏差D)[10]。基于k-means 算法的候选评价对象聚类算法描述如下:

Algorithmk-means(k,D)

Input:候选评价对象集合D;聚类数k

Output:聚类结果

Procedure:

步骤1随机选择k个候选评价对象作为初始的聚类中心Ki

步骤2迭代循环:每个候选评价对象Cj

计算Cj与各候选评价对象类之间的相似度Similarity

将Cj分配到相似度Similarity最大的聚类中心

步骤3重新计算聚类中心Ki

步骤4终止条件不成立跳转到步骤2,否则结束

终止条件:

1.没有候选评价对象被重新分配给不同的聚类

2.没有聚类中心发生变化

候选评价对象C(np,T)之间的相似度计算基于刘群在文献[11]中计算两个义项集合的相似度算法来计算评价对象模型中特征词集合T中元素之间的相似度,从而根据特征词集合中元素相似度的算术平均值得出候选评价对象的相似度[12]。候选评价对象Ci与Cj之间的相似度计算公式如下公式(1)所示(如下公式(1)、(2)中将T=(ap,N,A) 或T=(vp,N,V) 统一写成T=(t1,T1,T2)的形式):

将k-means 聚类算法得出的k个聚类中心Kj(npj,Tj)中的npj作为最终要提取的评价对象,Tj以及聚类中其他候选评价对象Ci(npi,Ti)中的npi和Ti组成一个新的集合Γ作为评价对象npj的特征词集合,形成最终的评价对象模型A(n,Γ)=(npj,Γ)。

2.3 特征词权值计算

χ2统计量(CHI)衡量的是特征项ti和类别Cj之间的关联程度[13],并假设ti和Cj之间符合具有一阶自由度的χ2分布。特征对于某一类别的χ2统计值越高,它与该类之间的相关性越大,携带信息也较多,反之则较少。利用χ2统计量(CHI)在训练语料中衡量特征词ti对于隐式评价对象Aj的指示能力,也就是说特征词ti对于隐式评价对象Aj的χ2统计值χ2(ti,Aj)越高,它与该隐式评价对象之间的相关性也就越大,指示该隐式评价对象的能力就越强。计算特征词对每个隐式评价对象的χ2统计值的公式(3)所示:

其中,n表示语料库中评论子句的总数,|Aj|表示语料库中评论了隐式评价对象的Aj评论子句总数,α表示是评论了隐式评价对象Aj且包含特征词ti的评论子句数,β表示未评论Aj但包含特征词ti的评论子句数,γ表示评论了Aj但不包含特征词ti的评论子句数,d表示既未评论Aj也不包含特征词ti的评论子句数。上述4 种情况可从表1 中清晰看出。

表1 属性关联词ti 与属性Aj 关系示意图

2.4 隐式评价对象识别

需要分析的评论子句C=w1w2…wp,由p个词组成,这p个词中必有q个特征词,即C≥t1t2…tq。隐式评价对象提取过程中,根据该条评论语句,与隐式评价对象的特征词集合I中每个特征词ti的χ2统计值χ2(ti)=(χ2(ti,A1),χ2(ti,A2),…,χ2(ti,Am)),将评论语句中所有特征词对某一隐式评价对象的χ2统计值的和记为该评论语句指示这一隐式评价对象的能力。定义公式(5),根据评论语句的χ2统计值提取出隐式评价对象。

3 隐式评价对象提的取方案设计

(1)实验数据采集

利用网络爬虫[14]从网络上下载用户评论文本作为实验的语料数据并进行数据预处理。本研究以大众点评网、饭统网、丁丁网等网站上针对餐馆的评论数据为例形成评论语料库。

(2)对评论语料进行语句拆分

本文根据句子边界的启发式搜索算法将一条评论语句分割成若干子句,而且通过对语料库的分析,发现人们喜欢用“……”、“~”、“!!”、“!!!”、“。。”、“~~”等一些特殊标点符号或是一些表转折、并列等的连词来提示上下文谈论问题的转变[15]。因此,需要将这些特殊符号和连词作为初始的句子边界。

(3)对评论语料分词和词性标注

本文对评论语料采用中国科学院计算机技术研究所在多年研究工作积累的基础上,研制出的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)进行分词。分词后根据词性标注的结果以及文献[4]中提出的短语提取模式提取出名词短语、形容词短语、动词短语。

(4)提取候选评价对象

在评论语料库中利用评价对象模型提取出候选评价对象,并通过HowNet 获取评价对象特征词的义原以扩充特征词集合。

(5)隐式评价对象提取

采用聚类算法对候选评价对象聚类从而提取出评论语料库中所涉及的隐式评价对象,以及评价对象特征词集合。

(6)特征词权重计算

根据训练语料对步骤5得出的隐式评价对象特征词集合中的各个元素,按照公式(3)进行特征词权重计算。

(7)隐式评价对象识别

根据公式(5)提取出实验语料中评论子句的隐式评价对象。

4 实验数据与分析

4.1 实验数据

本实验从大众点评网(http://www.dianping.com)下载了关于北京、大连、厦门、鞍山4 个城市的10 家餐馆的1 135 条评论,作为测试集进行实验,评论语料分布如表2 所示。

表2 评论语料

4.2 实验结果

对评论语句进行语句分割后得到5 684 条评论子句,其中有1 624 条子句是陈述事实等与分析无关的评论子句,根据构建候选评价对象模型的3 条规则对剩余的有价值的评论子句进行候选评价,对象建模后得出3 732 个候选评价对象。

4.2.1 特征词扩充对比

为了验证本文针对评论文本内容短、稀疏性高的特点,提出的特征词扩充技术能否有效提高聚类效果,进行此项实验。将根据评论子句构建的候选评价对象数据集1 与根据HowNet 义原扩充特征词集合的候选评价对象数据集2 进行比较,来测评两类数据集的聚类效果。由于人们关心的餐馆特征一般在7 个左右,所以预分类的聚簇数K值在范围[4,14]中进行实验,对于聚类效果的评估采用整个聚类结果的平均纯度purityavg(D)作为评价指标,purityavg(D)值越大说明一个聚类中仅包含一个类别的数据的程度越高。图2 给出了在数据集1 和数据集2 上分别进行分裂的层次聚类的结果。

图2 在数据集1和数据集2上分别进行分裂的层次聚类的结果

4.2.2 聚类结果对比

本文的方法对3 732 个候选评价对象按照k-means聚类算法对选取的不同聚簇数K聚类,最终将各个聚簇中心作为评价对象,结果如表3 所示。

4.2.3 评估隐式评价对象提取

为了验证本文提出的隐式评价对象方法反映用户观点的全面性和准确性,除了采取了文本处理问题研究中普遍使用的性能评估指标:查全率recall和查准率precision之外,还添加了绝对偏差值MAE作为度量标准。绝对偏差值MAE是通过计算系统识别出的隐式评价对象与手工标注的隐式评价对象之间的偏差来度量分析的准确性,MAE值越小分析质量越高。对于隐式评价对象Ai的查全率、查准率和绝对偏差值的计算方法如公式(6)、(7)、(8)所示,公式中的参数如表4 所示。

对于实验数据在选取不同聚簇数K,即不同隐式评价对象数量下进行隐式评价对象提取的查全率、查准率和绝对偏差值的实验,结果如表5。

图2 显示随着聚簇数K值得不断增加,聚类结果的平均纯度purityavg(D)也随之上升,虽然K值越大聚类结果的纯度就越大,但是根据表3 聚类结果显示当K值增加到9 时聚类之间的相似度也在随之的增加,本文算法的查全率随之上升但是查准率在不断降低,绝对偏差值却在一再的升高。因此,在K的选择上不仅要考虑k-means 聚类过程结果的平均纯度,还要结合类间相似度,以及Recall和Precision二者的平衡点选择最优的K值。

表3 k-means聚类结果

表4 参数列表

表5 隐式评价对象提取测评表

5 结束语

本文利用分类算法实现了一个商品隐式评价对象提取的系统,可分为候选评价对象提取,利用k-means 算法对候选评价对象聚类,特征词权重计算和隐式评价对象识别4 部分,结合用户在网上发表的评论进行训练得出每个特征词的指示能力,并根据特征词的指示能力对实验语料进行评估。实验结果表明本研究方法是合理有效的,但是实验结果受候选评价对象提取的影响很大。下一步,可以结合其他方法改进候选评价对象提取的方法,从而提高整个隐式评价对象识别方法的准确性。

[1] Popescu A M,Etzioni O.Extracting product features and op inions from reviews[C]//Proceedings of HLT-EMNLP 2005,2005:339-346.

[2] Hu Minqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of the 19th National Conference on Artificial Intellgience,San Jose,USA,2004.

[3] 刘鸿宇,赵妍妍,秦兵,等.评价对象抽取及其倾向性分析[J].中文信息学报,2010,24(1):84-88.

[4] 李实,叶强,李一军,等.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009,12(2):142-152.

[5] 潘宇,林鸿飞.基于语义极性分析的餐馆评论挖掘[J].上海:计算机工程,2008,34(17):208-210.

[6] Hu Minqing,Liu Bing.Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New Yorks:ACM Press,2004:168-177.

[7] 任江涛,孙婧昊,施潇潇,等.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26:73-75.

[8] 姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79.

[9] HowNet.HowNets Home Page[EB/OL].[2013-08-15].http://www.keenage.com.

[10] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].北京:软件学报,2008,19(1):48-61.

[11] 刘群,李素建.基于《知网》的词汇语义相似度的计算[C]//第三届汉语词汇语义学研讨会,中国台北,2002:59-76.

[12] 游彬,严岳松,孙英阁,等.基于HowNet 的信息量计算语义相似度算法[J].计算机系统应用,2013,22(1):129-133.

[13] 肖婷,唐雁.改进的卡方统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136-140.

[14] 郑力明,易平.基于HTMLParser 信息提取的网络爬虫设计[J].微计算机期刊,2009,25(3):67-69.

[15] 赵妍妍,秦兵,车万翔,等.基于句法路径的情感评价单元识别[J].软件学报,2011,22(5):887-898.

猜你喜欢
子句特征词语料
命题逻辑中一类扩展子句消去方法
命题逻辑可满足性问题求解器的新型预处理子句消去方法
基于改进TFIDF算法的邮件分类技术
西夏语的副词子句
产品评论文本中特征词提取及其关联模型构建与应用
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
命题逻辑的子句集中文字的分类
面向文本分类的特征词选取方法研究与改进
《苗防备览》中的湘西语料