基于上下文特征分类的评论长句切分方法

2015-11-04 06:19金培权岳丽华胡玉娟殷凤梅
计算机工程 2015年9期
关键词:文法标点标点符号

陈 鸿,金培权,岳丽华,胡玉娟,殷凤梅

(1.合肥师范学院公共计算机教学部,合肥230091;2.中国科学技术大学计算机科学与技术学院,合肥230027)

基于上下文特征分类的评论长句切分方法

陈 鸿1,金培权2,岳丽华2,胡玉娟1,殷凤梅1

(1.合肥师范学院公共计算机教学部,合肥230091;2.中国科学技术大学计算机科学与技术学院,合肥230027)

商品评论文本对消费者和商家的决策都有重要参考价值。用户在评论中使用的语言较为随意,语法结构不规则,给文本分析带来很大难度。正确的句子切分是文本信息抽取和挖掘工作的基础。为解决商品评论中用户省略标点情况下的句子切分问题,基于上下文特征,提出使用机器学习的方法对评论长句进行切分。根据大规模评论语料的统计特征选取候选句子切分点,对每一个候选句子切分点提取其上下文特征,并根据语料的统计特征,使用逻辑回归对候选切分点进行分类。实验结果表明,该方法能够有效解决商品评论中用户省略标点情况下的句子切分问题。

句子切分;标点省略;机器学习;上下文特征;N元文法;逻辑回归

1 概述

商品评论作为用户和用户以及用户和商家间的一种沟通工具,对用户和商家的决策都有重要的参考价值。对商品评论的观点句识别、情感分析[1]等研究工作也进行了很长时间。现有针对商品评论的研究工作在基于句子切分正确的基础上,即假设输入为经过切分并且正确切分的句子。然而在很多电子商务网站上,用户的商品评论具有语言风格较为随意、语法结构不规则等特点,而其中一个重要方面就是标点符号的省略,例如:“这款彩电画质很好音效也很不错但是价格偏贵”,“衣服很漂亮价钱也很便宜很符合我的品味我很喜欢”。第1个句子由3个子句组成(即“这款彩电画质很好”,“音效也很不错”和“但是价格偏高”),而第2个句子由4个子句组成(即“衣服很漂亮”,“价钱也很便宜”,“很符合我的口味”和“我很喜欢”)。标点符号的省略对句子的切分造成了很大的影响,传统的基于标点符号的句子切分方法在这种情形下无法适用。而句子切分的不准确也对之后的研究工作产生很大影响。

目前的汉语句子切分研究工作中,绝大部分工作都是基于标点符号的切分,这种简单的切分方法主要是为了提高之后词语切分和词性标注[2-4]以及更为复杂的抽取和挖掘工作的准确率,而对于标点省略情况下的句子切分工作研究很少。目前针对句子切分的研究集中在少数民族语言[5-8]和一些特定的应用领域,比如古汉语句子切分[9-11]。文献[9]利用词汇和模式在农业古籍上取得了0.48的断句准确率和0.36的标点准确率。文献[10]采取N元文法在《论语》上取得了0.638的断句F1分数值,而文献[11]使用在现代汉语分词中取得成功的条件随机场模型,并引入互信息和t-测试差2个统计量作为特征,在《论语》上取得了0.762的断句F1分数值和0.621的标点F1分数值;在《史记》上取得了0.682的断句F1分数值和0.531的标点F1分数值。

古汉语的句子切分和现代汉语的句子切分研究有所不同,现在汉语的分词和词性标注研究时间较长,可以使用上下文的词袋和词性特征进行句子切分。

针对不存在标点情况下的句子切分问题,本文提出使用机器学习的方法对长句进行切分。将句子切分问题定义为一个二分类问题,首先对大规模的评论文本语料提取其统计特征,根据这些统计特征,对于一个不含终结符号的评论长句,抽取长句的候选切分点集合。其次对每个候选切分点,根据大规模评论语料的统计特征提取句子的上下文词袋文法特征以及上下文词性特征,并抽取候选切分点前后的长度和词性数量特征,最后使用逻辑回归分类器对候选切分点进行分类,判断其是否为切分点。

2 句子切分方法框架

本文方法框架如图1所示。

图1 句子切分方法框架

切分方法的实现包括如下步骤:

(1)大规模评论语料统计特征抽取

首先在大规模商品评论语料中抽取标点符号上下文的词袋n-gram模型和上下文n元词性模型,这2个模型将用于接下来的候选切分点抽取以及候选切分点二分类的特征抽取。

(2)候选切分点抽取

对于一个待切分的句子,首先使用中科院分词系统NLPIR进行分词和词性标注。对标注结果词序列中的每2个连续词,使用统计特征判断这2个词之间是否存在一个候选切分点,若统计特征大于一定阈值,则将这2个词之间标记为一个候选的切分点,注意到一个待切分句子中可能会存在多个候选切分点。

(3)候选切分点特征抽取

对于一个待切分句子中的每一个切分点,抽取它的上下文特征,作为下一步分类的特征输入。方法的特征主要包含2类:基本的上下文特征,比如候选切分点前后的词性数量统计、长度统计,以及抽取的上下文的语料统计特征。

(4)候选切分点分类

对于抽取的特征,使用逻辑回归分类器对每一个候选切分点进行分类。

3 评论语料的统计特征抽取

3.1 评论语料

使用某电子商务网站提供的商品评论语料数据集。该数据集总共包含2×106条左右的商品评论文本。将该评论语料分为2个部分,即训练语料和测试语料。鉴于工作目的,测试评论语料中的评论文本必须符合以下2个要求:(1)评论文本的字符长度大于10;(2)评论文本中不含任何标点符号。

提出这2个要求的原因是,长度大于一定值并且其中不含标点符号的句子很大可能是由于用户省略了标点符号,因此这些句子符合工作的出发点。

与此同时,在抽取训练文本语料时,忽略掉那些长度小于10并且文本中不含任何标点的文本。

3.2 统计特征抽取

在训练语料中抽取统计特征,这些统计特征主要包括2个方面:词袋特征和词性特征。将这些特征总结为如表1所示。为了抽取下述特征,使用中科院分词工具NLPIR对评论文本进行分词和词性标注。还进行了一些预处理操作,比如将连续的相同标点符号简化成只有一个标点(比如“。。。。。。。”化简为“。”)。在工作中,句子切分的标点符号包括终结标点符号(比如“。”、“!”、“?”等)以及用户在评论文本中常用的符号(比如空格、“~”等)。

表1 评论语料统计特征

抽取统计特征的基本假设是:在训练文本中,终结标点符号前后出现的词袋序列组合以及词性序列组合具有一定的概率分布,对于训练语料中的每条评论文本,抽取文本中每个终结标点符号前后的词袋和词性统计规律。

(1)词袋特征:表1中的一元(二元)文法为分词后得到的词袋序列中连续1个(2个)词的组合,而标点符号前后的一元(二元)文法组合为标点符号前的一元(二元)文法和标点符号后的一元(二元)文法的组合。以分词后得到的序列:“衣服/n很/d好看/a。/w j价格/n也/d很/d便宜/a”为例,在该句子中存在着一个终结标点符号,即句号“。”。句号前的一元文法为<好看>,句号前的二元文法为<很,好看>,而句号后的一元文法为<价格>,句号后的二元文法为<价格,也>。那么该句号前后的一元文法组合为<好看,价格>,二元文法组合为<很,好看,价格,也>。由于时间和空间复杂度的限制以及效果提升的不明显,并未抽取三元文法的特征。

词袋特征中的文法标点共现概率可由式(1)描述:

其中,Ngrami可为某个具体的一元文法组合或者二元文法组合;分子#(Ngrami,Punc)为文法组合i和标点符号在语料库中共同出现的次数;分母#Punc为终结标点符号在语料库中的出现次数。该特征描述的是一个文法组合在标点符号前后出现的概率。

词袋特征中的文法标点概率可由式(2)描述,其中分母#Ngrami为一个文法组合在语料库中的出现次数。该公式描述的是对于某个具体的文法组合Ngrami,该文法组合出现在终结标点符号前后的次数与文法组合出现总次数的比值。

(2)词性特征:除了词袋特征之外,标点符号前后的词性对一个候选切分点是否为切分点也有重要的影响。在表1所列出的特征中,一(二、三)元词性为连续的一(二、三)个词性的序列,而标点前后的词性组合则类似词袋特征中的文法组合,在此不再赘述。值得注意的是在本文方法中,对于每一个词性,只保留它的根类,例如对于不同的名词/ns,/nr,/nt,只保留根类词性/n作为该词的词性,这个做法可以极大地减小模型的复杂度。还是以分词后得到的序列:“衣服/n很/d好看/a。/w j价格/n也/d很/d便宜/a”为例,在该句中,对于句号的上下文,得到的一元词性组合为<a,n>,二元词性组合为<d,a,n,d>,三元词性组合为<n,d,a,n,d,d>。词性的字典大小比词袋的字典大小小很多,本文方法中抽取的最长词性组合为三元。

词袋特征中的词性标点共现概率可由式(3)描述:

其中,POSSeqi可为一元词性组合或者二元词性组合;分子#(POSSeqi,Punc)为词性组合i和标点符号在语料库中的共现次数;分母#Punc为标点符号在语料库中的出现次数。该特征描述的是一个词性组合在标点符号前后出现的概率。

词袋特征中的文法标点概率可由式(4)描述,其中分母#POSSeqi为一个文法组合在语料库中的出现次数:

4 候选切分点和分类特征抽取

对于一个给定的待切分长句,首先根据第2节中得到的语料统计特征选取候选切分点,然后对每个切分点抽取相应的分类特征。

4.1 候选切分点

若以一个句子中的所有可切分点作为候选切分点,则一个长度为N的句子中会存在N个候选切分点,而实际上一个评论句子中的子句数量远小于N,因此,这种做法是不可取的。选取候选切分点的方法基于第2节中得到的语料统计特征,选取上下文词袋和词性组合在统计特征中概率较大的作为候选切分点。具体的方法由如下算法所示。

算法 候选分割点提取算法

输入 待切分句子text,评论语料统计特征

输出 候选切分点集合candidateSet

以分词后得到的序列:“这/rzv款/q彩电/n画质/n很好/anew音效/n也/d很/d不错/a但是/c价格/n偏/d贵/a”为例,对每2个相邻的词(例如“这”和“款”、“款”和“彩电”、“彩电”和“画质”等),判断这2个词之间是否为一个候选切分点。首先根据第2节中的语料统计特征得到每2个相邻词的统计特征值(由前所述,总共10个特征值),对于这10个特征值,若其中有一个特征值排在该特征值所有值大小的前K(K=500)位,则将这2个相邻词中间的坐标点加入候选切分点集合中。对于上面的例句,得到了2个切分点,即“很好”和“音效”、“不错”和“但是”。

4.2 分类特征抽取

对于每个切分点,提取了2大类特征作为分类器的输入,这2类特征为方法框架图中所示的上下文基本特征和上下文语料统计特征。上下文语料统计特征即为第2节中所述的切分点前后词袋和词性特征,而上下文基本特征如表2所示。

表2 上下文基本特征

基本的上下文特征包括候选切分点前后的句子长度与句子总长度的比值,以及候选切分点前后的名词、动词、形容词数量与候选切分点前后的总词数量的比值。抽取这2类特征首先因为终结符号的出现与其在句子中的位置有很大关系,其次作为断句标志的终结符号,其前后部分作为一个完整的句子应该含有一定数量的名词、动词、形容词作为句子成分(主语、谓语、宾语等)的描述,因此抽取候选切分点前后的名词、动词、形容词数量与前后的句子总次数作为特征。最后,得到这2组特征,并使用逻辑回归分类器[12]对每个候选切分点进行分类。

5 实验结果与分析

5.1 数据集

在前文中描述的评论语料中抽取训练数据和测试数据。选取长度大于10并且句子中含有终结符号的句子作为训练语料。对于训练语料中的每一个句子,可以得到多个正样本和多个负样本。首先使用分词工具NLPIR对句子进行分词,在得到的词序列w1,w2,…,wn-1,wn中,若wi为终结符号,在i位置产生一个正样本;否则,对于2个均不为终结符号的词袋wi-1,wi,在i位置产生一个负样本。

选取长度小于等于10并且句子中不含有标点符号的句子作为测试语料。对于测试语料中的每一个句子,可以得到多个测试样本。在分词后的词序列w1,w2,…,wn-1,wn中,对于每2个词袋wi-1,wi,使用3.1节中的方法判断2个词袋中间的i位置是否为一个候选切分点,若i位置为候选切分点,则在i位置产生一个测试样本。

5.2 实验结果

在测试语料上随机选取了500条商品评论进行测试。评测标准有2种:(1)基于切分点的评测,即在一个未切分的长句中,可能会存在多个切分点,基于切分点的评测方法统计的是所有切分点的精确率、召回率和F测量值;(2)基于句子的评测,即统计所有句子完全切分正确(包括对所有应该切分的切分点的正确切分和对所有不该切分的点的不切分)的准确率。其中,基于切分点的精确率、召回率、F测量值分别为70.5%,56.1%,62.5%,基于句子的准确率为68.0%。

在2种评测标准下的准确率达到了70%左右,这在用户省略标点并且带有许多新词、口语等噪声的商品评论语料上是一个不错的结果,实验结果稍有不足的是召回率不高,这也是今后工作的研究重点。

将语料统计阈值K对实验结果的影响进行了对比,表3是不同K值下的实验结果,其中的所有实验均使用全部特征。可见,基于切分点的召回率随着K值的增大而增大,而准确率大体相反,综合不同K值的情况,选取了K=500的实验结果作为最好的结果。

表3 不同语料统计阈值结果对比

针对不同特征对于实验结果的影响也进行了对比,表4为选取不同特征时的实验结果。其中,第1组特征为仅使用评论语料统计特征,第2组特征为仅使用上下文基本特征,第3组为使用词性特征,第4组为使用词袋特征和长度特征,而第5组为使用所有特征。表4的结果表明,使用所有特征(第5组)时得到的实验结果最好。

表4 不同特征实验结果对比%

6 结束语

本文使用基于上下文特征的方法,研究用户商品评论文本中标点符号缺失情况下句子切分的问题。由于在标点符号缺失的情况下传统基于标点符号的句子切分方法不适用,因此本文提出了使用机器学习的方法进行句子切分。根据大规模的商品评论语料统计特征,对每一个候选的切分点,抽取候选切分点的上下文文法特征和上下文词性组合统计特征,与此同时,还加入了切分点前后的长度和词性数量特征。使用逻辑回归分类器对每个候选切分点进行分类,以判断该候选切分点是否为一个真正的句子切分点。实验证明本文方法能够有效解决商品评论中用户省略标点情况下的句子切分问题。下一步工作旨在提高切分句子的召回率,并对断句之后的子句进行信息抽取。

[1] Pang Bo,Lee L.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval,2008,2(1/2):1-135.

[2] 刘 群,张华平,俞鸿魁,等.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429.

[3] 周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809.

[4] 俞鸿魁,张华平,刘 群,等.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94.

[5] 李 响,才藏太,姜文斌,等.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44.

[6] 艾山·吾买尔,吐尔根·依步拉音.维吾尔语句子边界识别算法的设计与实现[J].新疆大学学报:自然科学版,2008,25(3):360-363.

[7] 艾山·吾买尔,吐尔根·依步拉音.基于最大熵的维吾尔语句子边界识别模型[J].计算机工程,2010,36(6):24-26.

[8] 艾山·吾买尔,吐尔根·依步拉音.统计与规则相结合的维吾尔语句子边界识别[J].计算机工程与应用,2010,46(14):162-165.

[9] 黄建年,侯汉清.农业古籍断句标点模式研究[J].中文信息学报,2008,22(4):31-38.

[10] 陈天莹,陈 蓉,潘璐璐,等.基于前后文n-gram模型的古汉语句子切分[J].计算机工程,2007,33(3):192-196.

[11] 张开旭,夏云庆,宇 航.基于条件随机场的古汉语自动断句与标点方法[J].清华大学学报:自然科学版,2009,49(10):1733-1736.

[12] Hosmer D W,Lemeshow S,Sturdivant R X.Introduction to the Logistic Regression Model[M].Hoboken,USA:John W iley&Sons,Inc.,2000.

编辑 顾逸斐

Comment Long Sentence Segmentation Method Based on Contextual Feature Classification

CHEN Hong1,JIN Peiquan2,YUE Lihua2,HU Yujuan1,YIN Fengmei1
(1.Department of Public Computer Studies,Hefei Norm al University,Hefei 230091,China;2.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)

Product reviews can help both businesses and consumers make better decisions.The arbitrary nature and irregular grammer structure of user published review makes it difficult for further textual analysis.Aim ing at resolving the problem of long sentence segmentation when users om it punctuations,entence segmentation is the foundation of the follow ing text information extraction and textmining work.Since the traditional punctuation-based methods do not work well in this condition,it proposes a machine learning based method to solve this problem.It first extracts candidate segmentation point based on statistical feature of large-scale product review corpus.Then for each candidate segmentation point,its contextual features are extracted as well as the statistical features of product review corpus and employ logistic regression to classify the candidate point.Experimental results show that this method can im prove the performance of sentence segmentation when user om its punctuations.

sentence segmentation;puntuation omitting;machine learning;contextual feature;N-gram;logistic regression

陈 鸿,金培权,岳丽华,等.基于上下文特征分类的评论长句切分方法[J].计算机工程,2015,41(9):233-237,244.

英文引用格式:Chen Hong,Jin Peiquan,Yue Lihua,et al.Comment Long Sentence Segmentation Method Based on Contextual Feature Classification[J].Computer Engineering,2015,41(9):233-237,244.

1000-3428(2015)09-0233-05

A

TP311

10.3969/j.issn.1000-3428.2015.09.043

合肥师范学院青年基金资助项目(2015QN06)。

陈 鸿(1984-),女,助教、硕士研究生,主研方向:搜索引擎,自然语言处理;金培权,副教授;岳丽华,教授、博士生导师;胡玉娟,教授;殷凤梅,讲师。

2014-08-18

2014-10-20 E-m ail:chenho@mail.ustc.edu.cn

猜你喜欢
文法标点标点符号
标点可有可无吗
《辽史》标点辨误四则
关于1940 年尼玛抄写的《托忒文文法》手抄本
小小标点真厉害
我们班的“标点符号”
Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
标点符号争吵记
标点符号的争论
A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
文法有道,为作文注入音乐美