基于卡方特征选择和LDA主题模型的中文短文本分类

2014-07-18 00:49郑诚熊大康刘倩倩

电脑知识与技术 2014年13期

郑诚　熊大康　刘倩倩

摘要：中文短文本自身包含词汇个数少、描述信息能力弱，常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况，造成算法效率低，而且一般用于长文本分类的特征选择方法都是基于数理统计的，忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法，方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展，以达到将数理信息和语义信息融入分类算法的目的。对比试验表明，这种方法提高了中文短文本分类效果。

关键词：短文本分类特征选择主题模型

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2014）13-3182-04

The Short Text Classification Method Based on CHI Feature Selection and LDA Topic Model

ZHENG Cheng， XIONG Da-kang， LIU Qian-qian

（School of Computer Science and Technology， Anhui University， Hefei 230039，China）

Abstract： Chinese short texts contain few words and describe weak signals. the common text classification methods dont performs well for the short text. In Vector Model， the dimension of the document vector is huge. The huge vector leads to inefficient algorithms. The traditional feature selection methods are based on the mathematical statistics， ignoring the semantic relationship between terms from text. Then a method based on CHI feature selection and LDA topic model is introduced to classify Chinese short texts. In this method， the result of the LDA topic model is applied to extend the features of data set， which can make classification algorithm contains mathematical statistics and semantic information. The experiment result shows that the method in this paper improves the effect of text classification.

Key words： short text classification；feature selection；topic model

自然语言处理中的主题模型起源于Deerwester等人在1990年提出的隐性语义索引（Latent Semantic Indexing，LSI）[1]，它为主题模型的发展奠定了基础。1999年Hofmann在LSI的基础上提出了概率隐性语义索引（probabilistic Latent Semantic Indexing，pLSI）[2]，这是一个真正意义上的主题模型。在pLSI的基础上Blei等人在2003年将其扩展得到更为完全的概率生成模型LDA（Latent Dirichlet Allocation）[3]。LDA主题模型可以用于提取文本隐含主题信息[4]，因此在文本分类领域受到广泛的关注，越来越多的研究人员对LDA模型进行改进并提出了Labeled-LDA、Link-PLSA-LDA等文本分类模型[5-6]。除了LDA模型，Xiaohui Yan等人提出了用于短文本分类的BTM（Biterm Topic Model）[7]模型，取得了较好的分类效果。

目前，短文本分类的一种流行方法是利用一些额外的信息来辅助分类，引入额外信息的目的是是挖掘短文本所表达的信息。例如王鹏[8]等利用依存关系抽取词扩充短文本特征；宁亚辉[9]等借助知网提出基于领域词语本体的短文本分类；徐盛[10]等利用知网上下位关系扩展短文本特征。以上方法都需要大规模背景知识库或语料，处理大规模背景语料费时费力，同时背景知识库更新慢、可扩展性差，难以适应网络短文本词汇新颖、专业的特点。

提高文本分类效果最重要的是如何提取文本特征，常用的特征提取方法有文档频率（DF）、互信息（MI）、信息增益（IG）[11]、卡方统计（CHI）[12]等等，大量的实验和研究显示CHI方法的特征选择效果好于其他的方法，因此本文使用CHI方法。LDA模型可以用于挖掘词与词之间的隐含语义关系。该文提出了基于卡方特征选择和LDA主题模型的方法，在此基础上使用SVM[13]进行分类，并与BTM[14]的实验结果进行比较。

本文组织如下：第2节介绍CHI特征选择方法；第3节介绍LDA主题模型和BTM模型；第4节介绍本文提出的短文本分类方法实验过程并分析实验结果；最后总结全文并展望下一步工作。

1 CHI特征选择

CHI用于衡量特征词t和类别[ci]之间的关联程度，方法假设特征t和类别[ci]之间的非独立关系类似于具有一维自由度的[χ2]分布，t对于[ci]的CHI值计算如公式（1）所示：endprint

[χ2（t，ci）=N×（A×D-C×B）2（A+C）×（B+D）×（A+B）×（C+D）] （1）

公式中，N表示训练语料中的文档总数，[ci]表示类别，t表示特征词，A表示属于[ci]类且包含t 的文档频数，B表示不属于[ci]但包含t 的文档频数，C表示属于[ci]但是不包含t 的文档频数，D是既不属于[ci]也不包含t的文档频数。[χ2（t，ci）]值越高表示t和[ci]的相关度越大，[χ2（t，ci）]值为0表示t和[ci]不相关。

2 LDA模型和BTM模型

2.1 LDA主题模型

LDA模型是一个三层次的概率模型即“文档-主题-词项”，是对文本中隐含主题的一种建模方法，属于生成模型。它将文档表示成主题的概率分布，主题表示成词的概率分布。LDA模型如图1所示：

图1 LDA模型图

图中M表示语料库中文本个数，L表示一篇文本的长度，z表示主题，[ω]表示词项，[α]、[β]是超参数，其中[β]是个k×V的矩阵，k为主题个数，V是词项的数目，[βij]表示第i个主题下第j个词项的概率，[θ]表示文档的主题概率分布。

LDA主题模型的基本思想是随机生成一篇有N个词项组成的文档，每个词项以一定的概率选择一个主题，并从这个主题中以一定的概率选择出来。

给定[α]和[β]，LDA模型用概率模型表示如公式（2）所示：

[P（θ，z，w|α，β）=P（θ|α）n=1NP（zn|θ）P（wn|zn，β）] （2）

整个语料库的概率如公式（3）所示：

[P（D|α，β）=d=1Mp（θd|α）（n=1Ndzndp（znd|θd）p（wdn|znd，β））dθn] （3）

其中D表示文档集合，[Nd]表示第d篇文档的长度，[θd]表示第d篇文档的主题概率分布，[wdn]表示第d篇文档的第n个单词，[znd]表示第d篇文档的第n个单词的主题。

2.2 BTM模型

BTM模型表示如图2所示：

图2 BTM模型图

其中[θ]表示文档的主题概率分布，[?]表示主题下词的概率分布，Z表示主题，|B|表示生成的biterm的个数，K表示主题个数，[Wi]和[Wj]表示抽取出来的词对。

每一个biterm[b=（Wi，Wi）]的联合概率如公式（4）所示：

[P（b）=zP（z）P（wi|z）P（wj|z）=zθz?i|z?j|z] （4）

整个biterm集合的概率如公式（5）所示：

[P（B）=（i，j）zθz?i|z?j|z] （5）

3 实验过程及结果

3.1 实验数据

实验中使用的数据集是由数据堂下载的百度知道问题数据集。数据集中包含电脑/数码、教育/科学、娱乐、地区、体育/运动等14个大类，各类别包含问题个数差距比较大，最少的一类是品牌专区类，只有五个。鉴于我们需要训练及测试用的短文本数量较大，所以选择电脑/数码、教育/科学、娱乐、地区四个类别各2000篇，其中1500篇作为训练数据，其余500篇作为测试数据。

3.2 硬件环境及实验平台

实验环境如表1所示。

表1 实验环境

[CPU＼&Intel（R） Core（TM） i5＼&内存＼&4.00GB＼&编程语言＼&JAVA＼&IDE＼&Eclipse＼&]

3.3 实验评价指标

对于文本分类的效果采用3种常规指标进行评估[15]：准确率（Precision，P），召回率（Recall，R），[F1]值（F-measure，[F1]）。

3.4 实验结果

BTM模型做短文本分类随着主题数目的增加分类性能不断变化，在主题数为20时分类准确率达到最高，结果如图3所示。

图3 BTM模型在不同主题个数下分类性能

使用基于卡方特征选择和LDA主题模型的方法，分类性能随着主题数目的增加变化，在主题数目为30时分类结果准确率最高，结果如图4所示：

图4 LDA模型在不同主题个数下分类性能

BTM模型在主题数为20，LDA模型在主题数为30的情况下，电脑/数码、教育/科学、娱乐、地区四个类别的实验结果如表2所示。

表2 两种方法在各个类别上的分类结果

[类别＼&BTM＼&CHI+LDA＼&准确率（%）＼&召回率（%）＼&F1（%）＼&准确率（%）＼&召回率（%）＼&F1（%）＼&电脑/数码＼&0.747＼&0.586＼&0.657＼&0.787＼&0.680＼&0.725＼&教育/科学＼&0.554＼&0.408＼&0.470＼&0.729＼&0.666＼&0.696＼&娱乐＼&0.441＼&0.762＼&0.559＼&0.567＼&0.620＼&0.592＼&地区＼&0.538＼&0.406＼&0.463＼&0.579＼&0.652＼&0.589＼&]

从上表中可以看出，在所有类别中，基于卡方特征选择和LDA模型的方法比使用BTM模型的方法各项指标均有提高，分类结果较为理想。

4 结束语

本文使用了基于卡方特征选择和LDA主题模型相结合的方法进行短文本分类，解决了传统特征选择方法无法描述语义信息以及短文本长度短、描述信息能力弱的问题，使用LDA模型的训练结果对特征选择结果进行特征扩展，并用SVM分类器进行分类。并且和最近流行的用于短文本分类的BTM模型的实验结果进行比较。实验结果表明基于卡方特征选择和LDA主题模型的分类方法在提高了分类效果，这表明将语义信息加入特征确实能够提高分类效果，因此如何更加精确地表示隐含的语义特征并将其应用于信息检索、社会计算等领域是下一步需要研究的工作。

参考文献：

[1] Deerwester S C， Dumais S T， Landauer T K， et al. Indexing by latent semantic analysis[J]. JASIS， 1990， 41（6）： 391-407.

[2] Hofmann T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. ACM， 1999： 50-57.

[3] Blei D M， Ng A Y， Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research， 2003， 3： 993-1022.

[4] 徐戈，王厚峰. 自然语言处理中主题模型的发展[J]. 计算机学报， 2011， 34（8）： 1423-1436.

[5] 李文波，孙乐，张大鲲. 基于 Labeled-LDA 模型的文本分类新算法 [J]. 计算机学报， 2008， 31（4）： 620-627.

[6] Nallapati R， Cohen W W. Link-PLSA-LDA： A New Unsupervised Model for Topics and Influence of Blogs[C]//Proceedings of the International Conference for Weblogs and Social Media. Seattle，Washington，USA，2008.

[7] Yan X， Guo J， Lan Y， et al. A biterm topic model for short texts[C]//Proceedings of the 22nd international conference on World Wide Web. International World Wide Web Conferences Steering Committee， 2013： 1445-1456.

[8] 王鹏，樊兴华. 中文文本分类中利用依存关系的实验研究[J]. 计算机工程与应用， 2010， 46（3）： 131-133.

[9] 宁亚辉，樊兴华，吴渝. 基于领域词语本体的短文本分类[J]. 计算机科学， 2009， 36（3）： 142-145.

[10] 王盛，樊兴华，陈现麟. 利用上下位关系的中文短文本分类[J]. 计算机应用， 2010 （003）： 603-606.

[11] 郭亚维，刘晓霞. 文本分类中信息增益特征选择方法的研究[J]. 计算机工程与应用，2012，48（27）： 119-122.

[12] 裴英博，刘晓霞. 文本分类中改进型 CHI 特征选择方法的研究[J]. 计算机工程与应用，2011，47（4）： 128-130.

[13] CRISTIANINI N， TAYLOR J S. An introduction to support vector machines and other kernel-based learning methods[M]. Translated by LI Guo-zheng， WANG Meng， ZENG Hua-jun. Beijing： Publishing House of Electronics Industry， 2004.

[14] Yan X， Guo J， Lan Y， et al. A biterm topic model for short texts[C]//Proceedings of the 22nd international conference on World Wide Web. International World Wide Web Conferences Steering Committee， 2013： 1445-1456.

[15] 宋枫溪，高林. 文本分类器性能评估指标[J]. 计算机工程， 2004， 30（13）： 107-109.endprint