基于VSM和LDA混合模型的文本聚类研究

2018-02-02 05:39刘晓蒙熊海涛

电脑知识与技术 2018年1期

刘晓蒙+熊海涛

摘要：在当今的时代，网络文本的数量正在迅速增长。文本的分析仍然是当今一个热门话题。由于传统的VSM模型在使用时会出像数据的纬度太高，缺乏对潜在语意理解等问题，导致最终的聚类结果的精确度不够高。鉴于此，提出了VSM和LDA的文本聚類的混合模型，通过对文本的处理，筛选，统计的方法得到特征词权重的集合，随后分别计算VSM模型和LDA模型相似度，通过将两个相似度进行线性相加的方法相结合，得到混合相似度，然后通过K-means算法进行文本聚类，分别得到VSM模型、LDA模型和混合模型的聚类结果，通过统计与分析得到最后的实验结果。实验结果表明，该混合模型是有效。

关键词：聚类；相似度； LDA； VSM； K-means

中图分类号：TP312 文献标识码：A 文章编号：1009-3044（2018）01-0035-04

Abstract：In today's world， the number of online texts is rapidly growing. Text analysis is still a hot topic today. As the traditional VSM model will appear as the data latitude is too high， the lack of potential semantic understanding and other issues， resulting in the accuracy of the final clustering results are not high enough. In view of this， a hybrid model of text clustering of VSM and LDA is proposed， and a set of feature weights is obtained through text processing， screening and statistics， and then the similarity between the VSM model and the LDA model is calculated respectively. Degree of linear sum of the method to get mixed similarity， and then through the K-means algorithm text clustering， respectively， the VSM model， LDA model and the hybrid model of the clustering results obtained by statistical analysis and the final experimental results. Experimental results show that the hybrid model is effective.

Key words： Clustering； Similarity； VSM； LDA； K-means

1 概述

随着21世纪科技的飞速发展，人们日常生活中的信息呈现一种爆炸式的增长方式，同时大量的信息开始堆积。对于这些大规模且无序的文本信息，如何挖掘出其中的最有价值的信息一直是自然语言处理领域的一个重点研究课题。作为一种无监督的学习方法，聚类[1-2]可以将大量未知文本信息按照一定的方式划分为最理想的簇。它使在同一个簇的对象尽可能的相似，不同集群簇中的对象尽可能地增加。通过从文本集合中找到这些信息的分布，就可以大规模的减少搜索的范围。最后通过筛选可以找到目标信息。

早期使用最多的文本模型是模型矢量空间模型（VSM），使用词作为特征项，使用TF-IDF值来加权特征词，将文本转换成一个，纬度高，稀疏性强的矩阵。虽然这种模型可以很方便地提取文本特征，但是问题也随之出现，高纬度和高稀疏性也产生了严重的效率问题，同时该模型在使用时也忽略了文本中潜在的含义，导致可能有内在联系的文本无法被发现，从而减少了信息的价值。

随着越来越多的研究者的对文本聚类的研究，近年来，已经有不少的研究这将潜在狄利克雷模型（LDA）用在文本聚类中。LDA模型的优点首先在于它具有极其丰富的内部结构，使用的是概率算法来训练模型。第二LDA可以起到很好的降维作用，适合大规模语料库。所以，LDA模型在许多领域都被使用[3-6]。在本文中，LDA模型用于对主题进行建模，并将语料库映射到每个主题空间，以便我们可以在文本中找到主题与单词之间的关系。然后获取文本的主题分布，并将分布用作传统向量空间模型中的特征值，以计算相似度。最后，获得文档集的相似矩阵，并将其聚类。由于LDA模型的优势，已经有不少的研究者提出了他们的方法。王鹏[7]等人提出使用JS作为文本相似度的距离，采用LDA模型进行聚类。李国[8]等人提出了一种基于加权LDA模型的方法进行聚类。王振振[9]等人提出不同主题内词语的分布作为特征项的聚类方法。胡秀丽等人提出将VSM模型与LDA模型相结合的方法[10]。本文针对以上所使用的方法，进行了进一步的改进，首先根据文档-主题分布和主题-词语的矩分布发掘出文本中的潜在的信息，分别计算二者的相似度，之后通过加权的方法得到LDA模型最终的相似度。之后通过改进TF-IDF的计算方式，提高VSM模型的相似度精确性，计算VSM模型相似度，之后再对两个模型的相似度进行加权，得到混合后的相似度。使用这种方法可以在考虑文本潜在信息的情况下充分的挖掘文本的价值，实验的结果表明本文所用的方法是有效的。

2 模型

2.1 Vector Space Model（VSM）endprint

在20世纪60年代末，Salton等人首次提出了向量空间模型（VSM）[5]。VSM模型具有完整和易于实施的特点，随后被广泛应用于相关领域。它以向量的方式表示文本。文档被描述成为一系列由关键词组成的向量。

每個文本被抽象成一个个单独的向量，可以用于判断一个文本是否是你最喜欢的文本。文档由许多关键词组成，每个单词都有一个权重。不同的单词根据文档中自己的权重影响文档。文本被转换之后，就可以用关键词来代替。当选择关键词时，应该选择具有代表性的关键词。其表现形式为：

文档 = {关键词1，关键词2， … ，关键词N}

文档向量 = {权重1，权重2，… ，权重N}

V（d）={ t1w1（d）；…tnwn（d）}

ti（i=1…n）是一系列不同的词，wi （d）是每个词在文档D中的权重。当选择特征词时，我们需要减小范围以选择代表性特征词。

2.2 TF-IDF

TF-IDF[11]是信息处理和数据挖掘中常用的加权技术。该方法基于统计学，用于计算语料库中单词的重要性。它的优点是可以过滤出一些常见但不重要的单词，并保留影响整个文本的最重要的单词。

通常，文档中的单词数量表示为单词频率，但是对于不同长度的文档集合的统计方法将导致一些误差。本文选择了标准化方法。这样做的优点在于它可以减少文档不同长度带来的错误。以下是公式：

tfi，j表示文档i中的第j个词。tfimax表示文档i中出现次数最多的词的数量统计。

2.3 Latent Dirichlet Allocation（LDA）

LDA模型由Blei[12]于2002年提出，它是一种概率生成模型，用于解决潜在语义分析的问题[13]。其基本假设是文本是由某些主题中选出的词所组成的，同时文本中的具体词可以反映具体主题。因此，LDA将每个文本视为文本集中几个主题的概率分布，并且每个主题被认为是所有关键词的概率分布。对LDA模型的描述为：

选择参数 θ ～p（θ）；

对于每个文本的词wn

选择一个主题 zn～p（z|θ）；

选择一个词 wn～p（w|z）；

α和β是语料级的参数。向量α反映隐性主题之间相对强度。矩阵β用于描述所有隐含主题的概率分布。θ是表示主题上每个文本分布的文本级别参数。w和z是字级参数。z表示主题的概率分布，w表示单词的分布。N表示字数，M表示文本数。

计算公式如下：

2.4 Gibbs Sampling（吉布斯采样）

在LDA模型中需要对参数进行大概的估计，而Gibbs抽样就是一种实用而且高效的抽样方法，它可以有效的从文本中抽取与文本相关的主题，且精确度也相当的不错，所以Gibbs抽样也就成为了LDA模型常用的抽样方法。

LDA模型最重要的两个参数分别是主题下的词的概率和每个文本中主题的概率。使用这种方法可以看成是产生文本的逆过程即先选择主题，然后再从主题中选择词，从而生成文本的过程。得到一篇文章的概率公式如下：

一旦确定每个单词的主题，可以在统计后计算参数。因此，参数估计问题成为主题的条件概率。

一旦获得每个单词的主题标签，参数计算公式如下：

Φk，t 代表特征词t在主题k中的概率。θm，k 代表主题k在文本m中的概率。

2.5 基于VSM和LDA的相似度计算

由于VSM模型在计算相似度时忽略了文本中的潜在语意，所以在进行聚类时会导致一定的误差，LDA模型则是可以将文档的潜在主题映射到词语的特征空间上，但在单独使用LDA模型进行聚类实验，LDA模型的精确度也无法达到一个令人满意的结果，所以本文在前人的研究的基础上提出一种更加的精确的VSM模型和LDA模型的混合相似度值计算方法。通过实验证明这种方法是有效的。

VSM模型：对于每个文档di。与TF-IDF权重的矢量表示相结合为di_v=（w1，w2，…，wn）。N表示VSM模型中选择的特征词。定义 Simv是VSM模型的相似度。相似度计算公式为：

LDA模型：同样采用TF-IDF计算权重，结合文档-主题，进行线性的加权，有效的提高相似度的质量。文档di的在主题-词的向量形式可以表示为：di_LDA1=（w1，w2，…wn），n为主题中选择的词数，计算方式如下：

文档di在文本-主题的向量表示为di_LDA2=（l1，l2，…ln）其中K代表主题数，相似度为Sim_LDA2，最终的相似度计算公式为：

λ是一个参数，表示文档-主题，主题-词在选择时的权重。

在分别得到VSM模型和LDA模型的相似度后，就可以进行最后一步，进行混合相似度计算，同样采用加权的方法。计算公式如下：

k 是一个参数。它表示这两个模型在选择时的权重。

3 实验步骤

在这部分我们将详细介绍聚类过程的实现，通过这部分介绍可以对实验的整个过程进行基本的了解。

l Step0，准备实验所需的相关材料，并安装配置所需的软件。

l Step1数据抓取和数据处理：我们使用文本材料是来自复旦语料，并使用Python软件进行正常处理。处理完毕后，我们可以获得文档集合。

l Step2计算所需数据：本部分的主要任务是为计算文档所需的数据建模。

n Step2.1 计算 TF-IDF

u Step2.1.1向量化文本，提取关键词，获取矩阵，统计TF值。

u Step2.1.2根据TF值和TF-IDF公式，得到最终的TF-IDF值。endprint

n Step2.2计算 Simv 和 Siml值

u Step2.2.1进行VSM和LDA的建模。

u Step2.2.2 Simv的值是根据步骤2.1中获得的数据和上述公式计算的。 Siml的计算与Simv的计算相似。这两个计算是相互独立的。

n Step2.3 计算混合相似度 Sim的值

u Step2.3.1根据步骤2.2获得的值，Sim的值根据上述公式计算。

l Step3该部分由步骤2中计算的数据聚类，并且将聚类的结果进行可视化处理以获得直观图。最后比较结果并得出结论。

n Step3.1使用K-means [14]算法进行聚类计算。

u Step3.2.1根据簇的数量将值分配给K值，然后运行算法。

u Step3.2.2根据标签对每个群集的文本数进行计数。获取聚类结果。

n Step3.2根据聚类结果，得到一个直观图。

n Step3.3进行多次实验以选择最佳效果。

n Step3.4研究人员进行结果描述并得出结论。

图2是该过程的直观显示。

4 实验结果分析

实验数据来复旦语料，皆为中文语料。它们是C3-Art，C5-Education，C11-Space和C16-Electronics。每种类型都有500个文本，分别用top1～top4表示。在本文中，K-means算法用于聚類，评估标准为F值，用于测量文本的相似度值。F值是信息检索中精度和回归指数的组合的标准。

我们通过处理文本，获得空间模型，通过使用VSM模型来计算Simv（di，dj）的相似度，使用LDA模型计算Siml（di，dj）的相似度。最后，我们可以通过线性相加的方法得到混合相似度的值。

在LDA建模过程中，我们使用吉布斯抽样得到参数估计。在本文中，通过实验得到在K值为50时聚类的效果最好，所以我们选择K = 50。超参数α= 50 / K，β= 0.01。选择k值= 0.85。

在本文中，我们做了两个实验。分别与LDA模型和VSM模型相比较，然后对其结果进行了描述。

从实验结果看出，在单独使用LDA模型时，由于K值较小的缘故其精确度是最差，而VSM模型的精确度虽然达到了90%以上，但是由于其忽略了文本中潜在的语意，所以在想进一步提高是很困难的，而在使用VSM模型+LDA模型后，精确度又得到了一个提升，说明本文提出的方法是有效的。图2显示logP（w|K）随K值的变化的折线图，图4和图5分别显示了每个类别的F和模型精度：

5 结束语

通过使用VSM模型和LDA模型，既克服了VSM模型无法发现潜在语意的缺点，又弥补了LDA模型在簇数过少时精确度不足的问题。通过改进TF-IDF的计算方法精确特征词的权重，将文本-主题和主题-词进行线性的结合，使得文本的语意得到了增强，同时进行降维，使得计算所花的时间和金钱减少。使用本文的方法有以下好处：

1）混合相似度比单独使用任何一个模型的精确度都高，聚类效果更好。

2）充分利用两种模型的特点，改进权重的计算方法，使得统计的结果更精确。

3）利用LDA模型的特点进行降维处理，大大缩短了计算所花的时间和金钱。

LDA模型虽然在发现潜在语意时是一种很高效的手段，但其本身也存在一些问题，当文本较短时LDA模型的效果特别差，日后的研究会向着如何提高LDA模型在处理短文本时的效果。

参考文献：

[1] Salton G.Automatic.， Text Processing.Boston：Addison[M].Wesley Longman Publishing Company，1998.

[2] Thomas Hofmann.， Unsupervised Learning by Probabilistic Latenr Semantic Analysis[R].JASIS，1990，41（6）：391-407.

[3] Bhattacharya，Indrani，Sil，Jaya，Sparse representation based query classification using LDA topic modeling[J].Advances in Intelligent Systems and Computing，2016（469）：621-629.

[4] Liu Q，Chen E，Xiong H，et al.A Cocktail Approach for Travel Package Recommendation[R].IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING，2014，26（2）：278-293.

[5] Yue Liu，Shimin Wang， Qian Cao.Research on Commodities Classification Based on LDA IMM 2015[R].Lancaster：DEStech Publivations，2015：189-191.

[6] Wang C，Blei D.Collaborative Topic Modeling for Recommending Scientific Articles.Proc.ACM 17th ACM SIGKDD Int'l Conf[J].Knowledge Discovery and Data Mining，2011：488-456.

[7] 王鹏，高铖，陈晓美. 基于LDA模型的文本聚类研究[J]. 情报科学.2015，33（1）：63-68.

[8] 李国，张春杰，张志远. 一种基于加权 LDA 模型的文本聚类方法[J]. 中国民航大学学报.2016，34（2）：46-51.

[9] 王振振，何明，杜永萍.基于LDA主题模型的文本相似度计算[J]. 计算机科学.2013，40（12）：229-232.

[10] 胡秀丽. 基于VSM和LDA模型相结合的微博话题漂移检测[J]. 兰州理工大学学报，2015，41（5）：104-109.

[11] 赵士杰，陈秋. 基于语义和TF-IDF的项目相似度计算方法[J]. 计算机时代.2015（5）：1-3+6.

[12] Blei D M， Ng A Y， Jordan M I.Latent Dirichlet Allocation[C]. Journal of Machine Learning Research 3，2003： 993-1022.

[13] Salton G，Wong A，Yang C S.A vector space model for automatic indexing[J].Communications of the ACM，1975，18（11）：613-620.

[14] 王春龙，张敬旭. 基于 LDA 的改进 K-means 算法在文本聚类中的应用[J].计算机应用.2014，34（1）：249-254.endprint