基于卡方统计量的藏文新闻网页关键词提取方法

2017-11-20 16:37徐涛蓝传锜

电脑知识与技术 2017年26期

徐涛+蓝传锜

摘要：藏文文本关键词在文本聚类/分类、自动摘要、信息检索等领域具有重要地位，然而当前互联网上的藏文新闻网页几乎没有提供关键词。并且许多已有的关键词自动提取算法都需要建立在人工标注的训练集之上，扩展性不强。关键词是文本中主题关联度凝聚度较高的词，因此该文将卡方统计量进行改进，运用词与词推荐的思想进行关键词抽取。通过藏文新闻网页实验结果表明，该文的方法优于融入位置信息的TF/IDF。

关键词：藏文信息处理；卡方统计量；关键词抽取

中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2017）26-0171-03

1 概述

藏文属于汉藏语系，是一种古老语言并在现代藏语言文本被广泛使用。随着藏文信息的发展，尤其是藏文Web的普及，推动了藏文文本信息量的急速增长。面对大量的新闻网页，单单通过标题用户很容易错过有价值或是自己感兴趣的内容。如果新闻网页标注有关键词，那么这些问题就迎仍而解。关键词是对文档内容的高度概括总结，反映文档的内容和主题，为快速阅读、文本分类聚类、文档检索等都提供了很大方便。一篇文档的关键词一般都是作者在创建文档时手工添加或标注的。但是在大量的文档中没有添加用于描述文档的关键词，并且手工添加关键词是一个枯燥而繁重的工作，所以从文档中自动提取关键词就显得日益重要。

在国外的关键词抽取研究方面，发展比较快也建立了一些实用系统。最早的如KEA[1]系统以其良好的可扩展性而著名，该系统使用离散的贝叶斯方法训练关键词抽取模型。另外GenEx[1]系统采用遗传算法和C4.5决策树归纳算法来抽取关键词。也有方法直接抽取单个文档的关键词，文献[3]就是通过LDA（ latent dirichlet allocation）模型[4]中的主题和词的分布情况，使用给词打分的方法直接抽取文档关键词，较好地抽取出了各主题的代表性词。Barker和Cornacchia最早选择名词短语作为候选关键词，再根据各个名词短语的长度、频率及第一个词语的词频这三个特征构造关键词抽取模型[5]。Matsuo和Ishizuka用词同现的统计特征提取关键词[6]。在国内，关键词抽取的研究方面虽然落后于国外，但是也进行大量的研究并取得了不错的成果[7]。在1997年，有关于PAT-Tree的关键词提取算法提出[8]，这一工作主要用于提取大数据量文本的关键词提取，如长篇小说等。混合方法是综合利用语言分析和统计学习方法[9-10]，或加入启发式知识（如词的位置、词长、HTML标记等）来提高关键词提取精度。2011年杨春明等提出了快速的领域文档关键词自动提取算法[11]，是用简单的词项统计算法进行关键词抽取算法。清华大学的刘知远提出了基于主题的关键词抽取方法[12]，并首次在微博关键词抽取中得以应用。尹倩，胡学钢等[13]提出一种基于密度聚类模式的中文新闻网页关键词提取方法应用在中文新闻网页关键词提取上。

综上所述，在关键词抽取方面，大致可分为有监督学习和无监督学习两类方法。第一类方法需要大量的标注語料训练分类模型，且是针对某个特定领域的，主题还随时间漂移，不适合普适性；另外，需要大量的训练语料，当今关键词抽取领域，对标注语料的规范不统一，而且千差万别，耗时耗力；而且在模型的解码过程中还涉及的速度影响。而第二类方法不需要人工标注训练集合的过程，因此更加快捷，而且主题更加更加直观和现实。由于新闻网页内容领域涉及面比较广，如果使用有监督训练方法，抽取的出的关键词主题漂移比较大，并且需要大量精确人工标注语料，因此本文的研究使用第二类方式更为合适。

2 藏文新闻网页关键词提取

2.1 网页文本处理与候选关键词

2.1.1 藏文网页文本处理

对从网络中抓取的藏文新闻网页进行过滤，清理网页中的广告图片、垃圾链接等。并对网页中新闻内容的必要的笔记进行存取，例如，正文中的字体大小、颜色标记等。对新闻内容进行标准化处理，即过滤后的纯文本与网页前台展现必须一致。最后对内容进行编码统一。

2.1.2 候选关键词

在藏文中，词与词之间没有分解开来，所以我们首选需要对文本进行分词处理。然后去除停用词，即去除对主题贡献不大的词和某些高频词，统计每个候选关键词词语出现的频率和位置信息。

在许多相关文献中只考虑名词作为候选关键词，但其他词性的词语对抽取新闻网页的关键词有着双面性，如动词对抽取的关键词质量有着积极影响，而形容词、副词等对抽取的关键词质量有着消极影响。新闻网页不同于一般的文木，它强调近来发生的具有一定社会价值的人和事，文本中的动词更能表达新闻主题，而相对名词动词而言，具有的修饰特性的形容词、副词对文章主题的表达力度较弱。此外，对非名词、动词词义的过滤将减少关键词抽取算法的时空花销。

2.2 基于卡方统计量的关键词提取算法

2.2.1 卡方统计量

本文将卡方统计量引入藏文文本的关键词提取。思路很简单，首先从单文本中选取一组词项H（通过语料分析词项的高tf-idf值）作为文本的初步概括（对比词项组）。将文本中的每个句子看成为一个主题句子，计算文本候选关键词词项ti（包括词项H中的词项）与对比组H中的词项h在每个句子中的共现分布率[fo（ti，h）]。通过卡方统计量来计算ti与h的关联程度（Degree of Bias），NiPh为理论值（期望值），Ni为ti与H中词项总的共现次数，Ph为词项h的tf-idf值。

3 试验分析

之前介绍了基于卡方统计量的藏文新闻网页关键词抽取方法，如何利用这种方法来更好地进行关键词抽取任务，本文在以下两方面作出了研究与分析：参数设定实验、评测实验。参数设定实验主要是针对本文中所设定的各种参数对关键词抽取的影响，最后选取最优参数。最后进行评测实验，以本文最优方法与TFIDF与启发式信息相结合的方方法做比较，以此来分析本文方法的优劣。endprint

3.1 试验数据准备

本文的实验数据以藏文新闻关键词抽取实验。由于目前还没有藏文关键词抽取测试数据集。为保证公平性，本文数据集来源于藏文网站（www.tibentcm.com），从3个类别的新闻网页中各抽取50篇文章进行实验。并且在人工标注关键词方面制定了相应的标准如下：

（1）每篇文章关键词数量在3-8个；

（2）每篇文档的关键词组需要覆盖该篇文章的所有话题；

（3）每个关键词在该篇文章中出现应大于1次；

（4）每篇测试文章应不少于200个藏词。

3.2 评价指标

3.3 参数设定实验

在本文所展示的方法中，比较重要的一环就是待抽取文本中对比词项H的个数设定，在本文中设定方法按照个数与文本中词数之间的比例设为Hp，为了设定最优Hp值，对Hp值进行多次調值后进行试验，选取的比较优的结果如表1。

由此可以看出，Hp对抽取结果的影响是明显的。由于在文中H中的词项是待抽取文本中具有高TFIDF值的词项，从信息检索的角度来说，是比较重要的词项，因此在文中起到一定的主题作用，即从理论和实验上都能得出以这类词组中相关联比较紧密的词项（通过卡方统计量计算），就越能体现出主题作用，也就是本文所抽取的关键词。但是，H中的词项个数应该适中，如表1可以看出，Hp=35%为最优。

3.4 本文方法与TFIDF方法比较

在实验2中，按照方法划分为3组： 1）TFIDF方法；2）TFIDF与位置特征集和的方法； 3）本文的方法.表2显示的是这三种方法分别在第二组数据上所进行的对比实验结果。

由表2可见，与仅基于TFIDF特征抽取关键词相比，结合位置特征抽取的关键词在精确率和召回率上均有明显提高.基于TFIDF的方法倾向于考虑高频词对文章主题的贡献，增加的位置特征考虑特殊分布的词语的重要性。而本文的方法完美诠释了“重要词”与“关键词”的区别，使抽取的关键词更能体现和概括文章的主题。

4 结论

本文以卡方统计量为基础，计算待抽取文章中词项与文中主题紧密性，在藏文新闻内容加以验证，实验结果表示，本文的方法是有效的。在实验中还得出了对比词项Hp的最优结果。但是藏文测试数据规范上还有待提高，数量还需要扩展，并且在本文的方法中，主题的体现性上还需进行更多实验和其他方法，如词项聚类方法。

参考文献：

[1] Witten，Paynter，Frank，et al.Kea： practical automatic keyphrase extraction[C].Proc of ACM Conference on Digital Libraries. New York： ACM Press，1999：254-255.

[2] Turney. Learning to extract key phrases from text[J].NRC Technical Report ERB-1057.Canada： National Research Council，1999.

[3] Pasquier.Task 5：single document keyphrase extraction using sentence clustering and latent dirichlet allocation[C].Proc of ACL Workshop on Semantic Evaluation，2010，154-157.

[4] David，Anderew，Michael. Latent dirichlet allocation[J].Journal of Machine Learning Research，2003（3）：993-1022.

[5] Ken Barker，Nadia Cornacchia.Using noun phrase heads to extract document keyphrases[C].In Canadian Conference on Artificial Intelligence，2000：40-52.

[6] Yutaka Matsuo，Mitsuru Ishizuka.KeyWord extraction from a single document using Word co-occurrence statistical information[J].International Journal on Artificial Intelligence Tools，，2004，13（1）：157-169.

[7] 章成志.自动标引研究的回顾与展望[J].现代图书情报技术，2007（11）：33-39.

[8] CHIEN L.PAT-tree-based keyWord extraction for Chinese information retrieval[C].ACM SIGIR Forum.，1997：31：58.

[9] 刘佳宾，陈超，邵正荣，等.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用，2007，43（14）：170-172.

[10] 张庆国，薛德军，张振海，等.海量数据集上基于特征组合的关键词自动抽取[J].情报学报，2006，25（5）：587-593.

[11] 杨春明，韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计，2011，32（21）：42-2145.

[12] 刘知远.基于文档主题结构的关键词抽取方法研究[D].清华大学.2011.

[13] 尹倩，胡学钢，谢飞，等.基于密度聚类模式的中文新闻网页关键词提取[J].广西师范大学学报：自然科学版.2009，27（1）：201-204.endprint