基于分层的中文Web文本内容过滤研究

2012-10-17 03:07王景中郭兆亮

网络安全技术与应用 2012年11期

王景中郭兆亮

北方工业大学信息工程学院北京 100144

0 引言

随着互联网的日益普及，Web已成为最重要的新闻媒体之一。然而，由于互联网的开放性和无界性，大量的不良信息充斥于网络，如何针对文本进行过滤成为当务之急。

目前，基于文本的内容过滤算法主要有：关键词匹配法、支持向量机方法、潜在语义索引法、神经网络法等。Web文本内容过滤有两个突出特点：实时性和基于内容性。关键词匹配和支持向量机方法都具有速度快的优点，但是未考虑语义，故精度有待提高。潜在语义索引法过滤精度较高，但因采用潜在的语义结构，缺乏直观意义，不易理解，而且算法复杂，执行速度慢，所以不适合实际应用。神经网络法依照人们的长期实践经验，模仿人脑对信息进行过滤的原理，结合各种数学模型来实现它的功能。优点是具有很强的自学习和自适应能力，但仍具有算法复杂、执行速度慢的缺点。

针对上述情况，本文考虑支持向量机的实时性和基于语义的内容性，提出以向量空间为基础，并在句子范围内考虑主题词之间联系的方法。

由于本文处理的对象为HTML文件，传统意义上处理时忽略了文本内容的层次性，比如标题比正文更能体现主题，标题应该比正文具有更高的层次，计算权值时应具有更高的权值。文献[2]从文本挖掘的角度对HTML分层进行了研究，说明了其可行性。文献[3]中采用按照 HTML标签的权值分配，该文中的权值分配模型过于繁琐。本文借鉴分层的思想，并对如何分层进行优化(根据 HTML结构特征合理地划分为三层)，并对权值分配模型进行简化，另外，针对主题词采用改进的权值计算公式，继而提高查全率和查准率。

1 基于分层的中文Web文本内容过滤

1.1 样本训练

(1) 特征提取

如何选取合理的特征值是能否有效处理文本的关键。如果以字为单位，一是计算量比较大，二是忽略了字之间的相关性；如果以句子为单位，处理比较困难，计算复杂度比较高。

因此，本文采取词作为特征项。

每个网页文档中有大量的词，这些词对网页文本主题内容的表达程度不同，有的词比其它词更能代表文本意思，如果将所有的词都拿来用作处理文档的关键词，那么每个文档所要处理的数据将会非常庞大。没有经过处理的词有不少属于噪音，没有区分度，对后续处理没有帮助，反而会带来巨大资源的占用和浪费，对过滤产生负面影响。因此需要对文档通过特征提取进行降维处理。

特征提取时，利用 ICTCLAS系统接口进行分词，然后进行相关预处理，并提取出名词、动词、形容词、副词、代词、处所词等6类词，并按照词的频数选取前N维(本文N取1000)作为降维处理之后的文本特征项。

(2) 计算初始权值

特征项提取出来后，每个特征项对表达主题文本的贡献不同，为了区分这种差异性，需要给每个特征项赋予一个权值，权值的大小代表了它表示文本的能力的大小。

为特征项赋予权值通常有两种方法，一是人为给每个特征项赋一个权值，该方法随意性较大，而且权值大小与人的经验有关，并不能客观显示特征项的权值；另一种是根据特征项在文本中出现的频率，以及所在的位置等因素，根据一定的算法赋予特征项权值，这个方法比较实际，而且准确度较高。

本文采用主题词的词频作为初始权值。

在文字处理中，词频指的是某一个给定的词语在该文件中出现的次数。为防止它偏向长的文件，这个数字通常会被正规化。因此，通常主题词的词频等于该词在文档中出现的次数除以所有词在文档中出现的次数和。

针对正面样本，经过训练后，将N(取1000)个主题词及初始权重(即词频)形成二维权重矩阵如下：

其中ki为主题词，forigin(ki)为ki对应的初始权重。

同理，可对负面样本建立类似权重矩阵。

1.2 过滤处理

一般来说，网页中不同层次的文本对主题思想的表现力是不同的，因而，不同层次的文本对文章倾向性的支持强度也是不同的。例如，标题比正文对文章的支持强度要大。

因此，本文对HTML文件进行分层处理，不同的层采取不同的权重。

为实现分层，本文进行了以下预处理：对获取的HTML文本进行清洗、文本提取、分词、按词性提取。

网页是一种半结构化的文档，本文通过对HTML文档的深度分析，利用正则表达式对HTML文件进行处理，提取出题目、1-4级标题、网页关键字和正文及超级链接。其中题目、1-4级标题、网页关键字作为第一层次，正文作为第二层次，超级链接作为第三层。

本文用正则表达式实现分层操作，正则表达式是一种进行高效、准确、简洁的进行文本字符串处理(模式验证、搜索替换等)的方法。它用一组特定含义的字符来匹配不同的文本字符串。Boost正则表达式库是 C++标准委员会库工作组发起的一套开放源代码的、可移植的、基于模版的C++库。

利用Boost正则表达式，通过研究HTML的基本结构,本文总结出相对而言比较通用的用于文本清洗和文本提取的正则表达式。

(1) 对文本进行清洗

处理目的是为了清洗掉噪音，如脚本和注释等，文本清洗的核心表达式如表1。

表1 数据清洗的核心正则表达式

(2) 文本提取

处理目的是用于获得三个层的内容，分别用正则表达式提取标题、描述、正文、超级链接等内容。用于提取的核心正则表达式如表2。

表2 文本提取的核心正则表达式

至此，已从HTML中获取三个层中的内容。

(3) 分词并按词性提取

提取出各层次的文本内容之后，首先应对文本进行分词，本文采取中科院研制的ICTCLAS系统接口。

该系统的功能有：中文分词、词性标注等。分词正确率高达97.58%，基于角色标注的未登录词识别能取得高于90%召回率，其中中国人名的识别召回率接近98%，分词和词性标注处理速度为31.5KB/s。

经过相关的配置后，核心调用程序如下：

为提高处理速度，考虑到在文章中起主要作用的是实词，虚词对判断的文章的倾向性作用不大，但是却占有相当的篇幅，所以本文采取根据词性提取重点词汇的方式，主要提取名词、动词、形容词、副词、代词、处所词等6类词。为方便后续处理，此步处理时，在程序中实现以句的形式存储。处理结束后，结果实例如下：

(4) 计算主题词权值和贡献值

预处理结束后，开始计算主题词的权重，在设计权重函数时，除考虑通过样本统计获得的初始权重外，还应考虑以下因素：

层次越高(数字越小，层次越高)，权重越大。显然对于相同的主题词，处于第一层次的题目要比第二层次的正文赋予更高的权重。

主题词的频数越高，权重应越大。以往的权重函数，涉及此问题时，均是单纯的统计主题词的频数(单纯出现的次数)，而忽略了主题词之间的关联，本文以句子为单位对主题词进行加权运算，改进的加权公式如下：

其中num为含有主题词ki的句子个数；

ni为所处理的句子中含主题词的个数，如果主题词出现在同一句，则认为其有关联。

举例如下，如以下句子(此为分词并标注词性后的结果)：改革/v 开放/v 阶段性/n 任务/n 不同/a 。

在该句中“改革”和“开放”在传统的统计过程中出现一次被赋值为1，本文中假设本句话中，仅有“改革”和“开放”是主题词(其他词不是主题词，对分词影响不大，故不计算其权值)，假设计算“改革”的 fsen(ki)值，此时本句话中ni等于2，以此道理，计算含有主题词“改革”的其它句中的ni，最后加和。

考虑上述因素后, 改进后的权重计算公式如下：

forigin(ki)表示主题词ki在训练阶段获得的初始频率，即正规化后的词频；

fpos(ki)表示主题词ki所在相应层次的权值，不同层次采用不同的值，层次越高应该值越大，本文取公式如下：

flen(ki)表示主题词ki的长度；

fsen(ki)即为升上文提出的考虑句子内主题词关联性的“数目”计算公式。

当进行过滤时，只需针对正面、负面样本产生的权重矩阵分别进行以上操作，然后将分别获得的新权重相加，比较和的大小，数值比较大的，说明主题词与该类文本吻合率较高，属于该类，如果是负面，则过滤掉。

以上操作避免了向量空间模型中计算相似度的问题，减少了计算复杂度。

2 试验及结论

内容过滤有两个重要的指标，即查全率和查准率。

查全率=正确过滤/应该过滤；

查准率=正确过滤/实际过滤。

本文从网上收集支持伦敦奥运和反对伦敦奥运的文章各240篇，其中分别取160篇用于训练，80篇用于测试。测试结果如表3。

表3 算法改进后信息过滤性能对比

通过对比可知，相对于传统VSM 方法，本文所采用的方法切实提高了文本过滤的查全率和查准率，具有一定的借鉴意义。

3 结束语

本文主要针对中文的 Web文本内容过滤。通过对HTML的分层处理，计算主题词权重时，在考虑词频的同时，还考虑主题词所在的层次、长度及同一句中主题词之间的关联。实验结果表明，过滤的查全率和查准率均得到有效提高。

后续研究中，可考虑将段落中的首句和末句、正文中加粗或强调的部分提取出来加入第一层次，另外本文只是考虑了主题词之间的简单联系，可考虑深入些研究词之间的联系。

[1]于海燕,陈晓江,冯健房,鼎益.Web文本内容过滤方法的研究.微电子学与计算机.2006.

[2]武洪萍,周国祥.Web文本挖掘研究.计算机技术与应用进展.2007.

[3]魏丽霞,郑家恒.基于网页文本结构的网页去重.计算机应用.2007.

[4]张华平.ICTCLAS简介.http://ictclas.org/.

[5]孙岩国.基于Internet的中文文本过滤系统的研究与实践.兰州理工大学硕士论文.2004.

[6]彭作民.一个基于语义分析的文本过滤方法.计算机与信息技术.2012.

[7]王健.基于 Web 的文本自动摘要技术分析.计算机与信息技术.2007.

[8]李晓微.基于内容的中文内容过滤关键技术研究.东北师范大学硕士学位论文.2008.

[9]蒲强,李鑫,刘启和,杨国纬.一种 Web主题文本通用提取方法.计算机应用.2007.

[10]张志刚,陈静,李晓明.一种 HTML网页净化方法.情报学报.2004.

[11]蒲强,李鑫.一种 Web主题文本通用提取方法.计算机应用.2007.

[12]张红梅.基于块的Web网页信息提取.软件导刊.2012.