基于文本密度的藏文网页正文提取方法

2017-08-24 15:23洛松求培安见才让
计算机时代 2017年8期

洛松求培+安见才让

摘 要: 互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取。为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结构化的HTML网页中正文内容的连续性特点,结合正则表达式过滤HTML标签。此方法针对主题型网页,类似新闻类网页中的正文提取具有较高的准确率。

关键词: 藏文信息; 藏文网页正文提取; HTML; Web网页

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2017)08-46-02

Abstract: The development of the Internet has led to another form of information dissemination, people are increasingly relying on electronic products, Web also become the largest source of information, and the use of these resources will involve the extraction of information. In order to obtain the key Tibetan information from the Web, this paper proposes a method to extract the Web text based on text density, which uses the continuity characteristics of semi-structured text content in HTML pages and the regular expression. This method has higher accuracy for text extraction in theme pages and similar news pages.

Key words: Tibetan information; Tibetan Web content extraction; HTML; Web

0 引言

随着互联网的迅速发展,计算机应用技术在藏族地区的不断普及应用,出现了大量的藏文网页,为广大藏族群众提供了极其丰富的藏文信息资源。目前搜索引擎能帮助人们快速地搜索到想要的信息,但每个网页除了正文内容外还掺杂了很多用户不需要的信息。如网页中的导航链接、广告链接、版权信息和相关主题阅读推荐链接等。这些信息在网页中出现,影响了用户对主题内容的浏览。按照现在的发展情况,藏文网页的数量呈现上升趋势,用户的数量也在逐年增加。

因此,从大量噪音信息的网页中将正文信息准确、完整地提取出来,显得尤为重要。Web信息提取是将Web作为信息源的一类信息提取,就是从半结构化的Web文档中抽取数据。国内外在这方面关注的时间比较早,研究提出的方法也很多,技术已趋于成熟。目前藏文网页正文提取研究较少,西藏大学提出了一种基于

标签分段的藏文网页正文提取[1],利用HTML标记用途分析提到的此方法对标签的依赖性高,加之HTML语言的规范性不是很好,网页设计人员的语言风格也不尽相同,如遇未使用
标记的网页很难实现有效提取。有些论文中提到了关于网页除噪[2]的问题,但是没有进一步研究与之结合及提出行之有效的藏文网页正文提取。本文提出的方法意在避免复杂的算法,利用简单可行的方法将其实现。

1 基于文本密度的藏文网页提取

藏文网页大部分都是以国内外新闻、藏族文化历史、藏族风土人情、藏文论坛等为主要内容。由于大量的藏文网页中多数是以文字内容为主体,本文针对此类主题型网页进行分析,实现基于文本密度的正文提取算法。互联网上藏文网页常用的标记语言主要包含HTML和XML等格式,其中HTML语言是大部分网页的基础。由于HTML存储的网页信息资源是半结构化,用户使用和提取信息无法直接操作,因此,需要对其结构进行分析。

1.1 正文内容的结构特征

一个网页的正文内容具有很好的连续性,结构都非常相似,在HTML格式中正文出现在标签中,如图1所示。通过对大量的主题型网页进行分析,我们发现正文内容的连续性和集中性的特点普遍的存在。HTML标签使用上也存在着很多的共性,例如对于篇幅较长、文字較多的内容,利用

标签将其段落分明。鉴于此,在标签中找到文本密集的连续段落就能准确获取正文内容。

1.2 正文提取

按照HTML语言的规范,标签通常都成对出现,基于这个规范,将每对标签内容作为基本处理单位,存储于字符数组lines以便分析。接着循环字符数组中的元素对其进行HTML标签过滤,这样做是为了降低干扰,因为我们关注的只是正文内容。HTML标签过滤直接使用正则表达式替换,其表达式为:Regex.Replace(html, "(?is)<.*?>", ""),表达式中字符串html是数组中的元素,即每对标签的内容。考虑到非正文的噪音信息也掺杂在其中,因此必须在数组中找到除去噪音信息的正文文本的起止行号。但是如何判断行号的起始与终止,从正文内容的结构来看,发现了都有这么一个特征:正文部分的文本密度要高出非正文部分很多。本文按照这个特征将方法实现,其原理就是基于阈值分析正文所在位置。通过字符限定数来确定阈值,根据藏文网页通过统计分析得出一个比较好的取值,在实际处理过程中,发现这个值取550是比较适合的。在分析文本时,如果分析文本超过设定的阈值,我们就判断出正文所在位置。鉴于正文内容不可能为一行,逐行分析不可行,因此确定按行分析的深度Depth为6,将字符累加后判断是否达到预定的阈值。具体算法如下。

算法1 (藏文网页正文提取算法)

输入:字符数组lines

输出:网页中的正文

算法步骤:

⑴ 循环字符数组lines;

⑵ 从当前数组下标开始连续统计6个元素的字符数量;

⑶ 统计字符数达到字符限定数(阈值),确定正文开始的行号即数组下标;

⑷ 从lines正文开始行号的元素赋值给最终返回值;

⑸ 赋值的同时判断统计字符是否少于文章结束字符数,如是则完成正文提取。

2 实验与分析

2.1 数据选取

验证其实验效果,进行了细致的实验工作。保证测试的正常运行,做了如下的前期工作。

⑴ 从主流藏文网站中选取4家具有代表性的网站,主要是新闻网页。

⑵ 利用爬虫工具随机下载了500个网页,并从每个网站选取与其数量相对的网页作为测试集。

⑶ 人工提取了测试集中所有网页的正文,作为对照文本集。

⑷ 利用C#程序实现了该文所述方法,并自动取出测试集中所有的网页正文。

2.2 实验结果

由表1可知,用基于文本密度的藏文网页正文提取的最高为98%,最低为92%,平均为94.75%,此方法适用于绝大多数的新闻类等偏重内容的网站,并且保持了较高的正文提取准确性。

3 结论

本文提出藏文网页正文提取,是基于文本密度的判断,实现过程也没有过于复杂,对大量网页进行实验并将其结果与之人工提取做对比发现,结果具有非常好的召回率和查全率,在Web信息提取方面具有较高的使用价值。本文提出的方法仅是针对主题型网页,有一定的局限性,有待进一步研究对互联网上出现的各式各类网页的信息抽取。

参考文献(References):

[1] 才让叁智,赵栋材.基于DIV标签分段的藏文网页正文提取研究[J].西藏大学学报(自然科学版),2016.3.

[2] 付涛.藏文网页除噪技术研究[D].西北民族大学硕士学位论文,2010.

[3] 蒲宇达,关毅,王强.基于数据挖掘思想的网页正文抽取方法[C].第三届学生计算语言学研讨会论文集,2006.

[4] 胡波.基于视觉语义块的网页正文提取算法研究[J].浙江大学,计算机应用技术,2013.

[5] 刘汇丹,诺明花,马龙龙,吴建,贺也平.Web藏文文本资源挖掘与利用研究[J].中文信息学报,2015.1.

[6] 张云洋,刘芳.基于Unicode的藏文网页搜索探讨[J].科技情报开发与经济,2014.11.

[7] 高定国,朱杰.藏文信息處理的原理与应用[M].西南交通大学出版社,2013.

[8] 安见才让.藏语句子相似度算法的研究[J].中文信息学报,2011.4.