基于DOM树的非规范化表格信息定位技术

2016-05-14 15:49张兴兰刘岩

软件导刊 2016年7期

关键词：本体

张兴兰刘岩

摘要摘要：Web表格信息提取已经成为构建本体的重要内容之一，它能自动将本体所需的属性名和属性值提取出来，节省大量人工劳动。关于非规范化表格信息提取的研究比较少，对本体构建造成大量信息缺失。提供一种基于启发式规则的非规范化表格信息定位算法，其对定位非规范化表格准确率较高。

关键词关键词：本体；非规范化表格；DOM树

DOIDOI：10.11907/rjdk.161193

中图分类号：TP301文献标识码：A文章编号文章编号：16727800（2016）007001004

引言

随着Internet的迅速发展，人类进入了信息爆炸时代。目前，各类信息服务网站提供了大量的信息资源，而在大量网页资源中，Web表格极其重要而有规律，表格（Table）作为一种重要的表现形式已广泛应用于Web网页中。

在信息爆炸时代，人们想要精确获取所希望的资料犹如大海捞针般困难。在这种背景下，人们希望提高有用信息获取的效率。信息抽取首先是从文本信息抽取发展而来[1]。目前，Web信息获取主要有两种方法：通过搜索引擎查询或者进行Web信息抽取。搜索引擎帮助人们通过关键词来获取相关文档，用户从获得的文档中自己查找有用的信息。因为这些文档并不考虑用户的知识领域，对用户来说并不容易定位到自己需要的资源。然而，Web信息提取自动从网络里分析和发现有用的信息，过滤掉不需要的数据，可充分提取用户知识领域的知识。由于Web页面大量使用表格元素，所以对表格进行信息抽取具有重要的现实意义。

1研究现状

从上世纪90年代开始，国外信息抽取技术发展比较迅速，涌现出许多相关的研究项目，并且取得了一定成果。早期相关研究主要集中于自然语言处理领域，后来逐渐发展到计算机语言学、人工智能、语义网络、知识库建设、人类语言技术等其它领域。这些研究主要围绕信息的表示、获取、建模、理解、抽取、检索等方面展开。针对信息抽取的研究发展很快，因为一开始这些项目就面向实际应用中出现的信息处理问题。随着信息抽取技术的成熟，许多相关研究，特别是有关信息获取和信息抽取方面的研究，被广泛应用于各种领域。其中应用最多的是情报领域。信息抽取方面的研究在涉及到恐怖活动、风险投资、商业情报等领域的信息研究分析和咨询决策中发挥着重要作用，而表格信息提取在信息提取领域举足轻重。

国外关于Web表格定位的研究中，Hurst[2]归纳了Web表格的两种特征，即DOM特征（5个）和几何模型特征（3个），并利用两种训练算法，即贝叶斯（Nave Bayes）相分离，可通过功能设备层实现不同的业务功能，支持相应业务处理能力的集群式扩展。例如，在功能设备层实现多种图像格式向一种图像格式的转换，支持多图像格式归一化处理的并发性请求等。由此可见，本文设计的集群调度体系具备较灵活的扩展性。

参考文献参考文献：

[1]张峻，曾元祥.动态数字出版理念的几个核心问题[J].新媒体研究，2015，1（14）：1617.

[2]北大方正电子有限公司，北京大学.一种网络文集制作成书籍的方法[P].CN200610113308.2，