基于DOM树的非规范化表格信息定位技术

2016-05-14 15:49张兴兰刘岩
软件导刊 2016年7期
关键词:本体

张兴兰 刘岩

摘要摘要:Web表格信息提取已经成为构建本体的重要内容之一,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。关于非规范化表格信息提取的研究比较少,对本体构建造成大量信息缺失。提供一种基于启发式规则的非规范化表格信息定位算法,其对定位非规范化表格准确率较高。

关键词关键词:本体;非规范化表格;DOM树

DOIDOI:10.11907/rjdk.161193

中图分类号:TP301文献标识码:A文章编号文章编号:16727800(2016)007001004

引言

随着Internet的迅速发展,人类进入了信息爆炸时代。目前,各类信息服务网站提供了大量的信息资源,而在大量网页资源中,Web表格极其重要而有规律,表格(Table)作为一种重要的表现形式已广泛应用于Web网页中。

在信息爆炸时代,人们想要精确获取所希望的资料犹如大海捞针般困难。在这种背景下,人们希望提高有用信息获取的效率。信息抽取首先是从文本信息抽取发展而来[1]。目前,Web信息获取主要有两种方法:通过搜索引擎查询或者进行Web信息抽取。搜索引擎帮助人们通过关键词来获取相关文档,用户从获得的文档中自己查找有用的信息。因为这些文档并不考虑用户的知识领域,对用户来说并不容易定位到自己需要的资源。然而,Web信息提取自动从网络里分析和发现有用的信息,过滤掉不需要的数据,可充分提取用户知识领域的知识。由于Web页面大量使用表格元素,所以对表格进行信息抽取具有重要的现实意义。

1研究现状

从上世纪90年代开始,国外信息抽取技术发展比较迅速,涌现出许多相关的研究项目,并且取得了一定成果。早期相关研究主要集中于自然语言处理领域,后来逐渐发展到计算机语言学、人工智能、语义网络、知识库建设、人类语言技术等其它领域。这些研究主要围绕信息的表示、获取、建模、理解、抽取、检索等方面展开。针对信息抽取的研究发展很快,因为一开始这些项目就面向实际应用中出现的信息处理问题。随着信息抽取技术的成熟,许多相关研究,特别是有关信息获取和信息抽取方面的研究,被广泛应用于各种领域。其中应用最多的是情报领域。信息抽取方面的研究在涉及到恐怖活动、风险投资、商业情报等领域的信息研究分析和咨询决策中发挥着重要作用,而表格信息提取在信息提取领域举足轻重。

国外关于Web表格定位的研究中,Hurst[2]归纳了Web表格的两种特征,即DOM特征(5个)和几何模型特征(3个),并利用两种训练算法,即贝叶斯(Nave Bayes)相分离,可通过功能设备层实现不同的业务功能,支持相应业务处理能力的集群式扩展。例如,在功能设备层实现多种图像格式向一种图像格式的转换,支持多图像格式归一化处理的并发性请求等。由此可见,本文设计的集群调度体系具备较灵活的扩展性。

参考文献参考文献:

[1]张峻,曾元祥.动态数字出版理念的几个核心问题[J].新媒体研究,2015,1(14):1617.

[2]北大方正电子有限公司,北京大学.一种网络文集制作成书籍的方法[P].CN200610113308.2,

猜你喜欢
本体
Abstracts and Key Words
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
对姜夔自度曲音乐本体的现代解读
领域本体的查询扩展和检索研究
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
媒介生存:关于新闻史研究本体的思考