基于超文本标记语言的文档信息自动提取技术研究

2020-09-30 06:45余俊余少锋周宇鹏廖崇阳罗勇

粘接 2020年8期

余俊余少锋周宇鹏廖崇阳罗勇

摘要：文章研究探索了如何使用文档分解（文档结构研究），文档标记（具有可扩展标记语言（XMI），超文本标记语言（HMI）和可伸缩矢量图形（SVG），以及多方面的分类机制。文档内容提取是通过计算机编程（使用Java）实现的。在这项研究中开发的文档信息自动提取技术证明：作为信息提供者，可以使信息用户（包括工程师）以更易于访问的方式制作文档内容。

关键词：文档信息自动提取;超文本标记语言;分解方案;文档标记;分面分类

中图分类号：TP391

文献标识码：A

文章编号：1001-5922（2020）08-0080-05

Research on Automatic Extraction of Document InformationBased on Hypertext Markup Language

SHE Jun，YU Shao-feng，ZHOU Yu-peng，LIAO Chong-yang，LUO Yong

（1.lnformation & Communication Branch of China Southern Power Grid Peaking & Frequency Modulation Power（Generation Co..Ltd..Guangzhou Guangdong 511400，China;2.Westem Maintenance Test Branch of China SouthernPower CJrid Peaking & Frequency Modulatio Generation Co..Ltd.，Xingyi Guizhou 562400.China）

Abstract ： This paper explores how to use document decomposition （document structure research） .document mark-up （with Extensihle Markup Language （XML），Hypertext Markup Language （HML）.and Scalable Vector （Graphics（SVG） .and more classification mechanism.The document content extraction is realized through computer program -ming （using Java）.The automatic extraction technology of document information （AETDI） developed in this re-search proves that as an information provider，you can make Information users （including engineers） can create doc-ument content in a more accessible way.

Key words ： automatic extraction of document information;hypertext markup language;decomposition scheme;docu-ment markup;faceted classification

0前言

当前正在开展生产域信息平台（ Production Do-main information Platform）的研究与建设工作，其软件环境分为数据中心和应用中心两大部分，在公司内部被称作“两个中心”[1-2]。“两个中心”建设目的在于探索以“數据应用”作为企业信息化核心，通过组件技术去系统化的新途径，克服传统信息系统相对孤立，系统间数据资源难以互相调用的弊端[3-4]。目前，生产域信息平台已具备了对实时数据、关系型数据的处理能力，需要增加对文档型数据（非关系型数据）的处理能力，为此急需要先期开展对文档型数据的信息提取和处理方法的研究。已经发现参与设计过程的工程师花费了多达20%-30%的时间来搜索和访问设计信息[5-6]。这可以看作是提供更好的信息系统以使工程师能够更轻松地搜索和检索信息的重要性的指示。但是，要使信息系统成功，就必须基于对工程师工作方式的理解和超文本标记语言的特征。

1支持AETDI的方法和技术

信息通常分为3种类型：结构化信息，半结构化信息和非结构化信息[2]。数据库中的数据通常是结构化信息，而文档（例如电子邮件和对话）是非结构化信息的示例。AETDI处理具有逻辑结构的半结构文档，因此可以进行搜索。为了理解文档的逻辑结构，我们进行了研究，探索了如何分解文档。它从不同的角度和粒度定义了11种分解方案。为了使半结构化文档的内容能够由计算机自动准确地解释，使用了标记技术，包括可扩展标记语言（XML），超文本标记语言（HMI）和可缩放矢量图形（SVG）被雇佣。使用多面分类机制对文档内容进行分类。针对AETDI设计了一种基于超文本标记语言的概念层次结构，以适应其在超文本标记语言中的应用。

1.1超文本标记语言文档结构

文档结构定义了文档中内容对象的组织方式。在电子商务中，如果业务合作伙伴对文档结构有共同的了解，则可以用一致的方式创建，传输和解释文档，同时保留发送者想要的语义。只有确定并遵循了文档结构，才可以有效地访问和检索文档内容。应该以尽可能标准化的结构创建超文本标记语言，以便可以在公司中保持一致性，并且可以在协作成员之间实现沟通的完整性。该研究项目通过不同的分解策略研究文档结构。已经定义了11种分解方案以提供对文档结构的全面理解。图1说明了定义不同分解方案以从不同角度和不同粒度查看文档结构的想法。

1.2文档标记

以结构化和可定义的方式交换信息的需求导致了标记技术的诞生。标记是用于解释文档中的结构和信息的代码。文档可以被计算机标记和自动处理。标记可用于帮助搜索文档内容，例如在文档信息自动提取系统中。通用标记首先由Scribe文档格式器普及，随后在LATEX中普及。它也被合并到SGML和ODA中。随着Web技术和诸如XML，HML和SVG之类的标记语言的出现，标记技术已经表现出了代表文档结构的优势。

在AETDI中，如图2所示，XML用于标记文档文本，SVG用于标记图形，HML用于嵌入图像。在系统中，图形与图像的不同之处在于，图形的内容被视为一组元素（例如在复杂的图形中，其中某些元素可以重复使用或重复），而图像被视为一个整体，并且无法进一步分解。图形中的嵌入文本也被视为一个单独的元素，可以进行搜索。

1.3超文本标记语言领域的概念层次结构的分面分类和设计

对信息进行分类是一门传统且至关重要的学科。分类将孤立的，不连贯的感官印象转化为可识别的对象和重复出现的模式。现代文献分类方法的起源是基于图书馆科学家最初提出的原理。随着Web和网络的出现，信息的组织和分类被视为使人们能够应对越来越多的他们可以访问的文档的关键。已经针对不同的用途开发了不同类型的分类方案。图2显示了如何通过正确的关系（由约束定义）将信息（在文档和内容级别上）分类为正确的概念和方面。

2文档超文本标记语言化后的数据自动提取及处理

文档到移动终端上的时候其实是一个离线文件，通过开发了特定的APP来显示转换后的文档，并在填写试验数据后APP能自动提取数据，对于数据提取其实现在有2种方式：①原生开发，②混合开发，本文通过对2个方式进行比较，最后来确定哪种技术方案适合本次研究课题。

2.1原生方案

当应用程序需要展示网页时，而需求上却不允许打开系统浏览器时，安卓为了解决这种需求提供了WebView控件。WebView控件类似于嵌入了一个浏览器，而且原生的WebView是支持本地文件系统打开文本标记语言。

本方案最重要的就是内容的提取，提取内容采用超文本标记语言中已经用Javascript写好，所以APP要能提取到表单中的数据需要原生代码去调用离线文件中的Javascript的代码。原生webView.loadUrl方法其实支持调用离线网页中的js，但是不能获取函数返回的结果。

提取到离线试验数据后，为了方便系统数据导入，需要把数据写入到本地的文件系统系统中，对于原生APP支持操作文件的API就能实现，所以对文件的支持非常好，API也非常丰富。

2.2混合开发方案

混合开发方案采用基于VUE的Uniapp，因为Lni-app能实现一次开发，支持适配Android与IOS等平台，对于后期维护非常方便，所以混合开发内容是居于Uniapp来比较的。本地超文本标记语言显示的支持上Uniapp的web-view组件支持，web-view是一个web浏览器组件，可以用来承载网页的容器。

内容提取的支持和原生采用不通的方式，网页向应用发送消息，在的message事件回调event.detail.data中接收消息，所以内容提取上非常容易实现，不是采用app组件去调用离线网页Javascript，而是离线网页通知的方式，然后app获取到通知的数据，所以内容提取支持非常好，不单如此umapp还提供了一些调用app应用的函数，所以说非常米方便。

最后就是文件系统的写入，Uniapp本质也是基于H5来实现APP开发，对文件系统支持其实不是非常好，但是也是提供的保存文件到本地的接口，但是接口不是非常完善，但是可以实现文件的基本操作。

Uniapp实现文件提取总体流程如下图3所示。

通过对上述2个技术的比对总结：离线超文本标记语言上显示上无论是原生还是混合开发支持上都非常好;在数据提取区域，原生采用原生代码去调用离线网页的JS来实现，js返回的數据无法接收，而混合开发支持离线的网页支持通知App自生，所以数据提取上混合开发更强;文件保存上两者都支持;综上3点本文采用混合开发方案更好，而且混合开发还有一次开发支持多端等优点。

3文档信息自动提取过程

文中讨论AETDI系统的实施，并重点关注当前研究项目中执行的4个方面的关键问题。它们是文档结构，文档标记，文档内容的提取以及导航机制的创建。但在此不讨论分面分类和结果发布的实现，因为这些操作是由作者先前研究中开发的Waypoint系统执行的。

3.1文档结构的实施

由于文档结构的复杂性，UML类图已被设计为实现由文档分解方案定义的文档元素之间的关系。图4是表示物理结构分解方案的UML类图的顶层结构。从图5可以看出，文档具有3个主要类别：标题，正文和注释。聚集关系表明标题，正文或注释是文档的“部分”（菱形指向“整个”）。根据文档正文解释标题的详细信息，并且注释可以补充正文，已经在Heading和Body类之间以及Body和Note类之间指定了关联关系。为每个类指定的多重性指标定义参与关系的对象数。如图5所示，一个“正文”对象可以与一个或没有“标题”对象相关，但可以与零个或多个“注释”对象相关。一个标题或注释对象与一个“正文”对象完全相关。对于这3个类的每一个，已经定义了两个属性，一个ID属性使每个类都是唯一的，一个IDREF属性用于保持另一个类的ID，从而可以实现从一个类到另一个类的信息导航指南。

Body，Heading和Note类的扩展结构。Body是一个相对复杂的类，可以是Part，Chapter，Section，Paragraph，Sentence或Word。Bodv类及其子类之间的继承关系意味着Part，Chapter，Section，Section，Sentence和Word类都从Body类继承其属性和操作。已经在相关子类之间指定了聚合关系以施加所需的限制。已根据Section的类别将反射聚合关系指定给See-tion类，根据文档的复杂性，可以将Section分解为更小的部分（即小节或子小节）。图像属性已定义为允许在文档中将文本与图像实体相关联。

上面图5的UML类图清楚地指定了文檔元素以及根据文档分解方案的元素之间的关系。使用UML类模型定义文档结构还非常有助于使人们理解长文档，以便与参与研究项目的每个人进行交流，并在技术上开发XML DTD数据模型以有效实施文档标记。

3.2文档加标的实施

标记一词指代置于文档中以指示如何解释（非标记）数据的代码或令牌。无需加价，计算机就可以通过频繁计数或通过操作员的指示，基于发现的关键字或短语以某种程度的准确性来识别内容。但是，文档标记可以毫不含糊地指示可以找到某些内容的位置。在信息检索系统中使用文档标记技术将获得更高的准确性。XML和HML以及SVG（一种用于二维图形的基于XML的语言）已用于在AETDI中标记超文本标记语言。本文重点介绍XML标记的实现。在其他地方描述了图像和图形的标记。在XML文档中，合法的或不合法的由文档类型定义（DTD）或模式指定。DTD或模式还建立了文档有效性的标准，可以由专用计算机软件自动检查该标准。如果计算机软件可用于验证和反馈结构复杂的非常长的超文本标记语言（例如，500P的报告）上的标记错误，那么这将是一个优势，否则这将非常困难甚至无法实现校验。因此，DTD或模式的生成是XML标记的核心。在本文中，正是DTD数据模型将UML类图中的文档结构信息传输到可能带有标记的XML文档中。

DTD定义中的一个重要概念是创建元素内容模型，该模型指示允许元素具有哪些内容，例如子元素，文本数据，空元素或任何内容。如图6所示的Body类相对应的DTD的摘录。在上面的DTD数据模型中，已经创建了两种重要类型的内容模型来反映两个重要的关系。为了捕获DTD中Body元素及其子元素之间的继承关系，内容模型已定义为<！-- ELEMENT body（部分|章|节|段落|句子|单词）*-->以支持子元素的选择。因此，为文档创建适当的DTD时，应牢记两个重要事项：首先，元素的内容模型应明确声明子元素之间的关系（例如顺序或选择）。其次，必须正确指定子元素的数量（例如零个或一个，或一对多）。此处创建的DTD数据模型提供了XML标记的语法规则。有了DTD数据模型后，完成XML标记的其余工作需要将标签（DTD中元素指定的名称）插入文档的正确位置，这可以手动完成，自动或通过计算机程序自动执行。

4实验与结果分析

AETDI专为管理任何工程文档（包括工程图）而开发。文档内容可以是文本，图像或图形。实验以CADCAM教科书作为1个长文档的示例，以及巴斯大学赛车队提供的一组赛车项目海报作为许多工程文档的紧凑表示（包含正式文档的内容）结构，其中包含各种文本和表格，以及各种说明性材料，例如照片，绘图和图表等）。本文将探讨进行的实验，其中使用了一系列问题来说明AETDI对工程师的作用。它着重于分解方案的使用。

总而言之，此实验研究表明，AETDI在某种意义上比普通信息系统先进：

用户可以通过对结构和内容（不是仅内容）进行复杂的查询来检索非常特定的文档内容。概念树中的分解方案表示结构，如图7所示，超文本标记语言主题索引和关键字搜索表示内容。ED-CMS中实施的分解方案意义重大，因为就文档结构而言，不同类别的信息对文档用户而言具有同等重要的意义。例如，书本章节标题中的“产品建模”返回给读者的意义远大于书帖本身，在图形标题中找到的“电动机驱动器”比在书帖中找到的“电动机驱动器”也是如此。章节文字。因此，在AETDI中实施分解方案对用户来说意义重大，尤其是当用户使用分解方案从结构复杂的长文档中访问和检索特定内容时。

5结语

文章讨论了超文本标记语言的文档信息自动提取。文档分解方案的复杂性和超文本标记语言的概念树是AETDI的强大功能，但同时也是其最大的局限性。该系统需要大量的文档结构方面的专业知识来定义分解方案，并且需要相关的知识来让文档标记作者正确地掌握和应用这些方案。此外，由于系统采用Waypoint平台（基于多面分类机制），因此检索到的信息结果将极大地依赖于设计概念树的人员的专业知识以及使信息分类过程自动化的约束条件。期望这样的人应该对超文本标记语言领域有丰富的知识。

参考文献

[1]匡成宝.HTML语言的网页制作方法与技巧探讨[J].电脑迷，2017（03）：190-191.

[2]罗正蓉，范灵.应用HTML和css制作网页[J].科技展望，2016（26）：10.

[3]朱敏.JavaScript在HTML中的应用探讨[J].科技视界，2016（24）：227-228.

[4]刘霜，潘立武.HTML发展应用中的探索与研究[J].信息与电脑（理论版）.2016（11）：72-73.

[5]魏佳欣，叶飞跃.基于HTML特征与层次聚类的Web查询接口发现[J].计算机工程，2016（02）：56-61.

[6] Choi，H.，&Sim，S..（2015）.A studv on efficiency ofmarkup language using dom tree.Wireless Personal Com-munications， 86（1），143-163.

收稿日期：2020-01-02

作者简介：佘俊（1973-），男，汉族，高级工程师，研究方向：电力企业信息化。

基金项目：南方电网调峰调频发电有限公司科技项目（STKJXM20180065）

粘接2020年8期

粘接的其它文章: 胶业龙头回天新材上半年业绩发布; 国内TPU领军企业美瑞新材成功登陆创业板; 胶业又新增一家上市公司; 万华化学中国地区MDI价格调整; 康达新材终止收购京瀚禹股权; 硅宝科技上半年业绩发布