多数据源通信信息的标准化研究

2021-03-11 13:26刘旭史珂
科学与信息化 2021年6期
关键词:层级文档语义

刘旭 史珂

1. 91033部队 山东 青岛 266000 2. 海军潜艇学院 山东 青岛 266000

引言

由于科研工作者的编写习惯不一致,导致数据源在不同文件中结构、语义和释义的不同,从而使整个通信信息的数据出现杂乱、重复、语义不一致等现象,这给通信数据资源的二次利用造成了很大的困扰。面对数据量的大规模爆发,许多科研机构都在力图解决数据碎片化所带来的一系列问题,把这些碎片化的异构数据源进行整合从而达到规范化、一致性是目前各个机构和科研工作者的首要任务。

1 数据来源分析

随着互联网的使用越来越广泛,电子文档的使用频率变高,其形式也多种多样。但是,具体到通信信息领域,其电子数据大体分为两种存储格式,一种是Word文件,另外一种是Excel文件。针对这两种文件格式进行标准化,科学地管理现有的异构数据源,是一个亟须解决的实际问题。

2 Word文档的标准化

2.1 Word语义模型

通信信息领域Word文档的格式和组织架构相对来说比较固定,处理这种格式相对较为单一的Word文档的主要方法需要用到本文接下来所提到的Word语义模型,通过模型的设计可以更加方便地实现格式转化和数据转储。通过分析大量通信信息的Word文档,设计出一种符合大部分文档的规范,预先定义好该Word文档的语义排版和显示格式,在之后编辑文本时,只需要直接输入相应的文本信息,系统自动生成预定义的标准模式,就不再需要进行烦琐的排版操作。

Word文档的表示模型在高效规范的处理其中的数据资源上起到了重要作用,然而这种表示模型,在表示Word文档中的潜在语义信息和词间关系方面并不是很擅长。为了使集成数据信息和实现语义化的处理和整合更加方便,我们需要通过定义规范有效的语义模型来处理Word文档的数据。通过对大量的通信信息Word文档样本进行深入分析,结合有效的语义模型,我们可以得出这种设计的模式有如下两种好处:

(1)该模式通过转换之后的结果存储格式为XML格式,这种格式很容易被其他应用程序二次使用,为数据集成、数据交换和数据共享提供了有利的条件,支持各类以计算为使用基础的应用。

(2)该模式的格式转换非常灵活,能最大程度的满足一种数据格式向另一种数据格式的转化。

2.2 Word模版的设计

文档的基本结构和设置,例如页面布局、快捷键制定方案、菜单、宏、字体等都是由模版来决定[1],其实所有的Word文档的基础都是模版,我们把共用模版和文档模版看作模版的两种基本类型。其中共用模板所包含的设置适用于任何文档。而另外一种模版,文档模版的设置仅适用于以该模版为基础的Word文档。例如,如果用文档模版创建一个关于通信信息的Word文档,该Word文档能同时使用共用模板的设置。Word文档提供了很多文档模版,我们也可以编辑创建数据自己的文档模型。

我们首先需要自己创建一个模版,才能通过基于模版的方法来转换Word文档。第一步,先按照通信信息常见的Word文档设计模版格式,在数据经常出现变化和需要填充文字信息的地方都插入“域”,其插入方式如下:

(1)单击要插入域的位置之后,在菜单栏的“插入”功能下,找到“文档部件”,在弹出的下拉菜单中点击“域”。

(2)点击“域”后会自动弹出窗口,共有九个类别,每个类别对应不同的域名,我们可以根据模板的需要进行相应的选择。

(3)域类型和域名定义好后,根据每个域名不同的特性,再对域属性根据需求进行相应设置,最后点击“确定”即可。

通过域的设定,我们可以把字体、位置、颜色等显示样式规范化[2]。域中的数据都是可变的,如果以后用户自主创建Word文档,只需更改域中的文字信息即可,不需要再对样式、排版进行编辑。对于这种建立模版方法,我们在插入每一个域时,都需要输入相应的提示文本,作为该域的语义信息。

我们通过对通信信息大量Word叙词文档的研究与总结设计Word模版,模板中包括{标题}、{撰写人}、{序号}、{概念}、{释义}都是域的提示文本,提示文本其实就是语义信息,与关系表中的字段名类似。

使用了通过域定义的语义模版后的Word文档,如下图1所示,拥有三个通信信息的概念,其中概念用加粗字体表示,对应释义用普通字体表示,概念与释义之间用空格衔接。

图1 使用模板后的通信信息Word文档

3 Excel文档的标准

3.1 Excel文档结构分析

通过分析现有通信信息Excel文档,其中不仅有概念,还有概念与概念之间的关系,其基本关系如下图2所示,通过分析,前一列与后一列之间的关系可以分为三种,分别为层级关系、相关关系、等同关系。这是一种规范的结构,其信息存放在单件中,其排列方式可以是多种多样的,关系类型是简单的数据值,可以方便地添加新的关系类型。

图2 Excel概念间基本关

3.2 Excel文档模板设计

为方便后续数据加工处理,在Excel文档中概念与概念关系的规范势在必行。根据通信信息文档的分析,以层级关系居多,因此需要将相关关系与等同关系都规范为层级关系。

(1)相关关系的规范

相关关系,体现的是一种相互依存的关系,如“有线通信——对称电缆——双绞线”,其中有线通信和对称电缆为层级关系,对称电缆和双绞线为相关关系,此种情况,保留相关关系的上一层关系,即“有线通信——对称电缆”,将相关关系“对称电缆——双绞线”转换至通信信息Word模板中,即对称电缆:双绞线,体现为概念与释义的关系。

(2)等同关系的规范

等同关系,即二者体现的是一个概念,如“按消息传递方向——半双工通信——双向交替通信”,其中按消息传递方向和半双工通信为层级关系,半双工通信和双向交替通信为等同关系,此种情况,保留等同关系的上一层关系,即“按消息传递方向——半双工通信”,将同等关系的下一层提到上一层的括号中,即半双工通信(双向交替通信),体现为概念与备注的关系。

且为了后续数据映射处理方便,层级关系的每一列均不使用合并单元格的操作,标准化后的Excel文档,如下图3所示。

4 结束语

本文设计的Word和Excel标准化文档,客观真实地反映通信信息领域的知识结构框架,提高专业领域信息管理的效率,但标准化仅仅是第一步,后续还需要更为智能的管理系统科学高效地管理通信数据,实现通信文献和研究成果的资源共享和跨地域管理,全方位多角度地展现数据。

猜你喜欢
层级文档语义
真实场景水下语义分割方法及数据集
浅谈Matlab与Word文档的应用接口
科室层级护理质量控制网的实施与探讨
有人一声不吭向你扔了个文档
军工企业不同层级知识管理研究实践
基于军事力量层级划分的军力对比评估
职务职级并行后,科员可以努力到哪个层级
Word文档 高效分合有高招
“吃+NP”的语义生成机制研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat