非信息化海洋环境历史资料抢救流程设计与关键技术研究

2015-12-14 08:51杨锦坤徐珊珊苗庆生
海洋信息技术与应用 2015年3期
关键词:海洋资料数字化

杨锦坤,徐珊珊,苗庆生

(国家海洋信息中心 天津市 300171)

21 世纪是海洋世纪和信息化时代。进入21世纪,海洋已成为人类经济社会发展的重要资源,世界各国均将海洋事业发展作为推动国民经济建设发展的战略要事,我国更是提出建设海洋强国的伟大战略目标。时空连续、质量可靠的海洋资料是海洋开发利用的前提和关键。建国以来,我国通过海洋调查、观测、监测活动和国际交换与合作等手段,获取和积累一定数量的海洋环境资料,在海洋环境保障、防灾减灾、军事国防等诸多领域发挥了应有的支撑作用。然而,受历史条件制约以及作业环境、仪器设备、观测手段等因素的影响,相当一部分海洋环境历史资料以纸质、光盘、磁带等非信息化形式留存,难以满足信息化时代对海洋资料应用和服务的需求,更在资料存储方面存在巨大的安全隐患,一旦遭受人为或自然损害,将带来难以弥补的损失[1],亟待开展非信息化海洋环境资料抢救工作。

目前国内针对非信息化海洋环境资料抢救的流程和方法,尚少有文献发布。研究提出了非信息化海洋环境资料抢救的工作流程,在此基础上,以工作流程为主线进行了相关技术方法研究,以期能够在总体框架和关键技术上为非信息化海洋环境资料抢救工作提供参考。

1 非信息化海洋环境资料抢救总体工作流程

非信息化海洋环境资料抢救工作是一项涉及海洋专业知识、海洋环境资料处理经验、信息技术等多因素的系统性工程,总体工作流程应包括非信息化海洋环境资料现状调查、非信息化海洋环境资料数字化、资料处理和整合等,总体工作流程图如图1。

非信息化海洋环境资料现状调查:整理分析现有非信息化海洋环境资料的内容、数量、存储介质、保存质量和是否有价值抢救、是否已完成抢救等信息,摸清非信息化海洋环境历史资料现状,确定需抢救的非信息化海洋环境历史资料清单。

图1 非信息化海洋环境资料抢救总体工作流程图

非信息化海洋环境资料数字化:研究资料数字化录入格式,研发相应的录入资料校对软件,对非信息化资料进行人工录入(纸质)或专门设备读取(光盘、磁带)与格式转换等处理。

数字化资料的处理和整合:针对完成数字化的电子资料,进行标准化、质量控制、订正和排重等处理,最终纳入同类海洋环境基础数据集和数据库。

2 非信息化海洋环境资料抢救关键技术研究

2.1 现状调查

非信息化海洋环境资料现状调查应通过调查内容明确抢救资料清单,确定抢救时间顺序。抢救时间顺序的确定应坚持“抢救优先、利用优先”的原则。抢救优先指在数字化工作中优先考虑因特定时期、特殊原因造成的那些因资料形成和保管条件限制而导致部分损毁或即将损毁的资料、优先进行抢救;利用优先指优先把利用率较高的资料数字化[2]。

2.2 数字化

数字化的目标是使纸质媒体上的信息进入电子媒体,能方便地检索[3]。按照录入或读取快捷方便的原则,研究制定资料录入的格式。针对纸质资料进行单人录入或双人同录,单人录入资料需开展两遍人工校对和质量审核,双人同录资料需利用校对软件进行数据对比和查询修正,之后仍需进行一遍人工校对和质量审核。针对光盘、磁带等存储资料,需利用专门设备进行读取,并转换为录入格式。资料的录入错误率应低于1‰。

2.3 标准化

对录入资料进行文本可读性和参数齐全性等检查,确保录入资料内容无丢落项且支持后续的计算机读取与操作。在此基础上,按照资料管理要求,对资料进行代码转换、计量单位转换、参数计算等处理,依据该类资料的标准应用记录格式要求,对资料进行标准格式转换。

2.4 资料质量控制

资料质量是资料的生命,资料质量控制是非信息化资料抢救乃至海洋环境资料处理的关键环节。质量控制方法一般包括非法码检验、常规范围检验、气候学检验、统计学检验、相关性检验、梯度检验、尖峰检验、着陆检验等计算机自动质量控制方法和人机交互审核[4]。必须指出的是,质量控制能够在普遍意义上有效标识或剔除可疑、错误和缺测资料,但往往在资料使用过程中会进一步发现异常资料,需追溯资料进行再次质量控制,如此反复方能使资料中的质量问题越来越少。

非法码检验:按照标准应用记录格式规定的数据项属性(字符型、整型、浮点型等),逐项检查标准数据集各要素的数据类型。

常规范围检验:对于有特定编码或枚举型、或有取值范围的数据,其取值必须在取值范围之内。如站号、国家代码、观测平台代码和时间、经纬度、水深、矢量速度范围等。

气候学检验:利用各要素季节性统计特征值,包括月/季的平均值、最大值、最小值进行连续性和合理性判定。

统计学检验:利用观测数据的统计学特征进行异常值的检验,方法包括莱因达准则、肖维勒准则检验等[5]。

相关性检验:利用不同要素之间的相关性进行数据的合理性检验,如气温一般略高于露点。

梯度检验:温盐剖面或高空探测的风、气温、气压、湿度等随深度(高度)变化的梯度应具有连续性和一致性,并在合理的变化范围之内。

尖峰检验:基于海洋要素变化的连续性和渐变性,判定异常的突变点。

着陆检验:依据全球数字化地图,判断海洋观测资料的位置是否位于海洋内。

人机交互审核:绘制要素的时空序列变化图,利用人机交互模式和可视化手段直观查找突变值并判断是异常值还是海洋真实变化。

2.4 资料订正

针对完成质量控制的标准数据集,利用统计分析或客观分析方法,结合相同或临时时空的海洋环境历史资料,计算得到数据的变化趋势和订正参数,标识站位漂移、仪器误差、生物体附着、传感器滞后和系统误差等造成的数据异常,并对异常数据进行订正。

2.5 资料排重整合

由于非信息化资料来源较多或者某些资料来源已难考证,有可能前人已完成数字化,因此需针对每一批次新近完成抢救的非信息化资料,与现有同类海洋环境历史资料进行排重处理,否则将会导致数据应用过程中的分析结果失真。数据排重主要以观测时间、位置、仪器、测值等作为复合排重指标,首先对所有资料进行排序,排除所有指标均相同的数据记录(保留唯一一条);若观测时间、位置和仪器均相同但测值不同,则保留空间分辨率最为齐全的数据记录;若观测位置、仪器、时间范围相同但测值交叉重复(测值的时间分辨率不同),则保留时间分辨率较高的数据记录[6]。最终经过排重,将完成抢救的资料纳入海洋环境基础资料集和数据库。

3 结 语

系统介绍了非信息化海洋环境历史资料抢救的总体工作流程,详细阐述了各关键环节和技术方法,研究成果符合我国海洋资料管理工作的实际需求,对于进一步推进我国海洋资料处理、管理和应用服务信息化进程,具有现实的技术参考价值。

[1] 肖卫,时昶,高军.历史水文资料数字化处理[J].人民长江,2011,42(21):67-69.

[2] 周瑞华.对地质资料数字化若干问题的探析[J].大陆桥视野,2012,07:84-86.

[3] 龙波,杨丽芳,肖健,梁莹.大规模图文资料数字化的实现方法[J].广西科学院学报,2007,23(4):275-276.

[4] 刘小宁,任芝花.地面气象资料质量控制方法研究概述[J].气象科技,2005,33(3):199-203.

[5] GB/T 14914-2006.海滨观测规范[J].2006,81.

[6] 张学宏,张绪东,张晓娟.多源温盐资料排重处理的一种方法[J].海洋预报,2012,29(1):48-54.

猜你喜欢
海洋资料数字化
家纺业亟待数字化赋能
Party Time
PAIRS & TWOS
JUST A THOUGHT
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
爱的海洋
第一章 向海洋出发
数字化制胜
资料哪去了/等