基于大数据的生物安全防护开源情报工作探讨

2022-06-23 10:40王侠汤琳于千策曹洪欣
海军医学杂志 2022年3期
关键词:情报工作开源情报

王侠,汤琳,于千策,曹洪欣

《中华人民共和国生物安全法》于2021 年4 月15 日正式施行,确立了生物安全在我国国家安全中的地位和意义,构建有中国特色的生物安全体系成为国家的重要战略议题。为支持生物安全工作的科学决策,国内情报学界提出了生物安全情报的概念[1]。然而,在大数据时代,数据来源杂、体量大,传统情报分析方法难以实现数据的有效处理[2]。信息技术的发展使得大数据分析成为可能,基于大数据和信息分析技术的开源情报展示出更高的价值潜力,逐步成为国家战略决策、科研活动和外军研究的重要情报来源[3],在生物安全情报研究领域同样有广泛的应用前景[4]。当前,国内对于如何有效利用大数据开展生物安全防护开源情报工作鲜有报道,迫切需要研究大数据时代生物安全防护开源情报工作模式。

1 生物安全防护开源情报工作的重要性

1.1 生物安全防护独特的国防属性 生物安全与国防军事存在千丝万缕的关系。首先,战争通常会伴随传染病的流行[5]。二战期间,传染病造成的死亡人数甚至超过了直接战伤。其次,生物恐怖袭击的潜在威胁越来越大。现代分子生物学、生物医学工程和遗传学的快速发展使得生物武器生产、散布的技术门槛越来越低[6],生物恐怖袭击事件呈现频发、突发趋势。最后,生物军事化依然存在风险,《禁止生物武器公约》在部分国家并没有严格实施。因此,生物安全防护工作对于加强国防安全、提升军事战备能力极为重要。

1.2 生物安全领域情报能力有待提升 目前,针对生物安全的情报研究,主要是围绕禽流感等重大突发事件、重大烈性暴发性传染病、高等级生物安

全实验室等生物安全问题[7-10],编发各种生物安全快讯、专辑、内刊等,对突发事件和发展动向进行跟踪报道。与国家安全的其他主要领域相比,生物安全领域的情报工作尚缺乏基本的理论框架和系统的实践总结,针对生物安全防护开源情报工作体系的研究尚处于起步阶段[11]。生物安全防护的形势动态监测、应对措施建议和战略决策支持等众多方面的情报工作都亟待加强,与情报先导和情报支撑的要求差距颇大,难以满足当前科学决策和科研的巨大需求。

1.3 生物安全防护开源情报工作的大数据优势传统的情报分析主要依靠人工分析,需要耗费大量的人力物力资源,并存在分析偏差大、应急反应慢以及情报价值低的缺点[12]。随着互联网、社交媒体、移动终端等技术的迅猛发展,大数据环境下依然沿用传统方法进行情报分析无异于大海捞针[4],生物安全防护领域亦然。相较于传统情报方式,基于大数据分析的生物安全防护开源情报工作拥有信息收集更全面、数据处理更及时、情报结论更客观的优势,能够快速、有效地开展全球范围内生物安全防护情报搜集、分析和加工,为国家和军队生物安全战略发展提供时效性更强的高质量情报支持。

2 生物安全防护开源情报实践原则

2.1 权衡情报来源,兼顾权威性与全面性 在互联网应用之前,开源情报的主要来源是图书、期刊、广播电视电台、新闻媒体、政府和民间机构公开的信息和数据等[13]。而互联网开启了开源情报工作的新篇章,开源情报的情报源发生了变化,包含传统情报源的网络化产品、以谷歌地球为代表的地理空间情报以及新生的社交网络情报,如社交媒体网站、微信公众号、视频网站、维基百科网、微博、论坛、购物网站等[14]。面对多渠道、多样化的情报来源,准确识别可靠的信息源并获取更及时、有效和全面的信息是开展开源情报工作的前提条件。为实现对生物安全防护开源情报的循环处理,需要构建覆盖生物安全领域的国外权威期刊论文、专著、专利、标准、指南、会议文献、学位论文、网络文献及其他重要相关开源情报资源,并通过信息源标注和信息冲突校对的方式实现可靠信息源的准确识别。

2.2 标准化情报数据类型,兼容各种数据格式 开源情报来源不同,获取的数据结构也就存在较大差异,信息资源描述的内容结构、句法结构、语义结构

等方面均不相同。为便于后续的统计分析,需要对所获取的数据进行一系列的预处理后才能用于分析。对于情报数据处理的要求有:(1)冗余数据处理能力。系统应具有数据过滤、去重和自动分拣等功能。(2)情报数据标准化能力。通过数据提取和自动匹配的方式,实现数据标准化处理。(3)音视频转换能力。对于音视频类型的数据,可以自动提取相关数据,形成可处理的标准化数据格式。目前对于数据处理方式主要有2 种,即数据导入前处理和导入后处理[15]。考虑到生物安全防护开源情报数据具有量大、价值密度低的特点,在导入数据库前进行数据预处理有利于提升处理速度和效率。

2.3 循环处理流程,优化情报产出 高效有价值的情报产品需要对情报源选择、数据获取、数据清洗、数据分析到情报产出整个过程进行质量控制。为优化情报产出质量,本文提出情报循环处理流程,即对数据获取与管理、数据清洗与管理、数据分析与管理、分析结果与管理等4 个环节进行循环处理与质量管控,见图1。通过对情报分析结果的反馈,适时调整循环中的信息来源、信息检索与信息分析策略,决定流程继续进行或者终止。循环流程中,保持情报中间产出对生物安全防护相关专业人员的自由流动和共享,以实现对情报产出的实时评价,从而调整情报处理流程,不断深化情报的挖掘与分析,创造更优质的开源情报成果。

图1 生物安全防护开源情报循环处理流程

3 生物安全防护开源情报工作机制

为实现对生物安全防护开源情报的循环处理,需要在情报源标注、数据标准化、数据清洗与分析处理以及情报累积等方面建立相关机制,构建贴合实际需求的生物安全防护开源情报一站式服务平台,实现跨资源类型、跨学科、跨主题的开源情报资源统一标引、统一检索、统一揭示。

3.1 情报源标注机制 快速响应、及时更新且数据可靠的情报源是获取相关数据的最佳方式,如世卫组织传染病暴发周报/日报、国家卫生主管部门新冠肺炎疫情每日数据等。然而,并不是所有情报源都是可靠且及时的。为保证所获取数据的质量和可用性,可以建立情报源标引机制。一是可疑情报源标识。对出现虚假或错误数据的情报源以“可疑情报源”标注,“可疑情报源”标注频率高于限值的则不作为必须统计的情报源。二是推荐情报源标识。对不同时间、同一疾病的多次检索均获取可用数据的情报源,以疾病名称标注,作为该疾病推荐情报源。三是事件响应时长标识。对比最新数据发布时间与生物安全事件发生时间,计算情报源“事件响应时长”,事件响应时长较长的情报源不用于突发生物安全事件预警,避免冗余数据干扰。

3.2 多源异构数据标准化机制 来自于不同情报源的数据,资源类型多,数据结构不一致[16]。知识服务平台需要对期刊文献、会议论文、学位论文、专利文献、标准文献等不同来源、不同类型及不同格式的数据构成的多来源、多类型异构数据进行处理。针对多源异构数据种类繁杂、海量多源、格式异构、多维以及动态性等特点,利用云服务器和云存储单元增强服务器处理性能,建立基于元数据的多源异构数据标准化机制。通过对不同数据源所遵循的元数据标准进行分析汇总,并结合国际主流标准,建立统一的文献元数据标准,作为所有数据源转换映射的标准。依据统一的元数据标准对汇聚后的文献元数据进行实体抽取和关系抽取。

3.3 专题数据清洗机制 数据清洗是情报分析工作的重要步骤,是保证分析结果准确可靠的前提条件[17]。在专题数据清洗步骤,病原微生物名称、时间、地点等信息可以作为关键不可缺元素,根据关键不可缺元素定义无意义数据,实现对无意义数据的去除或清洗;通过比对关键不可缺元素集合及其定义阈值,校正矛盾或不一致数据;通过比对字典库,识别拼写错误;通过比对关键不可缺元素集合,识别同一事件数据描述,实现同一事件数据的合并处理。

3.4 多维度分析机制 在大数据时代进行情报研究工作,单一维度的信息分析难以满足情报需求,需要以多维度的视角,从数据和方法上实现创新[18]。开源情报一站式服务平台设置计量分析模块(专题数量统计分析)和内容分析模块(专题共现网络分析、文本挖掘可视化、态势报告智能生成),具有多维度的聚类统计和分析功能,如资源类型、来源出处、学科分类、关键词、关键指标等。不同的数据类型对应不同的分析维度,嵌入ECharts、Gephi等开源工具对分析结果进行可视化呈现。

3.5 情报循环处理机制 常规情报分析的原始数据和过程文件通常留存在项目组手中,难以实现数据共享。生物安全防护开源情报一站式服务平台可以实现情报循环处理:一是向用户和专业人员提供数据和情报过程中间产品的共享,开放获取对中间产品的意见,作为情报产出过程再循环的决策依据;二是向用户和专业人员提供表格式选项,收集用户和专业人员对数据源、数据准确性、分析方法、情报产品形式等方面的满意程度,有针对性地调整循环处理重点。

3.6 情报积累机制 情报工作历来重视积累。服务平台能够实现对产出情报的保存与自动分类管理,通过对情报产品及相关的分析报告进行累积,逐渐形成疾病信息库、卫生器材库、传染病监测库和专题报告库,并不断丰富完善,对传染病权威防治知识进行系统搜集,对系列器材装备发展趋势进行深度分析,对当前疫情发展进行动态、及时的追踪,对国内外生物安全领域发展战略进行科学解读。

3.7 人才队伍建设机制 情报人才是情报研究的重中之重,人才队伍的科学化建设有利于情报工作的高效开展[19]。情报人员的信息素养是生物安全防护一站式服务平台基础要素(如情报搜集、加工、分析与预测以及情报产品生产等),是保证高质量的关键。为获取更为全面的开源情报,迫切需要多语言类的情报搜集、加工与分析方面的人才。强化情报人才建设的同时,还需要与生物安全防护相关的专业人员密切协作,情报循环处理机制也要求组建生物安全专业团队,以专家库或主题咨询专家团的形式保障情报循环处理的科学性。

4 小结

大数据时代,生物安全数据呈指数级数增长,为生物安全防护的情报研究提供了丰富的数据资源,也为生物安全开源情报工作打开了新篇章。如何实现生物安全大数据快速搜集、处理、分析以及生成高质量情报产品,成为当前生物安全防护开源情报研究工作的核心。

猜你喜欢
情报工作开源情报
湖南省高等学校图书馆情报工作委员会第十届常委会第二次会议在长沙召开
情报
情报
情报
五毛钱能买多少头牛
2019开源杰出贡献奖
曾希圣与人民军队情报工作
大家说:开源、人工智能及创新
开源中国开源世界高峰论坛圆桌会议纵论开源与互联网+创新2.0
交接情报