大数据时代《网络情报获取与分析技术》课程建设研究

2021-05-20 01:45姚婷婷武海燕
山西警察学院学报 2021年2期
关键词:数据源公安情报

□姚婷婷,武海燕

(1.湖南警察学院,湖南 长沙 410168;2.铁道警察学院,河南 郑州 450053)

一方面日新月异的信息技术背景导致了现阶段犯罪的形式、途径均有向网络化发展的趋势;另一方面公安实战一线网络情报获取辅助性工具与分析方法发生了根本性变化。然而公安院校还未能形成合适的机制顺应变化,对现阶段犯罪形式的新特点、新形式难以作出及时“响应”与“同步”,使公安人才培养与实战相对脱节,公安网络安全岗位人才培养在技术上的“供需”出现了“失衡”。

一、课程建设背景与现状

根据《普通高等学校本科专业类教学质量国家标准》中对网络安全与执法专业课程的要求可知,该专业要涵盖网络情报搜集与分析知识点和技能单元。近些年,公安一线的科技信息化进程在“金盾工程”“天网工程”等一系列各级公安科信项目的推动下,完成了包含网络基础设施、网络硬件设备、信息中心、警综平台、公安大情报平台、部门间共享服务平台以及警用地理信息系统平台等软硬件的建设工作。由此,积累了大量珍贵的系统资源、数据资源及案例资源。而公安院校却还没有形成相应的机制及时跟上一线信息技术革新应用的变化,使得公安院校相关专业人才培养与实战相对脱节,无法向公安科信、网络技术侦查等部门输送能胜任新技术环境下信息情报工作需求的技术人才。在这个背景下,网络安全与执法专业的《网络情报获取与分析技术》课程建设任务对公安高校教授该课程的教师提出了较高的要求,与“拓荒”无异。

《网络情报获取与分析技术》课程的定位是培养网络安全执法专业的学员在治安防控、政治安全保卫、案事件情报获取、重点人员管控等相关网络线索的获取、分析能力的课程。该课程作为网络安全与执法专业的专业课程,是以公安技术侦查、计算机技术侦查、电子数据取证等先导课程为基础,介绍对当前搜索引擎、云计算、大数据等新兴技术构建警务云平台,进行公安工作应用的课程。

然而,通过公开数据源查询,全国公安院校可选用的《网络情报获取与分析技术》教材只有2014年中国人民公安大学顾益军教授主编出版的同名教材。此外,没有系统的且贴近国内网安岗位工作流程的资料参考借鉴。根据公安内部工作条例,也不排除有只在公安一线部门内部发行与流通的讲义等(教学教材不适用)。国外的网安工作体制和方法与中国国情有异,且多数技术、手段属于保密级别。故而在公开数据源查询资料相当困难,收获甚少。贴近实战环境的实验实训指导书以及实验实训平台的建设思路也在一直不断的探索中。

该课程的课程建设工作已“如箭在弦”,不得不发。

二、课程建设

《网络情报获取与分析技术》课程建设应该结合公安科信工作发展实际,以“服务公安、服务实战”为宗旨,紧密贴合现阶段网络安全执法工作要求,以当前实战环境下采用的主流信息技术体系、框架以及软硬件环境为基础,收集和展现现阶段网安工作的现状,沉淀网络安全执法战线的先进经验与做法,为培养切合网安工作一线需要的网络安全与执法人才做铺垫。

《网络情报获取与分析技术》课程建设的工作内容包括四个方面:一是内容建设,体现在教材建设上;二是实验实训体系建设;三是基本教学资源库(教学大纲、教案、PPT题库、实验视频的录制)建设;四是师资队伍建设研究。

(一)教材建设

1.已有教材分析

中国人民公安大学顾益军教授2014年主编出版的《网络情报获取与分析技术》教材中,以介绍当时获取网络情报的WEB信息为主线,其中主要包括结构化数据的获取与处理技术、非结构化数据的获取技术、网络爬虫技术、链接分析技术和信息检索技术;另外对当时公安实践中的网络舆情分析与研判技术、案事件情报分析技术做了总结和归纳。[1]该本教材对《网络情报获取与分析技术》课程的意义非凡,是零的突破,对该课程所涉及知识范围结合公安一线实战做了准确的界定和卓有成效的探索。

但是在当时的信息技术背景下,公安网络情报的搜集与分析技术还处在“萌芽”状态。大数据、云计算无论从技术上还是成本上都与警用的实际需求差距很大。建设基于“网络爬虫+大数据云计算平台+AI算法情报推送”框架的情报分析平台的时机还远不成熟。近几年,随着相关技术的成熟,公安科信工作随之推进深入,搜索引擎、大数据、警务情报云平台的逐步实施和完善以及云计算、人工智能等新兴技术与公安工作深度融合,《网络情报获取与分析技术》课程迎来了革新、丰富以及整合的技术窗口和革新窗口。

2.教材总体框架

以计算机的诞生颠覆了传统记录信息与存储信息的方式为开端,到20世纪90年代互联网技术的诞生解构了传统的信息传递方式,开创了互联网技术背景下信息传递的新纪元;到现阶段形成了以搜索引擎、大数据、云平台、云计算、人工智能为技术支撑的智能情报获取与分析的生态系统。现代情报获取与分析技术一直紧跟着信息科学技术的发展而不断迭代更新,信息科学技术的发展已成为情报获取与分析技术的强大原动力。所以,《网络情报获取与分析技术》课程建设应该在高度关注情报、网络情报、以及信息科学技术之间起承渊源关系的前提下,体现现阶段大数据云平台技术背景下网络情报获取的新途径、分析的新技术。

《网络情报获取与分析技术》的教材建设拟如图1所示框架组织编写,其每个部分的具体内容将在下文中作详细解读。

图1 《网络情报获取与分析技术》教材内容框架图

3.教材各部分内容组织

在情报学概论部分以建立情报与信息的基本区分为前提,立足于情报学的基本内涵和外延组织教材内容。1967年美国的杰劳尔提出:“情报科学是研究情报的特性和活动,管理情报传递过程的手段,以及为保证情报的最有效利用所必需的情报处理技术”。[2]因此在这一章中将以先传统后现代的时间顺序,以当时技术背景下传统情报学学科的工作内容和方法为参照物,用对比的方式展现当前技术背景下情报学学科的新技术环境、新内容以及新挑战。

网络情报获取技术部分以现阶段情报获取途径主要是来源于网络为基础,介绍当前网络情报获取的两种途径。第一种是基于公开数据源、专业数据源以及公共数据源的搜索引擎技术;第二种是针对特定靶向终端或网络的密取技术。该部分的重点将放在基于公开数据源的搜索引擎技术上,对针对特定靶向终端或者网络的密取技术做一个概述,具体的内容和知识点将在后续的《网络攻防技术》课程中学习。搜索引擎系统的主干技术系列包含了网络爬虫技术、链接分析技术以及倒排序列索引技术。在这一部分中将首先简述网络爬虫基本原理、开发工具、采集规则确定策略等内容;接着介绍链接分析技术中的Pagerank算法[3]以及相应改进算法并阐述其在系统中的意义;最后介绍倒排序列索引技术的基本原理以及在系统中的作用和意义。

网络情报分析技术部分讨论在新的信息技术背景下多源数据处理和分析技术。该部分内容将以大数据技术、云计算技术以及AI算法分析技术为主线,依次解决数据预处理、数据分布式云存储、分布式云计算、人工智能算法分析等问题。

在基于大数据、云计算技术的警用网络情报获取与分析技术生态应用系统部分以XX省XX市智慧警务云平台为例,[4]实景展示新技术背景下公安网络情报获取与分析应用生态系统之一。该部分将以基础服务、数据服务、平台服务、应用服务、安全管理等几个方面来组织。在这个框架下,将展示从架设软、硬件资源、网络资源以及安全资源开始,到预埋分布式数据库服务、分布式文件系统服务、离线计算服务,到数据预处理过程,再到提供数据服务、面向主题的数据分析服务、情报推送服务、情报信息编报等。

(二)实验实训建设

1.实验实训体系整体框架

当前新技术背景下,网络情报之获取、清理以及分析的过程与传统情报有很大变革。前者较大地依赖于网络爬虫技术、大数据云计算技术、人工智能学习算法等技术体系,故而构建新技术背景下《网络情报获取与分析技术》课程的实验实训大纲的立足点在于教材的基本技术框架上。考虑课程受众的知识结构、实验室软硬件环境以及实战岗位需求三方面因素,课程实验实训建设的内容将选取一部分代表性技术且方便在实验室实施的实验项目如图2所示,其包含的每一个实验内容将在文章随后的小节做详细描述。

图2 课程实验实训内容规划图

2.网络爬虫实验设计

“网络爬虫”是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。“网络爬虫”是现阶段实现自动化网络情报搜集的主要软件工具,也是大数据平台的数据主要源头之一。实验主要展示如何使用Java编程来构建一个“蜘蛛”,例如,该“蜘蛛”的“爬取”目标是“爬取”规定时间范围内关于“新冠吹哨人李文亮”事件评论的所有网页。我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并识别出死链接。

该实验的目的主要在于让学员体会网络爬虫运行的基本原理。在掌握网络爬虫开发的基本步骤前提下,进一步展开对“爬虫”采集策略取舍的思考。

3.多源数据预处理实验设计

现阶段技术背景下,大数据平台中存在大量异构的数据源亟需处理和整合。[5]在实验室中脱离大数据数据预处理平台的服务支持,手动自主地对几种有代表性的数据源进行预处理,重现原始数据预处理过程,有助于学员加深大数据平台的数据预处理服务的内容和本质的感性认识。

考虑到实验室环境的局限性以及学员的知识储备,该实验的目标定位于多种数据源的转换、合并与统一,如图3所示。实验过程中会给学生准备EXCEL、ACCESS、MDF等格式的数据文件,实验目标是合并这些异构的数据源成为一个XML数据文档。这个实验的能力要求是学员应考虑到多源数据格式文件的读取、重复字段的删除、缺省值的填充等问题。

图3 多源数据预处理实验

4.词云图分析实验设计

词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。[6]在大数据平台提供的分词服务的基础上,面向某个主题实施词云图分析技术,可以迅速获得网民关于该主题的主旨,并进行可视化的展示,这是在舆情监控领域常见的应用。

该实验在网络爬虫实验所获得的如关于“新冠吹哨人李文亮”事件评论的数据基础上,首先利用分词工具进行分词操作,然后进行词云图分析,分析结果将展示当前网络上针对“新冠吹哨人李文亮”事件评论的网民的观点和意见倾向。通过本实验,学员可以体会在大数据技术支撑下,网络情报分析的基本思路与步骤。

5.智慧警务云平台实践设计

实践拟将模拟的公安各警种业务数据以及公开数据加载于XX省XX市智慧警务云平台的原型系统之上,让学员在云平台系统中体会多源数据实时同步、实时业务数据查询、网络布控、在线情报分析、多维数据可视化展示等大数据云平台提供情报服务。

通过该实践可以让学员体会已建成的大数据服务平台能够提供的数据服务、在线情报分析服务、智能情报推送服务、多点协同服务以及多维数据展示服务等。

(三)基本教学资源库建设

课程教学基本资源库中包括:教案、PPT课件、试题库、实验资料库等课程基本资源。其中教案、PPT课件、试题库需在教材建设之后以教材体系为参照分别制作。实验资料库建设则只需在实验实训体系规划完成之后,就可进行收集、处理,为实验实训指导书的完成奠定包含软、硬件、算法库以及数据环境基础。

参照该课程实验实训体系设计规划,各实验项目所需软硬件环境可归纳如表1所示:

表1 各实验项目支撑软、硬件环境汇总表

各实验项目所需的基本算法库、数据源归纳如表2所示:

表2 各实验所需算法库+数据源汇总表

(四)师资队伍建设

师资培养内容包括学习与实践两个部分。一是定期开展学习、研究一线公安系统已规划设计完成的相关公安大数据方案和已研发上线的公安大数据产品,熟悉方案内容,梳理产品技术脉络,研讨、修正课程教材内容框架;二是集中授课教师到已按规划方案建成相关大数据平台的公安一线实地考察、业务实践,熟悉新技术环境下公安大数据平台的实际落地形式、运行状态、使用方法、工作流程,并按规定收集可利用数据资源、平台试用用户名、密码等资源,展开关于课程实验实训体系建设具体内容的讨论。

三、总结与展望

近一个世纪以来,信息技术领域的革命深刻地改变了人类社会生活方式,因之也影响了人类社会犯罪的形式、途径、手段。在当前大数据背景下公共安全领域的警务模式也由之变成了以情报为主体的“情报警务”模式,并以此来适应当前新的实战环境,以期更有效地对犯罪进行“打、防、管、控”,维护社会公共安全。公安院校肩负着培养网络安全与执法专业人才的责任,时刻准备着为公安一线输送新鲜血液。由于信息技术更新速度比较快,课程的内容需要结合新的信息技术和公安实战的应用不断更新。技术永远引领着未来发展的方向,为顺应技术革新而对情报获取与分析方式进行革新,是这个领域永恒的趋势。

猜你喜欢
数据源公安情报
情报
博物馆:上海公安史图片展
情报
情报
Frequent attacks on health workers in China: social changes or historical origins?
Web 大数据系统数据源选择*
“10岁当公安”为何能畅通无阻
基于不同网络数据源的期刊评价研究
交接情报
基于真值发现的冲突数据源质量评价算法