一种利用OCR技术进行互联网涉密检查的方法

2014-06-18 02:30陆春祥王伟
中国科技纵横 2014年4期
关键词:互联网

陆春祥 王伟

【摘 要】 近年来,互联网泄密事件逐渐增多,传统人工检查方法难以应对海量信息的合规审查,本文通过一种基于图文识别OCR的方法,通过分布式部署互联网检查设备,可以快速发现互联网违规发布的涉密文件,大幅提升互联网涉密信息检查能力。

【关键词】 互联网 海量信息 OCR

1 引言

近年来,在各级机关的保密检查中发现通过互联网违规发布涉密文件资料的案件逐年增多。其中涉密文件为图片格式的案件比例呈现更加明显的上升趋势。相关人员通过截图等形式,便可轻易的传递一些不合规的信息,而不被现有的设备检查出来,致使互联网信息管控存在严重的漏洞。

如何才能堵上这一传播不合规信息的漏洞呢?依靠传统的方法即采用人工查看的方式在互联网上搜索到图片格式的涉密文件,费时费力,无异于大海捞针。利用图文识别技术,又称为OCR(Optical Character Recognition,光学字符识别),则能够较好地解决该问题。 OCR的原理主要是指利用各种识别算法分析图像中包含的文字形态特征,判断出文字的标准编码,并按通用格式存储在信息化设备中。

2 方法介绍

下面结合实例,对利用OCR技术进行互联网涉密检查的技术方案进行描述。场景为采用分布式部署实现互联网检查设备中对图片中文字内容的审计。互联网检查设备由2台设备组成,一台负责对内部网络连接到互联网的数据流进行采集、分析和识别,并将采集的图片文件,通过网络发送给单独部署的另一台OCR服务器进行图片检查,以实现对图片中文字的内容审计。

(1)互联网检查服务器(简称“检测器”)。

互联网检查服务器负责对内部网络连接到互联网的数据流进行采集、分析和识别,并将采集到的图片文件,发送给后端的互联网检查OCR服务器。

(2)互联网检查OCR服务器(简称“OCR服务器”)。

互联网检查OCR服务器负责接收前端互联网检查服务器传送来的图片,并使用其上的OCR组件解析出图片上的文字信息。而后,对照用户设定的关键词策略,判断该图片是否含有不合规的信息。

(3)以下以BDOCR协议举例说明互联网检查服务器与互联网检查OCR服务器之间的通信。1)BDOCR:指蓝盾互联网检查设备中互联网检查服务器与互联网检查OCR服务器之间的TCP通信协议。2)前端互联网检查服务器负责从交换机抓取数据包,而后将采集到的图片文件传送给后端互联网检查1)OCR服务器,由其负责进行图片所含文字部分的检查。3)报文规格。BDOCR协议为TCP协议的载荷,协议包包含两部分,头部及BDOCR协议的载荷部分。

下面给出BDOCR协议包的封装格式(如图1):

各字段的含义如下:

版本:2字节,表示BDOCR协议版本。其中高8位为主版本号,低8位为次版本号。

流程ID:2字节,标示该BDOCR数据包的类型及具体的请求动作。其中:

关键词策略下发报文: 0x01

图片下发报文: 0x02

中标回复报文: 0x04

异常通报报文: 0x08

ID:4字节,事务标志,同一事务的所有通信包其ID保持一致。可以使用一个无符号整数表示,每构建一个事务,该值加1,保证在4G个包内其ID值是唯一的。

时间:4字节,构造、发送数据包时的时间,标示从1970年1月1日0时0分0秒至今的秒数

载荷长度:4字节,标示该BDOCR数据包载荷部分的数据长度。

载荷:根据报文类型具备不同的长度。

关键词策略下发报文:由检测器向OCR服务器下发关键词策略。载荷内容如图2所示:

策略ID:4个字节。各策略的ID互不相同,用于标示各策略。策略名长度:4个字节。标示策略名部分的数据长度。策略名:不定长。用于在界面上显示策略,策略名也是唯一的。策略长度:4个字节。标示策略内容部分的数据长度。策略内容:不定长。用户设定的关键词策略,用于匹配信息(图片所含文字部分)是否合规。

图片下发报文:由检测器向OCR服务器下发图片文件。载荷内容如图3所示:

图片ID:4个字节。各图片的ID互不相同,用于标示各图片。图片类型:4个字节。标示图片的不同类型,如JPEG、BMP、TIFF、GIF、PNG等。文件长度:4个字节。标示图片文件部分的数据长度。

图片文件:不定长。需要进行内容检查的图片文件。

中标回复报文:当OCR服务器检查发现有不合规的图片文件,向检测器回复中标信息。载荷内容如图4所示:

图片ID:4个字节。各图片的ID互不相同,用于标示各图片。中标策略数:4个字节。标示该图片匹配到的策略个数。中标策略ID:4个字节。各策略的ID互不相同,用于标示各策略。

异常通报报文:当某设备本身发生异常,向另一台设备通报自身异常。如设备发生多类异常,则都需一一进行通报。载荷内容如图5所示:

异常ID:4个字节。用于标示各类异常。异常情况:4个字节。0x0000:标示设备已恢复正常;0x0001:标示设备发生异常。

3 结语

本文实现的互联网检查方法,除了可以监控一般的文字信息外,还可以对以图片形式出现的文字内容进行检查。可以快速发现互联网违规发布的涉密文件,大幅提升互联网涉密信息检查能力。当然,这些方法只是治标之策,唯有增强相关人员保密意识,加强信息公开保密审查,实现办公网络与互联网物理隔离等措施多管齐下,才能及时发现和有效防范互联网泄密行为,保护国家秘密。

参考文献

[1]蒋俊杰.身份识别与接入控制系统的研究与应用[J].信息与电脑(理论版),2010年12期.

[2]孙羽菲.低质量文本图像OCR技术的研究[D].中国科学院研究生院(计算技术研究所),2005年.

[3]阎彩英.浅析电子政务外网互联网出口的安全技术构架[J].中国信息界.2011年02期.

[4]刘海波,顾国昌,张国印.Internet信息涉密检查系统的设计与实现[J].计算机工程与应用,2004年09期.endprint

猜你喜欢
互联网
浅谈大数据在出版业的应用
浅析互联网时代维基百科的生产模式
“互联网+”环境之下的著作权保护
“互联网+”对传统图书出版的影响和推动作用
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施