基于零信任的国产化系统邮件保密检查平台的研究与实现

2023-03-13 15:25吴少华卞信东吴江煌
信息记录材料 2023年1期
关键词:磁盘数据安全保密

吴少华,卞信东,吴江煌

(厦门美亚亿安信息科技有限公司 福建 厦门 361008)

0 引言

国内数字经济飞速发展,掀起了企业数字化转型的浪潮。在此过程中数据失泄密的问题日渐凸显,电子邮件首当其冲成了泄密事件高发的渠道,每封邮件的传递均有可能打开潘多拉魔盒。由于邮件失泄密造成的危害往往不可估量,越来越多的企业开始未雨绸缪,定期的邮件保密检查无疑是不二之选。

同时,自网络强国战略和国家大数据战略实施以来,企业的数据安全建设工作稳步开展,《信息安全技术-网络安全等级保护基本要求》(简称等保2.0)和《数据安全法》等法律法规均对企业的数据安全提出了合规化要求。此外,数据安全建设强调要秉持自主可靠可控的思想,这样才不会被国外技术“卡脖子”。故而研究数据安全管控方案下的国产化邮件保密检查平台对于促进数字经济的健康发展具有重要意义。

1 研究现状

保密工作重于泰山,对于邮件保密检查技术的研究长期以来均是困扰着业界的难点,特别是在当前数字中国建设乘势而上的新背景下,传统的检查手段已经不能完全适应安全保密工作的新需求。

具体来看主要包含以下4大问题:首先,检查过程中不能保证待检邮件数据的传输和使用安全,无法满足“文件不落地”等数据合规高级别要求,存在二次泄密的风险。其次,现有的检查手段发现邮件失泄密隐患的能力还有欠缺,尤其是在图像密级识别、多重嵌套复杂文件密级识别上无法做到全覆盖。再者,不能对检测到的违规行为进行深入的复盘取证,缺乏有效的邮件失泄密追踪溯源手段。此外,现有的邮件保密检查方案普遍对国产系统支持不友好,而国产化涉密计算机主要安装的是国产自主操作系统,如中标麒麟或者中科方德的操作系统,相应保密检查工具开发滞后的问题亟需解决。综合来看,此项研究工作依旧任重道远。

2 用微隔离构建零信任

除了数据安全法规的约束,数据的价值也让企业重新审视数据的使用问题,《经济学人》早在2017年就撰文称数据是未来的石油。正因如此“数据不落地”逐渐成为企业选择保密检查产品时的重要考量指标,即数据的流转需要接受严格的策略管控,以确保数据的传输、使用、存储安全。而作为新一代网络安全防护理念中的翘楚,零信任能够很好地应对此类挑战[1],并且该理念与等级保护思想及等保2.0技术要求高度契合。

简单来说,零信任是一种安全模型,采用“持续验证+动态授权”模式构筑起企业的网络安全基石。基于零信任理念,该设计方案借助微隔离技术创建一种以数据为中心的全新边界,并通过身份权限管理技术来达到保护数据的目的。微隔离和身份权限管理均是零信任安全架构的核心技术,前者用于保障企业内部服务器相互访问时的东西向网络安全,后者则对企业内部所有数字实体进行唯一资源标识身份化处理。毫无疑问,有了零信任的加持,数据隔离和管理均将变得更加轻松高效。当然,需要指出的是本文涉及的零信任更准确的定义为针对邮件保密检查业务的局部零信任。用微隔离实现的局部零信任网络拓扑,如图1所示。

图1 用微隔离实现的局部零信任网络拓扑

对于主流的个人邮箱和企业邮箱,检查平台可以通过邮箱账号及授权信息将邮件数据导回到存储服务器,自建邮件系统的数据由企业提供。可以看到,通过这套机制成功实现了邮件数据所有权和使用权的分离。

3 邮件保密检查的关键技术

邮件保密检查平台的整体逻辑架构,如图2所示。其中,数据分析层相当于核心大脑,邮件信息会在这里完成各类加工处理,平台依据分析结果进行综合的研判,业务功能层是通过UI方式最终呈现给用户的功能集合,公共体系则作为系统运行的基础组件,旨在确保各模块稳定运行。

图2 邮件保密检查平台的整体逻辑架构

3.1 安全磁盘无痕检测

在数据合规领域,凡是有固定载体、不会瞬间消失的持久化数据均是落地数据,如存储在硬盘上的数据。与之相对,使用完毕就会消失的数据就是不落地数据,如存储在内存中或在网络中传输的数据。传统的邮件保密检查方案会将邮件内容全部提取到本地磁盘,检查结束后再进行删除。在这种方案中删除的邮件很容易通过恢复技术进行数据还原,从而造成数据泄露的风险,很明显这与保密检查的宗旨不相符,尤其是数据安全备受关注的当下看起来无疑是格格不入的。本文设计了一种安全磁盘[2],主要的处理模块如图3所示,其核心原理是借助虚拟磁盘技术来实现邮件的无痕检测,有点类似恶意程序经常用到的无文件内存无痕攻击技术。

图3 安全磁盘的主要处理模块

保密检查期间,技术人员会在负责检测的计算机内存中设置安全磁盘,然后经过身份验证和邮件数据服务器建立连接,邮件内容经由自定义网络协议获取,加密后被写入创建的安全磁盘,邮件检查平台会自动开始对已写入安全磁盘的数据进行保密检查,待完成所有的保密检查任务后卸载用到的安全磁盘。加密采用的是国密算法,邮件内容由速度快的ZUC序列算法进行加密,相关密钥随机生成并通过SM2非对称算法公钥加密后保存。这个过程中,安全磁盘的数量并不是固定的,会依据当前计算机的内存容量和待检测邮件的数量级进行动态创建,并有专门的调度模块进行分配管理,是为了达到平台检测速率和邮件的网络传输速率相均衡。

3.2 深度学习OCR图像识别

随着信息量的急速膨胀,电子邮件中的图片越来越复杂,并且通过移动设备拍摄的图片占比逐年递增,这类图片很容易受到外界环境的干扰。传统OCR技术在识别时就遇到了不小的瓶颈,效果常常不尽如人意。

通过深度学习进行OCR识别,数据集的关键性不言而喻,由于保密检查这一特殊的应用场景,目前主要还是借助人工合成的方式生成大量包含密级关键字的数据集,相应的关键字会根据具体的落地项目进行补充扩展,力求达到最佳的识别效果。而在算法处理层面,主要分为以下步骤:1)文本检测,即定位文字的区域;2)文本识别,对定位好的文字区域进行识别;3)文本矫正,对识别到的文字进行NLP纠错。

图像文本检测中,水平文字的检测采用CTPN,倾斜文字的检测则采用Seglink,二者的思路类似,均是先检测出文本的一部分后再连接成文本区域。在文本识别阶段,该模型基于卷积神经网络(convolutional neural networks,CNN)+LSTM+CTC来构建。其中,CNN负责提取图像的卷积特征,并经由LSTM进一步提取图像卷积特征中的序列特征。这里LSTM主要为了解决长序列训练过程中的梯度消失和梯度爆炸问题,相比普通的RNN,LSTM能够在更长的序列中有更好的表现。CTC用于解决输入和输出序列长度不一、无法对齐的问题,它扮演着模型中的损失函数[3]。CTC训练对应的最小化目标函数如下,在训练集S={(x,z)}中,x是经过CNN计算得到的特征,z是OCR字符标签,为神经网络,实现了一个映射函数,其公式可表示为

最后,利用语义信息提升OCR识别的准确率[4],需要预先设定置信度来表征识别错误的可能性,置信度低的文字才进行纠错处理,纠错方案是基于密级关键词表设计的,该方案对于保密检查来说效果较好。

3.3 邮件头线索信息挖掘

一般情况下,普通用户在收发邮件时很少会去关注邮件消息头,邮件客户端展示出来的只是其中的冰山一角。诸如Received、Return-Path、DKIM、DMARC、Content-Type、Message-ID等消息字段包含有大量的信息,这些信息更值得深入挖掘。

在本文设计的方案中,为了优化邮件保密检查的速率,技术人员会对垃圾邮件进行过滤,为了确保取证结果的真实可信,还需要对邮件的真伪进行判别,此类问题均可以进一步转换成基于邮件头的邮件分类问题。由于分析的是海量级别的邮件数据,考虑用机器学习来处理[5],这里用到的是朴素贝叶斯分类,相应的分类器表达式可表示为

式中:y为类变量;X=(x1,x2,x3,…,xn)是依赖特征向量,也就是邮件头中的各消息字段项特征。需要用到类变量y的所有可能值计算概率,选择其中概率最大者作为分类的标签。

而对于邮件的失泄密溯源,消息头的Received字段至关重要,它详细记录了邮件的传输历史和邮件传输经过的节点信息,即每台接收到邮件的服务器IP和机器信息。能够方便识别邮件来源、判断邮件转发路径等,从而在检测结果研判阶段更好地进行取证复盘。

3.4 国产操作系统兼容适配

“推进保密科技创新,发展自主安全可控产业”一直均是保密工作的要求,核心技术受制于人,会从根本上动摇安全保密的防护基础。在开发邮件保密检查平台的过程中,国产化系统上的软硬件兼容和适配是核心的关键技术问题[6],花了大量的时间进行调试处理。由于技术指标的考虑,如速度、效率、硬件调用、并行计算、图形计算、加密算法等,项目最终确定采用C/C++进行开发,Windows下的一些C/C++算法库在迁移时经过了一些简单重写,至于Java开发的部分则通过jar包方式完成调用,界面部分选择跨平台友好的QT。规划时要尽量考虑通用的方案,才不至于实施后倍感举步维艰。处理器上需要适配龙芯,而像数据库这些需要适配达梦数据库等,很多时候均是摸着石头过河,网上可参考的资料寥寥无几。另外,鉴于国产系统环境的开发目前限制还比较多,设计人员在第三方类库上尽可能选择开源项目,有源码在手会更容易排错,如果动态库不可用,那就只能选择静态编译的方法,对于那些提示系统GCC版本太低而又无法升级的情况,也可以打造相应的国产中间件进行支持。

简单来讲,软件国产化工作应该强调硬件和软件的协同发展,这有利于在开发者和用户之间形成持续的正向反馈,促进国产处理器软件生态的发展。同时要注重培养国内的开源社区,脚踏实地慢慢形成国产化软件开发的环境和氛围。

4 效果评价

按照前文论述的设计方案,进行了相关的编码实现,并在测试环境中完成了局部零信任网络的部署。由于采用了微隔离技术及安全磁盘无痕检测技术,邮件的数据安全得到了极大保障。相关人员会对失泄密场景中的邮件进行各类数学统计,如以邮件收发频率、直接关联收发关系、邮件IP分布等,并以可视化图表进行展示。在排除掉篡改邮件后,各类邮件数据的处理结果会汇入数据分类模型来做进一步判断,这些挖掘的信息为失泄密邮件快速溯源和流转脉络梳理提供了强有力的支撑,具体的分析结果可以方便导出为DOC和RTF格式报告。另外,该邮件保密检查平台在性能和效率上也有着不俗表现。综合来看,此方案在探索践行保密分级保护制度及数据安全法规上走在业界的前列。

5 结语

本文提出的基于局部零信任的邮件保密检查方案能在保证高质量失泄密检测的同时兼顾好数据合规这一新的需求,为企业日常的保密工作提供了强大的技术手段支撑。在下一步的工作中,将致力于拓展可适配的国产操作系统版本,并且加大对邮件文本意图分析技术的研究投入,将其作为多模密级关键字匹配的补充,以期挖掘更加隐秘的邮件失泄密情形。

猜你喜欢
磁盘数据安全保密
多措并举筑牢安全保密防线
《信息安全与通信保密》征稿函
解决Windows磁盘签名冲突
云计算中基于用户隐私的数据安全保护方法
修改磁盘属性
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
磁盘组群组及iSCSI Target设置
创建VSAN群集
论中国共产党的保密观