基于机器学习的数字图书资源脱敏访问系统设计

2021-12-23 12:24张小英

微型电脑应用 2021年12期

张小英

(陕西学前师范学院图书馆，陕西西安 710100)

0 引言

不断发展的云计算、大数据以及人工智能技术，使通信领域的数据量呈爆炸式增长，诸如财务报告、战略文档等企业类业务敏感数据以及用户姓名、身份证号等个人隐私数据均存在着较大的安全隐患[1]，敏感信息安全问题日益凸显，数据脱敏技术应运而生。数字图书资源随着信息技术的发展而逐渐丰富[2]，图书资源服务日益创新，对于数字图书资源的共享程度与服务提供，该领域的敏感信息重要性一目了然。

智能化的日益深入使现代生活方式发生了翻天覆地的变化，同时也创新了信息资源等数据的获取形式，作为计算机科学与人工智能的关键领域之一，国内学者将研究发现机器学习[3]在信息管理方面占据着举足轻重的地位，其不仅赋予图书情报系统强烈的冲击感，而且为信息资源的聚类分析提供了技术支撑。同时,国外学者提出了定性和定量条件下的代价敏感近似属性约简问题。在此框架下设计了基于删除和基于添加的代价敏感近似约简算法[4]。由于传统脱敏技术缺乏权限判定、敏感信息识别等过程，脱敏效果较差[5-7]，因此，本文面向数字图书资源，提出一种基于机器学习的脱敏访问系统。在加密脱敏策略中，构建密钥统一管理平台，管控脱敏、加密密钥，提升数据安全性；注册系统源数据的业务子系统地址与端口号，保证脱敏工作时长。

1 基于机器学习的数字图书资源脱敏访问系统

基于机器学习技术与数字图书资源脱敏访问系统的应用场景，当用户利用已有账号完成系统登录时，脱敏系统将优先对账号的全部使用权限展开判定，赋予其对应的使用功能；依据需求采集结构化与非结构化数据资源后，利用脱敏子系统中的相关模块，完成源数据划分、预处理、敏感判定、脱敏方式选取；当脱敏任务发生改变，对于开发、检测、迁移以及存储等资源主要选取静态脱敏运行模式，针对全业务统一数据中心等数据分析系统，主要以代理方式执行动态脱敏策略，最终实现数字图书资源脱敏访问。若无新的数据资源或者配置需求，则在脱敏访问系统内存储脱敏方法与脱敏任务，为后续调用与执行做准备。整体框架如图1所示。

图1 数字图书资源脱敏访问系统整体框架

1.1 数字图书资源脱敏子系统

在数据资源脱敏子系统中，采集经过分类与预处理的源数据，展开脱敏判定及对应脱敏策略选取，该子系统的运行流程如图2所示。

图2 数字图书资源脱敏子系统运行流程图

数字图书资源脱敏子系统中相关模块的具体工作内容描述如下。

(1)源数据划分模块：为避免大量敏感数据影响识别精度，分别根据不同种数据资源的文件格式，划分源数据为5种数据类型，分别是文本、图片、语音、视频以及结构化数据；或者根据不同的源业务系统，划分源数据为规划、建设、维修、运行等非结构化数据[8-9]。针对以上2种源数据分类形式，编写对应执行代码。

(2)源数据预处理模块：通过匹配获取的数字图书资源数据特征，识别其中含有的敏感数据。一般情况下，采集到的样本资源质量较差，故利用预处理模块中的预处理、迭代聚类以及资源数据泛化3个部分，滤除冗余及无效数据资源，加快后续敏感资源识别与脱敏执行的运行速度。

输入输出参数与结构等，设置预处理部分的实例初始化子模块与标记增加子模块，实现该部分各项功能。如表1所示。

表1 预处理部分相关信息统计表

关于迭代聚类部分的距离运算子模块、聚类中心运算子模块、聚类细化子模块、聚类结果的整合子模块及其处理子模块，与之对应的输入输出参数、功能以及数据结构等信息如表2所示。

表2 迭代聚类部分相关信息统计表

针对资源数据泛化部分，利用下表中的信息，完成输入输出参数以及数据结构等设置，泛化聚类后的数据标准标识符属性[10]。如表3所示。

表3 资源数据泛化子模块相关信息统计表

(3)敏感资源判定模块：作为资源脱敏的重要前提条件，该模块将采用不同的敏感特征提取策略，处理对应文件格式数据资源，经分类训练样本数据与源数据，构建敏感资源数据库。具体流程如图3所示。

图3 敏感资源判定模块运行流程图

(4)相应脱敏方式选取：脱敏方法通常分为RP(Replacement，替换)、EC(Encryption，加密)、MK(Masking，掩盖)、DL(Deletion，删除)、CG(Change，转换)以及SF(Shuffle，混淆)等[11]。将源数据的敏感资源全部替换成伪装过的数据资源即为替换脱敏方法，伪装数据资源通常具有不可逆性，确保图书资源安全；在系统具备解密能力的特定场景中，采取加密脱敏模式[6]；若只想公开部分敏感资源数据内容，则由掩盖脱敏策略实现，该策略通过掩饰符号[12]来遮盖部分敏感资源内容；删除脱敏法就是直接把敏感资源删掉；在确保初始数据相关统计属性的前提下伪装指定资源时，利用转换脱敏法可控调整源数据；为瓦解当前资源与其他资源间的关系，采用混淆脱敏策略，随机互换敏感资源。

关于加密脱敏模式，需在脱敏访问系统中添加一个脱敏密钥管理平台，如图4所示。

图4 脱敏密钥管理平台示意图

管理数字图书资源的映射、计算、密钥以及脱敏策略，调度前端访问代理组件。对访问网关组件实施串行部署，拦截前端数据与解析申请，识别敏感资源访问行为，实现数据的加解密。

1.2 数字图书资源脱敏访问子系统

根据选取的脱敏方法与相关参数，编写脱敏代码，将使用场景作为脱敏策略的实现依据：针对静态脱敏，通过一系列脱敏流程，在本地缓存脱敏结果，若目标系统对敏感资源有所需，则注册敏感访问系统源数据的业务子系统地址与端口号如图5所示。发送本地存储的脱敏资源给目标系统；针对动态脱敏，注册敏感访问系统源数据的业务子系统地址、端口号以及使用账号后，传输脱敏代码至代理服务器，经过代理服务器的线上资源脱敏，通过系统处理中心发送脱敏结果给目标系统，为目标系统的图书资源申请用户提供使用。数字图书资源脱敏访问子系统运行流程如图6所示。

图5 注册敏感访问系统流程图

图6 数字图书资源脱敏访问子系统运行流程

2 数字图书资源脱敏访问系统模拟

2.1 资源脱敏访问系统相关配置与脱敏评估指标

本文系统运行环境的软硬件具体参数如表4所示。

表4 资源脱敏访问系统软硬件参数

为验证系统的脱敏有效性，采用信息熵、资源多样性以及方差3种指标进行评估，各指标具体描述如下。

(1)

(2)

经过脱敏的熵值变化概率一般会降至1以下。

(2)资源多样性Diversity指标(Diversity)：该指标利用属性值类型来反映资源内容多样性。假设结构化数据表T(D)共有C行，资源文件T的第di列属性值样本共有ci类，则资源文件T多样性DiversityT的计算式如式(3)。

(3)

(4)

(3)方差V指标(Variance)：该指标主要用于衡量差分隐私脱敏前后的资源有效性损失。假定用户感兴趣属性为结构化数据表T(D)的前m项，其对应笛卡尔积表达式如式(5)。

Dc=d1*d2*…*dm

(5)

利用下列各项表达式分别界定脱敏前后的笛卡尔积各元素统计计数,为式(6)、式(7)。

H=(h1,h2,h3,…)

(6)

(7)

由式(6)、式(7)推导出下列初始图书资源方差计算式为式(8)。

(8)

2.2 数字图书资源脱敏访问系统功能分析

针对本文系统主要功能模块展开检测，整理得到下列系统功能检测结果统计表如表5所示。

表5 资源脱敏访问系统功能模块运行结果统计表

根据资源脱敏访问系统功能模块运行结果可知，本文系统的主要功能模块运行顺利，且与预期结果相吻合，说明系统运行环境较为理想，降低了系统对后续敏感资源脱敏阶段的干扰，提升了脱敏结果的可靠性。

2.3 数字图书资源脱敏访问系统脱敏效果分析

数字图书的脱敏资源共分为基本个人资料和行为数据两种，该实验阶段以姓名、职业、工作单位、联系电话等用户个人资源的敏感信息为例，分析本文系统脱敏效果。脱敏前后的用户个人资料统计表,分别如表6、表7所示。

表6 脱敏前用户个人资料统计表

表7 脱敏后用户个人资料统计表

本文系统各评价指标随目标脱敏资源数量的变化情况如图7所示。

图7 各评估指标曲线示意图

结合上列图表可以看出，由于本文系统利用脱敏子系统中的源数据划分模块，划分了源数据种类，有效抑制了大量敏感数据对识别精度的影响，采用预处理模块中的预处理、迭代聚类以及资源数据泛化3个部分，滤除了冗余及无效数据资源，使敏感资源识别与脱敏速度得以提升，系统敏感资源判定模块通过提取资源敏感特征，完成了图书资源敏感程度的有效判定，经选取的脱敏方式脱敏处理后，大幅优化了信息熵等评估指标，具有显著的脱敏精度与速率优势。

3 总结

数字化技术与互联网技术迅猛发展，数字图书逐渐普及。其中含有的大量敏感信息不仅隐藏着巨大的商业价值，而且还带来了严峻的数据安全问题，为此，本文以机器学习为技术支持，提出一种数字图书资源脱敏访问系统。应依据实际应用中的用户端访问并发数，合理添加运行平台带宽、运算数据，均衡系统负载；尝试在系统中引入个性化服务功能，将潜在的兴趣图书资源按期推送至用户邮箱中，充分利用数字资源，为用户提供优越的体验感；为更有效地选取图书资源、优化系统，需增加管理员联系方式，大量采集反馈信息。该访问系统为今后的信息、知识以及情报数据等脱敏访问策略奠定了夯实的数据基础与理论依据。