基于谷歌浏览器的藏文敏感信息拦截扩展的设计与实现

2022-03-12 10:03袁斐洋普尺倪胜巧扎西多吉
电脑知识与技术 2022年3期
关键词:藏文

袁斐洋 普尺 倪胜巧 扎西多吉

摘要:谷歌浏览器目前是全球使用最多的浏览器,其扩展程序可以极大地优化用户的体验。扩展程序在信息拦截上同样有着极大的作用,但其在地域特点比较明显的地区,语言、格式以及表述等的影响下,拦截效果折扣。针对这类问题,重点对拦截藏文敏感信息的浏览器扩展程序进行研究开发,根据藏文敏感词权重值对网页进行等级划分,对含有敏感信息的网页进行拦截,避免不法言论和信息的传播,以优化藏区网络环境。

关键词:Chrome;Chrome Extension;藏文;藏文敏感词拦截

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2022)03-0051-02

开放科学(资源服务)标识码(OSID):

1 引言

谷歌浏览器是当今用户量最多的浏览器,其强大的功能和简洁的界面深受用户喜爱。其扩展程序,在此基础上可以去自定义需要的功能,优化界面,更加方便了浏览器的使用,极大地加强了用户的体验。因此,扩展程序的使用极其广泛。目前浏览器扩展已经可以拦截一些恶意网页,但是在地域特色相对比较明显的地区,拦截扩展程序仍存在较多不足,比如语言、格式以及语句表述等方面有着较大的差异。为了优化网络环境,提升用户的体验,开发了浏览器藏文敏感信息拦截扩展程序。

谷歌扩展程序在各大浏览器上的兼容性良好,因此,本扩展也是基于谷歌扩展程序开发的,去拦截网页中出现的藏文敏感信息。通过前端DOM注入将网页信息获取,然后交给后台,后台通过PHP连接数据库,去获取数据库数据,在后台进行比对,将比对后的结果反馈给用户,提示用户该网页的网页敏感等级。

2 相关技术

2.1 XAMPP

XAMPP[1]是由Apache、MySQL、PHP、PERL组成的一个功能强大的建站集成软件包。它可以在多种操作系统下安装使用,操作使用简易方便。使用时,只需对相关配置文件进行修改,即可使用。由于本扩展程序需要连接数据库,所用的工具与之较为契合,同时,可以减少代码量以及复杂度。采用该软件包,一定程度上,加快了扩展开发进程。

2.2 浏览器扩展程序开发

浏览器扩展程序在如今的浏览器上已经有了极大的应用,它可以让人们非常方便地在浏览器中添加各种功能,扩展程序可以让人们去自定义浏览器的各种功能,同时也可以精简浏览器,去掉不必要的信息。比如,去掉网页广告,拦截弹窗,在线选择翻译,等等。其主要分为浏览器操作、网页操作、内容脚本三种不同的类型,本扩展程序着重偏向网页操作与内容脚本两方面的使用。而谷歌浏览器扩展程序是基于谷歌浏览器,同时对大多浏览器的兼容性都是极好的,因此可以保证本扩展在测试时,不会有较大的适配问题。在2016年5月的数据显示中,其市场份额已经超越微软公司的IE浏览器,成为全球目前使用最多的浏览器,这极大地提高了谷歌扩展程序的可用性。本文将重点从利用谷歌扩展的方式实现拦截藏文敏感信息,避免不法言论和信息的传播,优化藏区网络环境[2]。

2.3 JavaScript与JQuery

本扩展程序的主要使用JavaScript编程语言,以及采用由其组成的函数库JQuery。JavaScript是支持当前所有主流浏览器的轻量级的编程语言,在此基础上,使用JQuery将极大地减少了程序的代码量。

2.4 PHP

PHP是在服务器执行的脚本语言,因其较为灵活,以及可以与JavaScript进行通信的特性,本扩展程序,主要使用PHP作为谷歌扩展程序的JavaScript与服务器里的Mysql进行通信的中间层。

3 结构设计

浏览器藏文敏感信息拦截分为四个模块[3],分别是前端数据获取、数据库数据获取、后台判断、反馈用户,如图1所示。

1)前端数据获取。此模块对网页的文本信息进行抓取,通过正则表达式去过滤文本信息,以获得可用的藏文文本信息;之后通过谷歌扩展程序内的JavaScript之间的通信将其交给生存时间长的后台去判断处理。此模块主要通过谷歌扩展程序里的JavaScript通过 DOM注入的方式来获取网页文本信息。

2)数据库数据获取。此模块主要实现数据库数据的提取。通过PHP作为谷歌扩展程序的JavaScript与MySQL数据库的中间层,调取数据库数据交给后台去判断处理。主要通过XAMPP提供的集成环境去实现谷歌扩展程序的JavaScript与数据库通信。

3)后台判断。该模块实现将前端传入的文本信息与数据库传入的敏感词进行匹配处理。将前端传入的文本信息根据藏语文本特性进行处理,使其便于与敏感词匹配;之后将数据库内的敏感词调取,两者通过查找字符串算法将该网页出现的敏感信息进行处理,将处理后的网页返回前端可视化界面,同时將该网页的URL的信息存入数据库便于下次进行辅助判断。

4)反馈用户。本模块主要实现对后台返回的信息进行处理,使其对用户进行有效反馈。一方面,将敏感词的出现进行强调,同时把敏感词替换成“*”,另一方面,根据敏感词的敏感程度与敏感词出现的频率对网页敏感等级进行分级,将分级后的结果通过不同颜色给用户进行直观的呈现。

4 技术实现

通过谷歌扩展程序对网页内容操作的脚本语言content,在深度上进行递归,从网页的最外层开始直到最内层,对网页内的藏文信息用相应的编码格式使用正则表达式过滤获取,尽量减少数据的冗余,提高扩展程序的运行速度。将处理后的数据交给后台background,因其生存时间最长的特性,将background作为数据库数据与前端文本信息进行匹配操作的平台,若存在匹配的字段,将处理后的信息反馈给可视化界面popup与前端,将该网站的URL存入数据库的相应表中,并记录网页中词频排名前三的词汇,与该网页的URL绑定存入表中,将划分网站敏感等级与popup同步。

4.1 藏文信息获取

通过使用正则表达式对网页内的文本信息进行藏文文本检索,顺序则是从网页的最外层html节点开始检索,通过递归里的深度优先检索的方式,获取该网页所有的藏文信息。正则表达式里的藏文匹配编码格式为\u0F40-\u0FFF。

4.2 匹配算法

在后台,网页中获取的藏文字符串与数据库里的藏文敏感词的匹配采用的是BM(Boyer-Moore)算法。在用于查找子字符串的算法当中,BM(Boyer-Moore)算法[4]被认为是最高效的字符串搜索算法,一种经典的跳跃式匹配算法。通常情况下,搜索的关键字越长,算法的速度就越快。因对于每个网页的藏文信息的数量不固定的特性,采用该算法,较大地提升了匹配速率。

4.3 藏文网站敏感等级划分

藏文网站敏感等級[5]的划分通过危险权值来决定。危险权重值的组成有优先级敏感词与危险级敏感词。出于安全考虑,测试环境在脱机状态下,使用准备好的测试网页去测试。图2为以此为根据的测试结果。

1)优先级敏感词的形成是程序经过深度学习得到的,通过对词库里的敏感词根据出现频率来划分优先级,优先级高的使用频繁,反之亦然。根据优先级对词语进行权重划分,一定程度上作为网站分级的依据;

2)危险级敏感词则是根据敏感词的特性来决定的,一共分为三级,一级为由谩骂词语构成的文本,二级为由涉黄赌毒词语组成的文本,三级为由涉政反动以及地方敏感词汇构成的文本。各个等级都有对应的危险权值的范围,不同词语有各自不同的权值,但都在权值范围内。根据敏感词等级以及出现的频率,极大程度上决定了网页的分级情况;

3)前端popup页面显示文本以及颜色取决于不同的敏感等级。根据background后台传入的该网页的敏感等级,在前端的可视化界面通过不同的颜色显示。红色为最高,橙色为较高,黄色为高,蓝色为一般,绿色为无危险。

4.4 后期测试优化

在后期测试中,发现在网页文本信息过大的情况下,在匹配过程中,电脑的内存使用较大,对于用户而言,等待时间较长,容易产生不好的体验效果。在经过大量测试后,通过页面的懒加载与URL的标记处理可以极大地减少扩展程序的处理时间,给用户以较好的体验效果。

1)页面的懒加载。在浏览网页未拖动滚轮时,只显示当前页面长度下处理后的状态,剩下的页面长度依旧显示的是未处理的状态,但后台仍在进行处理,反馈给前端,只有在拖动滚轮时,才会去显示处理后的结果。一定程度上减少了资源占用,在视觉上优化了用户体验。

2)URL标记处理。在第一次浏览网页时,对网页进行常规

处理,若存在敏感信息,则将网页的URL以及出现的词频排名前三的敏感词存入数据库相应表中,并对该网页进行危险权值计算。在下次浏览时,在确定网页内容没有更新的情况下,则对用户进行提醒,若网页内容已经更新,则对网页进行正常的处理。

5 结束语

本文主要论述了基于谷歌浏览器的藏文敏感信息拦截扩展程序,本扩展程序充分考虑到了藏文匹配时对敏感信息的处理及对网页敏感等级划分的需求,可以较为有效地对藏文网页内容进行安全检测与拦截,并对网站分级记录与显示。由于藏文信息中语言有其独有的特点,比如上下文语境,语法,规则等,及藏文信息处理的发展与中文信息的处理具有一定的差距,该扩展程序的整体性能并未能达到中文信息处理扩展程序的水平,且有较大差距;另外,由于本项目的词库内测试数据数量的有限性,权值模型可能存在一定的缺陷。今后我们会对词库进行扩充,不断修改权值模型,提高判断准确率与精确度,开发出更加完善的藏文敏感信息拦截扩展程序。

参考文献:

[1] A research paper on web application development using CMS (xampp/PHP)[J].Journal of Web Engineering & Technology,2019,6(1).

[2] 沈洪洲.一种基于Chrome扩展程序的网络数据采集方法[J].计算机应用与软件,2016,33(7):10-13,55.

[3] 江涛,于洪志,徐涛.互联网藏文内容安全检测过滤系统研究[J].信息网络安全,2009(10):47-48.

[4] Boyer R S,Moore J S.A fast string searching algorithm[J].Communications of the ACM,1977,20(10):762-772.

[5] 王清,李炳泽,王嘉梅.面向彝文网页的敏感内容分级系统研究[J].云南民族大学学报(自然科学版),2019,28(2):177-185.

【通联编辑:闻翔军】

猜你喜欢
藏文
敦煌本藏文算书九九表再探
西藏大批珍贵藏文古籍实现“云阅读”
黑水城和额济纳出土藏文文献简介
基于条件随机场的藏文人名识别研究
谈编译出版《西藏七大艺术集成志书》藏文版的必要性
现代藏文基字识别的算法设计
藏文音节字的频次统计
现代语境下的藏文报刊
新发现藏文史籍《王统日月宝串》评述
藏文古籍版本研究——以藏文古籍印本为中心