组织内容安全风险理论与识别方法研究

2016-06-17 19:14陈秋诞
电脑知识与技术 2016年11期

陈秋诞

摘要:该文对组织内容安全风险识别的已有方法进行梳理;列举出两种常用的方法以及三种基于Web挖掘的方法,并进行了详细的阐述;同时分析出每种风险识别方法的不足,并给出其可能改进的方向,以及新的研究方向,为组织内容风险识别提供理论与技术支持。

关键词:组织内容; 内容安全; 风险识别方法; Web挖掘技术

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)11-0021-02

互联网上的文本内容中,一部分信息和内容对组织以及个人具有积极的影响,而另一部分则会造成消极的影响。例如,某人通过淘宝网购买了一件商品,但是他认为该商品质量存在问题,于是他在商品的评价中发表了自己的观点,当认同此评价的个体越来越多的时候,该评价就演变成了热门评价,既而可能会引发个体对该商品的嘲讽、谩骂,最终对商品的销售产生无形的影响。在这种情况下,组织如何去识别可能发生的风险?如何去评价风险发生之后造成的影响?又如何去降低对资产所造成的损失?

“内容安全”是其中的一个核心问题。内容安全是指由信息内容所引发的信息安全事件以及由此所造成的损失。能够引发内容安全事件的风险即是信息内容风险。因为信息内容安全事件等相关概念不适用于社会组织,现对相关概念进行扩充,具体如下:“组织内容”是指在互联网上传播的信息中与组织相关的内容,以及个人或其他组织针对这些信息所持有的态度。“组织内容风险”是指与组织相关的内容可以为个人或者其他组织所利用,在利用过程中对组织的无形资产造成损失的可能性。1

本文主要研究组织内容风险的识别方法。第一部分为引言,第二部分描述了国内外有关信息内容安全的发展现状,第三部分介绍了组织内容风险识别方法体系,第四部分主要讨论了内容分析法,第五部分详细说明了网络计量法,第六部分对本文介绍的识别方法进行了问题分析并提出了改进方向,第七部分运用分析工具对广西师范学院的官方网站进行了外链分析,第八部分比较了不同类型组织的风险差异性,最后对本文的研究内容作了总结。

1组织内容风险识别常用分析方法体系

上文中提到,内容安全是由信息内容所引发的信息安全事件,那么对信息内容的分析可以参考情报分析的理念和方法,以及自然语言处理、数据挖掘、人工智能等技术,从而形成一套组织内容风险识别分析方法体系,如下图1所示:

1.1链接分析法

链接分析法是根据网站与网站之间的相关性来进行操作的,无论何种网站都是由许许多多的网页组成,而这些网页彼此之间存在着某种关系,这种相关性是指:1)内容相关性。网络信息从某个方面来讲是聚合的;2)结构相关性。网页与网页之间以某种结构相互关联;3)功能相关性。站点可以通过它和其他站点之间共享内容;4)附属相关性。网站的主体是内容、结构和功能,而相对于这些主体部分,网站上的广告、网站上的友情链接以及初次之外的其他链接等都暂且归为附属相关性。

网页中存在着大量动态的超链接,它是网页的重要元素,几乎所有的网页都是利用超链接来建立相互之间的联系。超链接一方面便于引导用户浏览网页;另一方面,网页链接的创建都带有一定的目的性,既超链接时常会指向它们认为想要网站访问者看到的网页,因此这些超链接隐含了大量人为设定的目的信息。所以,对互联网的链接结构信息进行充分挖掘,将对改善Web信息检索准确度、Web隐式社区的发现等方面产生极为重要的意义。

1.2文本挖掘法

文本挖掘主要由以下步骤构成:

(1)文本预处理:将文本对象转换成文本挖掘工具能够识别的格式。一般包括两个主要步骤,既特征抽取和特征选择。

(2)文本挖掘:是指采用数据挖掘以及模式识别等方法获取面向特定应用目标的知识和模式。

(3)模式评估和表示:利用已确定的评估标准进行评估。

1.3主题聚类法

主题发现也叫主题抽取或者主题识别,其作用是处理和分析大规模信息同时使用户以最迅速有效的方式理解信息内容,探究信息中的主题。当前对于主题发现并没有一个明确定义,只是将从复杂大规模信息源中获取主题并进行表现的一系列技术方法统称为主题发现。通过精读一系列相关项目和论文,笔者认为,主题发现可作广义和狭义两种解释。

广义的主题发现方式较为灵活,只要是可以发现代表性信息的方法都可以归纳为广义的主题发现。比如,针对文本的主题发现有:从高频被引论文中提取高频词来代表主题领域、基于语义局部性思想来判定主题领域等多种方式。

狭义的主题发现是指从文本中提取关键文字信息,将主题聚焦在某几个词上的方法。此种方法需要发现文档中的关键问题,聚焦关键词并选取适当方式呈现,其也是目前主流的主题发现方法研究模式。本文的主题聚类法主要基于此种定义。

主题发现的目标在于运用一系列语义理解方式,从文本中自动提取关键词或术语,然后在此基础上加以聚类,从而发现主题,并以恰当的方式呈现出来,该方法的关键作用在于利用语料自身的组织和结构来发现语义信息。聚类方法还有另一优势,传统方式是利用基于词的匹配来发现语料中的信息,其没有考虑到语料自身的结构在理解语料时会发挥的作用。所以,更准确地说,主题发现并不是某一项特定的技术,而是很多方面技术的综合运用。

2 链接挖掘工具应用及分析实例

目前,国内外有为数众多的免费链接分析工具。本文选取国内一款名为“站长工具”的外链查询工具进行实例分析。该软件是一款Web页面工具,其界面如下图所示:

该工具有三个文本框,第一个填写分析的域名对象,然后点击右侧“查询”按钮即可得出所需结果;后两个为附加项,可在查询的同时输入需要的外链文本或过滤不需要的域名,亦可对文本进行模糊匹配查询。

现使用该工具对广西师范学院官网进行链接分析,复制广西师范学院官网域名,粘贴到“请输入查询的域名”后面的对话框中,得到分析结果如下:

由图中可以看出,本域名有反链数74个,子域名数3个;点击“子域名”右侧展开按钮,可查看结果中的3个子域名,如下图:

每个子域名后面中括号内的数字显示了其反链数。该工具的排序方式有权重、PR、反链数三种;“只显示nofollow”为附加条件,可选择查看是否带nofollow的域名。网页主体内容显示了本域名所有的反链;每条反链下方的信息从左到右分别表示:该反链的域名、本域名在该反链中的权重、该反链的反链数、链接名称、是否带nofollow。

通过本工具,我们可以得出的信息如下:

a.本域名有74个反链,3个子域名及其完整域名。

b.所有反链的域名、反链自身的反链数以及该反链是否带nofollow。

c.本域名在各个反链页面中的链接名称。

d.在本域名的所有反链中,网页“广西师范学院_广西师范学院录取分数线,专业介绍,图片_新浪院校库_新浪教育”中所占的百度权重最高,下表为百度权重各指数域名数量:

e.在本域名的所有反链中,网页“广西师范学院_广西师范学院录取分数线,专业介绍,图片_新浪院校库_新浪教育”的PR(PageRank)值最高,PR值越高说明该网页在google搜索中越重要,下表为PR值各指数域名数量:

f.在本域名的所有反链中,网页“123网址之家-教育大学 教育网_中国教育网_教育部_教育论文_远程教育_成人教育_教案_教育培训”所拥有的反链数最多,约为1682个,下表为各反链数区间的域名数量:

[反链数区间\&2000~1501\&1500~1001\&1000~501\&500~1\&0\&域名数量\&2\&0\&1\&41\&29\&]

链接分析是组织内容风险识别的重要组成部分,在本次分析的基础上,可进一步分析其链接类型和链接动机,以便为组织内容风险识别提供基础。

3 结论

本文就组织内容安全风险识别对已有方法进行研究综述,列举了两种常用的方法和三种基于Web挖掘的法,并对列举的方法进行了详细的阐述,同时分析了各风险识别方法的不足,并给出各个方法的可能改进方向以及新的研究方向,为组织内容风险识别提供理论与技术支持。

参考文献:

[1] 中国信息安全测评中心.组织内容风险模型[C].2013.

[2] 扬益凡,朱明等.基于链接相似度Web挖掘算法的研究与改进[J].计算机应用与软件,2011.

[3] 扬中华,汪勇.程序员技能需求:基于内容分析法的分析[J].现代情报,2007.

[4] 王知津,闫永君.网络计量法与内容分析法比较研究[J].图书馆学研究,2006.

[5] 沙新光.基于主题的聚类检索技术研究[D].哈尔滨工业大学,2008.

[6] 丁宝琼.网络文本信息采集分析关键技术研究与实现[D].解放军信息工程大学,2009.

[7]Edna Reid,Marc Sageman.The Dark Web Portal Project:Collecting and Analyzing the Presence of Terrorist Groups on the Web:Intelligence and Security Informatics[M].Springer,Berlin,2005.

[8]Deerweter S,Dunmaisst,Fumasgw.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990(6):391-407.

[9]Allan J.Topic detection and tracking:event-based information organization[M].Kluwer Academic Publishers,2002.

[10]H.Wang,S.L.Yang,The Application of Link Analysis in the Evaluation of Top Rank Enterprises in China[J].Journal of Intelligence,2010(3):48-52.