基于云的社交网络取证框架初步研究

2016-02-07 06:06韩法旺
网络安全技术与应用 2016年12期
关键词:爬虫日志分布式

◆韩法旺

(南京森林警察学院 江苏 210023)

基于云的社交网络取证框架初步研究

◆韩法旺

(南京森林警察学院 江苏 210023)

近年来,社交网络已经成为最受欢迎的信息交流工具之一,人们正在通过它建立自己的社会关系,进行网上交互。本文致力于社交网络的数字取证。具体而言,考虑到新兴的云计算和大数据,提出了一个基于云的多层取证框架,该框架包括社交网络数据的收集,存储和分析。

数字取证;社交网络;云计算

0 引言

随着计算机技术和网络技术的飞速发展,通过网络进行犯罪变得更加难以察觉。然而,越来越多的犯罪证据需要从网上获取,因此,数字取证技术在计算机犯罪的检测和控制方面的重要性更为突出[1]。

数字取证一般是一个数字证据的获取、存储、分析和归档的过程。网络取证技术是数字取证技术的重要组成部分,是利用网络技术处理网络犯罪,指那些通过技术手段对网络系统进行攻击或侵犯等的网络犯罪。网络犯罪的典型特性是隐蔽性、复杂性和匿名性,它可能导致财产损失,甚至危及公共安全和国家安全。因此,网络取证具有更重要的意义。典型的网络取证过程如图1。

图1 典型的网络取证过程

近年来,社交网络已经成为最受欢迎的信息交流工具之一,人们正在通过社交网络增加自己的社会关系,进行社会交互。因此,本文专注于社交网络取证。也就是说,从社交网站收集信息,分析社交网络数据,并试图推断出一些有用的证据,进行犯罪控制。

此外,新兴的云计算和大数据的浪潮已经使现有的取证方法很难从大规模的日志和数据中获取到有用的证据[2]。幸运的是,云计算的特性,如开放标准,快速和安全的存储和计算服务,使得我们可以利用云计算基础上定制的取证模型来进行取证工作。

为此,在本文中,我们提出了一个基于云的取证框架,社交网络,社交网络数据的收集、存储和分析,通过一个多层次的模块化框架,使用云计算技术,包括虚拟化、分布式处理和存储协作等模块。

本文的主要内容如下。第2节介绍相关工作,在第3节中,我们讨论了基于云的取证框架的细节。

1 相关工作

第一类相关工作是以网络为基础的网络取证,其目的是用获得的网页浏览数据进行分析。通常情况下,有三种方法。第一种方法是服务器端网络取证。吴永春等设计了一种动态取证方法,用于网站的动态取证。然而,取证变得更加困难并且耗时耗力,因为云计算集群使得数据增长太快。二是客户端取证。主要的问题是分析所有可能的相关软件的日志,比较困难[3]。最后一种方法是基于数据流的取证。例如,孙丹等人提出了一个分布式的网络取证。然而,这种取证通常很难实现。本文中,我们采用了客户端的取证方法,通过主动爬行数据,使用基于云的取证框架。

第二类相关工作是社交网络取证。李正风等研究证据提取工具来测量在不同的SNS网站提取证据的能力,并确定当前的问题和局限性。mulazzani等人探讨了社交网络取证分析的重要数据来源和分析方法,并利用“脸谱”案例研究。王亚林等为用户提供计算机上安装的工具,以提供通过聊天和社交网站检索其他在线用户信息的能力。Markus收集社交网络数据,根据一个自定义的附加的社交网络,结合网络爬行工具进行研究。在本文中,灵感来自于Markus,我们整合了一个基于云的基础设施,社交网络取证的爬行工具。

2 基于云的社交网络取证框架

如前所述,我们致力于社交网络领域的网络取证问题,并结合云计算技术。在这一节中,我们提出了我们的基于云的取证框架。

图2 基于云的取证框架

图2 给出了我们所提出的取证框架的模型。一般来说,底层的基础设施是建立在云计算Hadoop套件等,虚拟化技术是利用多用户操作和数据存储。然后,构建了一个爬虫收集社交网络的数据,这些最终反馈到数据分析组件,输出潜在的有用的证据。

如图2所示,我们在取证框架中有五层:基础层、虚拟层、数据池层、爬虫层和分析层。现在我们详细描述各层的组成和功能。

(1)基础设施层:包括基础设施,如数据节点、存储和网络设施。具体来说,我们使用Hadoop作为我们的基础设施,它为上层提供了存储、计算和网络服务。

(2)虚拟层:包括多租户架构,它允许数据分离和共享;并行和分布式处理,提供了多线程服务、,分布式缓存、大尺度的能力、日志管理、规范的记录、静态或动态取证方法的实现,为进一步分析日志提供支持。

(3)数据池层:存储数据,包括用户日志文件、系统日志文件、网络日志文件、攻击日志文件和更新日志文件。请注意,这一层的数据是用于管理,而不是抓取网页。

(4)爬虫层:是框架中最重要的一层。与上述三个层次不同的是,这一层主要集中在基础设施和管理层,这一层是负责社交网络数据的收集。爬虫层包括三个主要组成部分:用户身份验证和访问控制,通常涉及特定的社交网络网站的规则,任务和资源调度和管理,控制爬虫结构的工作流程,下载,解析和存储抓取数据。

(5)分析层:面向应用,包括日志查询、管理和挖掘,分析日志,并提供日志的分析报告;社交网络分析,分析社交网络数据,其他取证应用程序上的日志和社会网络数据。具体来说,我们引入Hadoop Mahout进行数据挖掘和分析挖掘潜在的证据。

此外,图3给出了分布式爬虫的结构。首先,多履带由控制器节点管理,它负责启动、停止和调度爬虫。然后,每个爬虫收集的数据转移到HDFS存储。HDFS控制器节点分配数据块在不同的数据节点和任务节点。这里,我们简化了部署。在业务应用程序中定义了作业脚本,将数据结果存储到业务数据库中,以供进一步使用。

图3 分布式爬虫的结构

3 结论

在本文中,我们提供了一个初步的努力,对社交网络取证研究。具体而言,我们提出了一个基于云计算基础设施和网络爬行组件的取证框架。在未来的工作中,我们希望调查更多的应用程序的取证分析,使用社交网络数据。

[1]张俊,麦永浩.云计算环境下仿真计算机取证研究[J].信息网络安全,2011.

[2]丁秋峰,孙国梓.云计算环境下取证技术研究[J].信息网络安全,2011.

[3]刘春勇,黄志球,王进.基于 SLA 的动态云体系结构[J].计算机工程,2011.

本文是在南京森林警察学院2016年度的“中央高校的基本科研项目基金”资助下进行的。项目编号LGZD201601,江苏高校品牌专业建设工程资助项目(项目编号:PPZY2015A058)。

猜你喜欢
爬虫日志分布式
利用网络爬虫技术验证房地产灰犀牛之说
一名老党员的工作日志
基于Python的网络爬虫和反爬虫技术研究
扶贫日志
雅皮的心情日志
大数据背景下校园舆情的爬虫应用研究
分布式光伏热钱汹涌
游学日志
分布式光伏:爆发还是徘徊
大数据环境下基于python的网络爬虫技术