大数据时代计算机取证技术的新发展*

2019-02-13 20:22刘三满刘荷花
山西电子技术 2019年2期
关键词:海量数据挖掘数据库

刘三满,刘荷花

(1.山西警察学院,山西 太原 030401;2. 太原学院,山西 太原 030032)

技术改变世界。在云计算、大数据、物联网、人工智能迅猛发展的今天,大数据共享和开放给人们带来前所未有的便利,大数据已经成为整个社会运行的基础资源,改变着人们的生产、生活甚至思维方式。大数据对计算机取证领域的波及,不可避免,而且影响直接、深刻。

1 大数据的定义、构成、特征、技术、思维、应用

1.1 大数据技术定义

大数据(big data)技术指:从数据规模巨大及查询分析复杂的巨量数据中,在合理时间内,快速撷取、管理、处理、并整理有价值信息的技术。

哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”

1.2 大数据构成

大数据包括交易数据和交互数据。

1) 海量交易数据:交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。

2) 海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等。通过这些数据,可以告诉我们未来会发生什么。

1.3 大数据特征

“大数据”的显著特征可以用4个V来总结:

1) 大量化(Volume):量比较大,用户每秒就要进入很多数据, PB化是比较常态的情况。

2) 多样化(Variety):海量数据有不同格式,常见的有结构化数据、半结据化网页数据、非结构化视频音频数据。数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等等。

3) 快速化(Velocity):和传统的数据挖掘技术有着本质不同,大数据存在时效性,业内有1秒定律,要求快速处理得到结果。

4) 价值密度低(Value)。大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

1.4 大数据技术

大数据技术主要有数据采集、数据存储、数据分析与数据挖掘。

1) 数据采集:大数据采集并发数高,有可能同时会有成千上万的用户访问和操作。

2) 数据存储:采集端会有很多数据库,但要对海量数据进行有效分析,应将这些数据集中到大型分布式数据库,在导入基础上,将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为联机分析处理、数据挖掘的基础。

3) 数据处理:利用分布式数据库或分布式计算集群,对存储的海量数据进行普通分析和分类汇总,以满足常见的分析需求。

4) 数据挖掘:对现有数据用各种算法计算,起到预测(Predict)效果,实现一些高级别数据分析需求。

1.5 大数据思维

1) 不是随机样本,是全体数据

以前通常随机采样。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,全体数据。

2) 不是精确性,是混杂性

大数据时代,不执着微观层面精确性追求,不需要对一个现象刨根问底,强调数据的完整性、混杂性和宏观层面拥有更好的洞察力和接近事实真相。

3) 不是因果关系,是相关关系

在大数据时代,我们不再偏执基于假设基础上对因果关系的追寻,不是所有的事情都必须知道现象背后的原因,而应该寻找事物之间的相关关系。相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指一个数据增加时,另一个数据值很有可能也会随之增加。相关关系强,一个相关链接成功的概率会很高。建立在相关关系分析法基础上的预测是大数据的核心。相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。

1.6 大数据应用

大数据对社会经济生活产生的影响,既有生产力层面技术层面的影响,更有生产关系层面的影响。既有信息通信产业方面的影响,更有重构很多传统行业方面的影响。

1) 大数据在商业方面的应用,比如:沃尔玛通过数据挖掘重塑并优化供应链,淘宝通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。

2) 大数据在社会建设方面的应用,比如:智能电网、智慧交通、智慧医疗、智慧环保、智慧城市等的蓬勃兴起,都与大数据技术与应用的发展息息相关。

3) 大数据在网监、刑侦、经侦方面的电子数据取证应用,比如:政府在公安、海关、税务等部门,都有大量的电子数据取证业务需求。公安系统的取证应用,向刑侦、经侦等其他警种和基层双向延伸;检察院、工商、税务、海关、食药监、证监等行业的电子数据取证应用,也持续向深度应用和基层方向延伸。

2 大数据时代计算机取证的几种主要方法和技术

2.1 数据搜索

数据搜索可以分为数据库数据搜索、互联网数据搜索和电子数据搜索三类。

1) 数据库搜索:依托已有的各种数据库和各种社会行业数据库,在封闭环境中进行库内搜索。常用的数据库主要有:公安机关自有八大系统数据库、检察机关自有数据库、社会行业数据库、政府数据统一开放平台、专业的“数据超市”等。

2) 互联网搜索:对开放的海量互联网数据进行搜索,可以将与案件或嫌疑人相关的关键词输入互联网,用搜索引擎技术(search engine) 进行搜索,并根据互联网反馈信息,进行多次搜索分析,精准查找到关键信息。还可以利用网络平台,主动征集案件有关信息。如利用微博公众号发布通缉令,征集与案件有关的线索。

3) 电子数据搜索:是对已获取的海量电子数据中查找、提取与案件有关的数据,采取恢复、提取等手段,以进一步筛选,获取与案件有关的数据信息。

2.2 数据碰撞

数据碰撞指:通过专门的计算机软件,对两个或两个以上的数据库、数据集进行碰撞比对,对由此产生的重合数据、交叉数据进行深度分析。

数据碰撞一般步骤如下:第一步,确定查找对象。第二步,根据查找对象,确定一定时空范围的相关数据集。第三步,对选取的数据集,用能够直接指向对应的人或物的身份证号、姓名、手机号、账号、车牌号、手机串号等带有唯一性特征的“标识数据”,进行碰撞比对,碰撞匹配出的具有关联性或者同一性的“节点数据”,便是可疑目标数据。第四步,根据案情对节点数据进行分析研判,获取更多线索。

大数据时代计算机取证实务中,数据碰撞常见的类型有话单数据碰撞、轨迹数据碰撞、交易数据碰撞等。

2.3 数据挖掘

数据挖掘(data-mining)是大数据的核心技术,精髓在于对海量数据分析,发现事物、现象背后所隐藏的深层次规律。数据挖掘需要依靠统计学、人工智能、机器学习、数据库技术、并行计算、分布式计算等多种技术。数据挖掘的技术性较强,一般需要运用专门分析软件。如手机取证软件、邮件分析软件、话单分析软件等。数据挖掘主要分析技术有:

1) 关联性分析:凭人类经验可以看出事物之间显而易见的关联,数据挖掘则能够将一些隐含的、甚至常理无法理解的关联关系找出来。

2) 分类分析:分类分析是根据数据特征,为每个类别建立一个模型,根据数据属性将其分配到不同组别。

3) 聚类分析:将具有相似性的数据聚集在一起。

4) 时序分析:找出数据在时间上所呈现的规律。

5) 异常分析:找出明显不同于既定模式的数据。

2.4 数据画像

在过去,对犯罪分子特征的描述,来源于个案中犯罪现场、物证、行为证据,结合主观经验判断。在大数据时代,可以通过“数据画像”。

“数据画像”指对侦查机关的数据库数据、社会行业的数据库数据、大数据公司的用户数据、个人电子设备数据,通过大数据智能挖掘和人工分析研判,将嫌疑人的碎片数据收集整合,对嫌疑人的身份信息、行为轨迹、消费习性、经济状况、家庭关系、兴趣爱好、人际交往等特征,以数据形式表现出来。如:原平市某财会人员贪污案。

2.5 犯罪网络分析

犯罪活动也是一种社会活动,往往具有组织化、团伙化的群体性特点。现在很多犯罪分子进行网络联系,留下了数据痕迹,可以通过数据挖掘技术,分析他们的话单数据、社交网络数据、即时通讯数据、邮件来往数据等还原出犯罪网络关系图,自动分析犯罪成员间的互动关系,识别出犯罪组织中的核心成员、一般成员,以他们为突破口,进一步挖掘犯罪网络关系。

2.6 犯罪热点分析

“犯罪热点分析”,指通过对重点地区的历史犯罪数据,将地理空间特征与时间特征相结合,运用大数据算法,探索犯罪活动的时空模式特征,分析犯罪热点、犯罪密度在时间上的变化趋势和规律,并对该地区未来犯罪活动的发生概率进行预测。

各种网络与信息安全事件以及涉信息网络违法犯罪行为越来越多,因此,计算机取证也必将面临许多新技术和新问题需要加以解决或克服。同时,这也将促进计算机取证在理论、技术、工具和标准规范上的不断发展和应用。

猜你喜欢
海量数据挖掘数据库
一种傅里叶域海量数据高速谱聚类方法
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
海量快递垃圾正在“围城”——“绿色快递”势在必行
数据库
一个图形所蕴含的“海量”巧题
数据库
数据库
数据库
一种海量卫星导航轨迹点地图匹配方法