大数据及其处理系统研究综述

2016-11-02 23:56朱敏
电脑知识与技术 2016年23期
关键词:挖掘出海量结构化

朱敏

摘要:当今时代,人们的生活对互联网的使用涉及方方面面,社交网络、物联网、传感器的广泛应用会产生海量的非结构化数据,即大数据。大数据不能使用传统的数据库软件进行管理,需要大规模并行处理数据库、分布式数据库系统、云存储等特殊的技术进行处理。该文阐述了大数据的概念、特点、处理技术及应用实例。最后总结了大数据的发展趋势。

关键词:大数据;数据处理

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2016)23-0251-02

1引言

当今时代,互联网的应用范围不断扩展,互联网中的数据发生了爆炸性的增长。社交网络中用户之间的交流、物联网中的各种设备(比如智能手机等)都会产生和传送海量的数据。传感器则把全世界的电器设备及生物体产生的数据传动到互联网。大数据中蕴藏着丰富的价值,社交网络中的大数据体现了人类复杂的行为模式,企业从大数据中挖掘出客户对商品的喜好和需求,从而改进产品。

2大数据定义

本文认为大数据的定义需要从规模和分析两个方面描述。首先,大数据是有非结构化和半结构化的数据组成的,其规模是海量的,无法用单台计算机进行存储、分析和处理。其次,大数据无法使用传统的数据库工具进行分析处理,必须使用互联网、数据挖掘电网、分布式数据库、云平台等技术进行大数据的挖掘分析和处理。

3 大数据特点

数据规模庞大、数据处理速度快、数据结构多样化、数据蕴藏丰富价值、数据来源真实可靠是大数据的具有的几大特点。

1)数据规模庞大:大数据的数据规模是海量的,可以是数百TB或者数百PB,甚至达到ZB的规模。信息大爆炸带来了海量的数据,目前互联网一天的数据流量达到1EB。

2)数据处理速度快:商务网站中的电子商务数据、社交平台的社交信息、传感器获取的数据都具有实时性,这些数据产生速度很快,所以对这些数据进行处理的速度也要求快速。

3)数据结构多样化:大数据的来源多种多样,例如互联网的点击、社交网络的信息交流、GPS定位信息等等,这些渠道产生的数据不再是传统的数据库中的结构化数据,可以是E-MAIL数据、音频数据、图片数据、视频数据、微博数据、传感器数据等等,这些数据都是非结构化或者半结构化的数据。

4)数据蕴藏丰富价值:大数据中蕴藏着丰富的价值,社交网络中的大数据体现了人类复杂的行为模式,企业从大数据中挖掘出客户对商品的喜好和需求,从而改进产品。企业从大数据中挖掘出客户对产品的需求,从而对产品进行优化。大数据中的数据是最原始的全面的数据,所以数据的价值密度低。例如社交网络中发出的一条信息,会在网络中不断转发,从而引出更多的相关信息,这些相关信息中蕴藏着丰富的价值。

5) 数据来源真实可靠:大数据的来源包括商务网站、社交平台、网络点击、传感器等等渠道,这些数据都是最原始的数据,中间没有对数据的采样和处理,保证了数据的真是可靠。

4 大数据处理系统

因为大数据的以上特性,不能使用传统的数据库工具进行大数据的分析处理。为了从大数据中挖掘出有价值的信息,需要有针对大数据的数据处理系统。目前,一些大型的互联网企业,例如谷歌、Facebook等企业都研发了针对大数据的数据处理系统。

1)批量数据处理系统:这种系统是对互联网中产生的海量的静态的数据进行处理。例如对客户在网站中的点击量和网页的浏览量等数据进行处理,从而或者客户对哪些商品比较偏爱。谷歌公司研发的GFS(Google File System,即大规模分散文件系统)和MapReduce(大规模分散FrameWork)系统就是典型的批量数据处理系统。

5结束语

本文阐述了大数据的概念、特点以及几种大数据处理技术。目前,随着社交网络的发展、传感器的广泛应用、物联网的不断扩展,大数据已经深入我们生活的方方面面,针对大数据的处理也越来越深入,如何更高效的挖掘大数据中蕴藏的价值需要不断地研究和改进。

参考文献:

[1]涂新莉,刘波,林伟伟.大数据研究综述[ J]. 计算机应用研究, 2014(31): 1612- 1616.

[2]程学旗,靳小龙,王元卓,等. 大数据系统和分析技术综述[J]. 软件学报, 2014(25):1889-1908.

[3]马建光,姜巍.大数据的概念、特征及其应用[ J]. 国防科技,2013(34) :10-17.

猜你喜欢
挖掘出海量结构化
一种傅里叶域海量数据高速谱聚类方法
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
从唱片里面挖掘出更多的细节 Thorens多能士| TD 905黑胶唱盘
海量快递垃圾正在“围城”——“绿色快递”势在必行
三次实地采访,挖掘出暖新闻背后的超暖细节
一个图形所蕴含的“海量”巧题
基于图模型的通用半结构化数据检索
基于时序关系的企业知识超网建模与分析
基于软信息的结构化转换