大数据概念及主要技术分析研究

2016-12-27 15:01李真春裴彦芳
科技传播 2016年19期
关键词:数据量分析

李真春+裴彦芳

摘 要 本文全方位多角度分析了大数据概念的提出及发展历程,阐述了大数据概念的内涵和外延,特别对大数据的“4V”特征进行了深入解读,剖析了大数据技术快速发展的深层次原因,为大家正确认识大数据提供了有益的探索。简要介绍了主要的大数据技术,包括:大数据采集与预处理的技术、大数据存储与管理技术、大数据计算技术、大数据分析技术和大数据呈现技术,详细介绍了在大数据研究领域影响最广泛的大数据技术-Hadoop,在此基础上,简要介绍了大数据技术的基本应用。

关键词 大数据;4V特征;大数据技术;hadoop

中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2016)172-0105-002

1 大数据概念的内涵和外延

大数据是一个很宽泛的概念,仁者见仁,智者见智。

亚马逊(全球最大的电子商务公司)大数据科学家John Rauser认为大数据是任何超过了一台计算机处理能力的数据量。(Big data is ‘any amount of data thats too big to be handled by one computer)。

在《大数据:下一个创新、竞争和生产率的前沿》当中,麦肯锡对于大数据做出了一下定义,即:所谓的大数据,主要就是指那些大小比常规数据库工具的获取、存储等更大的数据集。一般来说,大数据概念的内涵通常用4V特征来表述。

第一个V是Volume,就是数据体量大。大到运用常用的数据库软件无法对其进行管理。现在来看,基本上是指几十TB到几个PB的数量级。当然,随着技术的进步,数据的积累,这个数值会变得更多,有人预测5年后,也许只有EB数量级的数据量才能够称得上是大数据。

第二个V是Variety,是指数据类型繁多,来源各异。有来自网络的网页、日志、图片,有来自传感器的监测数据、视频数据、音频数据、位置信息,还有来自日常运营系统的各类信息等。

第三个V是Velocity,速度快。它包含两个含义,一是数据产生和更新的频率快,数据量增长速度快。如今,只需两天就能产生出自人类文明诞生以来到2003年所产生数据的总量。谷哥搜索引擎每个月处理的数据量超过400PB;百度每天大约要处理几十PB字节数据;淘宝在线商品10亿多件,每天发生数千万笔交易,产生约20TB数据。各个城市的视频监控每时每刻都在采集巨量的流媒体数据。二是响应快,要有很高的时效性。对大数据的处理要求也要遵循1秒定律,就是在1秒内出结果。

第四个V是Value,价值性。包含3层含义。一是价值密度低,在数据总量中有用数据所占比例低。以视频数据为例,在连续不间断的监控图像中,可能有用的数据仅有一两秒。二是整体价值高,设想一下,研究问题领域相关的、全部的、真实的数据被汇集起来形成的大数据集,其价值是何等珍贵。三是潜在价值大。大量数据的价值尚未完全被挖掘利用,大数据挖掘就像沙里淘金。

2 大数据为什么能“火”

一是大数据的大众化。事实上,大数据并不是一个新名词,尤其是当我们只从数据量的方向来对其进行分析的话,大数据早已存在。例如,飞机汽轮机压缩器叶片的监控数据为每天588GB,生物技术领域中的基因组分析用的数据、气象数据分析用的数据等,很早之前就已经属于大数据了,并且其已经大到需要运用一些相对昂贵的超级高端计算机,进行数据的处理与分析。

二是大数据的硬软件条件具备了。计算基础条件:IT的摩尔定律使得计算机处理速度更快却更便宜。(1965年,Intel的主要创始人戈登?摩尔就曾经提出一个非常有名的“摩尔定律”:在价格保持不变时,在集成电路当中,其所能够容纳的晶体管数目,通常都会在18个月之后增加一倍,并提升一倍的性能)。

存储条件:其磁盘的价格出现了非常显著的下降,其中,在2000年的时候,每GB硬盘的单价大约为19美元,但是到了2010年时,其已经降到了7美分,10年下降了近300倍;而且体积比以前更小。

分布并行计算条件:大规模数据分布式处理技术的发明与应用,成为了现阶段大数据浪潮的第一推动力。

三是云计算的普及。云计算,就是一种利用大规模、低成本运算单元,通过网络连接,提供各种计算和存储服务的信息平台。云计算改变了数据的存储、计算和访问方式。因为有了云计算,大数据的硬软件环境就不需要自行搭建了。

3 大数据技术及应用

3.1 主要的大数据技术

通俗地讲,所谓的大数据技术,指的就是从各种数据当中,来快速获得有一定价值的信息的一种技术。

依据相应的数据处理流程,大数据技术主要包括大数据采集与预处理技术,大数据存储与管理技术、大数据分析技术、大数据计算技术和大数据呈现技术等。

大数据采集与预处理技术,用于解决数据来源和数据质量等问题,主要包括异构数据库集成、WEB信息实体识别、传感器网络数据融合、数据清洗和数据质量控制等。

从某种意义上来说,大数据的存储与管理技术,能够用来解决大数据的可靠存储和快速检索访问等问题,主要包括分布式文件系统、分布式数据库、大数据索引和查询、实时/流式大数据存储与处理等。

大数据计算技术,用于解决分布式高速并行计算问题,主要包括分布式查询计算技术、批处理计算、流式计算、迭代计算、图计算、内存计算等。

大数据分析技术,用于揭示规律、发现线索、探寻答案问题,主要包括数据挖掘、机器学习、模式识别、聚类分析等技术。

大数据呈现技术,用于将数据分析结果显示给用户,使得用户能够更清晰、方便、深入理解数据分析结果。主要包括可视化技术、历史流展示技术、空间流展示技术等。

3.2 大数据应用

利用电子商务平台所拥有的大数据,对客户的行为进行大数据挖掘分析,提供了相似选购行为分析-用于推荐相似产品-经典台词是“看过本商品的顾客还看了”;提供了相似购买行为分析-用于推荐组合产品-经典台词是“购买本商品的顾客还购买了”;根据客户的浏览历史预测客户喜好分析-用于推荐最适合的产品-经典台词是“建议购买以下产品”。

利用社区网站所拥有的大数据,根据用户上网行为向用户推送定向广告。如根据我在新浪微博中的“男士休闲服”的话题,为我推荐淘宝店中出售的休闲套装;根据我的身份信息,为我推荐的产品基本符合我的年龄、身份和喜好;并根据我对套装的关注,为我推荐黄金绒的牛仔裤;根据我的喜好和评介,将类似的产品推荐给我的好友。

目前,大数据已在社会各领域进行了应用,从应用方向上看,在实现了大数据的存储、挖掘与分析之后,大数据被广泛运用在企业管理、数据标准化分析等领域中。而从应用行业的角度来说,通过大数据的运用,能够在很大程度上改进客户的营销方式与服务水平,这样能够有效帮助行业降低成本,实现运营效益的提升。此外,其还可以帮助企业创新商业模式,并发现新的市场商机。从对整个社会的价值来看,大数据在智慧城市、智慧交通及灾难预警等方面都有巨大的潜在应用价值。

参考文献

[1]城田真琴.大数据的冲击[M].北京:人民邮电出版社,2013,6.

[2]涂子沛.大数据[M].北京:广西师范大学出版社,2012,7.

[3]维克托?迈尔?舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2012,12.

[4]特金顿(Garry Turkington).Hadoop基础教程[M].北京:人民邮电出版社,2014,1.

[5]刘蔚然,刘莉娜.大数据技术[J].冶金设备管理与维修,2014(4):33-36.

猜你喜欢
数据量分析
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
隐蔽失效适航要求符合性验证分析
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
电力系统不平衡分析
AMAC
电力系统及其自动化发展趋势分析
中西医结合治疗抑郁症100例分析
在线教育与MOOC的比较分析