浅析大数据

2014-09-01 16:54张维苏秀芝
关键词:并行计算物联网大数据

张维+苏秀芝

摘要:“大数据”是一个数量特别多,数据类别特别大的数据集。大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。目前所说的“大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。在本文中,我们将介绍大数据产生的背景,以及跟大数据相关的技术,如并行计算、物联网、数据中心和Hadoop。讨论大数据的几种有代表性的应用,包括在百货公司、彩票行业、超市、零售业等方面的典型应用。讨论这些目的是给读者提供一个全面的概述。

关键词:大数据 并行计算 物联网

1 背景

进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。

数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据[1]时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。

随着云时代的来临,大数据也吸引了越来越多的关注。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

2 相关技术

2.1 大数据与并行计算

对于大数据,串行的处理方式难以满足计算要求,需要采取并行处理的方式,现在有两种并行处理的方式:细粒度并行计算和粗粒度并行计算。细粒度主要是指指令或进程级别,由于GPU比CPU拥有更强的并行处理能力,可以将一些任务交给GPU并行处理,一些GPU制造商也推出了方便程序员使用的编程模型,如NVIDIA推出的CUDA等,粗粒度主要是指任务级别,将工作分布到不同机器中执行,最近流行的网格计算、分布式计算[2]都属于粗粒度级别。

由于大数据都分别在集群中,因此对数据的处理和分析需要在集群中进行,但是在多台机器上对分布式数据进行分析会产生巨大的性能开销,即使采用千兆比特或万兆比特带宽的网络,随机读取速度和连续读取速度都会比内存慢几个数量级。但是,现在高速局域网技术使得网络读取速度比硬盘读取速度要快,因此,将数据存储在其他节点上比存储在硬盘上性能要好,而且还可以在多个节点上并行处理数据集。

对大数据分布处理也会带来一些问题,首先就是节点间通信对并行处理的代价,一些操作如搜索、计数、部分聚集、联合等可以在每个节点上独立执行。单个节点处理后的结果需要合并,因此节点间的通信是不可以避免的。

2.2 大数据与物联网

物联网的发展离不开大数据[3],依靠大数据可以提供足够有利的资源;同时,大数据也推动了物联网的发展。新时代的发展提出更高的要求,这是一种智慧化的新形态,其外在表现就是物联网,而其内涵就表现为大数据。简单来说,物联网的应用,其内在本质就利用了大数据。大数据是物联网的血液。

众所周知,物联网时代所创造的数据将不会是互联网时代数据所能比拟的,物联网时代一辆汽车甚至一个冰箱都有一个独立的IP地址,都能依照自己系数的改变生成数据。那么这么多的数据存在,我们又如何保护它的安全和个人隐私呢?或许这个问题永远没有答案,这里借用爱因斯坦的著名理论来解释就是:“只有相对的自由,没有绝对的隐私”。物联网产生的大数据与一般的大数据有不同的特点。物联网的数据是异构的、多样性的、非结构和有噪声的,更大的不同是它的高增长率。物联网的数据有明显的颗粒性,其数据通常带有时间、位置、环境和行为等信息。物联网数据可以说也是社交数据,但不是人与人的交往信息,而是物与物,物与人的社会合作信息。大数据助力物联网,不仅仅是收集传感性的数据,实物跟虚拟物要结合起来。今天北京交通堵塞,但是并不知道堵塞原因,如果政府发布消息和市民微博发布消息结合起来就知道发生什么事,物联网要过滤,过滤要有一定模式。

2.3 数据中心

在大数据模式下,数据中心不仅是以一个平台的形式进行数据的集中存储,而且还承担更多的责任,如采集数据,管理数据,整理数据,并利用数据的价值和功能。数据中心主要关注“数据”而不是“中心”,它有大量的数据,并根据它的目标展示一定的规律,这样比拥有一个网站和资源更加有价值,大数据的出现带来了良好的发展机遇和巨大的挑战。大数据是一个新兴的模式,这将促进基础设施和相关数据中心爆炸式增长。

2.4 大数据与Hadoop

Hadoop是一种用于大数据[4]的应用程序,因为它是建立在MapReduce基础上的,所以引起了极大的关注。(MapReduce是一种用于超级计算的普通方法,之后经过了主要由Google资助的一个项目的优化,因此被简化并变得考究了。) Hadoop是几个紧密关联的Apache项目组成的混合体的主要安装启用程序,其中包括MapReduce环境中的HBase数据库。endprint

为了充分利用Hadoop和类似的先进技术,软件开发商们绞尽脑汁研发出了各种各样的技术,其中很多都是在开源社区里开发出来的。

Olofson说“他们已经开发出了大量的所谓noSQL数据库,种类之多让人眼花缭乱,其中大部分都是键值配对数据库,能利用多种技术对性能或种类或容量进行优化。”

开源技术还没有得到商业支持。“所以在这方面还需要经过一段时间的发展完善,这一过程可能需要几年。基于这个原因,大数据可能需要一些时日才能在市场上走向成熟”他补充道。

3 大数据的典型应用

下面这些大数据的典型应用可以帮助我们更清晰的理解大数据时代的来临。例如梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价;Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN沃尔玛的搜索。这家零售业寡头为其网站Walmart.com自行设计了最新的搜索引擎Polaris,利用语义数据进行文本分析、机器学习和同义词挖掘等。根据沃尔玛的说法,语义搜索技术的运用使得在线购物的完成率提升了10%到15%。对沃尔玛来说,这就意味着数十亿美元的收入。快餐业通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。

4 结论

在本文中,首先介绍了大数据产生的背景;其次讨论了跟大数据相关的几种技术,包括并行计算、物联网、数据中心、Hadoop;最后根据实际情况列举了跟大数据相关的几种实际应用。大数据已经通过各种形式渗透进人们的日常生活,同时也给我们的科学研究带来了新的挑战。

参考文献:

[1]陈一鸣.美国:以国家战略应对大数据时代[N].人民日报,2013-1-17.

[2]计算机行业-大数据(Big Data)专题报告[R].上海:光大证券股份有限公司研究所,2011.

[3]大数据分析技术的发展[EB/OL].2012-05-16.http://iech.

ccidnet.com/art/32963/20120516/3859799_1.html.

[4]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012(9):8-15.

[5]王珊,王会举等.架构大数据:挑战、现状与展望[J].计算机学报,2011(10):1741-1753.endprint

猜你喜欢
并行计算物联网大数据
云计算中MapReduce分布式并行处理框架的研究与搭建
矩阵向量相乘的并行算法分析
基于高职院校物联网技术应用人才培养的思考分析
并行硬件简介
基于大数据背景下的智慧城市建设研究
中国或成“物联网”领军者
基于Matlab的遥感图像IHS小波融合算法的并行化设计