论大数据的由来及其界定与特征

2017-03-14 20:25沈卜铭
科教导刊·电子版 2017年2期
关键词:大数据

沈卜铭

摘 要 “大数据”是伴随数据信息的存储、分析等技术进步,而被人们所收集、利用的超出以往数据体量、类型具有更高价值的数据集合、信息资产。“大数据”仍然是数据信息的一类,之所以称为“大数据”,因为其具有不同于传统数据信息的特征。

关键词 “大数据” 数据集合 信息资产

1大数据的由来

尽管“大数据”这一理念直到最近几年才真正在国内受到高度的关注,但实际上早在上个世纪80年代,伟大的未来学家、社会思想家阿尔文·托夫勒(Alvin Toffler)就在其所著的《第三次浪潮(The Third Wave)》中提出了“大数据”这一理念,并在文中热情地称颂“大数据”为 “第三次浪潮的华彩乐章”。《自然(Nature)》杂志在2008年9月推出了名为“大数据”的封面专栏,从科学及社会经济等多个领域描述了“数据信息”在其中所扮演的越来越重要的角色,让人们对“数据信息”的广阔前景有了更多的期待,对身处或即将来临的“大数据时代”充满了好奇。

而真正让“大数据”成为互联网信息时代科技界热词的是全球著名管理咨询公司麦肯锡的肯锡全球研究院(MGI)在2011 年 5 月份发布的一份名为《大数据:下一个创新、竞争和生产力的前沿(The next frontier for innovation,competition and productivity)》的研究报告,该报告作为第一份从经济和商业等多个维度阐述大数据发展潜力的研究成果,对“大数据”的概念进行了描述,列举了大数据相关的核心技术,分析了大数据在各行业的应用,同时在文中也为政府和企业的决策者们提出了应对大数据发展的策略。可以说该份报告的发布,极大地推动了“大数据”的发展。

此后,大数据迅速成为科技热词,并引起了各国政府以及商业巨头的广泛关注。2012 年1月,瑞士达沃斯世界经济论坛将大数据作为论坛的主题之一,并发布了《大数据,大影响:国际发展新机遇(Big Data,Big Impact:New Possibilities for International Development)的报告》;2012年3月,美国奥巴马政府颁布《大数据的研究和发展计划》,启动了一项耗资超过2亿美元、涉及12个联邦政府部门、共计82项与大数据相关的研究和发展计划,希望通过提高大型复杂数据的处理能力,加快美国科技发展的步伐;2012年4月,成立于2003年的SPLUNK公司成为大数据处理领域第一家成功上市的公司,在 NASDAQ上市的首个交易日以109%的涨幅让无数人对大数据充满了想象空间;2012年5月,英国建立世界上首个关于政府数据信息开放的研究所;2013年,澳大利亚、法国等国家先后将大数据上升到国家战略层面,这是继美国和英国之后,欧美主流国家又一轮关于大数据国家发展战略的动向;在国内,从2012年开始,以BAT(阿里巴巴、腾讯、百度)为首的互联网企业以及传统的运营商企业也纷纷启动了关于大数据的研发和应用;2014年3月,“大数据”这一概念首次进入我国政府工作报告;2015年初,李克强总理在政府工作报告中提出“互联网+”行动计划,推动互联网、云计算、大数据物联网等与现代制造业的结合与应用。

2大数据的界定

关于“大数据”也就是英文的“Big Data”这一术语的概念目前并没有学界或者实务界一致公认的十分确切的界定。维基百科对“大数据”的解读是:“大数据”(Big Data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。百度百科对“大数据”的定义为:“大数据”(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。2011年5月,肯锡全球研究院 (MGI)在《大数据:下一个创新、竞争和生产力的前沿》的研究报告中,将“大数据”描述为“其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。”,这一界定只是十分基础的定义,仅仅从数据信息的体量上进行了界定。全球最具权威的IT研究与顾问咨询公司研究机构 Gartner 则给出了以下的定义:“大数据是具有更强决策力、洞察发现力和流程优化力的海量、高增长率、多样化的信息资产。”虽然对大数据尚未有公认的界定,但并不意味者大家对这个概念没有较为普遍的共识,从以上定义来看,我们可以认为“大数据”是伴随数据信息的存储、分析等技术进步,而被人们所收集、利用的超出以往数据体量、类型具有更高价值的数据集合、信息资产。

从“大数据”这个术语的演进来看,大数据是一个修辞学意义上的词汇,在数据方面,“大”是一个快速发展变化的术语,一方面,关于大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长的;另一方面,不同行业、不同企业对于大数据标准的數据集大小也会存在认知上的差别。目前,大数据的一般范围是从几个TB 到数个PB(数千TB)。随着信息技术的高速发展,数据体量已从 GB(1GB=1 024MB)升级到 TB(1TB=1 024GB)、PB(1PB=1 024TB),甚至EB(1EB=1 024PB)、ZB(1ZB=1 024EB)。据国际数据公司(IDC)预测,2020 年全球数据量将达到35.2ZB。据数名计算机科学家和业内高管称,2008年“大数据”这一术语开始在技术圈内出现。起初,许多科学家和工程师都嘲笑“大数据”(下转第188页)(上接第186页)只不过是一个营销术语。2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织“计算社区联盟”(Computing Community Consortium)发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》,作者是一位知名计算机科学家,卡耐基·梅隆大学的兰道尔·布赖恩特(Randal.E.Bryant)、加利福尼亚大学伯克利分校兰迪·卡兹(Randy.H.Katz)、华盛顿大学的爱德华·拉佐斯加(Edward.D.Lazowska)。他们的认可对“大数据”术语提供了智力支持。而对于大数据发展史来说,2012年肯定也是一个十分重要的年份,大数据由技术圈走入了真正的主流市场。

3大数据的特征

首先“大数据”仍然是数据信息的一类,之所以称为“大数据”,因为其具有不同于传统数据信息的特征。关于大数据的特征,美国Gartner公司的分析师 道格拉斯·兰尼(Douglas . Laney)2001年首次提出了大数据必须的3V 特征,即容量大(Volume)、多样化(Variety)和速度快(Velocity)。短短几年时间,随着技术的进步,以及对于大数据研究的深入,人们对于大数据特征的认识也发生了一些变化,现在普遍比较认可的关于大数据的特征的理解是:目前业界普遍认可的一种理解是:(1)巨量 Volume,即数据体量十分庞大;(2)多样 Variety,即信息类型多样,即包括结构化信息,如消费者提交的信息、交易信息等,更包括大量非结构化的信息,例如微博、日志、GPS 定位信息等非结构化信息;(3)价值 Value,价值密度低,商业价值高,受限于数据体量以非机构性数据的大量存在,相对于传统数据库,其数据价值密度较低;但同时由于信息关联性更强,其挖掘价值较大;(4)高速 Velocity,“数据处理需要通过高速运算迅速得到分析结果,以满足大数据时代对于时效性的要求。

基于大数据的多个V的特征,维克托·迈尔·舍恩伯格(Victor · Maier ·Schoen Berg)在《大数据时代:生活、工作与思维的大变革》一书中提出了三个基于大数据特征的重大思维转变:首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本;其次,我们乐于接受数据的纷繁复杂,而不再追求精确性;最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。当理解了上述在大数据背景下的思维转变,回过头来又能更深刻地理解大数据关于几个V的特征。

猜你喜欢
大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路