数据驱动创新场景引领未来

2018-11-08 03:21王连成代桃桃
山东电力技术 2018年10期
关键词:框架神经网络深度

王连成,代桃桃

(1.山东大学,山东 济南 250061;2.山东海兴电力科技有限公司,山东 济南 250100)

0 引言

大数据(Big Data)近来非常火爆。这从2018中国国际大数据产业博览会盛况可见一斑。为期4天的大会共举办了8场高端对话、65场专业论坛、40场成果发布、81场招商推介,参会观展人数超过12万人,国内外参展企业和机构达到388家[1]。

大数据发展得到了广泛重视并取得了显著成绩是有目共睹的事实。同时也要认识到,大数据还仍处于初级阶段,无论是学术界还是企业界,国内还是国外,人们对大数据的理解还有欠缺和误区、还存在着片面性。认为“大数据无所不能、无处不在、无坚不摧”的现象就是一个典型的例证。

以“数据驱动创新,场景引领未来”为主题,深入浅出地阐述大数据的基本概念、基本要素和核心技术,以便更好地认识大数据、理解大数据、掌握大数据、应用大数据。

1 大数据概念提出

最早正式提出大数据概念的是美国麦肯锡全球学院(McKinsey Global Institute)2011年 5月的一份研究报告《大数据:下一个创新、竞争和生产力的前沿》。报告从6个方面对大数据进行了深刻地阐述:全球数据的增长和价值产生、大数据技能和技术、大数据在社会5大领域的变革潜力、适用于不同行业的大数据关键发现、大数据对企业领导者的决策影响、大数据对政策制定者的影响[2]。大数据发展过程中另一个里程碑是2013年牛津大学大数据研究专家维克托-梅耶-首恩伯格著作的发表,《大数据:一场将改变我们如何生活、工作和思考的革命》。首恩伯格通过大量的实例和生动的语言诠释了什么是大数据以及它将如何改变我们的生活,将大数据发展推向了一个崭新的高潮[3]。

任何新技术的出现都离不开社会实践,离不开社会需求。谷歌研发大数据的原因是由于当时的软件及硬件系统已经不能有效地处理大量的网络数据。经过近几年的发展,大数据技术已逐渐趋于成熟,大数据的概念也发生了变化。大数据这个术语已从单单指数据的大与小或者多与少扩展成拥有更为广泛内涵的一个概念。当提起大数据时并不仅仅是指数据本身,大数据还包括一系列相关技术和应用,如数据的获取、存储、分析、挖掘、处理、可视化等。例如电力大数据、交通大数据或医疗大数据不仅仅指电力、交通或医疗方面的大量数据,还包含了所对应领域的大量数据的分析挖掘技术和应用。

2 大数据要素

提到大数据,往往用它的5个特征(或5个V)来定义:大量(Volume)、高速(Velocity)、多样(Variety)、价值(Value)、真实性(Veracity)。这种提法比较片面,而且在很大程度上误导了不少读者,好像不具备这5个V就算不上大数据似的。另外,这里只是从数据本身的层面考虑问题,没有涉及大数据的相关技术和应用。还有一种定义是说大数据是指应用传统的数据处理软件已无能力处理的大而复杂的数据组合。

与上述不同,大数据需要从以下4个要素来说明才能准确表达其含义:数据、平台、算法、场景。在这4个要素中,数据是条件,平台和算法是手段,场景则是目的。

数据是条件、是基础,只有具备了大量的数据,多种类型的、实时的或历史的,应用和创新才成为可能。

应用和创新需要一个载体,那就是平台,平台包括计算机(服务器)以及相关的软件。为了能够快速、安全、可靠地处理类型多、体量大的数据,一个平台可能有上百台、上千台甚至上万台服务器组成。平台上面,可以进行数据的接入、存储、查询、搜索、分析等。有了平台还需要有算法做支撑才能进行深层次分析和实现价值挖掘。算法属于计算机科学、统计学和人工智能 AI(Artificial Intelligence)的范畴,通常包括关联分析,统计分析,分类和预测等。大多数算法并不是什么新事物,应用已久,也有的算法是近几年才提出来的,例如深度学习[4]。2016年曾轰动一时的AlphaGo就是使用了深度学习算法。

应用场景。任何一项理论或技术无论听起来有多么深奥或多么高大上,如果不能解决任何实际问题或没有什么好的应用场景都是毫无意义的空谈。解决问题、创造价值才是硬道理。大数据技术也不例外。具体来说,应用场景指的是解决什么问题、如何解决、用到什么数据、达到什么目的或创造出什么价值。上面提到的AlphaGo就是一个很好的大数据应用场景。它的价值就在于在全球范围内再次掀起了人工智能的研究和应用热潮,而且奠定了谷歌在大数据人工智能技术方面的绝对优势地位。

3 大数据和云平台

讨论大数据就不得不提近几年同样火爆的另外两个词,云计算和云平台。通俗地讲,云计算就是把计算放在云端。这里的计算不是传统意义上的单纯的加减乘除之类的计算,是广义上的计算,还包括了数据的管理、存储和查询等。简单来说,云端就是指互联网,放在云端就是放到互联网上去。云端和非云端区别其实就是互联网和局域网的区别,或者说就是外网和内网的区别。苹果云(iCloud)、阿里云、浪潮云、华为云、或Oracle云等都是一样的道理,他们提供的云服务,就是需要用户把数据传到他们位于互联网上的服务器上,然后根据需求定制功能或服务。用户不必考虑数据到底传到哪里去了,至于这些云端的数据中心是建在了贵阳还是北京,甚至是国内还是国外,对用户来说都是无关紧要的。云服务一般包括3个方面,即基础设施服务(Infrastructure as a Service,IaaS),平台服务(Platform as a Service,PaaS)和软件服务(Software as a Service,SaaS),如图 1 所示[5]。

图1 软件平台基础设施服务结构

所有的云计算,不管是真正意义上的加减乘除计算还是广义上的计算都必须有一个物理载体,这个载体其实就是大量的服务器(计算机)和相关软件,所谓云平台就是云端的这些用于完成云计算的服务器和相应软件的有机融合。所以,云平台也就是建在云端的大数据平台。云计算和云平台是密不可分的,提供云计算必须有云平台做支撑。Oracle云如图2所示。

图2 Oracle云平台

4 大数据核心技术

在大数据的4个要素中,核心技术是平台和算法。讲到大数据平台,总绕不开以下3个专业术语:Apache Software Foundation(ASF)[6];Hadoop;Spark。ASF(阿帕奇软件机构)成立于1999年6月1日,是美国的一个开源代码非盈利性机构。ASF支持许多最广泛应用和重要的、驱动现代互联网经济的软件解决方案,是当代开源代码软件生态系统的奠基石。Hadoop是用于可靠的、可扩展的、分布式的计算的开源代码软件,是利用简单的编程模型可以在大量服务器集群上对大数据集合进行分布式处理的一个框架。注意,这里的关键词是“分布式处理”。Hadoop在2003年由Doug Cutting和Mike Cafarella提出,2006年1月交给 ASF接管并于当年4月由 ASF首次对外发布。Spark是一个开源代码的集群计算框架,是一个多功能、可扩展、高性能的数据处理平台。在这里,关键词是“数据处理”。Spark最初由美国加州大学柏克莱分校的大数据分析算法实验室AMPLab开发,后来也交给 ASF接管并于2014年5月实现首次对外发布。这里的AMP代表算法(Algorithms),机器(Machines),人(People)。

一个大数据平台就好比是一个戏台,所不同的是戏台是用来唱戏的,而大数据平台则是用来对数据进行分析、挖掘的。有了戏台就可以上演各种不同的戏,同样,有了大数据平台就可以设计不同的应用场景,如电力大数据、医疗大数据、教育大数据等。戏台是建立在一个台子之上的,这个台子或许还可以根据需要进行升降和变换不同的造型,这里的台子就好比是大数据平台的服务器。戏台还需要有灯光、道具、乐队、舞美、音响,对大数据平台来说,这就相当于用于分布式数据存储的 Hadoop和用于快速数据处理计算的Spark。在大数据环境下,由于数据体量大(PB级及以上)、种类多,传统的方法已不适用,Hadoop和Spark是大数据平台必然的选择。

总之,大数据平台的关键技术是 Hadoop和Spark,它们分别于2003年由美国谷歌公司和2014年由加州大学所发明,目前由ASF拥有、维护和管理。当前国内外几乎所有的大数据平台,包括主流云平台联想云、浪潮云、阿里云、腾讯云等都建立在Hadoop和Spark框架之上。

人工智能和大数据就像一对好兄弟、好伙伴,形影相随、相辅相成。人工智能是一个广义上的术语,是指通过逻辑推理、if-then规则、决策树、和机器学习(Machine Learning)使计算机能够模仿人类智能的任何技术。这里提到的机器学习是人工智能的一个分支,指的是无需通过特定的计算机编程而是通过赋予计算机“学习”的能力来解决问题的一个研究领域。通俗地讲就是,要解决一个问题,靠的不是特定的编码,而是通过向数据学习的算法来自动建立模型发现内在的规律。例如,为了辨识出狗的图片,先用上千张各种动物的大量图片来训练一个机器学习算法模型,这个过程也就是一个学习的过程。训练成功或学成以后,这个模型就可以逐层、逐级地自动辨认出一个给定的图片是狗还是其他动物。可以看到,这里并没有用特定的编码去提取和处理狗的图片的特定形状或颜色等特征,而是由训练好的模型自动完成辨识任务。机器学习图片辨识算法模型如图3所示[7]。

说起人工智能,就不得不提机器学习的一个重要的分支—深度学习(Deep Learning)。目前,人工智能之所以受到这么高的关注和被报以如此高的期望,主要原因是深度学习算法在诸多领域的巨大成功,其中最著名的还是2016年3月举世闻名的那盘棋,AlphaGo以绝对优势打败围棋世界高手李世石。据说当时全世界有两亿人观看了那场世纪大战,AlphaGo的超凡表现被业界称为是一个划时代的成就。而AlphaGo的核心算法就是深度学习。所以说,AlphaGo对深度学习热潮的掀起起到了推波助澜的作用。

图3 机器学习图片辨识算法模型

在深度学习领域,另一个极具影响力的事件是2012年的大规模视觉识别挑战赛 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)。ILSVRC是由美国斯坦福大学举办的用来评估目标检测和图像识别算法的年度挑战赛。在2012年的比赛上,加拿大多伦多大学Geoffrey Hinton教授的团队夺冠,其图像辨识算法的准确度达到了前所未有的高度。有研究者称,2012年Hinton的胜利为变革人工智能行业“深度学习革命”的到来拉开了序幕。

深度学习的实质是一个深度神经网络。深度学习由能够让软件进行自我训练的算法组成,它通过用海量数据训练多层神经网络算法、而不是通过编写特定的编码来完成诸如语言识别、图像辨识和目标检测等工作。

神经网络或人工神经网络 ANNs(Artificial Neural Networks)是由受启发于组成动物大脑生物神经网络的计算机系统组成。数学上,一个ANN是基于相互链接的人工神经元的集合,由一个输入层、一个隐藏层和一个输出层组成。深度神经网络是指隐藏层不只是一个,而是有多个。在深度学习算法中,隐藏层一般来说指五个以上,也有的包含了几十个、几百个甚至上千个。

作为一种深度神经网络,深度学习并不是一个新概念。关于它的发明,学术界有不同的说法。一种说法是它由苏联数学家Alexey Ivakhnenko发明,因为早在1971年,他就在一篇文章中提出了深度神经网络,这是最早的深度学习方法之一[8]。所以,有人称Ivakhnenko是深度学习之父。还有一种说法是它是由加拿大多伦多大学的 Geoffrey Hinton教授在2006年发明。这种说法的理由是,虽然深度神经网络早已被提出,但在当时,人们普遍认为训练一个深度神经网络是不可能的。事实上,自20世纪90年代,大多数研究者已经放弃了这个方法。是Hinton教授,在2006年的一篇文章中提出如何训练一个深度神经网络,从而给深度学习带来一个质的飞跃[9]。所以,有人把Hinton称为深度学习的教父。

有了深度学习的理论,到具体把理论用到实践中并收到预期的效果还有大量工作要做。就好比从法拉第电磁感应定律的发明,到制造出发电机、发出电、用上电,中间有好长的路要走一样。如前所述,深度学习算法就是深度(7层及以上)神经网络。归根结底,这个网络及其训练方法要搭建在计算机或大数据平台上才能发挥作用。这本身就是一项非常复杂、难度很高的工作。所以,从深度学习应用场景出现之日起,业界科技巨头和大学研究机构就在研发一种深度学习工具箱或称为深度学习积木,开放其源代码并免费供开发者使用,以用来简化深度学习算法的开发工作。这种工具箱就是深度学习开源框架。

由于几乎所有深度学习的开发应用都离不开底层的深度学习框架,而框架的灵活性、可扩展性、以及高效性又直接影响到最后应用的效果。所以,深度学习框架是深度学习方面或更准确地说是大数据算法方面的核心技术。

目前深度学习框架领域在世界范围内竞争非常激烈,主流框架就有10多个,主要来源于美国,以谷歌的TensorFlow和加州大学柏克莱的Caffe最为流行。Caffe表示快速特征植入的卷积结构。其他的还有来自微软的 CNTK,来自 Facebook的 Torch,以及来自加拿大蒙特利尔大学的Theano等。国产深度学习框架只有百度的PaddlePaddle,但使用率远远落在所有主流框架之后。国内深度学习领域有60%的用户都在使用谷歌的 TensorFlow,这主要得益于TensorFlow高度的灵活性和真正的可移植性。

综上所述,在大数据的4个要素中,核心技术在于平台和算法,而平台的核心技术是用于大数据分布式存储的 Hadoop和用于大数据快速处理计算的Spark;算法方面的核心技术是用于开发深度学习算法应用的深度学习框架,其中以谷歌的深度学习框架TensorFlow应用最为广泛。TensorFlow算法模型训练如图 4 所示[10]。

5 结语

用通俗的语言解读大数据,提出了大数据的4个要素,阐述了大数据的基本概念、发展历程和相关技术及应用。在大数据的4个要素中,平台技术的Hadoop/Spark以及算法技术的深度学习框架是关键。这些核心技术大多发源于美国、成长迅猛,或由美国的开源代码机构ASF或由其开发机构来管理、维护和发布,相关标准和发展方向也是由同一机构来掌控。所以,要想成为大数据领头羊,必须从底层技术着手加大研发力度、迎头赶上,只有这样才能在大数据领域的国际舞台上有话语权和主导权,从数据大国变成数据强国。

当今数字社会和数字经济产生了海量的数据,机遇和挑战并存,为大数据技术创新发展提供了必要条件。但要用好大数据,应用场景是关键。好的应用场景能解决大问题、创造大价值、造福全人类,为人民美好生活的早日实现提供催化剂和助推器。数据驱动创新,场景引领未来!

猜你喜欢
框架神经网络深度
框架
深度理解一元一次方程
广义框架的不相交性
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
深度观察
深度观察
深度观察
基于神经网络的拉矫机控制模型建立
关于原点对称的不规则Gabor框架的构造