大数据产业研究综述

2018-03-22 12:03廖劲为于娟

现代商贸工业 2018年6期

廖劲为于娟

摘要：大数据是信息技术发展融合的新焦点和新引擎，正深刻影响着经济和社会的发展。为了促进我国大数据产业的发展，首先从国内外大数据产业概况、相关政策规划、大数据技术等三方面概述大数据产业发展现状，然后从我国信息化水平建设现状出发，从数据开放、人才培养和技术研发三方面给出我国发展大数据产业的建议。

关键词：大数据；大数据产业；产业政策；大数据技术

中图分类号：F2 文献标识码：Adoi：10.19311/j.cnki.1672-3198.2018.06.003

1 引言

大数据（Big Data），是指利用传统数据处理应用捕获、管理和处理数据所耗时间超过可容忍时间的巨量数据集。大数据是信息技术发展融合的新焦点，是信息产业持续高速增长的新引擎，正深刻影响着经济和社会的发展。自2012年起，美、英、德、日等发达国政府纷纷发布大数据相关的纲领性文件，意图通过实施大数据战略改善社会生产力、创造新的经济社会价值，进而提升国家核心竞争力。2015年9月，我国国务院发布《促进大数据发展行动纲要》，将发展大数据产业上升到我国国家战略。

2 大数据产业

大数据产业主要特征：（1）数据资产化。數据渗透到社会的方方面面，逐渐成为各组织的核心资产之一，是大数据产业发展的核心驱动力。（2）技术高创新性。大数据产业的关键技术包括高效率低成本的大数据存储、索引查询、数据清洗、异构数据集成以及数据可视化等。（3）决策智能化。组织决策从业务层到战略层均需利用数据支持决策，“用数据说话”，克服决策者的有限理性，推动决策朝着科学化、智能化的方向发展。（4）服务个性化。通过数据挖掘用户的兴趣和偏好，提供个性化服务，提高服务质量，满足用户更高层次需求并获得更高的经济收益。

2.1 大数据产业链

大数据产业链是以大数据产品价值链为线索沿横向从数据收集、存储、分析到应用逐级递进，以大数据技术为中心沿纵向从底层的基础硬件设施、大数据软件技术到顶层的完整IT解决方案服务，大数据产业链各环节如图1所示。

2.2 大数据产业规模

随着大数据成为国家战略以及大数据技术和商业模式的逐渐成熟，大数据在各行业、各领域快速拓展。市场焦点从概念炒作迅速转移到实际应用，大数据进入全面发展的快车道，呈现出应用创新成为主要驱动力、融资并购成为市场热点、产业生态不断优化和基础设施建设更加合理等特点。

美国凭借信息技术优势和软硬件核心技术基础占据了大数据产业链前端；欧洲、日本、韩国和澳大利亚等国家处于政府引导和基础研究阶段。目前我国大数据发展属于初级阶段，但各地开展大数据研究和应用的积极性高涨，都在加速推广大数据的理论研究和实践开发，近几年市场规模明显增速。2016年我国大数据市场规模约168亿，同比增长45%，预计2017-2020年增速保持在30%以上。但目前不可忽视的是我国还未形成完整成熟的大数据产业链，尤其缺少成熟的高端产品和配套服务。大数据存储和云计算服务仍是目前的主流产品，而数据收集和集成的前端服务，数据挖掘分析和可视化的后端产品，及大数据整体解决方案仍存在巨大空白。

目前我国大数据产业链呈现初级阶段发展不均衡，区域分布明显等特征：（1）京津冀，集聚效应开始显现，产业链条初步健全；（2）长三角，开展布局城市增多，智慧城市、云计算成重要支撑；（3）珠三角，政策扶持持续发力，产业发展进入良性循环；（4）中西部，鼎足之势初现端倪，渐成产业发展新增长点。

2.3 大数据产业实践

大数据，在经济预警、舆情分析、健康医疗、农业精准管理、城市综合治理、电信运营、互联网金融、电子商务等领域已出现先导应用并在不断深化。大数据产业实践主要由数据拥有者、技术提供商、数据运营商和数据应用者四个主要角色构成。

（1）数据拥有者是指拥有数据的组织，包括有数据且运用较成熟的互联网企业，如百度、Google；有数据但运用不好的传统组织，例如政府、银行；采集开放数据或与其他数据拥有者合作而获得数据资源的大数据服务商，如九次方。

（2）技术提供商是为数据拥有者提供数据采集、存储、计算、分析、咨询等服务的企业，包括提供基础软硬件领域的IBM和华为等，计算服务领域的Amazon和微软等，大数据分析领域的Palantir和Splunk等。

（3）数据运营商是对数据进行加工处理后，以数据产品、数据应用等形式直接为需求方提供服务的企业，如阿里巴巴和沃尔玛等，可能同时拥有大数据资源、大数据核心分析技术和大数据场景化应用能力。

（4）数据应用者是大数据价值的最终受益者，通过对自有数据资源的开发、重用或者从外部购买数据产品，将其应用于自身的业务场景或服务场景中创造新的价值，如信贷服务和智能交通领域。

3 大数据产业政策规划

3.1 国外相关政策规划

为了充分利用大数据的潜在价值，美、英、德、日等发达国政府均制定了大数据相关的纲领性文件，并启用官方数据开放门户，助力大数据从收集、集成到分析等的大数据处理过程。本文依据相关信息整理了主要发达国家发展大数据的战略文件，如表1所示。

表1说明，国外政府大数据政策措施具有以下特征：

（1）从战略层面规划布局我国大数据产业链。为抢占大数据发展主动性，多数国家抢先颁布国家战略层面规划推动国内大数据理论研究、技术研发、产业发展和交叉领域应用，以确保国家在大数据领域的国际领先地位。

（2）重视政策辅助。具体来说包括数据开放共享、产业扶持、人才培养、资金保障等，力求构筑良性生态环境。

3.2 我国相关政策规划

各部委大数据相关政策与规划。在2010年后，特别是2014年以后各部委密集制定出台了诸多关于大数据产业的决定、规划和指导意见，对大数据产业进行明确的支持和鼓励。详见表2。

地方政府大数据相关政策与规划。大数据产业野蛮生长的同时，我国一些地方政府也开始密集出台相关政策，对大数据产业进行支持、规划和指导。依据我国信息化水平较高地区的政府网站，整理相关政策如表3。

表2和表3说明，我国从中央政府到地方政府均积极推进大数据产业建设。但相比欧美等发达国家，我国信息化总体水平比较落后，大数据产业发展起步较晚，导致配套规划与政策存在较多缺口。

4 大数据技术

大数据产业发展以大数据技术为基础，包括：针对大数据“4V”特征的大数据收集、存储、分析与可视化等大数据处理技术。大数据处理流程是指：在合适工具的辅助下，按照一定的标准对广泛异构的数据源进行收集和集成，并统一存储；利用恰当的数据处理技术分析提取存储数据中有益的知识信息，并通过恰当的方式将结果展现给终端用户。Hadoop作为一个可开发与运行处理大数据的软件平台，解决了大数据处理流程的一些关键问题。按照图1所示大数据产业链的大数据处理流程，分析大数据技术研究现状。

4.1 大数据收集

大数据收集是指对组织内部已有数据和组织外部数据等进行收集、整合的过程。这些数据包括组织原有信息系统的数据，以及通过网络爬虫、物联网、社交网络等各种方式收集的结构化、半结构化及非结构化的海量数据。

（1）数据仓库技术。利用ETL（数据抽取、转换和加载）技术对不同数据源中的异构数据抽取到临时中间层进行清洗、转换、集成，然后加载到数据仓库中，作为OLAP（联机分析处理）、数据分析的基础。

（2）网络爬虫技术。网络爬虫和主题爬虫能够自动有效地提取万维网上的相关网页，是大数据收集的核心技术之一。Nutch是一种基于Java开源的完全分布式爬虫，可以在Hadoop的分布式集群上运行，并实现大规模信息收集。

（3）物联网技术。物联网结合硬件和软件两方面来实现对结构化、半结构化、非结构化的海量数据的智能化识别、监控、接入、传输、初步处理和管理等。

4.2 大数据存储

大数据存储是指把不同来源、不同格式及不同类型的数据在逻辑上或物理上有机的集中，并纳入到数据聚合平台中，方便数据的输入和输出。大数据存储技术分为文件系统和数据库系统两部分。

大數据文件系统解决海量且形态各异的数据存储问题，分布式系统的容错问题及大数据中的冗余问题等。目前典型的大数据文件系统有：分布式文件系统GFS（Google File System）和Ceph、以流数据访问模式存储超大文件的HDFS（Hadoop Distributed File System）、基于分布式内存的“低延迟”文件系统Tachyou。

在数据库系统方面，相对于传统关系型数据库技术，大数据的数据库系统更重视分布式数据存储的一致性问题。根据一致性要求的强弱不同，分布式数据存储策略可分为ACID和BASE两类。ACID是指数据库事务具有的4个特性：原子性（atomicity）、一致性（consistency）、隔离性（isolation）、持久性（durability），对一致性要求比较强。BASE则指：基本可用（basically available）、柔性事务/软状态（soft-state，允许暂时不同步）和最终一致性（eventual consistency），对一致性要求较弱。表4列举了常见的分布式数据库系统。

基于BASE的数据库系统主要强调可用性和弱一致性，这种系统无法较好地处理分布式数据存储的一致性问题。为此，Google研发了基于ACID的具有高可扩展性和高可用性的Megastore、Spanner和Mesa系统：Megastore系统基于Bigtable，能够实现类似关系型数据库管理系统的数据模型；Spanner系统弥补了Megastore在吞吐量方面的缺陷，支持细粒度控制副本以及读和写的外部一致性；Mesa系统是一个具备跨地域复制和近实时特性的可伸缩数据仓库，具有PB级数据处理能力和亚秒级响应能力。

4.3 大数据分析

大数据分析是指利用机器学习、数据挖掘、统计学等方法挖掘潜藏在数据中的深度信息，为商务智能、决策支持、信息预测等提供有用信息，实现数据的增值。由于数据来源的多样性、数据结构的复杂性、数据量的快速增长，大数据建模完全超出传统技术能够处理的范围，目前尚未见有效的多源异构数据分析模型。

目前，大数据计算框架主要有：批处理框架、流处理框架、交互式计算框架和图处理框架等。

（1）批处理框架。Google的Map-Reduce编程模型是最具代表性的批处理框架。其核心设计思想是：将问题分而治之，以及通过将计算推导数据而不是数据推导计算，有效避免了因数据传输产生的大量通信开销。Map-Reduce模型简单，且现实中很多问题都可用Map-Reduce模型来表示，在生物信息学、文本挖掘等领域得到广泛的应用。

（2）流处理框架。Twitter的Storm是最具代表性的流处理框架之一，其工作流程是：主控节点接受提交的任务，并负责将该任务分发给工作节点执行；工作节点上运行的后台程序Supervisor调度该任务去执行特定的代码。Storm编程模型简单、容错性高，且可快速可靠地处理消息。除此之外，常见的流处理框架还有Facebook的Scribe和Linkedin的Samza等。

（3）交互式计算框架。Spark是最具代表性的交互式计算框架之一，提出了一个新的数据存储概念RDD，能够在并行计算的各个阶段进行有效的数据共享，极大提高了数据存储和查询效率。

（4）图处理框架。Pregel是Google针对分布式图计算、BSP（Bulk Synchronous Parallel，整体同步并行计算模型）研发的计算框架，其基本思想是以节点（有活跃及不活跃两种状态，初始状态为活跃状态）为中心进行计算，完成计算后每个节点主动进入不活跃状态，如果接收到信息，则激活，没有活跃节点和消息时，整个算法结束。Pregel主要用于BFS图遍历、最短路、PageRank计算等。

在实际的生产环境中，为解决不同问题，常常需要将多种大数据计算框架部署在统一的集群中，共享集群资源，为上层应用提供统一的资源管理和调度，是集群实现更好的资源管理利用和数据共享。典型的统一资源管理与调度平台有YARN和Mesos。

4.4 大数据可视化

数据可视化，是指数据及数据分析结果的视觉表现形式和相应的人机交互技术，是将数据以清晰、简单易懂的图形图像等形式进行展示，以便更直观和高效地洞悉大数据背后的信息和发现其中未知信息的处理过程。相比传统的结构化数据的可视化，大数据可视化更着重于文本等非结构化数据的可视化技术的研发。

文本可视化是指将文本中蕴含的语义特征（如词频、主题、逻辑结构等）直观地展示出来。典型的文本可视化技术是标签云，将关键词根据词频或其他特征按照一定规律进行布局排列，用字体、颜色、大小等图形属性对关键词进行可视化。除此之外，还有DAViewer和DocuBurst等语义结构可视化技术。

网络的图可视化，基于网络节点和连接的拓扑关系，直观展示网络中的潜在模式关系。典型的图可视化技术TreeNetViz，综合了放射图、基于空间填充法的树图等技术，直观展示了图节点之间的关系，但缺乏对大数据环境下的可视化支持，在此基础上，Hurter等人提出基于边捆绑的方法，使得复杂网络可视化效果更为清晰。

此外，大数据背景下，多维数据的数据项分布规律及其属性之间的潜在关系的可视化也是当前的研究热点之一。投影是多维数据可视化的代表性技术之一，将各维度属性集合通过投影函数映射到一个方块形图形标记中，并根据维度之间的关联度对各个小方块进行布局，既反映了维度属性值的分布规律，也直观展示了多维度之间的语义关系。除此之外，还有散点图和平行坐标（parallel coordinates）等技术。

5 我国大数据产业发展建议

依据国内外大数据产业发展现状，从我国信息化水平现状的实际出发，结合我国大数据产业相关的政策与规划，对我国发展大数据产业提出相应对策和建议如下几点。

5.1 适度开放数据资源

数据的开放与整合是大数据开发利用的先决条件。如何突破“不愿、不敢、不会”开放数据的瓶頸，是大数据产业发展的重点和难点。

政府是大规模原始数据的采集者。可以行政中心数据系统为依托，推进公共数据资源的集中与适度开放。在已出台的《政务信息资源共享管理暂行办法》的基础上，进一步细化政府部门以及事业单位等公共机构数据资源清单和格式标准。在政务数据系统的基础上，集合汇聚各部门包括垂直部门及各市的政务数据，建立各级政府和部门间的数据交换共享机制，建设统一的政务数据资源库，设立面向社会的政府数据服务网，进一步推进政务公开工作。

此外，还应建设企事业单位的大数据库，推进行业内数据资源的共享和分析。可以借鉴“广东省企业情况综合数据平台”的做法，分块和集中管理相结合，综合政府部门、社会、互联网等不同渠道数据，建设政府统一的经济管理大数据库，通过ETL技术重点集成企业的几个关键维度数据，完善政府企业综合数据收集工作，掌握和分析企业生产经营情况，绘制经济地图，发布产业数据，适度促进数据的开放、分析与再利用。

5.2 引培大数据人才

大数据建设的各个环节都依赖专业人员完成，但我国大数据人才缺口很大。为此，应充分发挥高等院校的科研力量和师资优势，增设大数据相关专业和体系，同时加大科研投入。培养我国本土信息化高素质复合人才，重点加快加强信息管理、统计学领域硕士生和博士生等高端人才的培养。加大在职信息领域工程硕士的招生力度，力求培养高层次大数据管理和技术人才。另一方面，扩大人才基数，对各行业在岗在职的社会人员进行大数据继续教育和培训，使其认清大数据的价值，提升大数据素养，明晰大数据需求与应用理念。

此外，还可制定对口优惠的人才引进政策，在已有“千人计划”上更有针对性地从国外引进建设与发展大数据所需的各类高层次人才。各地政府还可以借鉴北京市建立的“首都信息化人才培养基地”对精英人才进行培训，通过加强类似同类型基地的建设，筑巢引凤以吸引海内外人才和项目，并能够对他们进行系统性的本土化培育，了解我国整体背景，让人才更有方向性地投入我国发展大数据的实践中。

5.3 攻关大数据技术

由于国内外对大数据技术的研发方兴未艾，发展大数据产业将面临各方面的大数据技术挑战：（1）大数据收集技术，数字化不够及数据质量问题将影响大数据的整合与开发和数据分析结果的准确性。（2）大数据存储技术，传统的关系型数据库已无法满足大数据存储和快速检索的需要。（3）大数据分析技术，如何高效实时地对大量多源异构数据进行全局分析，发挥数据整合的力量，是大数据的关键难题之一。（4）大数据可视化技术。大数据分析的结果需要以简洁、直观易懂的形式展示、解释给用户。

数据安全是大数据产业健康发展的重要保障，面临的主要挑战有：（1）用户隐私保护技术，大数据未被妥善处理，会对用户的隐私造成极大损害，甚至危害国家安全。（2）数据可信验证技术，大数据分析的基础是可信的数据，但数据在传播中会逐步失真，甚至出现伪造的数据。（3）访问控制技术，大数据通常应用与多个场景，需要对不同用户设置不同的访问权限。

6 结论

目前我国大数据产业尚处于起步阶段，整体发展要基于现实的信息化发展水平和国情。发展大数据产业，既需要较高的信息化水平和良好的信息产业发展环境为基础，也要有先进的管理理念和应用实践来牵头。一方面需要转变管理理念，另一方面需要解决关键技术问题。从管理理念上，要重视数据资产，决策过程“用数据说话”。在技术上，要研发有效低价的大数据的收集、存储、分析和可视化等关键环节技术。

参考文献

[1]Wikipedia. Big data[EB/OL]. https：//en.wikipedia.org/wiki/Big_data.

[2]James M， Michael C， Brad B， et al. Big Data： The Next Frontier for Innovation， Competition， and Productivity [R]. McKinsey Global Institute， 2011： 8-10.

[3]Jeffrey M. U.S. Science Policy： Agencies Rally to Tackle Big Data [J]. Science， 2012， 336（6077）： 22.

[4]Alexandros L， Jagadish H. V. Challenges and Opportunities with Big Data [C]. In： Proc. VLDB Endowment， 2012， 5（12）： 2032-2033.

[5]國务院. 促进大数据发展纲要[EB/OL]. [2015-09-05]. http：//www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[6]福建省人民政府发展研究中心课题组李强，陈明旺，刘立菁. 推进福建大数据发展的对策思考[J]. 发展研究， 2015，（12）： 8-15.

[7]迪莉娅. 我国大数据产业发展研究[J]. 科技进步与对策， 2014，（4）： 56-60.

[8]李文莲，夏健明. 基于“大数据”的商业模式创新[J]. 中国工业经济， 2013，（5）：83-95.

[9]贵阳大数据交易所. 2016年中国大数据交易产业白皮书[R]. 2016，05（25）.

[10]陈桂龙. 我国大数据发展状况[J]. 中国建设信息化， 2015，（Z1）：34-35.

[11]中国信通院. 2017年中国大数据发展调查报告. 2017，03（28）.

[12]中国电子信息产业发展研究院. 2015年中国信息化发展水平评估报告[EB/OL]. [2016-06-14]. http：//www.miit.gov.cn/n1146290/n1146402/n1146445/c4838381/part/4838390.pdf.

[13]孙丽娟. 大数据产业链及变现[J]. 通信企业管理， 2016，（6）：38-41.

[14]毛国君，胡殿军，谢松燕. 基于分布式数据流的大数据分类模型和算法[J]. 计算机学报， 2017，（1）：161-175.

[15]孟小峰，慈祥. 大数据管理：概念、技术与挑战[J]. 计算机研究与发展， 2013， 50（1）： 146-169.

[16]Dittrich J， Quiané-Ruiz J A. Efficient big data processing in Hadoop MapReduce[J]. Proceedings of the VLDB Endowment， 2012， 5（12）： 2014-2015.

[17]徐俊刚，裴莹. 数据ETL研究综述[J]. 计算机科学， 2011， 38（4）：15-20.

[18]胡萍瑞，李石君. 基于URL模式集的主题爬虫[J]. 计算机应用研究，2018，（03）：1-2.

[19]Yu G， Xie X， Liu Z. The design and realization of open-source search engine based on Nutch[C]//Anti-Counterfeiting Security and Identification in Communication （ASID）， 2010 International Conference on. IEEE， 2010： 176-180.

[20]钱志鸿，王义君. 物联网技术与应用研究[J]. 电子学报， 2012， 40（5）：1023-1029.

[21]Ghemawat S， Gobioff H， Leung S T. The Google file system[C]// Nineteenth ACM Symposium on Operating Systems Principles. ACM， 2003：29-43.

[22]Weil S A， Brandt S A， Miller E L， et al. Ceph： A scalable， high-performance distributed file system[C]//Proceedings of the 7th symposium on Operating systems design and implementation. USENIX Association， 2006： 307-320.

[23]Shvachko K， Kuang H， Radia S， et al. The hadoop distributed file system[C]//Mass storage systems and technologies （MSST）， 2010 IEEE 26th symposium on. IEEE， 2010： 1-10.

[24]Li H， Ghodsi A， Zaharia M， et al. Tachyon： Reliable， memory speed storage for cluster computing frameworks[C]//Proceedings of the ACM Symposium on Cloud Computing. ACM， 2014： 1-15.

[25]陳军成，丁治明，高需. 大数据热点技术综述[J]. 北京工业大学学报， 2017，（03）：358-367.

[26]DeCandia G， Hastorun D， Jampani M， et al. Dynamo： amazon's highly available key-value store[J]. ACM SIGOPS operating systems review， 2007， 41（6）： 205-220.

[27]Lakshman A， Malik P. Cassandra： a decentralized structured storage system[J]. ACM SIGOPS Operating Systems Review， 2010， 44（2）： 35-40.

[28]Chang F， Dean J， Ghemawat S， et al. Bigtable： A distributed storage system for structured data[J]. ACM Transactions on Computer Systems （TOCS）， 2008， 26（2）： 1-26.

[29]RIOS G， JUDD D. Load balancing for hypertable[C]//Proceedings of the 8th AAAI Conference on AI for Data Center Management and Cloud Computing （ AAAIWS'11-08）. San Francisco： AAAI Press， 2011： 24-26.

[30]Chodorow K. MongoDB： the definitive guide[M]. Cambridge： O'Reilly Media， Inc.， 2010：1-193.

[31]Anderson J C， Lehnardt J， Slater N. CouchDB： The Definitive Guide. Time to relax[M]. Cambridge： O'Reilly Media， Inc.， 2010：1-245.

[32]Webber J. A programmatic introduction to neo4j[C]//the 3rd annual conference on Systems， programming， and applications： software for humanity. ACM， 2012： 217-218.

[33]Roggen D， Lombriser C， Rossi M， et al. Titan： an enabling framework for activity-aware" pervasive apps" in opportunistic personal area networks[J]. EURASIP Journal on Wireless Communications and Networking， 2011，（1）： 1-22.

[34]Baker J， Bond C， Corbett J C， et al. Megastore： Providing scalable， highly available storage for interactive services[C]//CIDR. 2011， 11： 223-234.

[35]Corbett J C， Dean J， Epstein M， et al. Spanner： Google's globally distributed database[J]. ACM Transactions on Computer Systems （TOCS）， 2013， 31（3）： 8.

[36]Gupta A， Yang F， Govig J， et al. Mesa： Geo-replicated， near real-time， scalable data warehousing[J]. Proceedings of the VLDB Endowment， 2014， 7（12）： 1259-1270.

[37]Xindong Wu， Xingquan Zhu， Gong-Qing Wu， et al. Data Mining with Big Data [J]. IEEE Transactions on Knowledge and Data Engineering （TKDE）， 2014， 26（1）： 97-107.

[38]Dean J， Ghemawat S. MapReduce： simplified data processing on large clusters[J]. Communications of the ACM， 2008， 51（1）： 107-113.

[39]Christensen R， Wang L， Li F， et al. STORM： Spatio-temporal online reasoning and management of large spatio-temporal data[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. ACM， 2015： 1111-1116.

[40]Scribe[EB/OL]. Scribe. https：//www.scribesoft.com/.

[41]Goodhope K， Koshy J， Kreps J， et al. Building LinkedIn's Real-time Activity Data Pipeline[J]. IEEE Data Eng. Bull.， 2012， 35（2）： 33-45.

[42]Zaharia M， Chowdhury M， Franklin M J， et al. Spark： cluster computing with working sets[C]// Usenix Conference on Hot Topics in Cloud Computing. USENIX Association， 2010：1765-1773.

[43]Malewicz G， Austern M H， Bik A J C， et al. Pregel： a system for large-scale graph processing[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data. ACM， 2010： 135-146.

[44]Vavilapalli V K， Murthy A C， Douglas C， et al. Apache hadoop yarn： Yet another resource negotiator[C]//the 4th annual Symposium on Cloud Computing. ACM， 2013： 5.

[45]Hindman B， Konwinski A， Zaharia M， et al. Mesos： A Platform for Fine-Grained Resource Sharing in the Data Center[C]// Proceedings of the 8th USENIX Symposium on Networked Systems Design and Implementation. 2011， 11（2011）： 22-22.

[46]任磊，杜一，馬帅，等. 大数据可视分析综述[J]. 软件学报， 2014，（9）：1909-1936.

[47]Wu Y， Provan T， Wei F， et al. Semantic‐preserving word clouds by seam carving[C]//Computer Graphics Forum. Blackwell Publishing Ltd， 2011， 30（3）： 741-750.

[48]Zhao J， Chevalier F， Collins C， et al. Facilitating discourse analysis with interactive visualization[J]. IEEE Transactions on Visualization and Computer Graphics， 2012， 18（12）： 2639-2648.

[49]Collins C， Carpendale S， Penn G. Docuburst： Visualizing document content using language structure[C]//Computer graphics forum. Blackwell Publishing Ltd， 2009， 28（3）： 1039-1046.

[50]Gou L， Zhang X L. Treenetviz： Revealing patterns of networks over tree structures[J]. IEEE Transactions on Visualization and Computer Graphics， 2011， 17（12）：2449-2458.

[51]Hurter C， Ersoy O， Telea A. Graph bundling by kernel density estimation[C]//Computer Graphics Forum. Blackwell Publishing Ltd， 2012， 31（3pt1）： 865-874.

[52]Lee J H， McDonnell K T， Zelenyuk A， et al. A structure-based distance metric for high-dimensional space exploration with multidimensional scaling[J]. IEEE transactions on visualization and computer graphics， 2014， 20（3）： 351-364.

[53]Elmqvist N， Dragicevic P， Fekete J D. Rolling the dice： Multidimensional visual exploration using scatterplot matrix navigation[J]. IEEE transactions on Visualization and Computer Graphics， 2008， 14（6）： 1539-1148.

[54]Geng Z， Peng Z M， Laramee R S， et al. Angular histograms： Frequency-based visualizations for large， high dimensional data[J]. IEEE Transactions on Visualization and Computer Graphics， 2011， 17（12）： 2572-2580.

[55]国务院. 政务信息资源共享管理暂行办法[EB/OL]. [2016-09-05]. http：//www.gov.cn/zhengce/content/2016-09/19/content_5109486.htm.

[56]数联寻英. 大数据人才报告[EB/OL].[2016-07-15]. http：//www.shulianxunying.com/.