八问AWS大数据

2017-02-27 00:20容永康

软件和集成电路 2016年12期

容永康

1.亚马逊AWS是全球云计算领导者，能否介绍一下大数据和云计算的关系？

大数据和云计算是一对孪生兄弟，如影随行。数字化转型将产生大量新的数据源，这些数据源将持续产生史无前例的海量数据，如果企业当前的数据架构存在大量的数据孤岛，数据流错综复杂，那么这些新型的数据源将创造新的数据孤岛。如果企业缺乏一个能随需应变的基础设施架构的话，这些海量数据将很快成为“历史”数据，而得不到任何处理和分析。大数据依赖于云计算提供的弹性、灵活的计算平台，高效、低成本地为各个业务板块提供数据分析所需的所有数据。而大数据又进一步为企业深入理解客户和市场提供了可能，为数字化运营，数字化供应链等数字化转型举措提供了精细化管理的手段。

2.大数据能给企业带来什么好处？

尽管关于大数据的宣传无处不在，许多组织仍然没有意识到他们正面临大数据问题，或者根本没有从大数据的角度思考自己面临的问题。一般而言，如果组织现有的数据库和应用程序已无法再扩展以应对数据量、数据多样性和数据速度方面需求的激增，那么该组织很可能会通过采用大数据技术而获益。

若未能正确解决大数据难题，则会导致成本不断上升，工作效率和竞争力不断下降。而合理的大数据策略则能够迁移现有的繁重工作负载，交由大数据技术处理，并部署新应用程序以利用新的商机，从而帮助组织降低成本并提高运营效率。

3.大数据的工作原理是什么？

大数据技术提供了可满足整个数据管理周期所需的新工具，因此具有技术上和经济上的可行性，不仅能够收集并存储更大的数据集，还能对其进行分析，以发掘有价值的新见解。在大多数情况下，大数据处理包含一种常见的数据流—从收集原始数据到使用可付诸行动的信息。

收集。收集原始數据（事务、日志、移动设备等）是众多组织在应对大数据时所面临的第一个难题。优秀的大数据平台可使这一步事半功倍，让开发人员能够以任意速度（从实时处理到批处理）摄取多种数据（从结构化数据到非结构化数据）。

存储。任何大数据平台都需要一个安全、可控且持久耐用的存储库，用于在处理任务之前（甚至之后）存储数据。根据具体需求，可能还需要临时存储传输过程中的数据。

处理和分析。在这一步中，数据将从其原始状态转换为可使用的格式，实现的方法通常是排序、聚合、合并，甚至是执行更高级的函数和算法。随后，将存储转换后产生的数据集以供进一步处理，或者通过商业智能和数据可视化工具向用户提供这些数据集。

使用和可视化。大数据解决方案的意义就在于从你的数据集中获取高价值、可付诸行动的见解。理想情况下，你可通过自助式商业智能工具和灵活的数据可视化工具向相关人员提供数据，他们可利用这些工具轻松、快速地浏览这些数据集。根据分析的类型，最终用户还可能以统计“预测”（预测分析）或建议行动（规范分析）的形式使用分析结果数据。

4.分析和处理大数据是否需要花大价钱？什么样的企业才能负担得起？

借助AWS，用户无需购买硬件，也无需维护和扩展基础架构，因此可以将用户的资源集中用于发掘数据的价值。随着AWS不断添加新的功能，用户将始终能够利用最新技术，且不必做出任何长期投资承诺。

AWS提供了广泛的数据存储、计算以及分析的资源，不仅可让用户在AWS平台上轻松实现快速部署以及弹性扩展的功能，而且还能使成本降低。AWS大数据存储低至$28.16/TB，数据归档低至$0.007/GB/月，实施数据流加载低至$0.35/GB，托管的Hadoop，Spark，Presto集群，只需要$0.15/小时，数据仓库以及商业智能更是低至传统企业软件解决方案的1/10。

5.谈到大数据，有一个有趣的概念叫“数据湖”，它的具体含义是什么？

“数据湖”这个概念是由一家名为Pentaho公司的CTO詹姆斯·迪克森于2010年在其博客中首次提出。在那篇开创性的文章中，迪克森是这样描绘这个概念的，“如果你认为一个数据集市（Data Mart）可以看作是桶装水店—提供了清洗，包装和组织等服务以方便用户消费；数据湖就是一个拥有更自然状态的大的水体。来自源头的内容流补充到湖中，各类用户可以来湖中检测、探索以及获取样本”。

简单来说，“数据湖”不仅仅是数据存储和处理的单元，也是释放数据价值的过程。迪克森认为，数据集市（Data Mart）存在固有的问题，而“数据湖”则是面向企业的最佳的大数据解决方案。普华永道（PWC）在这之后的研究结论也进一步证实了“数据湖”有可能解决“数据孤岛”，这一企业信息化难题。

6.“数据湖”实现的难点是什么，AWS对此有什么解决方案？

“数据湖”的实现难点在于，数据的生产者不是数据的使用者，如何管理和治理这些数据，是很多企业所面临的挑战。

过去十几年中，大量的业务应用独立开发部署，缺少统一的数据标准和数据治理规范，形成了烟囱状的应用架构，因而在数据集成时面临各种挑战，包括：数据标准不一致，数据质量差，缺少元数据管理，主数据管理等一系列问题。当外部数据、日志数据、设备数据等进一步加入到数据的洪流中时，企业发现自己深陷数据沼泽，而业务分析人员既不了解哪些数据可用，也不认可数据的质量，更不相信数据结果的可用性。

大数据技术和方案要解决的首要问题，是明确自己有哪些数据，这些数据可以提供哪些服务。因而数据沼泽可以变成清澈的数据湖，这里所有的数据融汇贯通，各业务板块之间数据可共享，业务人员能从数据字典中方便地找到自己想要的数据，得到所需的结果。

为此，AWS的“数据湖”解决方案咨询服务将帮助企业客户梳理希望共享的数据源，分析数据的种类和当前存储的形式，通过什么工具进行加工、加工的逻辑是什么、业务用户希望如何利用这些数据等，提出新一代的“数据湖”方案架构，试点2～3个数据源的融合过程，找到恰当的技术和服务采集和处理这些数据，并通过可视化的方法将数据提供给业务用户。

7.AWS为大数据带来了哪些服务？

1）针对企业大数据之旅的各个阶段，AWS推出了有针对性的咨询服务内容，希望帮助用户解决从战略到战术的不同挑战。很多企业用户在过去二十年的信息化进程中逐渐形成了技术多样化，应用驱动的技术体系架构，在向数据驱动的架构和文化转变的过程中，面临各种意想不到的困难。很多企业迫切希望拥抱大数据，但并不明确业务目标是什么。为此AWS大数据咨询服务团队针对各个企业运用大数据的不同阶段，提供不同的咨询服务。

2）在企业的业务目标明确，希望用大数据解决的业务挑战也明确后，AWS提供全面且功能强大的大数据解决方案，服务涉及数据存储，数据仓库，分布式计算，机器学习以及商业智能等各个方面。

例如Amazon DynamoDB是一种完全托管的NoSQL数据库服务，提供快速且可预测的性能，能够实现无缝扩展。而Amazon EMR是一种分析服务，它能即时灵活配置自身所需容量大小，执行数据密集型应用计算，完成诸如Web索引、数据挖掘、日志文件分析、机器学习、财务分析、科学模拟和生物信息研究等任务，让企业、研究人员、数据分析师和开发人员能够轻松、经济高效地处理海量数据。

8.AWS在帮助企业拥抱大数据的过程中有哪些经验可以和大家分享？

三年来，AWS技术支持一直在大数据业务上为国内用户提供了从业务分析、架构设计到平台搭建、性能调优和故障诊断等全方位的咨询和帮助。同时我们基于用户案例的分析和总结，也发现如下非常明显的趋势：

2013-2014年，用户问题主要集中在以Java、Python等开发语言为主的Hadoop应用实践和参数调优方向。

2014-2015年，主要问题向交互式应用Hive、Impala、Presto，工作流管理Oozie，以及HBase等各种Hadoop生态系统中的组件上转移，用户更加专注在实际业务上。

2015-2016年，Spark以其同时支持批处理、交互式、迭代以及实时流处理等特性成为用户案例和咨询中热门的关键词，而将Spark应用在实时流处理上的案例又是其中最多的。

另一个明显的趋势是，随着客户对AWS大数据服务的熟悉，问题也越来越深入和复杂，通过技术支持不仅可以很快地避开其他AWS用戶已经碰到的问题、还可以了解到目前最流行的架构之一，快速地搭建比肩Netflix、NASDAQ等著名公司的大数据平台。