AWS 的“数据湖”观

2020-12-29 18:53赵志远
网络安全和信息化 2020年5期
关键词:数据仓库数据库价值

■本刊记者 赵志远

随着大数据时代的到来,越来越多的人意识到,世界上最有价值的资产就是数据,企业也纷纷踏入数字化转型的浪潮中。

但众所周知,大数据具有数据类型繁多、数据价值密度相对较低、处理速度快、时效性要求高等特点,想要吃到这一美味的“蛋糕”可不是那么容易的事,充分利用好数据的价值才是关键所在。

AWS 首席云计算企业战略顾问张侠认为,数字化转型包含很多方面的内容,其中很重要的一个内容就是把企业的数据化资产使用好。

把数据用“活”

IDC 统计显示,全球近90%的数据将在这几年内产生,预计到2025 年,全球数据量将比2016 年的16.1ZB 增加10 倍,达到163ZB。数据的海量与多元化决定了从数据中获取有用的价值变得越来越困难,如果无法从数据中获得益处,那么数据价值就无从谈起。

传统方法上,数据从产生到分析处理及使用总要经历这样的过程:数据通过一些底层交易型的数据库,经过整理后形成中间层的数据仓库,再到上层的商务智能BI。如果这些多元的数据无法被其它应用所使用,那么将不可避免地会形成数据孤岛。

张侠表示:“用户期盼从数据中获取价值。”而传统数据分析方式无法快速地将这些多元数据展示出来,从中获取价值也就难以实现了。

数据湖彰显数据价值

虽然说数据湖的概念出现已有将近10 年了,近年来又不断被提起,足见其价值所在。数据湖可以看作是一个中心数据存储的容器,将各类设备及应用所产生的原始数据进行存储,成为数据“仓库”,进而可以进行查询或分析等操作。与传统所称的数据仓库不同,数据湖中存储的是原始的数据,可以是结构化的或是非结构化的,借助云计算可以快速的缩放存储海量数据,还可以实现进一步的查询、分析及处理能力,通过应用机器学习与人工智能技术实现商业智能,预测分析等。张侠表示,数据湖在实现高可用、高持久、EB 级数据的同时,还可满足安全、合规、审计等要求。

当然,不同的服务商对数据湖有不同的理解,AWS 对数据湖也有着自己的理解和应用。2006 年发布的Amazon S3是全球第一款公有云服务,在Amazon S3 中可以存储包含结构化和非结构化的数据,以及进一步的各种预测分析等。

数据湖平台在实现数据仓库、大数据处理、交互查询、实时分析、预测分析等能力时,需要有不同的产品服务用以支撑。例如,Amazon RDS服务是一个云托管的关系型数据库,支持6 种常用数据库引擎的关系型数据库服务;Amazon Aurora 云原生的关系型数据库可自动执行各种耗时的管理任务等。

AWS 新增数据湖平台服务功能,为中国用户赋能

近期,AWS 宣布AWS Glue与Amazon Athena 在由西云数据运营的AWS 中国(宁夏)区域正式上线。其中,Amazon Athena 是一种交互式查询服务,它让客户可以使用标准SQL 语言、轻松分析Amazon S3 中的数据。AWS Glue 是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录,让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。

这两个服务都是AWS 数据湖平台非常重要的组成部分。Amazon Athena 可 以 让用户方便地对Amazon S3 数据湖中的数据执行查询,由于Athena 是一种无服务器服务,用户不用关心配置和管理服务器、集群等情况。

茄子快传是一家全球化的互联网科技公司,通过搭建一个数字内容连接入口,帮助全球200 多个国家和地区的用户获取优质数字内容。茄子快传此前面临数据量大、分析维度多、业务复杂等挑战,所以经常需要多维度多颗粒度的高并发分析。茄子快传数据运营负责人何诚表示:“茄子快传通过使用Amazon Athena,使其运行新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”

AWS Glue 让Amazon S3数据湖中的数据集可以被发现,可用于查询和分析。一般来说,客户在使用数据湖架构实现数据分析解决方案时,通常有75%的时间花在数据集成任务上,而AWS Glue 消除了ETL 作业基础设施方面的重复劳动,极大地缩短分析项目中做ETL 和数据编目阶段的时间,让ETL 变得很容易。

助力用户构建安全的数据湖

虽说数据湖对于实现数据价值是个行之有效的方法,但要构建真正安全高效的数据湖并非易事。传统构建数据湖首先需要设置存储,然后将数据移动及加载到不同位置,清理、准备数据及编写数据目录,配置并实施安全性与合规策略,最后使用相关工具提取数据并用于分析。

如今新技术的发展也使数据湖迸发出新的活力。张侠表示,AWS 已有多种新服务帮助用户更快、更好地完成数据湖的构建。一类是无服务器分析,无需用户手动管理即可实现数据湖的分析,以上提到的AWS Glue 就是典型的无服务器托管及分析服务,为用户提供按需数据湖分析。

另一类是借助机器学习和人工智能服务实现对数据的预测性洞察,尤其是与Amazon SageMaker 服务相结合,可实现更多自动化的预测性分析。

值得指出的是,AWS 有着多种服务确保数据湖安全,以满足对安全、合规、审计等的要求。张侠表示,Amazon S3 可 以 达 到“11 个9”的数据持久性,采取三个可用区,来保障用户的数据安全,AWS Identity and Access Management(IAM) 可实现用户身份和接入管理等,以满足对用户以及当地相关法律法规的要求。

张侠表示,数据湖是数据分析智能商务的新趋势,AWS提供的数据湖与分析服务可帮助企业用户企业从数据中获得洞察力。

猜你喜欢
数据仓库数据库价值
基于数据仓库的数据倾斜解决方案研究
数据库
一粒米的价值
探析电力系统调度中数据仓库技术的应用
“给”的价值
数据仓库系统设计与实现
数据库
数据库
数据库
数据复用在存储数据仓库中的运用