云端数据治理初探

2017-03-21 21:11李尧程广明
科技创新导报 2017年1期
关键词:数据治理治理体系云计算

李尧++程广明

摘 要:该文论述了数据治理研究进展,分析了云计算环境下的数据特点,针对性地提出了云端数据治理体系概念。云端数据治理体系利用PDCA质量循环控制方法,并借鉴了项目管理、数据治理、IT治理等领域的实施方法论,为有需要的组织在优化数据治理战略、建立更加完善的数据治理流程、强化数据治理保障等过程提供参考。

关键词:数据治理 云端数据治理 治理体系 云计算

中图分类号:TP274 文献标识码:A 文章编号:1674-098X(2017)01(a)-0096-02

云计算作为“云、物、移、大、智”的最基础支撑,为数据爆发式增长与数据快速流动提供了关键基础设施。云计算的优势在于能够支撑起越来越大规模的海量数据的存储、处理、分享与协作。但随着数据规模不断增长,以及非结构化数据所占比重的提高,数据的价值密度越来越低。如何在保证数据安全的同时发挥数据所蕴含的价值,是所有将数据视为资产的机构必须思考的问题。数据治理是发挥数据价值、保护数据安全的有效措施,但随着云计算对数据所处环境变化起到的主导作用,研究云计算环境下的数据治理十分有必要。

1 数据治理主要研究进展

在数据治理研究领域,国际数据管理协会(DAMA)、数据治理研究所(DGI)、IBM、CMMI研究所等组织提出了多种数据治理框架或数据治理模型。

DAMA认为数据管理是规划、控制和提供数据及信息资产的一种业务职能,包括开发、执行和监督有关数据的计划、政策、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值[1]。该定义突出了数据管理的职能、过程和规范3个关键词。在职能上认为数据管理是业务数据管理专员和技术数据管理专员共同承担的责任;在过程上,认为数据管理是数据资产管理的权威性和控制性活动,是在数据管理和使用层面之上进行规划、监管和控制;在规范上,认为数据管理必须遵守相关的规则和规范,才能确保数据管理过程能够顺利进行。

DGI认为数据治理应建立独立的数据治理理论体系,从组织、规则、过程3个层面提出了数据治理框架。组织即制定和执行数据治理规则和规范的组织结构,包含数据利益相关者、数据治理委员会和数据管理者;规则即建立、协调和规范数据治理工作的规则,以及指导不同部门共同制定和执行规则的协同工作规范,包含使命和愿景、目标、治理成效的度量标准、财务策略、数据规则和定义、决策权、职责分工、控制6个组件;过程即数据治理应遵循的工作步骤和流程,包括主动、被动和正在进行的数据治理过程。

IBM认为数据治理是根据企业的数据管控政策,利用组织人员、流程和技术的相互协作,使企业能将数据作为企业的核心资产来管理和应用的一门学科。IBM定义了11个要素来开展数据治理,11个要素分为支撑域、核心域、促成因素和成果。其中支撑域包括数据架构、分类与元数据、审计/日志与报告;核心域包括数据质量管理、数据生命周期管理、信息安全与隐私;促成因素包括组织结构与意识、人员、策略;成果包括数据风险管理与合规、价值。

CMMI研究所提出了以成熟度概念评价数据治理能力,形成了数据管理成熟度模型(DMM)。DMM模型由20个数据管理过程域和5个以CMMI过程域为基础的支持过程域构成,其中这20个过程域分别属于数据战略、数据治理、数据质量、数据操作和平台与架构5大职能域。针对每个过程域,DMM均以执行级、管理级、定义级、度量级和优化级5个等级衡量过程域治理能力成熟度。

除此之外,Gartner、普华永道等公司也提出了各自的数据治理模型。虽然这些数据治理模型在传统数据治理阶段发挥了很大的作用,但面对云计算环境下的数据特点,这些数据治理模型存在一定的不适应性或者难以满足云端数据治理需求。

2 云计算环境下数据的特点

2.1 云计算环境下数据的体量更大、种类更复杂

IDC报告显示,预计到2020年全球数据总量将超过40 ZB,这一数据量是2011年的22倍。中国在2013年产生的数据总量超过0.8 ZB,是2012年的两倍,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5 ZB。

2.2 云计算环境下数据远程存储和远程传输更普遍

根据Gartner统计,2012年全球共有329 EB个人数据,只有不到7%的个人数据存储在云端。随着消费者使用智能手机和平板电脑产生的数据越来越多,消费者将开始选择本地存储之外的存储方式。2016年全球个人数据急剧膨胀到4.1 ZB,其中约有36%的个人数据被转移到云端。数据在云端的存储必然对数据远程传输提出更多的要求,例如数据传输的安全、速率、完整性等。因此,在数据本地化存储空间不足和成本高昂的背景下,数据存储在云端或异地数据中心将越来越多。

2.3 云计算环境下数据的安全威胁更多、合规要求更复杂

美国IDG公司2013年对1 300多位企业高管进行调研,66%的企业高管认为安全问题是云计算的关键因素。近年来,云服务上的数据安全事件频发。2013年,斯诺登“棱镜门”事件曝光了美国国家安全局的秘密监听计划,获取用户数据。2012年8月,苹果公司的iCloud云服务受到黑客攻击,黑客删除了部分用户资料,而云平台并未备份用户数据,导致用户数据的丢失。为了保护数据,各国纷纷制定了很多数据使用和保护法律法规,这对开展以数据为基础的业务合规性提出了更复杂的要求。

3 云端数据治理体系

总体来看,有效推动云端数据治理,亟待解决的不是技术问题,更多的是各种管理问题。云端数据治理是以云端数据为主要治理对象,通过制定云端数据战略、数据管理、数据优化、数据安全与隐私保护等相关策略,指导组织规划、构建、评估和优化数据治理体系。

云端数据治理体系利用PDCA质量循环控制方法,并借鉴了项目管理、数据治理、IT治理等领域的实施方法论,如图1所示。其中P是统筹和规划,指根据云端数据治理的项目目标,对照业务需求,确定云端数据治理实施的范围和战略,规划实现目标确定必要的过程;D是构建和运行,指在受控条件下,运行云端数据治理的过程;C是监督和评估,指对云端数据治理体系进行评估与诊断、监视与测量、审核、考核,并报告结果;A是改进和优化,是指采取措施,包括审计、绩效考核、纠正措施和预防措施等,以持续改进过程绩效。

为使组织的云端数据治理体系有效运行,需确定和管理众多相互关联的活动。通过使用资源和实施管理,将输入转化为输出的一项或一组活动,可以视为一个过程。

输入端,应根据组织的业务战略和目标,制定云端数据治理体系的战略和目标。根据业务需求,识别组织的数据需求和数据问题,同时需要考虑监管的合规性和一致性。有效的云端数据治理体系一定是与组织的业务价值紧密相连。组织使用IT技术配合和支撑各种业务,目的都是为了达成业务目标和实现业务战略。

输出端,数据策略是云端数据治理的基本规则,这些策略贯穿云端数据治理体系的所有过程,描述了什么可以做,什么不该做。数据规程是云端数据治理的程序,是完成某项活动的详细步骤。云端数据治理体系是识别、管理和解决云端数据问题的有效途径,最终目标之一是为了管理并解决云端数据问题。在体系的运行过程中,云端数据治理专业人员应不断沟通、培训和推广数据的重要性,提高利益相关者对云端数据治理体系的认可。

云端数据治理的内容包括战略、数据管理、数据質量、数据操作、数据架构、安全与隐私5大职能域,在治理体系中,需要不断优化这5大职能域,实现云端数据的科学治理。

4 结语

云端数据治理是一项复杂的持续改进的过程,而不是一个一蹴而就的工程,需要不断评估现状,并及时改进。云端数据治理从治理战略、组织架构、数据质量、数据操作、管理平台等多个方面着手,通过策划、构建、评估和改进,建立一个完善的治理管理体系,为组织海量的云端数据治理工作提供清晰的路线规划,促进各部门人员共同参与决策。

参考文献

[1] DAMA International.DAMA数据知识管理知识体系指南[M].马欢,刘晨,译.北京:清华大学出版社,2012.

[2] 程广明.大数据治理模型与治理成熟度评估研究[J].科技与创新,2016(9):6-7.

[3] CMM IInstitute.Data Management Maturity(DMM)[Z].2014.

猜你喜欢
数据治理治理体系云计算
新加坡法治反腐的实践经验及启示
高职院校学生管理问题现状研究及对策初探
实验云:理论教学与实验教学深度融合的助推器
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理