从数据基因看企业数据结构变化

2016-04-20 18:29VERITAS
软件和集成电路 2016年4期
关键词:存储空间陈旧环境

VERITAS

数据基因项目是Veritas 自主发起的一项计划,旨在改变人们对数据管理的看法。Veritas发起该计划,希望为志同道合的数据科学家、行业专家和思想领导者创建一个共同的讨论平台,从而深入了解企业日常创建、存储和管理的非结构化数据的真正本质。作为基于实际存储环境组成的基准测评报告,首份《数据基因指数》报告便是此项计划的首个研究成果。

当前,Veritas研究的重点对象是元数据的特征。通过Veritas的文件分析产品,我们可以利用从各个客户汇集的元数据,准确呈现企业实际数据环境结构的各个细节。

首份 Veritas 数据基因指数报告

为了进一步了解客户数据环境的真正结构,Veritas在2015年分析了来自众多客户非结构化数据环境的数百亿份文件及其属性。本次分析涵盖了8千多种最常见的文件类型扩展名。因此,报告中的数据基本能够代表客户文件系统环境的数据构成。

数据呈爆炸式增长

从文件级别来看,在过去7年中,数据的实际增长速度为每年平均增长39.2481189%, 而相应的存储空间需求增长比创建单个文件增长快9%。因此,尽管操作层面上的改变可以一定程度地控制某些方面的增长,但根本依然是存储管理问题。

控制存储空间并不仅仅是存储问题。现在,存储环境杂乱无章,平均1PB的信息包含了 23.12亿个文件。

增速最快文件类型:图像和开发者文件

企业数据总量表明,数量最多的文件类型和最占空间的文件类型具有明显差异。具体情况可参见图—存储环境与环境成本对照表。

10年前 VS 现今:企业数据的变化

随着时间的推移,数据结构已经发生了巨大变化。过去十年间,相较其他文件类型, 变化最大的文件类型为:演示文稿文件、CAD文件、游戏文件等。

不同季节,企业的数据增长情况也不同

秋季是文件创建的旺季。文本文件的增长率尤为突出,高达91%;其次是地理和信息系统文件,增长率为89%;电子表格的增长率为 48%。

只有备份和文档文件会在秋、冬季激增。在企业完成年度备份后,备份文件将激增756%。但图像文件的创建量明显减少,降幅达63%。此外,68%的视频都创建于夏、秋两季,电子邮件(pst)的情况可预测性高,各季节间只有0.7%的标准偏差。

为何企业还在保留这些数据?

信息是当今企业的关键所在,但由于信息的创建速度过快,企业中有价值的信息转瞬即逝。

治理:数量过多的文件类型

面对海量的陈旧数据,以及在可以执行多个可行处理决策时,为信息管理“决策预算” 的重点划分优先级,无疑能够帮助企业选择文件管理的入手点。

陈旧数据和总数据中数量最多的文件类型中,传统“office”文件是企业巨大的负担。如果企业希望最大限度地节约存储空间成本,但又无法确定优先处理哪些文件类型。那么企业可以重点对以下五大类型文件进行处理,每一类型都能够帮助企业找回GB级的存储空间。

1. 虚拟机文件

2. 安全文件

3. 游戏文件

4. 科技文件

5. 地理位置信息系统文件

文件数量和空间比例失衡

如果企业希望优先处理特定文件类型,只需观察哪些文件类型的数量和空间不成比例。例如,视频文件在陈旧数据存储空间总量中的比例,比其在陈旧文件总量中的比例高15.8 倍。虚拟机文件所占空间为7.3倍,演示文件是6.4倍,电子邮件为2.2倍,这些类型的文件都是企业优先处理的最佳选择。

当员工离职后,留下了数据残局

当数据失去其所有者,即会成为孤立数据。由于职位变更、员工离职以及常用活动目录混乱等原因,企业很难追踪数据环境的传承关系;此外,追踪数据传承需要巨大的资金支持。

孤立数据会占据企业的高额成本,一方面是因为其占据了过量的存储空间。即便孤立数据仅占文件总量的1.6%,但它占据的存储空间却达到了5.1%。不仅如此,大多数孤立数据是内容丰富的数据类型,这类数据所占据的空间都远超正常比例。如图像文件超出正常存储空间的88%,而视频和演示文稿,分别超出165%和229%。

报告调查发现,企业人员流动趋势对存储环境具有一定的影响。孤立文件的大小,是平均文件的222%。数据管理人员可能认为,文件越大,其内容越重要。因此在员工离职后,倾向于继续保留这类密集文件。如果企业希望恢复更多存储空间,从孤立数据下手无疑是首选。

通过存储密度判断文件是否有用

如今,企业创建大密度的内容并不奇怪,但令人吃惊的是,过去7年来,这类内容的涨幅只达到了10.3%,增长相对缓慢。文件的平均大小为:过去10年或更长时间内,使用过的文件的平均大小:0.24MB是过去5年内使用过文件的平均大小:0.40MB是过去1年内修改过文件的平均大小:0.53MB是被分类为陈旧文件,要比去年1年内修改的文件小33%。

现在,企业该如何应对?

如果企业用户的存储环境与我们分析的环境类似,那么企业用户将有很多机会来改变自身的存储现状。

以10PB为普通环境举例,如果企业数据环境中41%的数据为陈旧数据,那么每年,企业需要投入2050万美元,来管理3年来无人问津的数据。然而,清除陈旧数据非常困难。企业整理4.1 PB的数据,便需要对94.79亿个个体文件进行分类、删除或归档。

企业用户不得不划分优先级

演示文稿、电子表格、文档和文本文件等内容丰富的文件占陈旧数据的20%,开展一项专门处理这些文件的归档项目,能够降低企业至少50%,相当于200多万美元的存储成本。

删除陈旧数据中音频和视频文件,能够帮助企业降低11%的成本。

此外,图像文件占据企业陈旧数据18%的存储空间,它们甚至在长达7年或更久的时间里从未受到修改。

集中处理拥有少量单个文件的空间,对其进行标记以换取更多的存储空间,例如视频、 虚拟机文件和电子邮件等。这不但能够回收大量的存储空间,同时运行速度可迅速提升15倍。当员工离职或职位调整时,对其遗留的数据进行评估,可帮助企业节省5%,大约近百万元的成本。

猜你喜欢
存储空间陈旧环境
陈旧
苹果订阅捆绑服务Apple One正式上线
用了就回不去的APP
用好Windows 10保留的存储空间
万物都不曾变心
环境清洁工
陈旧的谎言
我用美好透明的话语
漫观环境
论环境雕塑