大数据分析流程框架的研究

2016-12-31 23:40金宗泽冯亚丽文必龙杨正男张希东北石油大学计算机与信息技术学院

数码世界 2016年2期

金宗泽冯亚丽文必龙杨正男张希东北石油大学计算机与信息技术学院

大数据分析流程框架的研究

金宗泽冯亚丽文必龙杨正男张希
东北石油大学计算机与信息技术学院

随着信息技术的不断创新，信息量的不断扩大，大数据已经成为了与日常生活息息相关的话题。挖掘大数据的价值已经炙手可热，如何能够更高效、更快速地分析大数据已经成为大数据发展的重要挑战之一。近年来，学术界与工业界就大数据的分析进行了研究，取得了一些研究成果，但针对大数据分析的研究还是非常有限。文中首先从传统数据仓库与大数据时代数据仓库作了对比，引入了大数据的分析流程框架，对分析流程框架的各个部分做了一一阐述，并通过实验验证分析了流程框架的可行性。

大数据分析数据仓库

1 引言

当今时代不仅是一个数据爆炸的时代，更是一个大数据爆发的时代。面对大数据的激流，多元化数据的大量涌现，大数据已经影响了社会生活的各个角落。大数据的“大”并不仅仅指容量，同传统数据源比较，大数据的速度（数据传输和接收的速度）、复杂度以及多样性都有明显的增加。文献提出了大数据的主要4V 特性：数据量（ Volume）、多样性（ Variety）、处理速度（ Velocity）及数据价值（Value）。由于数据量从TB级向PB级跃迁，对于数据的分析要从常规的分析转入深入的分析，同时要实现对于从高成本的硬件平台向低成本的硬件平台进行过渡，这一系列变化都为大数据的分析带来了挑战。

2 传统的数据仓库架构

传统的数据仓库将整个数据分析的层次划分为4层。传统的数据源中的数据，经过ETL工具对其进行相应的抽取，并将其在数据仓库中进行集中存储和管理。再通过经典模型（如星型模型）组织数据，之后使用OLAP工具从数据仓库中对其进行读取，生成数据立方体（MOLAP）或者是直接访问数据仓库进行数据分析（R OLAP）。

3 大数据分析流程框架

相较于传统的数据仓库，为大数据的变化带来了诸多问题：

3.1 数据的成本问题

数据在通过复杂的ETL过程后，存储到数据仓库中，在OLAP服务器中转换为经典模型。并且在执行分析时，在连接数据库将其数据取出，这些代价在TB级时尚可接受，当面对呈指数级别增长的大数据时，会带来很高的移动数据的成本。因此传统的方式不可取。

3.2 数据的变化性

传统的数据仓库主题是变化较少，在传统数据库中解决变化的方式对数据源到前端展现的整个流程中的每个部分进行更改，然后再重新加载数据。甚至有可能重新计算数据，导致其适应变化的周期较长。此模式适应的场合，是数据质量较高、查询性能高及不是十分计较预处理代价。而在大数据的时代，数据富于变化和多样，因此这种模式不适应新的需求。

3.3 数据集的处理

传统的数据集都是在数据库外进行创建，每个分析专家都会独立创建自己的分析数据集，并且，每个分析工作都是由这些专家独立完成的，这表明了可能会有更多的人同时在创建不同的企业数据视图。一个ADS（Analytic Data Sets）通常只会服务一个项目，每个专家都会拥有自己的生产数据样本。这些独立的数据集都会导致每个项目最终产生大量的数据，而在大数据的环境下，首先数据量就很大，数据本身占用空间。其次是对于数据的价值的重复利用，微小差别而不同的结果集的取舍。再次是对资源和精力的节约，以降低成本。

在文献中提到了采用Map R educe及并行式数据库的混合架构型的解决方案同时与Map R educe主导型和并行式数据库主导型作了对比分析，文中在采用Map R educe及并行式数据库集成型的数据库的基础上提出一个大数据分析的流程框架。系统地阐述了大数据分析的整个过程。其流程分为6个重要的阶段。在现代的库内分析框架下，通过对于大数据的使用和研究，做出了一个大数据分析的初步流程：大数据的预处理阶段、大数据的输入接口、分析沙箱、大数据的输出接口、大数据的展示以及大数据的价值评价。

3.3.1 大数据的预处理阶段

大数据的预处理过程即一个数据的清洗过程，从字面上理解是将以存储好的数据进行一个去“脏”的过程。更确切的说法是将存储数据中可识别的错误去除。在数据仓库中和数据挖掘过程中，数据清洗是使得数据在一致性（Consistency）、正确性（Correctness）、完整性（Completeness）和最小性（Minimality）四个指标满足上达到最优。

数据的预处理过程是对大数据进行正式使用和分析的最后一道门槛，在大数据的背景之下，在来源不一的海量数据中，存储了冗余、复杂及错误的数据，之后的“去粗存精”、“去伪存真”的过程交给了数据的预处理阶段，能够在极短的时间内，抽取出高质量的数据，形成统一的规范，满足接下来的数据的接口，将是大数据研究的热点。

在Map R educe中，一次性的分析操作居多。对于多维数据的预计算，大数据上的分析操作虽然难以预测，但传统的分析，如基于报表和多维数据的分析仍占多数。因此，在Map R educe与并行数据库框架下的大数据分析平台应该利用预计算等手段加快数据分析的速度。出于对运算的存储空间的考虑，MOLAP显然不可取，试想在数据量爆棚的时候计算数据立方体是多么可怕的事情，因此优先考虑HOLAP的实现方案。在此阶段，采用Map R educe的分布式预处理的策略，能一定程度上减少大数据移动所带来的成本消耗。

3.3.2 大数据的输入接口

在大数据的预处理阶段完成后，对其满足输入规范的数据进行统一管理，并将输入数据进行一定的特征提取和数据的关联分析。在通过使用输入接口的同时，开放算法接口模块卡，接收来自不同的算法，而对数据集进行分析和整理。

在整个大数据的输入接口部分应该要实现对数据分析的展示，特别是对复杂分析的解释关联展示，努力做到模块接口的可视化。在形成可分析的数据集后，输入接口与输出接口应同时具有按照主题或语义分类的存储，这样能够解决主题变化，做到当数据在输入时就可以随主题变化而改变。

3.3.3 分析沙箱

顾名思义，“沙箱”，一种孩子们常见的玩具，孩子们可以根据个人意愿在沙箱里把沙子堆砌成各种形状。同样，分析沙箱就研究而言，相当于一个资源组，在这个资源组里，分析专家们能够根据个人的意愿对数据进行各种探索。在分析的整个流程中，沙箱为使用分析平台的专家们提供更为专业的模块接口和参数选择，方便分析人员提取更为有效的数据参数，来更加精确地展示分析结果。

3.3.4 大数据的输出接口

作为大数据分析的出口，为大数据的输出提供了统一的规范和标准。作为大数据展示的最后一道工序，大数据的输出接口应具备如下特点：

①规范性：通过大数据输出接口的数据应具有一定的规范性，规范性为大数据的结果展示做了良好的保证。

②可复用性及剩余资料保存性：作为输出结果集，大数据的所有参数或者是专家选择参数，在一次的分析过程中，其潜在的价值有可能被隐藏，需要有特定的、专门的数据仓库来暂时保存这些具有潜在价值的结果集，对于使用专用算法的，其输出结果集必然是其专用的数据参数集，而对于其未被专家选择的参数，输出结果集应对剩余参数进行适当保留，直到不再挖掘其价值为止。

③模型化：在大数据的输出阶段，应尽可能将其模型化，以便在价值评估阶段有利于数据的利用和评分，更有利于将其应用在新的数据中，实现模型的复用。

④查询共享性：Map R educe采用步步物化的处理方式，导致其I/O代价及网络传输代价较高。在多个查询间共享物化的中间结果（甚至原始数据），用以分摊代价并避免重复计算，这样可以有效地降低Map R educe在物化过程中产生的代价。由此可见，如何在数据结果集之间建立多查询的共享中间结果将是一项非常有实际应用价值的研究。

⑤索引性：输出结果集应该具有一定的索引性，其输入数据是多维度的，其结果也是多维度的，在其具有一定的规范性，应该在Map R educe的背景框架下能够完成多维索引，并且实现对于多维索引的查询速度的提高。

3.3.5 大数据的展示

可视化工具发展得如此迅速，同时也被越来越多地应用在各个领域，在大数据的结果展示中，采用数据可视化技术将更加高效形象地展示大数据的价值和鲜明的对比性。

应用可视化技术具有以下特点：

①关联性。可以将表示对象或事件的数据的单个或者多个属性和变量进行关联，而数据可以按其所在的不同维度，将其分类、排序、组合、关联和显示。在一定程度上体现出了数据之间的关联性，简单说可以将财务报表与销售报表进行关联，就复杂关联来讲，让尿布与啤酒的销售量关联也成为了可能。

②互动性。使用者可以方便地使用交互的方式管理和开发数据。

③可视性。通过数据接口的数据可以用图像、曲线、三维立体及动画等多种方式来展示，通过展示后，专家可以对其模式、关系和趋势进行进一步明了的分析。

3.3.6 大数据的价值评估

随着分析流程的扩展性不断提高，新的分析流程如何利用分析后的价值把企业带到一个更高的层次，文中引入对于大数据的价值评估方案。分析流程最终会产生新的信息，比如，在市场营销方面，客户购买某一种产品的概率，某个产品的最优价格或者是在促销活动中能带来销量提升的区域。将大数据输出接口中的分析模型应用于最新数据，就是评分。在大数据的价值评估阶段，应具备两种要素：

①嵌入式评分。嵌入式评分能在数据库内定期地执行评分过程，令使用者可以更加高效地、更加方便地使用结果集所输出的模型。应该尽可能包含部署每一个独立的评分过程和建立一个健全的机制来管理和监控这个评分过程。

②校验评估。校验评估是在检验对于专业数据处理分析的准确性，同人工神经网络和决策树判定一样，大数据的应用管理同时需要检验，检验它在某一个专业领域的可行性，是否可以根据该分析方法和分析模型来判定这种方式的可行性，其准确的校验识别率决定这种分析模型的可行性。例如，就石油勘探开发领域应用，在使用大数据进行储层参数预测时，可以根据大数据对储层参数进行识别和匹配，寻找相似的储层参数，从而进行评估。而在最初投放生产中，需要对其使用进行有效地评估，确定这个模型的建立与使用是否有效和可行，可以同经典的算法准确率作对比，计算校验误差值，来判定模型是否可行。

4 实验与应用

通过对大数据分析流程框架的制定，通过实验对其进行验证。大数据分析流程框架在油气勘探开发中的应用，通过对修井记录和以往的分析数据的抽取和对样本数据的预处理，通过对分析方法目录的算法调用，通过样本数据对整个大数据分析系统进行训练，使用输入接口输入带诊断数据实现对分析数据的参数识别，最终生成诊断结果，并由大数据分析平台系统对其识别进行相应的评估，生成评估结果。通过该应用实现对大数据分析流程框架验证。

5 结束语

文中通过对传统的数据分析流程的阐述，并对大数据形势下的数据仓库与传统的数据仓库进行了对比。在此基础上，提出了新形势下的大数据分析流程框架，并详细地阐述了大数据分析流程每一部分所要完成的工作。将其理论模型应用到油气勘探开发的抽油机故障诊断中，能够将大数据的分析投入使用并推广，将具有更广阔的发展空间与前景。