接传统BI的班

2014-07-19 01:06何春涛
中国计算机报 2014年25期
关键词:象限内存架构

何春涛

Forester曾有一份调查报告显示,在拥有传统BI的企业或机构中,大约83%的数据分析需求未能得到满足。甚至,大多数时候,用户还是会用Excel等工具去分析数据。这是一个可怕的现象,它说明了企业或机构投资建设的BI系统只满足了少量需求。

弥补传统BI的短板

传统BI系统的经典架构是这样的,底层是数据源,中层是ETL(抽取、转换、装载),上层的数据仓库形成DWD。为了进行数据分析,用户一般会把数据预先汇总,形成DWA(汇总数据层),或者抽取到数据集市,或者抽取到Cube Server打Cube,然后再通过前端展现工具让用户进行数据分析。

那么,传统BI架构在处理企业数据时存在哪些短板呢?首先,整个系统由诸多个单独产品组成,总体拥有成本比较昂贵。其次,建好一套BI系统通常需要几个月甚至跨年,上线周期太长。第三,完成系统计划之后,实施人员开始从前往后的瀑布式实施,但是,每一步都涉到比较“重”的数据形态转变。这种情况有点类似于我国多年前提出的“计划经济”,不够灵活。

而对于传统BI面临的这些短板,敏捷BI都能够有针对性地提出解决方案。敏捷BI直接把数据装载到内存数据集市中,内存数据集市存储的是细节数据而不是汇总数据,所以不存在DWA或Cube,然后用户就能直接在前端BI平台上开始数据分析了。另外,基于细节数据,用户就能做探索式分析了。TDWI一旦有数据,用户就可以在数据中做探索式分析,而不是仅仅地利用现有的分析模型,将用户找到答案的成功率从原本的23%提升近50%。

对比传统BI,敏捷BI的特点在于:整个敏捷BI系统,只需要一个产品,成本一般会低很多;由于数据集市中存储的是细节数据,建模工作比较轻量级,BI系统的上线周期大大缩短;实施过程是自下而上,由业务来驱动。

敏捷BI快速步入成熟期

2006年,Gartner公布的BI魔力象限中,标榜为领导者区域的第一象限还看不到一家敏捷BI厂商,全部是大家熟知的传统BI厂商,例如Cognos、Business Objects等。直到2012年,Gartner公布的BI魔力象限第一象限中才见到第一家敏捷BI厂商QlikTech。但是,到了2014年,Gartener的BI魔力象限的第一象限中就已经出现三家敏捷BI厂商了,在数量上占据了近半数的规模。

在传统BI增长势头依旧非常强劲的今天,敏捷BI的发展速度令业界感到惊讶。这种趋势也说明了,不管从厂商还是从用户的角度来看,敏捷BI都已经步入了成熟期,成为一种主流的BI系统建设方法。

目前,中国市场上已经涌入了一些敏捷BI厂商,比较活跃的有三家,它们分别是Tableau、QlikView和永洪BI。总体来看,这三家厂商各有优势。首先,在计算方面,Tableau可基于数据库和本地缓存,QlikView可基于数据库和内存计算,永洪BI可基于数据库、内存计算,或者分布式的集群。其次,在支持的操作系统平台方面,Tableau和QlikView都是基于桌面操作系统产品起家的,也正是由于这个历史原因,大量代码集都运营在Windows上,永洪BI可以兼容Windows和Linux两种操作系统。

综合来看,Tableau在数据可视化方面很突出,QlikView则在内存计算方面是强项,永洪BI在内存计算和分布式计算方面都不错。

“计划经济”与“市场经济”

如果说传统BI是一种类似“计划经济”的理念,那么,敏捷BI更像是“市场经济”。

一方面,企业用类似“计划经济”的那套理念建设BI系统,因为分析组合和分析指标是之前已经确定的,用它们来决定明天的决策,显然缺少实效性;另一方面,经济建设如果一味地开放市场,而不做引导和监管,整个系统又有失控的风险。因此,传统BI与敏捷BI分不清孰优孰劣,它们适用于不同需求的企业而已。

同时,传统BI存在了几十年,最初建设时,企业可选取的信息技术并不多,硬件水平低,软件系统一般都基于关系型数据库,所以数据科学家想了很多办法来把数据分析推动起来,比如数据层可能有这些步骤:Stage、ODS、DWA、DWD、OLAP等。

随着硬件水平的大幅提升:内存和CPU的价格逐渐下降、计算能力提升非常大,分布式存储和计算技术都开始走向成熟期。因此,现在要建设一个数据分析系统,企业有很多的办法可以选用。

那么,传统BI与敏捷BI两者的差异到底在哪里呢?第一,传统BI一般会建立统一视图,这是一个重量级的建模工作;而敏捷BI一般不会试图建立统一视图,而是按主题分类,给每个分析主题分别建一个视图。

综合看来,两者的做法对于企业来说各有利弊。传统BI建立的统一试图,更有利于用户宏观地把握数据,但是工作量会很大;敏捷BI建立的按主题分类的视图,建立的速度比较快,但是缺乏整体感。

第二,传统BI一般会分层次处理数据,例如预先把处理好的数据汇总存储到DWA中,或在Cube Server中打Cube。而敏捷BI一直都是基于细节数据,所以最终用户能用的数据依旧是细节数据。从数据分析的角度来说,汇总数据基本已经固化了分析组合和分析指标,而敏捷BI的细节数据将给业务带来更大的灵活性。从理论上来说,分析组合可以随意,分析指标可以随意,最终用户的决定空间较大,可以做探索式分析。

知名杂志DM Review(数据管理评论)在美国曾做的一份调查报告显示,敏捷BI在部署周期、项目成本、成功率、用户覆盖等方面完胜传统BI。

那么,用户应该如何看待传统BI和敏捷BI的关系呢?笔者的建议是“守正出奇”。用户应该融合传统BI和敏捷BI的各自优势为我所用。

一方面,传统BI发展多年,其经验成熟、产品稳定,不能否定更不能抛弃,可将其用于企业决策、洞察、监控整体业务状况,尤其是那些较少变化的宏观指标。

另一方面,敏捷BI可以提升企业洞察力和决策力,让更多的人拥抱BI。企业需要更快地实现BI,快速而准确地开展商业工作。

两个角度开启敏捷BI之旅

传统BI系统一般用于监控相对静态的指标,也提供一些基于模型的数据分析工作,只要运行良好就可以保留。为了提升内部的数据分析工作,提升大家的洞察力,提升企业的决策力,企业可以从部门级和企业级两个角度考虑建设敏捷BI系统。

对于部门级BI应用。如果部门级数据量不大,直接基于数据库进行分析既对业务没有太大影响,而且性能也足够好,企业则可以直接基于数据库搭建分析系统。当然,有些部门级应用数据量不一定小,有的可能达到TB级甚至PB级。对于这种情况,企业可以把细节数据直接抽取到敏捷BI系统自带的数据集市中,解决性能问题。

同时,对于部门级应用,由于数据层比较简单,部门人员也不多,因而计算和分析资源分配起来比较简单。不过,敏捷BI也应该提供比较完备的Audit机制,让企业可以知道在数据和计算上有没有错配,如果有的话及时做一些小调整即可。

对于企业级BI应用,笔者比较认同Forester推崇的一种架构。这种典型的架构被称为“Hub & Spoke”,意思是辐射状架构。

该架构的最中央是一个大型数据中心(Hub),最底部是各种数据源。通过选取各种合理的ETL途径,企业将各个数据源的细节数据抽取到数据中心里。数据中心甚至可以存储半结构化和非结构化数据,而且是非常轻量级的建模,主要是做好数据管理。数据中心的建设可以采用商业产品也可以用开源产品。

同时,该架构的两侧是部门级BI应用和企业级BI应用,顶部是分析师工作台。部门级BI应用和企业级BI应用,都可以把数据从数据中心抽取到敏捷BI系统自带的数据集市中并做轻量建模,实现快速发布和快速应对变化。分析师工作台的工作者是数据科学家,他们会做一些挖掘、预测、探索式的分析工作,数据可以移入专用工具里计算,也可以直接在数据中心进行计算。endprint

猜你喜欢
象限内存架构
基于FPGA的RNN硬件加速架构
勘 误
外部高速缓存与非易失内存结合的混合内存体系结构特性评测
功能架构在电子电气架构开发中的应用和实践
“春夏秋冬”的内存
基于四象限零电压转换PWM软开关斩波器的磁悬浮列车
平面直角坐标系典例分析
LSN DCI EVPN VxLAN组网架构研究及实现
一种基于FPGA+ARM架构的μPMU实现
基于内存的地理信息访问技术