基于数据仓库和挖掘技术的政府决策设计与应用*

2014-03-14 09:25曹建国
关键词:数据仓库集市数据挖掘

黄 兵,曹建国

(安徽工贸职业技术学院a.基础部;b.教务处,安徽淮南 232007)

0 引言

随着我国经济体制转轨的逐步完成和全球化的迫切需求,政府的决策内容、决策范围和决策方式已经发生了很大的变化。因此,通过整合政府内外各方面的技术力量和信息资源,建立合适的决策咨询支持系统,是当前政府决策制定的前提条件和必要基础。随着数据仓库技术、OLAP技术及数据挖掘技术的逐步成熟和完善,为其决策咨询支持系统的实现提供了一条新的途径。基于目前传统事务数据库决策支持系统数据分析能力的有限性,尤其是非结构化的查询操作要涉及到上千万行数据,复杂的表链接严重影响了系统的快速性能,而以多维数据为核心的数据分析为信息决策提供了很好的技术手段。同时,数据仓库的多维特征满足了系统从多种角度对数据进行快速、交互、动态和一致性的分析,克服了传统决策支持系统交互性能差、速度慢的弊端,使决策者能够对数据进行深入细致地分析和梳理。当前较好的解决方案是以数据仓库(data warehouse)技术为支撑,借助于联机分析处理(OLAP)和数据挖掘(data mining)工具,设计并开发政府决策系统。

依托中心数据仓库的决策支持系统是决策咨询基本信息管理系统与中心数据仓库的中心枢纽,其关键是数据挖掘和OLAP联机分析与设计,这两项工作的完成是成功实现决策支持系统的重要条件。

1 数据仓库设计

原有数据库系统记录的是相关每一项业务处理的具体的细节性数据,因此中心数据仓库中的综合数据是不能从原有数据库系统中直接得到的。这些数据在进入数据仓库之前必须经过提炼和整理,剔除无用的数据项,引进一些相关联的外部数据,从而形成各行业类型的数据集市。本文中心数据仓库根据行业类别将信息划分为12个数据集市,其主要集市有产业经济结构数据集市、政策法规数据集市、物价指数数据集市、财政金融数据集市、人口就业数据集市、突发应急事件数据集市等。本文中的中心数据仓库设计分为4大步骤。

(1)确定分析主题。结合用户的需求和所要实现的目标,在熟悉业务分析需求和报表需求的基础上,总结并且制定数据分析的各个主题。例如:分析者希望分析某年某月某地区的生产总值情况,那么这就是一个主题。主题需要体现出决策所要分析问题的各个分析角度以及统计数值型数据(度量)之间的关系。

(2)确定度量。在确定了主题后,就需要考虑要分析的技术指标,诸如财政收入、财政支出等。一般都为数值型数据,对于度量还需要考虑一些其他的计算问题,如度量是由底层数据进行汇总而得,还是由数据的最大值、最小值,或者是多个度量之间的关系这种聚集方式。

(3)确定事实数据的粒度。设计和实现其他问题的解决,必须在数据仓库的粒度合理确定以后。如果没有合理地确定粒度,势必会影响其他方面的确定。例如:假设目前某系统的数据最小记录单位为s,如果分析需求的时间需要精确到d,那么在ETL的实际处理过程中,数据仓库度量的粒度就是d,可以按数据流量的d数来汇总数据。粒度级别的合适选择是体系结构设计环境成功的关键因素。其一般方法是利用日常理论和知识,首先建立数据仓库的一小部分,然后适时让用户去访问这些数据,并提炼出自己所需要的最终数据。

(4)分析所需维度。确定主题过程举的例子中,时间、地区等就是这个分析主题的维度。在设计维度的时候需要考虑维度的层次结构和级别,层次结构是用来定义数据聚集的,它是对维度中成员的集合以及成员之间的相对位置的描述,是组织数据的逻辑结构的体现。维成员的划分和设计必须遵循从顶部到底部逐步细化的原则,底层的数据值聚集和汇总到上层。例如用年、季度和月定义的时间维度中,年处于层次结构的顶层,季度处于中层,月处于底层。国民经济数据维分析星型图如图1所示。

2 数据的ETL设计

通过以上4个步骤,数据仓库中主题的模型设计已经完成,但仅仅完成模型设计才只完成了整个数据仓库设计的30%,还需要从各种复杂的业务系统中抽取数据,加载到事实表中。数据仓库的ETL过程是数据仓库成功实施的关键,具体来说,数据仓库的ETL过程是指从实际的业务需求出发,结合已经设计好的数据仓库模型进行具体实施的过程。整个数据仓库的ETL过程需要有业务人员适时地参与进来,帮助开发人员梳理业务数据的逻辑结构和数据校对的准确性等工作。ETL过程是一个复杂的过程,占用了整个数据仓库开发周期60%~70%的时间。一般来说,ETL过程包括3个功能。

(1)获取数据。从系统数据源中提炼数据仓库所需要的数据[1]。

(2)转换数据。首先对数据源中的数据进行适当的清洗,接着转换成数据仓库所需的格式,最后再对这些数据进行适当的转换。

(3)加载数据。将上述转换后的数据及时进行加载并安全地装入数据仓库[2-3]。

3 数据挖掘设计

数据挖掘设计是指从不完全的、大量的、不准确的、有噪声的和模糊随机的各行业类型的数据信息中甄别有价值的、新颖的、潜在的信息和知识的过程。从主要的6大类任务(数据总结、概念描述、分类、聚类、关联分析、偏差分析)出发制定现实可行的工作过程。数据挖掘设计归根结底也就是算法的设计,本文采用传统的决策树算法。

决策树算法是采用自顶向下递归的各个击破方式构造决策树的经典的分类算法。在树的每一个结点上使用信息增益度量来选择测试的属性。决策树中的每个内部节点表示对某个属性的一次测试,每条边表示一个测试结果,叶子表示某个类的分布,顶部的节点代表根结点。图2决策树是一个固定资产投资使用的例子,通过对此图的分析,用户可以预测是否对某固定资产进行意向投资,数据挖掘流程图如图2所示。

图1 国民经济数据维分析星型图Fig.1 Digital analysis of national economic data

图2 数据挖掘流程图Fig.2 Process of data mining

4 OLAP分析设计

(1)分析目标和维度的确定。对实际业务进行OLAP分析时,应该首先制定分析的目标,只有在分析目标确定之后,才能根据已确定的分析目标确定分析的维度和指标。当然,分析的维度和指标也不能一概而论,一定要结合实际的需求进行细化。只有这样,分析维度和指标的确定才具有实际的意义和较强的针对性。

(2)分析模型的构造。分析模型的构造是OLAP分析设计的关键环节,模型一般包括逻辑模型和物理模型。逻辑模型采用的星型结构主要由事实表和维表构成。细节数据存放在事实表中,各分析维度的属性存放在维表中。物理模型是OLAP分析设计的物理存储结构,实际存储中多以关系型数据库架构或多维立方体形式的构建存放逻辑模型所采用的星型结构。

(3)前端分析与展现。在完成分析模型的构造之后可以配置前端展现工具,由于访问方式的不同,其相应的配置也不尽相同。例如:如果采用Web访问方式,则根据需要将有关内容加载到OLAP服务器中的同时,对Web服务器作相应的配置。如果采用传统的客户端访问方式,则需要对客户端软件作相应的配置。配置工作完成以后,用户就可以针对相应的主题进行各种分析操作[4]。以多种图形或表格的形式提供的界面其优点是直观、简单和快捷。

5 结束语

本系统是基金项目中的一个子任务。本文针对数据仓库和数据挖掘技术在政府决策中的设计与应用,采用了当今主流的VS2010开发工具,使用在VS2010开发平台,快速高效地搭建系统软件的用户界面和编写相关的底层源代码。

本文中采用B/S模式与C/S模式相结合的开发方式,既可以提供Web界面又可以提供Windows界面,这样结合了两种模式的优点使本文的开发更加科学高效,同时利于今后的系统维护工作。另外,本文结合两种模式,服务端提供了成熟的Web接口服务,Web接口服务既可以在本文所设计的系统中使用,也可以提供给第3方。

[1] 靳守军.移动通信网管信息经营分析与实践[D].上海:复旦大学,2008.

[2] 张美图.数据仓库和数据挖掘在电信领域经营分析中的应用研究[D].长春:吉林大学,2005.

[3] 李杰.甘肃移动经营分析系统的研究与设计[D].北京:北京邮电大学,2008.

[4] 李永祥.基于OLAP的电力客户能效评估方法及应用[D].兰州:兰州理工大学,2012.

[5] 丁知斌,袁方.基于数据仓库的数据挖掘技术在高校学生成绩分析中的应用[J].河北大学成人教育学院学报,2004,6(4):19-21.

[6] 崔志明,王鑫印.基于虚拟数据仓库的数据挖掘技术研究[J].微电子学与计算机,2003(12):76-78,81.

[7] 杨越.数据挖掘在政府部门决策管理系统中的数据与应用[D].郑州:解放军信息工程大学,2013.

[8] 李耿.基于数据仓库技术的政府经济决策支持系统[D].上海:华东师范大学,2007.

[9] 朱姝.基于SQL数据挖掘在书目推荐中的应用[J].淮海工学院学报:自然科学版,2013,22(2):35-38.

[10] 康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社,2004.

[11] 高洪深.决策支持系统(DSS):理论与方法[M].4版.北京:清华大学出版社,2009.

[12] 郑阿奇,刘启芬,顾韵华.SQL Server数据库教程[M].北京:人民邮电出版社,2008.

猜你喜欢
数据仓库集市数据挖掘
探讨人工智能与数据挖掘发展趋势
热闹的集市
基于数据仓库的住房城乡建设信息系统整合研究
探访于山“相亲集市”
基于并行计算的大数据挖掘在电网中的应用
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
热闹的集市