基于数据挖掘建模语言的数据挖掘系统设计

2011-07-03 08:58
制造业自动化 2011年24期
关键词:数据挖掘模块语言

林 芳

(广西工商职业技术学院,南宁 530003)

0 引言

数据挖掘技术在许多行业得到了广泛的运用,特别在保险、金融及医疗等方面,发挥着非常重要的作用。但是,由于不同的厂商采用的技术体制不一样,实现的数据挖掘系统存在着差异,致使挖掘模型不可以在众多的数据挖掘系统间进行资源的共享,这就阻碍了数据挖掘的作用发挥。而且,由于数据源分布位置的不同,也导致了数据集中要花费较高的成本。为了促进和加强数据挖掘模型的标准化,目前一些组织及厂商(例如IBM,Microsoft,KXEN)已经提出了有关的标准。在这些标准中,影响最广的是数据挖掘组织(Data Mining Group,DMG)提出的预测模型标记语言(Predictive Model Markup Language,PMML)。

为此,本文设计了一种基于预测模型标记语言和Web服务的开放式数据挖掘体系,把预测模型标记语言当成数据挖掘标准,进行模型的描述,因此就能够方便地进行模型实施的可视化及模型的多种应用。采用Web服务技术,能够使数据挖掘系统可以构建应用至应用的结构,具备较好的动态扩展性及可移植性,达到模块间松散耦合的目的,而且,采用作为Web服务发布的不只是封装的算法,也可以是模型预测,数据预处理,模型可视化等。把这两者进行结合,引入至数据挖掘系统里,可以实现各种硬件和软件资源的共享。

1 数据挖掘建模语言概述

依据侧重点及功能的不同,可以把数据挖掘语言划分成三个类型,即:挖掘建模语言、挖掘查询语言以及通用挖掘语言。

1.1 数据挖掘查询语言

查询语言是数据挖掘原语构成的,通过数据挖掘原语,来进行对数据挖掘任务的定义。通过数据挖掘系统与数据挖掘原语之间的通信,促使更加有效地知识发现。该原语主要有五种类型,即:挖掘知识种类、用户关心的数据集、测量模式估值、指导挖掘专业知识以及挖掘知识的可视化过程。

1.2 数据挖掘建模语言

建模语言是定义及描述数据挖掘的模型的语言,即通过规范的建模语言,让在模型描述及定义方面,数据挖掘系统可以遵循相关的标准,从而让众多挖掘系统间能够进行模型的共享,这不但能够克服各系统间封闭性问题,而且能够将数据挖掘模型嵌入到应用系统中,有效解决单独知识发现问题。而预测模型标记语言,恰是符合这种要求的一种建模语言。

1.3 通用数据挖掘语言

该语言是把上面两种语言进行综合,不但有模型定义功能,还可以作为查询语言和数据挖掘系统实施通信,实施特定的挖掘和交互。标准化的通用数据挖掘语言,是当前数据挖掘领域一个最佳的解决方案。其中,OLE DB for Data Mining语言就是微软公司提出的一种通用数据挖掘语言。

2 数据挖掘与Web服务技术的结合

1)数据挖掘系统中,数据的表示机制及存储的一致性是分布式情况下要解决好的一个重要问题。而采用基于XML语言的Web服务技术,其设计了一个独立的数据表示机制,能够有效解决数据的不兼容性问题及私有化问题,让在不同应用系统中交换数据不再成为问题。

2)数据挖掘系统采用了Web服务技术之后,将会极大地提高系统的易用性。由于Web服务技术为构建在因特网基础上的,因而能够通过WSDL及SOAP技术,部署在任何的地理位置供使用。而且,其接口具有平台独立性特点,具有自应用至应用的结构优点,与用户至应用结构有明显的区别。

3)随着数据挖掘技术的不断发展,用户需求的不断变化,要求数据挖掘系统具有可扩展的、动态的架构。将Web服务技术引入进来之后,各供应厂商采用Web服务发布的组件就能够实施动态地调用,满足新技术发展需求及用户的需求变化的需要。

3 数据挖掘系统设计

3.1 体系结构

采用PMML与Web服务技术的数据挖掘系统,可以跨越数据结构及平台的异构性,移植性较好,还可以跨越代理服务器与防火墙实施通信,具有良好的可扩展性、用户透明性以及使用灵活等特点。基于Web服务的数据挖掘系统结构设计如图1所示。在图1中能够看出,该挖掘平台是由四个逻辑模块组成的,分别是:挖掘服务模块、Web应用模块、UDDI模块和用户接口模块。

3.2 挖掘任务流程

数据挖掘任务与挖掘步骤如下。

1)构建在UDDI接口上的用户界面,为系统提供Web服务的实时查找功能。

2)UDDI注册中心针对全部记录进行查询,并将符合条件的记录返回至用户界面。

图 1 基于Web服务的数据挖掘系统的结构

3)某个挖掘服务被用户选中后,系统将该请求、参数及数据等发送至远程服务端。

4)当远端服务端收到该请求以后,进行数据挖掘任务的执行。

5)当任务执行完之后,由服务端把形成的挖掘模型发送给用户。

3.3 功能模块设计

典型的数据挖掘系统通常由三个模块组成,即:数据准备模块,模型建立模块及模型应用模块。把Web服务应用到挖掘系统之后,挖掘系统将全部的挖掘过程及挖掘组件进行封装,变成Web服务的形式,并生成UDDI注册中心,进行动态的服务管理。其中的UDDI模块,其主要功能就是完成对服务的管理,例如服务的发布、查询以及注销等。功能模块设计图如图2所示。

图 2 数据挖掘系统的功能模块

3.3.1 UDDI模块

把Web服务引入至数据挖掘系统里来,封装数据挖掘应用成Web服务,还需要有针对被封装的挖掘服务的Web服务管理机制。针对该挖掘服务的主要操作是:服务发布,更新,发现,删除等,而这些操作均能够以UDDI管理的方式进行实现。通过UDDI模块,使系统具备了较好的可扩展性特点。UDDI模块的构成主要有四个部分,即:服务发布模块、服务注销模块、服务发现模块和UDDI注册中心。UDDI模块结构如图3所示。

图 3 UDDI模块结构图

3.3.2 模型构造模块

该挖掘系统关键模块,就是模型构造模块。模型构造模块进行挖掘算法的调用,当数据完成预处理之后,就在数据集上进行实际数据挖掘任务,形成数据挖掘模型,同时要对挖掘模型实施验证分析,最后,采用预测模型标记语言进行挖掘模型的表示。模型构造模块的模型验证模块,也是其中非常重要的一个模块,模型验证是对模型的有效性及可信度的评价,可以有效地辅助决策者辨别出有意义的模型。

3.4 PMML模块结构设计

为跨越各企业间及系统平台、实现资源共享,还需要完成模型的共享,为此,还需要应用独立的PMML模块。此模块的主要功能有两个方面:

1)在当前的数据挖掘系统中,取得数据挖掘模型,应用PMML模块,把它以标准化的PMML规范进行描述。采用PMML格式挖掘模型能够方便地引入至其它数据挖掘应用里,实施模型的部署,预测,集成,以及可视化。

2)把现有的PMML描述的挖掘模型,使用PMML模块实施解析。经过PMML文档解析之后,从而获得了实际的模型信息,该信息能被其他挖掘系统所调用。PMML模块的应用如图4所示。

图 4 PMML模块的应用

根据上述的PMML模块功能分析,PMML模块提供了不同挖掘系统间的通信纽带。所以,PMML模块需要有较强的独立性,还要能够完整地支持PMML规范操作。此外,PMML模块要进行动态的不同类型挖掘模型添加处理。为此,本文使用了模块化的、面向对象的设计,提供一套应用程序接口,因而不同的应用系统就可以进行对应的接口调用,实现PMML规范的良好支持。与此同时,实现PMML规范支持方法要有多种,可以及时地变换实现方法,促使其性能更加稳定。另外,实施了模块化的设计,PMML的内部模块耦合度也相应地降低,可以很容易地支持新的挖掘算法。

4 结束语

综上所述,本文在对Web服务技术及数据挖掘语言实施了分析和研究后,提出一种在PMML和Web服务基础上的数据挖掘系统架构。该架构具有可动态扩展性、平台无关性及可移植性等特点,可以实现知识共享、应用集成及节约资源的目的。

[1] 侯敬军, 曾致远, 向凌. 一种基于Web服务的分布式数据挖掘体系结构[J]. 微机发展, 2006, 14(6): 48-51.

[2] 方骏, 方云, 肖杰. 数据挖掘的工业标准的现状和展望[J]. 计算机应用研究, 2007, 6: 8-10.

[3] 石峰, 周绍梅. 数据挖掘语言及其标准化浅析[J]. 江西科学, 2007, 23(1): 69-71.

[4] 苏卫. 数据挖掘工具的应用与标准化[J]. 计算机工程(增刊), 2008, 30: 40-42.

[5] 王闯舟. PMML实现高速便捷的数据挖掘[J]. 金融电子化, 2007, 4: 57-58.

猜你喜欢
数据挖掘模块语言
28通道收发处理模块设计
“选修3—3”模块的复习备考
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
语言是刀
让语言描写摇曳多姿
我有我语言
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议
集成水空中冷器的进气模块