基于云计算的数据挖掘平台架构及其关键技术研究

2015-01-02 02:14胡凌燕
长春师范大学学报 2015年6期
关键词:计算技术数据挖掘编程

胡凌燕

(江汉大学数学与计算机科学学院,湖北武汉430056)

1 云计算技术研究

云计算(Cloud Computing)基于互联网相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法,以往在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。云因其实现简单且全局搜索能力强大,备受人们的关注,云计算网络技术可有效处理离散型问题,由此扩大了云计算网络的应用范围。针对云计算网络技术在求解最优解时存在收敛速度较慢、容易早熟收敛且陷入局部最优解等问题,有很多学者从参数调节、云网络单元拓扑结构调节等方面对云计算网络技术进行了改进。

1.1 参数调节

针对云计算技术中的惯性权重实验,现有研究分析了固定权重以及非固定权重对于最优值搜索的影响。该技术通过呈正弦变化的函数调节惯性权重变化,由迭代次数和历史最优位置共同决定加速系数,通过每个粒子的反馈适应信息自动设定学习概率,从而让粒子进行完成从局部到全局再到局部的寻优过程。结合典型线性递减策略以及动态变化策略,共同控制惯性权重的变化,使得改进后的技术既能控制粒子总体运行方向,又考虑到粒子的实际运行情况,使得寻优过程更具准确性。针对寻优过程中存在停滞的云网络单元,提出一种具有初始化功能的自适应性惯性权重云计算技术。该技术通过适应性惯性权重对停滞粒子的加权重心重新初始化,使得技术不易陷入局部最优。

1.2 拓扑结构调节

通过对静态邻域的各种结构以及它们对技术性能的影响进行分析后得出,星形拓扑、Von Neumann拓扑以及环形拓扑的拓扑适应性最好。此外,云计算技术性能与邻域密切相关,处理复杂问题时小邻域的云计算网络技术性能较好,但是处理简单问题上大邻域的云计算网络技术性能会更好。Chend从改进云计算网络结构的角度出发,提出了一种具有双结构的云计算网络技术。技术将云网络单元分为M+1层,其中“1”指顶层,通过获得顶层云网络单元的全局最优值影响其余各层的粒子对最优值的探索,以此提高云网络单元搜索结果的多样性。该技术考虑到云网络单元体表现以及粒子个体的表现,并将其作为触发条件控制领域变化从而提高寻优效率。由此提出KRTG-云计算技术,将产生随机动态的网络拓扑结构,并将平均值引入到粒子更新公式中,增加了种群的多样性,改善了粒子间信息的传播速度。

1.3 其他改进技术

相关研究将遗传技术中遗传算子的选择、交叉、变异等过程与云计算技术相结合,提出一种混合技术。改进后的技术提高了云计算网络技术的性能,并增加种群的多样性以提高逃离局部最小的能力,可将差分进化技术和云计算技术相结合,通过两种技术的交叉执行来提高改进技术的效率。白俊强等将二阶振荡和自然选择两种方法融入到云计算技术中,通过二阶振荡对技术速度公式进行更新,通过自然选择提高了云网络单元中靠近最优值粒子的比重。收集粒子的取值信息构建记忆库,让库中信息和粒子自身极值共同决定粒子的寻优方向,从而提高寻优的准确性。

2 云计算数据挖掘平台概况

随着云计算技术在各领域应用取得显著进展,利用以太网进行通信及智能化技术迅速成熟,数据挖掘管理工作逐渐朝着数字化方向发展,使得数字化网络技术在资料管理系统中的应用不断深入。本文利用云计算技术、数据挖掘系统和新型智能设备,按照相关标准统一建模,能够实现通过数据挖掘平台实时、高效、可靠地挖掘信息。基于云计算技术的数据挖掘平台是在数字化编程技术基础上发展起来的,采用领先技术,由安全可靠、低碳环保的智能化装置组合而成,以高速网络通信平台作为系统基础,自动完成采样、挖掘、保护、监控、记录、处理、查询等基本功能,并根据实际需求完成系统实时智能化监控和调节、在线分析和决议、与其他系统交互等应用功能。

智能编程是基于云标准环境的,该技术依据“编程通信网络与系统”系列标准。它为编程自动化系统定义了统一、标准化的信息交互模型,实现了数据挖掘平台的信息统一建模,解决不同设备之间的互操作性问题,为编程内各种信息的整合和共享奠定基础。通过采用云计算标准的建模方式,系统编程可实现对站内数据挖掘的状态数据、监测数据、检测数据、环境数据和动作信息的整合和共享,形成编程一体化信息平台,为数据挖掘平台提供完整、精确、实时、一致、可靠的数据。

在数据挖掘平台中,需要对系统进行监视、控制和管理以掌握其运行状态。随着系统实现的功能越来越多,结构越来越复杂,处理的信息量越来越大,其对数据的可靠性、实时性、一致性和共享性提出了更高的要求。于是,各功能模块需要一个数据库系统来管理维护这些共享数据,这些数据可能采用不同数据结构、数据类型或表示形式等,这在一定程度上影响了编程自动化的建设。如何将编程内的各类数据相互转换、集中管理、统一使用,实现数据之间基于网络方式的交换、共享已成为当前云计算数据挖掘平台架构亟需解决的问题之一。

3 云计算数据挖掘平台架构与实现

云计算的分布式存储和分布式计算促使了新一代数据挖掘平台的变革。系统框架采用三层架构设计,分别为云计算支撑平台层、数据挖掘能力层、数据挖掘云服务层。其中云计算支撑平台层为底层的数据库操作,数据挖掘能力层封装了大量类和方法,为数据挖掘云服务层提供接口,以供其调用。系统采用三层架构有利于后期的维护,在今后的运行维护中,如果需要给系统添加新的功能,则只需要通过添加类,修改部分接口便可完成,同时由于将系统分层,也增强了系统的安全性。

3.1 数据库架构

资源数据库具有数据结构化、冗余度低、程序与数据独立性较高、能批量处理数据、易于扩充和索引、易于编制应用程序、同时可清晰表达SCL配置文件等优点,故选用关系数据库来完成SCL配置文件的数据建模,利用现有数据库的挖掘、备份、恢复、并发控制等技术,可有效地对数据进行管理。借助数据库技术,根据云计算标准关于数据模型的描述,把SCL文件提供的配置信息进行关联、配置,导入数据库中,根据需要导出数据库相关的信息,映射转换成符合要求的配置文件,实现信息复用的目的。在数据库中,表是数据信息挖掘的基本结构,表的架构可以决定显示模块和其他功能模块从数据库中提取数据的方式。在采集编程描述信息SSD文件时,通过在数据库中架构了一系列表,以实现数据存取、处理、修改、备份和维护等基本功能。

3.2 ICD文件建表方案

ICD文件一般由厂商提供,供配置工具使用,由于ICD文件包含的信息量不小,在建表时不可能将这些信息全都存放在数据库中,这样会影响数据库的运行,所以数据库的结构架构应尽量简洁,只需将必要的信息挖掘在数据库中,方便图形显示界面模块调用数据。ICD文件包含的信息可分为标记和数据两部分,其中标记部分的由云计算标准规定,属于静态部分,不需要建表挖掘在数据库中;而数据部分则需要根据实际情况而定,属于动态部分,也是数据库的关键内容,故需要建表挖掘在数据库中。

3.3 XML与关系数据库

编程自动化系统一般采用关系数据库来管理编程中的相关数据,数据库中包含多张表,表中的数据都是以行和列的二维表形式组织在一起的,每行表达了一个唯一的数据记录,列也称为“字段”,表示数据的种类或属性。各表之间通过某种联系关联起来,组成我们需要的数据库。为了实现互操作性和可扩展性,云计算标准通过采用面向对象的方法建立编程设备的对象模型,定义了基于Client/Server的分层数据模型、数据对象描述方法以及面向对象的服务。

3.4 XML文件挖掘系统的架构

目前,XML数据的挖掘方式基本上可分为三类:文件系统、挖掘管理器和数据库管理系统。数据库管理系统方式中基于关系数据库的XML挖掘管理是一种应用比较广泛的方法。根据挖掘时是否使用XML模式,基于关系数据库的XML挖掘方法又能分为结构映射和模型映射。不管采用哪种映射方法,都需要先对XML文件进行编码。XML编码是指对XML文档树的每个节点都按一定的算法进行唯一性编码,根据任两个节点的编码,能够直接判断这两个节点之间是否有祖先、后代等结构关系。目前已经提出了多种XML编码方案,如区域编码、前缀编码、素数编码等。

3.5 XML文件处理系统的架构

XML文件处理是XML文件挖掘的逆操作,是指从关系表中提取挖掘在其中的数据和一些元数据,与相应元素或属性一起重新组成符合XML规范的形式。换句话说,处理XML文件是将散落在多个关系表中的数据重新整合,形成一个完整的XML。相对于XML挖掘系统,XML处理系统的架构较简单。处理系统需能够恢复原XML文件片断的结构和内容,同时保证XML数据的完整性和一致性。架构的主要思想是通过获取节点编号Num,在关系数据库中查找对应的关系模式表的信息,再将查询的数据重新组合成XML文档片断。

3.6 路线设计模块

路线设计模块面向所有用户,是系统的核心模块。用户输入所需查询内容后,系统会根据输入的条件,生成有向路线图,运用Dijkstra算法生成推荐路线。路网信息管理模块,面向系统管理员,主要是用来管理路网中相关路径的拓扑信息,包括查询类似信息以及包含的节点信息等。节点邻接点集生成模块,主要用来生成路径有向图。根据基于分区域、节点邻接点集的推荐路线生成方法,生成系统有向图。推荐路线生成模块,面向所有用户,根据用户输入的运输信息,为用户推荐一条准确性最高的数据查询路径。

3.7 数据挖掘平台云架构

图1 基于云计算的数据挖掘平台架构

如图1所示,该平台是基于云计算平台实现的数据挖掘云服务平台,采用分层设计的思想以及面向组件的设计思路,总体分为三层,自下向上依次为云计算支撑平台层、数据挖掘能力层、数据挖掘云服务层。

数据挖掘能力层模块主要是完成对数据挖掘平台中相关数据的计算以及路径影响因子权重的计算。在用户输入查询信息或者路径基本信息时,系统会按照评估模型的要求,自动对评估因子进行权重分级并且计算出挖掘数据或者路径的风险评估权重值,此模块得到的权重值将直接存入数据库,作为系统的基础数据进行使用。相关数据信息计算要实现代码如下。

4 结语

现阶段,我国对数据挖掘管理工作越来越重视,传统数据挖掘管理方式已不能适应目前科技发展的需要。基于此,将先进的云技术应用到数据挖掘平台的架构工作中无疑是势在必行的。本文详细分析了基于云计算技术的数据挖掘平台,通过研究发现,该系统不但可以充分达成数据挖掘管理的各项任务指标,同时还增加了大量新的管理模块,实现了数据挖掘平台的智能化与高效化。

[1]Han,J,M.Kamber,J.Pei.Data mining:concepts and techniques[C].Morgan Kaufmann series in data management systems,2012.

[2]Luis M.Vaquero,Luis Rodero-Merino,Juan Caceres,Maik Lindner.A break in the clouds[J].ACM SIGCOMM Computer Communication Review,2008(1).

[3]余永红,向晓军,高阳,等.面向服务的云数据挖掘引擎的研究[J].计算机科学与探索,2012(1):46-57.

[4]李智龙,宿绍莹,唐鹏飞,等.基于数字信道化的正弦信号快速测频方法[J].雷达科学与技术,2011(5):474-478.

[5]杨勇,董振江,陆平.具备云计算特性的业务交付平台及其关键技术研究[J].中兴通讯技术,2011(5):55-57.

猜你喜欢
计算技术数据挖掘编程
编程,是一种态度
探讨人工智能与数据挖掘发展趋势
元征X-431实测:奔驰发动机编程
编程小能手
纺织机上诞生的编程
基于云计算技术的FLAC3D软件计算平台的研发
云计算技术在现代化办公系统中的应用
基于并行计算的大数据挖掘在电网中的应用
《物探化探计算技术》2016年1~6期总要目
基于云计算技术的虚拟实训室设计与实现