云计算技术在数据SLIQ算法中的应用

2016-01-12 10:06耿家礼,王会颖
通化师范学院学报 2015年10期
关键词:云计算技术计算机

云计算技术在数据SLIQ算法中的应用

耿家礼,王会颖

(安徽财贸职业学院,安徽 合肥 230601)

摘要:云计算技术是当前实施数据处理的重要技术,在数据SLIQ算法中应用云计算技术,可以针对不同数据类型和数据格式信息实施相应的处理,从而降低计算机数据处理难度,并提高数据处理效率.该文在对云计算技术在数据SLIQ算法应用的研究中,提出具体的应用策略,包括:构建云服务平台、细化云计算下服务分层、实施云计算下SLIQ算法.并且在文章最后对其应用效果加以探讨,发现采用云计算技术,能够把计算机海量数据信息都存储为一个服务器群,从而有效确保各种硬件和软件资源在互联网上实现自由流通,有效减轻了计算机数据处理人员的工作量,加快查询速度,能够显著缩小开支,提高工作效率与准确率.

关键词:计算机;云计算技术;SLIQ算法

DOI:10.13877/j.cnki.cn22-1284.2015.10.003

收稿日期:2015-06-11

基金项目:安徽省教育厅自然科学研究项目“基于MapReduce和蚁群算法的SaaS集成服务与应用”(KJ2013B010)

作者简介:耿家礼,男,安徽凤阳人,讲师.

中图分类号:TP274文献标志码:A

随着时代的发展和客户需求的不断变化,计算机采集数据计算正在不断增大,计算机处理数据已成为当前技术的主要发展趋势.针对不同数据类型和数据格式的信息,要想通过计算机实现对数据的处理,其难度也在相应提升.因此,基于云计算技术的发展,可以在云计算技术支持下,改进传统的数据处理方法.本文基于并行SLIQ算法对计算机数据的处理分析,提出了云计算技术在此数据处理过程中的具体应用策略及其应用效益.

1计算机数据处理

基于云计算的计算机数据处理中,能够为客户数据处理提供动态资源池,并可以实现虚拟化可用性计算机数据处理平台,这样就可以利用云计算来对计算机数据进行计算挖掘[1].

云计算设计的计算机数据处理,是基于数据的二次开发,设计出具备多层插件的框架结构,如图1云计算中数据计算模型所示.在基于云计算的计算机数据SLIQ算法中,可以通过云计算平台提供的服务来实现对数据的处理.云计算技术处于模型的底层,可以透明化实现为上层数据计算提供服务.云计算中数据计算模型的上层,可以有效通过计算机的层间开放接口,调用下层中的数据服务.基于该模型,在数据SLIQ算法中,可以实现并行决策树层,以及层之间功能,能够保证层间的相对独立性.

图1 云计算中数据计算模型

2数据处理的SLIQ算法

在SLIQ算法中,可以采用预排序的技术,有效满足云计算决策树中每个结点数据集排序需要,对每个属性取值,按从小到大排序进行记录,为训练集数据的每个属性创建一个属性列表[2],运用广度优先策略构造决策树,在决策树的每一层,只需对其每个属性的列表进行扫描,就可以一次找出其决策树叶子结点的最优分裂标准,从而提升数据处理效率.

在SLIQ算法的数据结构中,包含属性表(Attribute List)、类表(Class List),其中,SLIQ算法中的每个属性有一个属性表,有必要的话,属性表可以写回磁盘类表(Class List),磁盘类表结构如图2所示.

属性值指向类表表项的索引

图2属性表结构

SLIQ算法中仅有一张类表,类表必须常驻内存,类表第n项,存放第n条记录的类标签,类表(Class List)表示如图3.

类标签指向该条记录所属树结点的索引

图3类表结构

SLIQ算法的数据结构中,还包含树结点、内部节点记录必要的分类信息,叶子节点代表训练集的一块数据,也就是一个类别.每个节点之中,也都具有一个类的直方图,可以在计算机数据处理中,用此图来统计分类数据信息.

SLIQ算法树结构中的数值型字段的类直方图,如图4.

C1C2…CnLfR

图4数值型字段表结构

SLIQ算法树结构中的种类型字段的类直方图,如图5.

C1C2…CnV1fV2…Vm

图5种类字段表结构

SLIQ算法中,具备预排序与广度优先增长策略;而且在 SLIQ算法中,还有预排序与广度优先增长策略,计算出最佳分割以后,就可以产生子节点了;子节点生成以后,需要对类表进行更新,使它指向原来节点的子节点,其更新类表算法代码如下:

UpdateLabels()

for each attribute A used In a split do

traverse attribute list of A

for each value v in the attribute list do

find the corresponding entry in the class list (say e)

find the new class c to which v belongs by applying the

splitting test at node referenced from e

update the class label for e to c

update node referenced in e to the child corresponding to

the class c

3数据SLIQ算法对云计算技术的应用

3.1构建云服务平台

在基于云计算技术的SLIQ算法中,将会应用“云服务”,针对云计算公共标准,基于云计算开发网络平台,有效分类、管理、利用计算机数据资源,确保数据在“云端”的安全性,选择需求的云计算服务,提升数据平台开发的质量.计算机数据处理,在实际应用领域内,给数据管理工作带来实际应用优势,选择适合数据分析模型的关联规则,建立数据仓库,并对其进行数据清理、数据转换、数据消减等,应用基于云计算技术的SLIQ算法,大大优化了数据管理质量.

3.2细化云计算下的服务分层

对于硬件开发部门,将会应用云计算技术,利用“云端”、计算机系统、局域网组建互联网的形式,有效提升硬件开发的质量和水平.在应用开发中,应用三层次服务,通过网络中计算机或移动设备,借助云服务功能来提升计算机数据处理速度,避免重复开发;在内存管理中,可以实时依照用户需求提供强大的虚拟存储管理机制,在软件设计中,可以实现任务调度,以及创建新任务的功能[3],具备中断管理、时间管理功能,还可以在系统的软件设计中,设计出基于云计算数据处理中的时钟程序.

3.3实现云计算下的SLIQ算法

云计算下SLIQ算法中,根据MDL剪枝原理,对数据进行编码,通过生成的初始树,发现最好的描述训练集S的子树T,从而有效地提升计算机对数据的处理能力.但是,SLIQ算法还存在一些不足,比如,云计算技术的SLIQ算法中,云计算过程中把类别列表存在内存中,由于计算机内存有限,造成数据集的大小也受到一定限制;云计算技术的SLIQ算法中,采用的是预排序技术,由于实际排序算法复杂,在实际应用中,数据结构线性可伸缩性受到限制.

要实现数据库内数据的转换,首先,确定所要分析数据具备哪些参数,定义统计数据,确定统计时间段和参与SLIQ计算的字段;其次,对数据(以部分学生成绩为例)进行预排列,确定数据结构及树节点信息.类型字段直方图如图6、图7所示.

图6 数据结构

图7 直方图

基于SLIQ算法中,针对实际数据处理中改进SLIQ算法,避免 SLIQ 算法大量计算云计算决策树中每个节点的指数,从而可以获得每个节点的分裂属性,减少计算复杂性,提升分类效果, 类图如图8.

图8 类图

Maketree(data) // 建立其云计算技术的决策树

{

创建数据的属性表

12malists ,alistsΛ ,alists且在每个属性表中

ialists 包含属性i

A作为计算机数据的记录

可以建立其直方图

for i = 1 to n

val =( alists[i ][m]?alists [i][0] )/num

count = 0

while count

然后遍历计算机数据的属性

iA ,并计算Gini指数值,

重复操作并确定出最佳分裂点

// 计算数据的Gini指数

gini = calc(l[c],r[c])

if ginival > gini

ginival = gini

splitval = split

attr = Icount++

if

gini = 0

return //

当 Asplival

attr

当 Asplivalattr< ,

maketree(data1)

maketree(data2)

}

云计算技术的SLIQ算法中,计算最佳分割的算法代码如下所示.

Evaluate Splits ()

for each attribute A do

traverse a ttribute list of A

for each value v in the attribute list do

find the corresponding entry in the class list, and

hence the corresponding class and the leaf node (say l)

update the class histogram in the leaf l

if A is a numeric attribute then

compute splitting index for test (A <= v) for leaf l

if A is a categorical attribute then

for each leaf of the tree do

find subset of A with best split

建树阶段中,首先应该提高“确定最佳分裂(Best Split )”的可伸缩性,确定数值型字段,寻找最佳的子集,遍历所有子集,时间复杂度为指数级[4].其次,选择导致最低错误率的子树;使用独立的数据集,快速得到简洁而且准确的决策树.最后,得出决策树,经过程序对决策树进行普及之后,得出数据处理结果.

3.4效益分析

针对计算机数据处理,基于云计算技术,应用SLIQ算法处理数据,改变以往计算机数据管理模式,将人工手动管理转变为计算机网络化管理,使数据处理方便快捷,提高了数据的安全性.采用云计算技术,将计算机数据信息都存储为一个服务器群,使各种硬件和软件资源在互联网上能够自由流通,可以减轻计算机数据处理人员的工作量,加快查询速度,加强管理,缩小开支,提高工作效率与准确率.

综上所述,针对计算机数据,应用基于云计算技术的SLIQ算法,可以有效解决计算机数据计算问题,处理计算机数据,不仅可以解决计算机数据存储中节点失效的问题,而且提高了计算数据的效率,具有实际应用价值.

参考文献:

[1]蔡建新,徐迪威.基于云计算平台的海量数据挖掘技术在塑料电子商务平台中的应用[J].广东科技,2011(16):58-59.

[2]曾志.云格环境下海量高分遥感影像资源与服务高效调配研究[D].杭州:浙江大学,2012.

[3]吕国斌.云计算环境下的科学工作流关键技术研究[D].武汉:中国地质大学,2012.

[4]戴海祥.云计算技术在计算机实验室建设过程中的应用[J].硅谷,2013(02):155-176.

(责任编辑:王前)

猜你喜欢
云计算技术计算机
计算机操作系统
穿裙子的“计算机”
基于计算机自然语言处理的机器翻译技术应用与简介
计算机多媒体技术应用初探
信息系统审计中计算机审计的应用
云计算技术的应用与发展
云计算环境下分布存储关键技术研究
计算机网络安全
关于保险消费者云计算服务平台的研究
科技期刊编辑出版工作中云计算技术的应用