基于云计算技术的数据挖掘平台建设策略

2020-12-07 17:37张智驹
魅力中国 2020年42期
关键词:计算技术决策树内存

张智驹

(重庆航天职业技术学院,重庆 400021)

引言

伴随着数据挖掘平台的容量不断增加,很多数据分析和数据计算都要站在更高的层面上探究。云计算技术的运用能够对数据挖掘平台提供更多的服务,在一系列的问题解决和调整层面上,告别了传统技术的不足。但是,二者共同融合、共同服务的时候,必须加强制度的优化和平台管理的创新,保持数据挖掘平台的稳定运行。

一、云计算技术和大数据挖掘介绍

云计算技术是一种以互联网为基础的计算模式,通过虚拟化的方式处理信息资源,并进行计算云计算技术具有强大的储存功能,能够有效提高用户使用的便捷性,云计算是并行计算和分布式计算的发展结果。数据挖掘是指从大量数据中挖掘具有价值数据的过程,通过数据挖掘能够发现大数据中所隐藏的价值和知识,并对用户进行指导作用,目前数据挖掘技术并用到了多个领域的决策指导中。数据挖掘主要包括预测任务和描述任务两种预测任务是指根据属性对目标属性做出预测描述,任务则是将数据间隐藏的联系所描述出来。在大数据中应用数据挖掘能够获取更大价值的信息数据,从而为各行各业创造出更大的效益。

二、基于云计算的大数据挖掘分析

(一)大数据挖掘

在数量庞大的数据中隐藏着具有很高价值的数据信息,同时数据类型也存在多样化的特点,比如说文本形式,数据信息,图片,视频形式的数据信息。大数据挖掘就是指从这些海量的数据中挖掘出具有价值的数据信息,然后为用户提供所需的数据由于大数据数量庞大,价值密度低,导致传统的数据挖掘,无法快速高效率的挖掘数据。因此全新的大数据挖掘技术就此出现并发挥出了积极的作用,大数据挖掘具有广泛性,主动性和复杂性的特点,广泛性是指大数据挖掘过程中,挖掘的数据源十分广泛,主动性是指大数据挖掘使用收集数据的方式,主动进行数据收集,复杂性则是指大数据挖掘过程中挖掘的数据类型十分复杂。

(二)基于云计算的大数据挖掘

近年来我国互联网技术在不断的发展,数据传输的速度变得极快,因此产生的数据量也越来越多,对于用户来说信息需求较大,这种时候大数据技术和云计算技术得到了快速的发展,以此来满足用户的需求。在大数据时代传统的数据挖掘已经无法满足用户需求,需要通过基于云计算的大数据挖掘来解决数据挖掘存在的问题,不仅能够弥补传统数据挖掘中的漏洞,还能够有效地提高数据处理的速度和效率,实现大数据挖掘。基于云计算的大数据挖掘具有众多的优势,能够在海量数据中挖掘出有价值的信息,并将数据信息高度应用,这是传统数据挖掘技术的创新发展,能够实现大数据时代的快速传递和处理。

三、于云计算的数据挖掘系统

(一)系统框架

本文提出基于云计算的数据挖掘系统,以应对日益暴增的数据。该系统由云计算平台和数据挖掘算法两个部分组成。云计算平台采用SPARK 框架,之所以不选择HADOOP,主要是因为SPARK 相比HADOOP 具有更高的效率,适合迭代运算,并且用户只需要定义好算法逻辑,即可,其余的如大数据处理的底层交互、节点通信、数据运算等都可以由SPARK 框架自由实现。数据挖掘算法方面则有很多种实现方法,比如分类决策树算法,该算法的核心是ID3 算法,属于机器学习算法中的一类,分类决策树发扬了ID3 算法的长处,实现了用信息增益率来选择属性,可在决策树构造中进行剪枝,可以对连续属性进行离散化处理,可以对不完整数据进行处理。该算法实际上并不高效,因为其在构造决策树的过程中需要对数据集进行多次顺序扫描以及排序,而且仅适合可以驻留在内存中的数据集,如果数据集大,会导致宕机。犹如K-means 算法,该算法在1967 年便已经出现,后续经过版本更替,其算法描写可以叙述为输入簇的数目K,包含N 个对象的数据集D,输出K 个簇的集合。

(二)云计算平台

云计算平台通过SPARK 框架来进行架构,在SPARK 框架下,主要是讲数据以分区方式存储,即RDD,在数据处理中,SPARK 需要先对待处理数据创建一个RDD,然后对RDD 施加转换和行动操作。转换的主要目的是促使RDD 迭代,即利用某些函数来促使旧的RDD 迭代为新的RDD,然后行动操作利用具体的算法来将RDD 中的数据进行计算,进而返回计算结果。RDD 默认情况下是存储在内存当中,对内存的要求非常高,当然实际上可以通过调整设置,将RDD 存储在存储器当中,但运算速度会比较慢,一些经常使用的RDD 若存储在存储器当中,在运算时需要将其调用至内存中,多了一个过程,导致变慢,所以可以将一些常用的RDD 保存在内存中。基于SPARK 的云计算平台架构,用户采取自定义程序的方式,先定义好应用程序,然后提交至SPARK 集群,主节点上启动进程MASTER,子节点上则启动进程WORKER,主节点进程MASTER 会在子节点的WORKER 上启动一个任务管理程序DRIVER。在DRIVER 中,任务的复杂程度由SPARKCONTEXT 进行判别并向主节点申请处理器和内存的资源。

结语

随着科技的发展和时代的进步,云计算与数据挖掘平台结合以后,实现了平台的全面创新,整体上的工作安排比较符合预期目标,在技术的创新效果上非常显著。但是,云计算的运用也是不断革新,在二者的功能融合和技术联动过程中,需要对数据挖掘平台的风险、云计算的风险开展深度的评估,站在不同的层面上进行探究,提高数据挖掘平台的可靠性。

猜你喜欢
计算技术决策树内存
新时期计算机网络云计算技术研究
笔记本内存已经在涨价了,但幅度不大,升级扩容无须等待
“春夏秋冬”的内存
决策树和随机森林方法在管理决策中的应用
浅谈云计算技术下的GIS软件工程模式
云计算技术在现代化办公系统中的应用
决策树学习的剪枝方法
决策树多元分类模型预测森林植被覆盖
基于物联网和云计算技术的葡萄园监测系统研究
内存搭配DDR4、DDR3L还是DDR3?