基于云计算的海量数据挖掘

2017-05-10 16:35付永丹
电子技术与软件工程 2017年8期
关键词:云计算研究

付永丹

摘 要

在一个信息爆炸的时代,基于云计算的海量数据挖掘技术很好地满足了用户对于数据库中可理解知识的精准认识。依靠网络资源,云计算提供了一种动态可伸缩的虚拟性资源模式,实现了用户按使用率付费。云计算在节约资源和提高信息化上具有应用价值。MapReduce是一种云计算环境下的并行计算模型,在数据挖掘方面具有很大技术优势。此外,要很好地应用基于云计算的海量数据挖掘技术,我们还需关注虚拟机迁移、服务器整合、能耗管理、流量管理与分析、软件框架和存储技术与数据管理等的关键问题。

【关键词】云计算 海量数据挖掘 研究

1 前言

我们正处于一个信息爆炸的时代,现在大约每隔十八个月的时间全球的数据量就会翻一倍,而且数据总量还呈现不断增加的趋向。海量的数据为企业或者个人带来了各种便利,但是也带来了甄别、选择有价值数据的难度。而云计算平台正好契合了对此类高效挖掘数据的要求,它拥有高度虚拟化和高可用化的优势,可以对资源进行动态的调度和分配。因此,融合云计算技术和数据挖掘技术无疑是一套很好的解决方案。目前,基于云计算的海量数据挖掘技术已经开始走向商业应用阶段,其中以谷歌实验室提出的MapReduce并行计算模型最具代表性。它具有显著的数据处理效率,可以为各类企业提供有效的数据挖掘服务,能为企业提高增效节支提供助力。

2 云计算

2.1 云计算的定义

云计算是一种依靠互联网提供动态可伸缩的虚拟性资源的模式,它充分发挥了互联网的资源优势,把互联网上暂时闲置的资源加以了合理配置。它是一种全新的理念,是按照使用量付费的新型模式。通过设立计算资源的共享池,它整合了互联网上的各种计算资源,实现了快速、按需和廉价地提供服务。因此,对于用户而言,完全不必知道谁是真正的服务提供者,也无需关心支持云计算的服务器等基础设施是如何工作和管理的。目前,云计算主要存在三种主要的商业模式,它们是软件即服务(SaaS),平台即服务(Paas)和基础架构即服务(IaaS)。

2.2 云计算的应用价值

云计算具有很大的使用价值。首先,云计算通过对互联网上的服务器的集群,对各类资源进行筛选整理并根据客户的实际需求加以有针对性的提供,从而极大地节约了资源。这对于用户和云计算运营商来讲都能节省大量的资源,提供了很大的便利。同时,相比大型计算机的单独运作,云计算在大数据处理,特别是深层数据挖掘和整合方面具有无与伦比的优势。以计算资源池为依托,云计算可以处理海量数据和超大型文件资料。

2.3 云计算环境下的并行计算模型

谷歌实验室提出的MapReduce概念是一个分布式并行编程的模型或者说是技术框架,可用于并行处理大规模的数据。它的主要技术思路是先将一个MapReduce的数据处理作业分解为若干个能够独立运行的Map任务,把任务分配给不同的计算机去执行,生成各自独立的统一格式的某种中间文件,然后由Reduce任务合并这些Map任务,并最终获得一个输出文件。

3 基于云计算的海量数据挖掘

3.1 数据挖掘

简单地说,数据挖掘就是对数据库中的知识发现过程。它是在海量的数据中找到新型的、有效的或是可能有用的并能被人类理解的模式的一个过程。对于企业用户而言,他们希望获得看似混沌的海量数据中可理解的那部分知识,而且希望这类知识是非常精准的,比如一些电商用户希望了解他们服务的客户群体的行为模式和偏好等。

3.2 云计算数据挖掘服务的优势

总体而言,基于云计算的海量数据挖掘具有四方面的优势。

(1)基于云计算的海量数据挖掘采用分布式数据挖掘的方式,效率非常高,而且是实时动态开展的。因此,它的应用面非常广泛,能够满足不同类型、不同规模的组织形态的需求。它既能为中小型用户节约大量的资金成本,提高工作效率,又能帮助大型企业用户缓解特定数据处理的需求对于大型计算机的技术依赖性。

(2)对于用户而言,基于云计算的海量数据挖掘使用起来非常简便。由于云计算分布式的数据处理模式,用户不必考虑数据划分和数据分配等繁琐的数据挖掘处理的过程。

(3)基于云计算的海量数据挖掘提高了原有机器设备的利用率水平,通过服务器集成和协同工作提高了处理大数据的能力。而且,它的资源利用的可伸缩性非常灵活,并具有很高的容错能力。

(4)基于云计算的海量数据挖掘把应用的门槛放得很低,实现了数据挖掘技术上的资源共享,回应了市场的急切需求。

3.3 云计算技术在海量数据挖掘过程中的关键问题

要很好地实现云计算技术在海量数据挖掘中的作用,还需要妥善解决虚拟机迁移、服务器整合、能耗管理、流量管理与分析、软件框架和存储技术与数据管理这六方面的关键问题。

(1)实现虚拟机迁移是为了回避热点,减轻数据负载,使数据处理处于减压平衡的状态。但是,由于目前的技术水平限制,系统的灵活性还尚显不足,回避热点有时较难做到。此外,一些服务器的数据负载能力无法与高效的迁移需要相匹配。

(2)通过服务器整合,让高频与低频错位配置,能够把能耗压缩到最低。但是,这种理想的状况常常会被资源利用的动态性所打断,从而出现瞬时的信息拥堵情况的发生。

(3)能耗成本在云计算运营中的占比非常高,大致超过了一半的成本支出。

4 结语

總之,传统的数据挖掘方式已经无法满足用户的需求,而云计算技术对于海量数据挖掘和数据处理方面具有极大的优势。通过对云计算关键技术问题的解决,云计算在海量数据挖掘上必能有更大的作为。

参考文献

[1]巴济慈.基于云计算的海量数据挖掘处理与研究[D].长春:长春理工大学,2013.

[2]贺瑶,王文庆,薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(02):69-72.

[3]王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机(专业版),2009(11):22-25+50.

[4]袁其帅.云计算在海量数据挖掘过程中的问题探讨[J].信息与电脑(理论版),2015(20):98-99.

猜你喜欢
云计算研究
FMS与YBT相关性的实证研究
2020年国内翻译研究述评
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
新版C-NCAP侧面碰撞假人损伤研究
实验云:理论教学与实验教学深度融合的助推器