基于云计算的海量数据挖掘研究

2016-04-14 22:22王治学

山东工业技术 2016年8期

摘要：如今的信息化社会当中，每十八个人之间形成的数据量就能够等同于历史几千年所形成的数据量总和，而且这种数据量还呈现出了非常明显的增加的趋势。那么，面对如此巨大的数据量，它在给人们带来非常广阔的信息内容以及信息结构的基础上也带来了很多挑战，本文将尝试对云计算平台当中的海量数据挖掘功能进行了阐述，总结其中的一些不足，尝试提出解决策略。

关键词：云计算；海量数据挖掘；探究

DOI：10.16640/j.cnki.37-1222/t.2016.08.127

云计算的效率较高、可用价值也比较大，而且其消耗成本也相对较低，将其引入到挖掘数据的工作当中是比较可靠的，本文将就此展开探究分析。

1 在云计算环境当中并行计算模型概述

谷歌实验室曾经提出了一个计算模型或者框架，能够很好地应用在大范围数据处理的工作当中，即Map Reduce，一个正常的Map Reduce作业是由很多的Map以及很多Reduce来组成的，它可以很好的將大规模处理数据的作业转移成若干个Map任务，随后分配到各个机器当中执行，最后生成中间文件，Reduce负责合并中间文件并获得输出文件。

这种技术能够将互联网当中大量的数据进行适当的分解，使之成为大小完全相同的小数据块，同时令其均匀地分布在云计算的网络当中的各服务器当中，最后使用Map Reduce并行计算模型。

2 在云计算基础上进行的大量数据挖掘

2.1 挖掘数据

所谓数据挖掘，换言之就是在数据库当中发现知识的过程，也就是从海量的数据当中寻找到新颖且有效、潜在性较强、可以被理解的模式这样的过程。在云计算基础之上进行挖掘的方式是比较合理的，数据中心能够存储大量的数据，同时还可以结合挖掘数据的需求来进行资源的动态分配，使用恰当的容错机制进行数据挖掘的可靠性的保障。

2.2 在云计算基础上进行数据挖掘的优势

第一，能够很好地展开分布式的并行数据挖掘工作，以此来实现高效且实时的挖掘工作，还可以与不同规模的组织相互适配，为中型以及小型企业带来各种新型成本的计算大环境，在这样的平台当中针对一些特殊的数据进行计算，能够降低高性能、大型机的依赖性。

第二，开发方便，对用户而言，不需要考虑划分数据以及分配数据。

第三，并行化条件背景下，使用原有设备，在一定程度上提升对数据进行大规模处理的能力，同时还提升了容错性以及自由地增加节点等性能。

第四，在云计算基础之上进行数据挖掘能够很好地保证挖掘方式的共享性，大大降低了进行数据挖掘的应用门槛，令海量数据的挖掘需求获得了极大满足。

2.3 云计算基础上挖掘海量数据的模型

在云计算基础上进行海量数据的挖掘服务，其挖掘模型基本上可以分成三层，从下到上依次是：云计算服务层、数据挖掘处理层（其中包括预处理以及算法并行化）、用户层，如下图（图1）所示。

第一，云计算服务层：提供比较良好的并行数据处理功能以及对海量数据进行存储的功能，不但能够保证所存储的数据的可用性，同时还可以保证数据的安全性，比较常见的是非开源GFS以及开源HDFS。

第二，数据挖掘处理层：对数据进行适当的预处理，预处理后数据可以显著地提升挖掘结果的实际质量，令挖掘更有效且更加方便。

第三，用户层：接受用户方的需求，同时将这种需求传递给服务层以及处理层，挖掘信息后将结果反馈给用户。在这一过程当中，用户可以借助可视化管理来监督任务执行，同时还可以在短时间内很方便地进行任务结果的查看。

3 在云计算基础上进行数据挖掘的模型尚且存在的不足之处

3.1 需求上的问题

在云计算基础之上进行数据挖掘，随着时代的发展和进步终究会成为一种非常普遍的服务方式，自然要面对呈现出更加多样性以及个性的需求。就现阶段来说尚且不能满足这种趋势。

3.2 数据量的问题

就数据的数量而言，服务器需要处理的信息数量可能要达到TB甚至超越它到达PB级，而这将会给数据处理带来更大的挑战。

3.3 选择算法的问题

是否能够选择最合适的计算方式以及相对的策略来完成任务在云计算运转的过程中是非常关键的，另外，设计算法以及调节参数，都可能会对最终结果产生非常显著的影响。

3.4 不确定性的问题

在进行数据挖掘的过程当中很可能会出现很多的不确定性，而数据挖掘的最终目的就是把不确定性可能会造成的影响降到最低。通常来说这些不确定性主要有挖掘数据任务过程中描述的不确定性、采集数据并预处理的时候出现的不确定性、挖掘方式的选择以及最终结果存在的不确定性等等。

4 如何开展后续工作

构建平台：充分地结合多样化以及个性化的需求，同时适当结合各个领域、行业之间的特征，打造出专属的挖掘数据的云平台；加大研发：虚拟化技术带来了非常理想的技术支持，因此，在开发云平台的过程当中，需要适当地提升针对虚拟化技术进行的研发，同时促进其成果更加广泛地使用，以便能够实现更高效的自主分配资源；结合实际：进行云服务的相关产品研发过程当中，需要适当地结合社会需求，同时引导群众参与到其中来，能够更好地促进数据个性化发展；算法通用：在可信性上，算法最好选择有通用性的算法，同时保证随时检查以及调整；信息安全：对于数据信息安全的问题，绝对不能像普通的信息安全一样进行简单的直接加密，需要结合客户的实际需求，令其可以在自身的平台终端当中借助适当的加密方式来进行数据保护工作。

5 结语

云存储平台当中数据量不断增加，传统数据挖掘方式渐渐地已经无法与时代相适应，也无法挖掘数据当中所包含的内在信息了，因此，对于挖掘数据库的工作也提出了更加全面的要求，进行云计算以及处理的系统拥有对海量的信息进行存储以及变化的能力，可以成功发掘内在资源，其将会成为处理大量数据信息的最好的挖掘模式。

参考文献：

[1]李凯，常征.基于云计算的并行数据挖掘系统设计与实现[J].微计算机信息，2011（06）.

[2]贺瑶，王文庆，薛飞.基于云计算的海量数据挖掘研究[J].计算机技术与发展，2013（02）.

[3]严骏.基于云计算的海量数据挖掘研究[J].信息与电脑：理论版，2013（04）.

[4]丁岩，杨庆平，钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术，2013（01）.

[5]王鹏，王健安，郭畅等.基于云计算及数据挖掘技术的海量数据处理研究[J].长春理工大学学报：自然科学版，2013（06）.

作者简介：王治学（1981-），男，宁夏固原人，硕士，讲师，研究方向：计算机网络及软件工程。