基于云计算的大数据挖掘内涵及解决方案研究

2018-01-11 13:54曹小阳
数字技术与应用 2017年11期
关键词:云计算解决方案

曹小阳

摘要:本文探讨了大数据挖掘的基本概论,分析了云计算的大数据挖掘构架,研究了Hadoop的大数据挖掘平台。

关键词:云计算;大数据挖掘内涵;解决方案

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2017)11-0108-01

如今云计算与大数据不仅改变了人们生活和工作的方式,还改变了我国市场经济的发展模式,更重要的是云计算和大数据可能会改变信息化的发展方向。但是为了突破传统数据挖掘存在的弊端,开始将云计算与大数据挖掘现结合,从而为用户提供更加有效的数据,满足其多元化的需求。然而基于云计算的大数据挖掘,还需要对大数据挖掘中潜在的弊端进行了解,需要采取有效的解决方案才能促使两者之间进行有效的融合,从而使其能够得到有效的应用。

1 大数据挖掘的基本概论

大数据挖掘是指从数据类型、数据容量、数据变化上能够进行有效地运转,将数量庞大的数据中提取具有一定价值的、可应用的数据信息,并将其储存到数据库中供用户使用。大数据挖掘与传统的数据挖掘方式比较而言。虽然两者的操作目标相同,都是以搜集有价值的信息作为主要目标。但是从技术操作方面大数据挖掘与传统数据挖掘存在的差异较大,通过对大数据挖掘的背景及技术操作方式进行详细的分析。

随着我国科技的不断发展,以信息技术为基础的自媒体被普遍的应用到人们的生活和工作中,但是终端媒体是需要数据支持的,随着数据价值的不断提升,其所发挥的功能性就越强。通过数据的组成、应用、发展而言,传统的数据挖掘在复杂程度与发展状态来看,其与大数据挖掘并没有可比性,后者在新时代发展的背景下产生的,能够有效的为移动智能终端、物联网和云计算提供数据支持。但是在大数据挖掘过程中依然存在诸多的不足,所以要不断地提升大数据挖掘的技术应用的科学性与先进性。

大数据挖掘技术与传统数据挖掘技术相对比,两者所要面对的处理对象截然不同,传统数据挖掘是对系统中划定领域中数据的基础上融入部分Web数据,其数据通常是用户自动生成的信息,此数据的类型大部分都是结构化的数据。大数据挖掘的主要对象就是结构化的数据,并详细、具体的管理Web系统及信息系统,且对感知信息系统和设备产生的仿真数据加以分析,由此可见大数据挖掘对于信息资料的应用更加全面、深入。其与传统数据挖掘技术比较来说,大数据挖掘的对象数量庞大、涉及范围广、数据复杂繁琐,主要应用的是主动搜集的方式,能够很好地为用户提供更加丰富、多样、实时的数据信息。然而当前大数据挖掘还不够稳定和具体。

2 云计算的大数据挖掘构架

2.1 云计算的应用特点

云计算因其具备虚拟性、可操作性、可拓展性等优势,而被应用到大数据挖掘中,从而有效的弥补其潜在的弊端,切位大数据的挖掘提供持续的动力支持。云计算的关键组成部分包括:分布式并行计算、分布式文件存储。分布式存储是将大数据中分布的文件进行存储,主要在大量的分布较广的数据中得到了有效的应用。如:GFS系统的延展性较高,但是在小型存储文件中难以发挥有效的应用,通常都会发生单点故障。当前部分开发商按照经营的业务特点对云计算中大数据挖掘的方案加以推广,如:谷歌最新开发的搜索引擎,在搜索过程中能够对大数据进行合理、有效的分析;微软是将Hadoop与WindowsAzure进行了有效的融合,并在软件集成中运用了智能BI技术,如此一来便能对技术平台进行了合理的优化,能够对数据实施动态的更新。而其他用户只能在开源Hadoop平台不断地健全基本功能,如:Yahoo在Hadoop平台上研发了Pig,Facebook研发了Hive等。即使大数据挖掘的基本架构较为相似,但对于云计算与挖掘的构建方式却各不相同。在对各类数据挖掘平台的可行性进行分析时,就要将其中的解决方案进行不断地互补与融合[1]。

2.2 大数据挖掘架构

综合以上研究发现:对于大数据挖掘体系架构进行深入的了解,其不仅汇集了多种计算、存储模式,且具备细致的分析功能,其组织架构表现为云计算-客户端的模式。此架构主要包括:支撑平台层、功能层、服务层。大数据挖掘构架体系图1所示。

3 Hadoop的大数据挖掘平台

基于Hadoop平台的大数据挖掘主要由三层:数据源、大数据挖掘平台、用户层。数据源作为一种冗杂的挖掘对象,主要包括:结构数据、半结构数据、非结构数据共同组成;大数据挖掘平台主要是以Hadoop平台为基础,内部涵盖了不同的计算模式及挖掘等功能,同时按照数据辩护的的特征进行有效的提取;用户层就是通过交流的反思对数据进行了解和应用。大数据挖掘平台中,HDFS、HBase、MapReduce有着安全性、扩展性、容错性、高效性等多种功能,计算模式主要由:批处理、流处理。MapReduce在数量庞大、更新较慢的数据进行挖掘,Flume、Pig等在数据流的动态数据挖掘上的弹性较大。但是Hadoop不适合少量流动较慢的数据及复杂繁琐的数据图。所以要将传统的数据库和操作方式应用到Hadoop平台中[2]。

当前大数据预处理是建立在MapReduce的基础上,将传统预处理技术、数据流实时处理、多模态实體识别、DeepWeb集成、远程自动采集融合等技术进行的有效的应用,从而加强其预处理的整体功能,如:在数据的传输过程中,通过有效的流式计算技术及嵌入式中间件多级数据处理技术,能够对原始数据和数据流进行适时的挖掘。

4 结语

云计算与大数据是信息科技于社会经济高度发展的产物,且科技的发展总是潜移默化的改变着人们的思维模式和生活方式。由于信息技术的不断开发与应用,大数据这座宝库也在不断地被挖掘,但大数据作为新兴产物对此还没有绝对的能力去进行良好的好处理。因此在云计算的基础上进行大数据挖掘能够对信息进行实时、有效的处理,确保能够为用户提供及时的、有效的、崭新的信息资源。

参考文献

[1]刘镇.基于云计算的大数据挖掘内涵及解决方案研究[J].科技风,2017,(19):39-39.

[2]邓仲华,刘伟伟,陆颖隽.基于云计算的大数据挖掘内涵及解决方案研究[J].情报理论与实践,2015,(7):103-108.

Abstract:This paper discusses the basic introduction of big data mining, analyzes the big data mining framework of cloud computing, and studies the big data mining platform of Hadoop.

Key Words:cloud computing; big data mining connotation; solutionendprint

猜你喜欢
云计算解决方案
艾默生自动化解决方案
解决方案和折中方案
S700K-C转辙机防水解决方案探讨
实验云:理论教学与实验教学深度融合的助推器
4G LTE室内覆盖解决方案探讨
Moxa 802.11n WLAN解决方案AWK-1131A系列