基于云计算的海量数据挖掘研究

2017-04-27 16:01李响
电子技术与软件工程 2016年15期
关键词:云计算数据挖掘

摘 要 随着互联网的快速普及,以及移动互联网和智能终端设备的广泛使用,产生了大量的互联网数据。云计算和大数据技术应运而生。近年来,每年产生的海量数据是20世纪末期十几年数据的总和,这些数据冗杂。为了更好的提升数据分析质量和数据挖掘效率,加强基于云计算数据挖掘的研究与计算机方针意义重大。仿真技术的应用极大优化了数据挖掘的工艺流程。本文浅析了研究基于云计算海量数据的必要性,针对海量数据挖掘研究的主要方法,提出了研究基于云计算的海量数据挖掘基本原则。

【关键词】云计算 数据挖掘 研究原则 计算仿真

云存储技术和大数据技术的发展使得海量数据的挖掘极具现实意义和指导意义。对于电子商务而言,海量数据挖掘可以了解不同消费者的消费习惯和消费原则。对这些大数据的云计算可以帮助商家更好的为消费者提供电子商务服务。对于各行各业,基于云计算海量数据的挖掘研究,需要正确的研究方法和挖掘手段的使用。深度挖掘有效提升了挖掘的质量和挖掘效率,对于海量数据的信息筛选作用效果明显。

1 研究基于云计算海量数据挖掘的必要性

1.1 有利于获得网络价值信息

网络数据之间存在一定的弱关联性,通过网络数据有价值信息的筛选和分析,有利于更好的发展互联网网络和服务水平。当然,由于互联网网络平台准入门槛较低,充斥着大量的网络垃圾信息。云计算技术是以大数据为依托,结合相关数学模型仿真,实现网络数据的高效管理。研究数据挖掘可以从海量信息中提取最有价值的网络数据和相关信息。

1.2 有利于提升信息获取效果

互联网的快速普及,应用在各行各业,极大改变了不同行业的经营模式和运作效率。对于互联网用户而言,互联网数据蕴含了自身的网络行为和思想。一些行业为了不断提升网络平台的服务质量,做到“投其所好”,就要在第一时间识别出网络用户的基本用网习惯和用网需求。借助云计算数据挖掘,可以让不同行业在最短时间获取相关信息,提升获取效率。

1.3 有利于推动大数据技术应用

大数据技术的应用需要云存储技术和大数据管理技术呈现匹配性的发展。大数据技术的核心任务之一,就是利用对海量网络信息的数据挖掘,理清数据之间的弱关联性,并不断提升网络数据的管理质量。云计算是一种以计算仿真为实现手段的信息处理形式,研究基于云计算的海量数据挖掘,有利于推动大数据技术应用,实现大数据技术的系统化发展。

2 基于云计算海量数据挖掘研究的主要方法

2.1 数据关联性挖掘法

在对云计算环境下的海量数据进行价值提取与细节分析时,关联性数据挖掘,可以将发散的网络数据集中化。弱关联挖掘法一般分为三个步骤:首先,确定挖掘数据的范围,收集所要处理的数据对象。明确关联性研究的属性。其次,海量数据的预处理。对数据进行噪声处理,保障挖掘数据的完整性和真实性,将预处理结果保存在挖掘数据库中。最后,塑造训练的数据挖掘。利用排列组合进行实体阈值分析。

2.2 数据模糊性学习法

模糊性学习法是一种重要的数据挖掘方法,其挖掘原理就是假设云计算平台下存在一定数量的信息样本,对任意一个样本进行指标描述,计算所有样本的标准差,实现数据的高度压缩与挖掘价值信息操作。数据模糊性学习法应用在海量数据的挖掘的关键是模糊录属函数的筛选与确定,进而实现基于云计算的海量数据挖掘价值信息的模糊化实际操作。网络数据的结点信息需要在激活的条件下收集。

2.3 Apriori计算挖掘法

基于云计算海量数据挖掘方法的主要形式之一就是Apriori算法基础上的数据挖掘。与其他算法不同,Apriori算法最大的技术优势在于可以有效避免海量数据的复杂性和冗繁性带来的数据挖掘算法收敛性较差的缺陷。利用计算仿真模拟,在节省投入成本的前提下,大大提升了海量数据的挖掘速度。

3 基于云计算的海量数据挖掘的基本原则

3.1 准确性原则

云计算为数据挖掘提供了平台,对于海量数据的挖掘,特别是深度挖掘,挖掘结果的准确性直接影响数据的后期使用,对于互联网后期的优化意义重大。在基于云计算的海量数据挖掘,无论采取何种方法和算法,必须保障数据分析结果的准确性。一方面,验证挖掘方法选择的准确性和匹配性。另一方面,通过不同数据挖掘手段,对最后结果进行偏差分析,已找到影响准确性的关键因素。

3.2 便捷性原则

云计算平台主要借助计算机进行计算仿真和挖掘程序运算。对于海量数据的挖掘分析需要具备的便捷性。一方面,基于云计算平台海量数据挖掘的流程要在实践分析过程中不断优化流程,提升挖掘的时间效率。另一方面,数据挖掘的方法和手段的选择要具有可控性强的特点。利用人力和财力的投入,可以实现海量数据的便捷挖掘,避免操作过难对数据挖掘任务的延迟。

3.3 安全性原则

由于互联网信息需要包含个人的基本真实信息。对于云计算海量数据挖掘的安全性直接影响被挖掘海量数据在云计算平台的安全性。近几年来,一些基于信息泄露造成的人民财产损失总量较大,严重危害了每一个公民的网络使用安全。在对海量数据进行挖掘时,可以通过独立挖掘系统的应用,隔离原始数据,避免挖掘分析过程对信息安全性的威胁。同时,对余挖掘数据结果进行二级加密。

4 结论

云计算作为大数据技术的内容之一,对于大数据的推广应用意义重大。通过价值信息的提取,有利于提升互联网服务水平。在进行海量数据挖掘时,需要理解并熟练掌握主要的方法技巧,以準确性、便捷性和安全性原则展开具体的数据挖掘工作。

参考文献

[1]刘增锁.云计算环境下海量数据中侵入检测挖掘模型研究[J].计算机仿真,2015(11).

[2]黄华.基于大云数据快速挖掘过程的研究与方针[J].计算机仿真,2016(06).

作者简介

李响(1992-),男,四川省成都市人。研究生学历。研究方向为知识工程与应用软件。

作者单位

东北师范大学信息与软件工程学院 吉林省长春市 130000

猜你喜欢
云计算数据挖掘
基于并行计算的大数据挖掘在电网中的应用
实验云:理论教学与实验教学深度融合的助推器
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究