大数据挖掘及分析技术研究

2019-09-09 08:14吴胤霖张必彦曾科军
数码世界 2019年5期
关键词:数据分析数据挖掘大数据

吴胤霖 张必彦 曾科军

摘要:介绍了大数据产生的背景和来源,针对人们对大数据进行挖掘和分析的迫切需求,提出了数据挖掘和分析的过程,阐述了数据挖掘和数据分析的几种方法,最后作了总结。

关键词:大数据 数据挖掘 数据分析

引言

自计算机和互联网技术飞速发展以来,人们的工作、生活乃至思维方式都受到了巨大的影响。二十一世纪以来,互联网得到了快速建设,尤其是移动互联网和智能终端迅速普及,导致全世界数据量出现爆炸式增长,每年产生的数据量已达到ZB量级。如今,各行各业中己经开始积累着大量数据。可以断言,我们正处在一个大数据时代。国外的谷歌、亚马逊,国内的阿里巴巴、腾讯等企业投入了大量的人力和财力到大数据的挖掘和分析中并从中获取了大量的机遇和财富。更多人希望从这些数据中获得机遇和财富,因此也意味着人们对数据挖掘和分析提出了更高的要求。

数据挖掘就是从大量数据中发现隐藏信息和知识的过程。由于人们面对的数据量非常的庞大,数据的种类非常的丰富,因此,数据挖掘逐渐形成了一个学术领域。数据挖掘涵盖了多个学科的知识,包括数学、统计学、计算机科学、机器学习等等,在数据分析的过程中还会涉及到社会学、经济学、心理学等等。它的目的就是从大数据中发现知识、规律和趋势,为决策提供信息参考。数据挖掘技术近几年发展很快,其成果己被广泛应用于管理决策、市场分析、人工智能、国家安全和生产控制等领域。

1大数据挖掘及分析过程

大数据挖掘及分析通常按照以下步骤进行:

(1)明确问题。无论面对何种存储格式,何种类型的数据信息,首先要清晰的定义出问题,明确数据挖掘的目的;

(2)数据预处理。在面对海量原始数据或者大型数据库时,为提高效率,首先要提取出需要进行挖掘的目标数据集,然后再对目标数据集进行预处理。数据预处理的内容通常包括检查数据的完整性、数据的有效性、量纲的转换复原、去除数据噪声、补全缺失数据,去除无效数据等工作。

(3)数据挖掘。根据数据的类型、数据的特点以及数据挖掘的目的选择一种或多种恰当的算法,应用于经过预处理的数据集上,进行有目的、有效率的数据挖掘。

(4)数据分析。对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

2数据挖掘的主要方法

目前较为常用的数据挖掘方法主要有以下6种:

(1)神经网络方法。神经网络方法是在模拟人脑神经组织的基础上发展起来的方法,它具有自组织自适应性,适合并行处理和分布存储,拥有非线性映射能力和容错能力,非常适合用于数据挖掘。在对模型的预测中,该算法具有很强的优势,利用神经网络方法可以对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位时,速度快,同时描述也很简洁,在大规模数据处理时,这种方法的应用性很强。但是神经网络算法也有收敛速度较慢的缺点。

(2)遗传算法。该算法是一种随机搜索算法,常用来解决最优化问题。学者们受到生物学里遗传、基因突变和杂交等现象的启发,从而发明了这种随机搜索算法。遗传算法具有隐含并行性、较好的收敛性和可扩展性等优势,从而在数据挖掘中得到了较为广泛的应用。但是,遗传算法也有编码复杂、训练时间长,而且可能得到的是局部最优解而非全局最优解等缺点。

(3)粗糙集方法。粗糙集是1982年由波兰学者首先提出的一种建立在分类基础上的理论,它的诞生就是为了解决不精确和不确定知识的问题。粗糙集方法在处理不确定问题时不需要先验信息,而且能在保留信息的前提下有效的对知识约简,算法也比较简单。该方法可以和神经网络方法结合起来使用,能有效加快神经网络的收敛速度。粗糙集方法在很多领域中已经得到了广泛应用,而且自身也处于不断发展之中。

(4)模糊集方法。模糊集也是一种研究模糊现象的方法。它以模糊数学为基础,通过建立隶属函数来对问题进行模糊评判和分析。模糊集方法目前已经解决了很多传统理论无法解决的问题,并且取得了良好的效果,模糊集方法的主要缺点是在需要提高精度的时候,必然会降低决策速度,甚至在一些复杂的系统中无法取得满意的结果。

(5)决策树方法。决策树是通过树状图来表示思考决策的过程,本质上决策树是用于处理无规则数据的分类规则方法。该方法特别适合处理大规模的数据,从中找到人们希望得到的有用信息。决策树描述比较简单,而且拥有较快的分类速度。但它也有对阈值比较敏感的缺点,学者们也正在致力于它的改进之中,以期获得更好的效果。

(6)统计分析方法。统计分析指的是通过建立数学模型来研究数据、字段之间存在的关系和规律,从而得出有用的、定量的结论。它可以揭示数据中的逻辑关系和数量关系,对比分析、回归分析、结构分析、相关分析等都是较为常用的分析方法。

3数据分析

根据不同的分析任务可选择不同的数据分析方法。数据本身是冰冷的、枯燥的,要想让数据变得生动,易于分析,可以利用图形图像处理、计算机视觉等技术,通过把数据转化为图表、三维动画等形式来便于对数据加以进一步的分析.由于大数据的特点可以直观地呈现出来,因此人们可以更容易地从中获取更多有用的信息。当前,大数据分析可以利用Hadoop平台。Hadoop框架最核心的就是一个分布式文件系统(HDFS)和一个分布式计算系统(MapReduce)。HDFS可以让多台计算机协同工作,数据吞吐量大,而且具备较高的容错性。该系统对计算机硬件要求不高,它在大规模数据处理领域有广泛而深远的意义。MapReduce本质上是一种并行运算的编程模型,它通过映射和规约的思想来应对海量的数据处理和分析。MapReduce把复杂的任务分解成若干个简单的任务来处理,然后对前面的结果进行汇总。由于这种”分而治之”的思想,使得MapReduce擅长处理大数据。

4结束语

数据挖掘和分析技术多种多样,文中介绍了常用的一些方法。每种方法都有自己的优势,同时也有局限性。在实际应用中,需要结合实际情况,选择适合的一种方法或者把几种方法结合起来使用,才能取得满意的效果。

参考文献

[1]程学旗,靳小龙,王元卓.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889- 1908.

[2 ]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(6):957- 969.

[3]杨舒林,智能分析技术发展现状及应用[J]中国公共安全,2015.08(14):207- 209.

[4]刘正涛,王建东.Web數据空间技术研究[J]计算机工程与应用,2012{7):12-17.

猜你喜欢
数据分析数据挖掘大数据
数据挖掘综述
软件工程领域中的异常数据挖掘算法
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于大数据背景下的智慧城市建设研究
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书