数据挖掘研究现状及发展趋势

2014-08-07 02:35张莉
赤峰学院学报·自然科学版 2014年18期
关键词:数据挖掘领域数据库

张莉

(合肥工业大学,安徽 合肥 230009;淮北职业技术学院,安徽 淮北 235000)

数据挖掘研究现状及发展趋势

张莉

(合肥工业大学,安徽 合肥 230009;淮北职业技术学院,安徽 淮北 235000)

随着网络技术的不断迅速发展,大型数据库开始不断出现,而如何从大量数据中获取有特定意义的知识成为了当前技术需要解决的重要问题,由此出现了数据挖掘这种新型的信息处理技术.主要从数据挖掘概念出发,介绍了数据挖掘中的几种比较常见的处理方法的概念与特点;同时也详细的总结了当前情况下在这一方面的研究现状,并最终指出了该技术在未来几年的发展方向.

数据挖掘;信息处理;发展方向

1 引言

随着信息时代的到来,科学技术不断进步,网络新技术不断出现,社会生活中的各行各业都积累大量的数据,形成了大数据仓库.而在这些有大量数据组成的大数据仓库中需要通过利用一定的发现方法来对其中对企业或者社会的发展有意义的信息进行发现,以往的信息挖掘的方式一般通过信息检索或者数理统计的方法,但是这样大数据量的条件很难得到希望的结果,因此我们就迫切的需要可以自动地或者智能地把这些等待处理的数据信息转换成为有意义的参考信息,而为企业进行决策服务[1].就是在这样一种环境下,一种崭新的技术即数据挖掘技术(简称DM技术)开始发展起来.

DM是一种涉及到多学科领域的信息处理技术,其不仅仅融合了数据库的技术,同时也结合了许多当今时代最新的研究成果.本文主要对数据挖掘应用中采用的比较重要的算法及其缺点进行一一介绍,并对当前数据挖掘领域的国内外研究现状进行了细致的总结与叙述,最终指出了数据挖掘领域的发展趋势及主要问题所在.

2 数据挖掘相关算法

简单的说所谓的数据挖掘是指从数据信息仓库中提取出有意义、能够对企业决策提供参考的知识,而这一数据仓库一般情况下会具有数据量大、含有噪声、模糊、随机等特点.利用图形来表示数据挖掘过程如图1所示.

图1 数据挖掘过程

如上图所示,其数据挖掘的过程主要包含的步骤是,首先进行在大量数据中进行目标数据的提取,在提取出有效数据之后,要对这些原始数据进行去噪等数据处理操作.之后对数据进行转换处理,比如说连续的数据转换成离散的数据,或者把离散的数据转化成连续的数据;最终采用数学的或者非数学的方法对数据中存在的知识进行提取;在完成了知识提取之后,由于其最终面向的是客户,所以必须对得到的知识进行解释和评价处理.

现在运用在数据挖掘技术中的具体算法包含有神经网络算法、决策树算法、遗传算法、关联规则等算法,下面对这些具体的算法进行简单的介绍.

2.1 神经网络法

神经网络法实际上可以认为是一种通过训练学习得来的非线性预测模型,这一模型的建立是在对生物的神经系统结构及其功能的模仿的基础之上的,这一模型能够实现多种数据挖掘的任务,比如说数据分类分析、数据聚类、特定条件的数据挖掘等,其主要的学习方式在权值的修改上有着明显的体现.利用神经网络法的最为主要的特点就是具有较强的抗干扰性、适应范围广,另外一个较为显著的优点就是有着联想记忆的能力;但是也存在着一定的缺点,就是在处理高维变量过程中预测结果不会那么精确,也不可以直接查看其中间学习的具体过程.在实际应用中神经网络法一般情况下应用于DM的聚类技术中[2].

2.2 遗传算法

应用于数据挖掘过程中的遗传算法是机器学习方法,这一方法是以达尔文的生物进化理论作为理论基础.根据生物进化理论中的“适者生存”的思想,其最为突出的好处在于能够处理几乎所有形式的数据,而且也能够采用并行的方式来处理不同形式的数据,并对数据具有较强的适应性;不足之处在于实现过程中所需的参数太多,编码过程困难,计算量大等.在实际应用中一般用遗传算法解决其他技术不能解决的问题.

2.3 关联规则算法

关联规则主要认为是发现事物与事物的相互依赖关系及其相互的关联性.在对数据中的关联规则挖掘过程中存在着2个重要的参数,即最小支持度以及最小可信度.从这一方面的数据挖掘的意义而言,数据挖掘的最终目的便是要从源数据库中提取能够符合以上提到的两种参数要求的关联规则[3].

3 研究现状

3.1 国外研究现状

知识发现(简称KDD)和数据挖掘(简称DM)在当今的这一方面研究领域中已经逐渐成为了最为重要的研究方向之一.知识发现技术的概念是在美国上世纪八十年代末一次人工智能会议上提出的.之后在二十世纪九十年代中期在蒙特利尔的第一届知识发现与数据挖掘国际学术会议上,把数据挖掘技术的主要研究领域定为两个方面,分别为科研领域的KDD以及工程研究领域的DM.并且从此以后的每一年都会召开一次关于数据挖掘技术研究领域的会议.到本世纪这一时期,对于数据挖掘这一方面的研究经过这么多年的努力,已经有了相当大的成果.就目前而言,国外的对知识发现方面的研究主要集中于理论、技术以及应用这些方面[4].

现如今,国外对DM方面的最新发展趋势为对KDD的采用算法的更深入的研究.而在实际的应用中主要面向的客户包含有保险公司以及大型数据库的数据挖掘工具研发企业,截止到目前为止,对于数据挖掘方面的应用技术已经相当成熟,已经完成了许多具有较高应用价值的挖掘软件. 3.2国内研究现状

就国内在数据挖掘技术研究领域的发展而言,与国外相比,国内对此的研究起步较晚并且在很多方面发展缓慢,没有形成较为成熟的理论或者技术.可以说就现在而言国内这方面的研究与应用还是处于发展阶段[5].当前比较新的发展方向为以下几个方面,首先在分类分析技术研究过程中,尝试完成对相关的集合理论的整体体系进行建立工作,其建立的主要目的就是要对当前现存的海量数据进行处理;把粗糙集法以及模糊集法这两个不同方面的理论联系在一起应用在该技术中;构造基于数据挖掘技术的智能专家系统;根据相关概念对文本进行挖掘.

就现在而言,国内在这一方面的软件产业相对来说还不成熟,原因在于专门对这方面进行研究的人员一般都存在一些具有研究能力的高等院校之中,这方面的项目几乎都是政府的项目,由政府进行资助,而对成果的要求不够严格,并且研究内容主要集中与DM的学习算法及其相关理论方面知识和实际应用.同时由于这方面研究国外的起步较早,对于国内如今所研究或者设计的系统在国际市场中还不具有竞争力,说服力不强.

4 数据挖掘的研究热点及发展趋势

现如今,国内外对DM这一领域的主要研究内容集中在对文本的数据挖掘、对生物信息及其基因的数据挖掘、以及数据挖掘在网站信息中的应用.

对于一些特定网站中的数据挖掘过程表示在这些特定的网站会根据日常点击率的积累而获得大量用户相关数据,在这些数据中存在着具有利用价值的信息,而这方面研究的主要目的就是找出通过什么样的方法能够快速准确的识别这些有利用价值的信息.

针对生物信息或者生物基因的数据挖掘有着异常重要的意义,其对人类生活质量即主要是对人类的身体状况的健康与否有着重要的意义.不管人类还是其他动植物它们的基因组合都会有着很多的变化,其主要解决的问题就是要找出病人含有的基因同正常人的基因的区别是什么,在找到差别之后通过对相关基因进行改变来达到对病人的治疗效果,在这个查出差异的过程中就必须采用数据挖掘技术的支持.

近年来,随着这方面研究的不断深入,数据挖掘技术也已经在社会中的各个方面都得到了广泛的应用[6],比如说商业、医学、科学研究等各个方面都存在着很多的应用数据挖掘技术的成功的例子.下面对以后数据挖掘研究领域的发展方向与趋势进行简单的介绍:

数据挖掘语言进行标准化描述的研究;不管是什么语言,想要使其能够广泛的得到应用,必须首先对其语言进行标准化.经过标准化之后的数据挖掘语言必将有利于DM系统化的开发与设计,同时也能够提高多个数据挖掘系统及其功能之间的互操作性.

对DM技术中的可视化方法进行研究;对于这方面的需求已经成为数据挖掘系统必须要解决的一种主要问题.

数据挖掘领域中的模型或者系统对特定的数据存储类型的适应问题的研究;在以后的研究过程中,对不同的数据的存储类型自身的特点进行针对性的研究是目前流行以及将来一段时间必须面对的问题.

DM技术同数据库技术以及网络技术的集成;其中的数据库与Web数据库是当前形势下有关信息处理的系统中不可缺少的一部分.而理想的DM系统同样与数据库及其web数据库进行紧密结合.

5 结语

本文主要通过介绍数据挖掘的基本概念,同时对这方面的主要的挖掘算法进行简单介绍,对国内外在这一领域的研究现状分别作了总结,并说明了国内与国外在这方面研究差距的巨大,在以后的研究过程中,国内必须勇于面对挑战,才能够在这一研究过程中有较大的提高.最后根据当前的形式,对未来数据挖掘的发展方向进行了叙述.

总的来说,数据挖掘技术可以认为是一种功能强大的应用工具,但是其在发现模型之前需要对其进行相关指导,同时最终得到的数据模型需要能够在现实生活之中得到验证,数据的分析人员需要了解选用的挖掘算法的原理同时也要指导它具体是如何正常工作的,并且也必须深入了解期望解决问题的相关领域,对处理的数据进行了解得到的过程,只有经过上述这样一个过程在得到最终结果之后才能够给出正确的评价与解释,从而在一定程度促进挖掘模型的不断完善与提高,使数据挖掘能够在真正意义上满足当代人们的需求,更好地服务社会.

〔1〕胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述①[J].软件学报,1998,9(1).

〔2〕谢榕.基于数据仓库的决策支持系统框架[J].系统工程理论与实践,2000,4(4).

〔3〕韩家炜,坎伯.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.

〔4〕陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006,14(1):46-49.

〔5〕王宏.基于粗糙集数据挖掘技术的客户价值分析[J].北京:经济出版杜,2006.

〔6〕王惠中,彭安群.数据挖掘研究现状及发展趋势[J].工矿自动化,2011(2):29-32.

TP181

A

1673-260X(2014)09-0014-02

猜你喜欢
数据挖掘领域数据库
探讨人工智能与数据挖掘发展趋势
2020 IT领域大事记
领域·对峙
基于并行计算的大数据挖掘在电网中的应用
数据库
数据库
数据库
数据库
一种基于Hadoop的大数据挖掘云服务及应用
新常态下推动多层次多领域依法治理初探