大数据时代的数据挖掘技术及应用

2019-10-21 05:12朱芷莹余思贤

科学与财富 2019年20期

朱芷莹余思贤

摘要：当今世界正处于从IT时代向DT时代迈进的过渡阶段，大数据时代。数据挖掘技术是一种数据处理技术，其前景非常理想，本文以数据挖掘的定义为出发点，细致的介绍了各种数据挖掘的技术方法，总结其特点，并给出相应的应用领域。

关键词：DT时代；数据挖掘；应用领域

大数据的概念最先出现于网络上，它用于描述一个现象：互联网公司日常运营所产生和积累的客户数据量呈现爆炸式增长，导致现有数据管理软件无法驾驭，其难点在于，数据的获取、存储、处理和分析。这种數据量，不是用日常衡量单位G或T来衡量，而是P（220G）、E（230G）或Z（240G）或者更大的数量级来度量。所以被称为大数据[1]。大数据的主要来源有4个方面，分别为传感器、网站点击流、移动设备和射频识别。其特点是数据源异构复杂和种类繁多、数据量体量大、实时处理困难。

数据挖掘技术作为一种数据处理技术，能有效从大量数据中获取有效信息，能较好针对大数据特点，处理大数据。因此，其在大数据时代背景下，有远大的前景和充足的应用空间。

1.数据挖掘

数据挖掘作为一门新兴的交叉学科[2]，其广义上的定义为，从数据集里面获取隐晦的有用的信息和知识的过程。其操作的核心理念：基于对数据集的深刻认识，高度抽象并概括数据本质，将数据隐藏的信息变得易于读取。这些数据集往往具有大规模性、不完全性、参杂噪声、模糊性和随机性的特点，涵盖了大数据的特点。所以，数据挖掘技术能很好地应对大数据。

数据挖掘一般有五个步骤，分别是数据选择、数据预处理、模式发现、模式评估和知识表达。

1.1数据选择

由于原始数据集具有规模大、参杂噪声的特点，所以必须根据想要获取信息的特点，选择相应的数据集来进行数据挖掘操作。这样可以极大的减少运算量，提升挖掘效率。

1.2数据预处理

原始数据中各类数据的单位、量级通常不同，为保证能快速挖掘出有用信息，必须进行数据预处理操作。预处理的方法有数据清理、数据集成和变换、数据归约、数据离散化等。需要根据数据的特点和挖掘目标选择相应的方法。

1.3模式发现

这是数据挖掘过程的关键环节，是从预处理后的数据中进行知识发现的过程。

1.4模式评估

这是评价环节，对发现的知识进行评估，得到对应的知识模式。

1.5知识表示

这是数据挖掘的结果展示环节。将挖掘出的知识模式通过直观感性的方式展示出来，把机器可读的数据变成人类可读的图文。

2.数据挖掘的技术方法

数据挖掘的技术方法按模型建立方式的不同，可简单归为两类。一类是统计类，有聚类分析和关联分析等；一类是机器学习类，有监督性学习和无监督性学习。每种方法都有其的功能特点和相应的应用领域，以下介绍数据挖掘中常用的几种技术方法。

2.1关联分析

关联分析作为一种有效的数据挖掘技术，其主要用于发现数据之间的关联性。其基本思路可用“W->B”表示。其中W指属性集，B指属性个体。操作规则简单来说，就是在数据集中，W具有真值，则B具有真值的可能性和趋势。最典型的关联分析为货篮分析。其属性值有两个，分别是支持度和置信度。这样W属性集就由“支持度-置信度”构成。比如，在生产过程中，事件A发生了，分析事件B发生的可能性。这个对于故障检测和维修很有应用价值。关联分析能从关系数据中，获取感兴趣的知识模式，在众多行业中都有应用价值。

2.2 决策树

决策树主要是根据数据的属性值来对数据进行分类，其主要的规则是“If-then”。它的主要优点就是直观性，可以显示出得出结果的决策过程。这点，它优于神经网络。但是，在面对复杂的数据时，决策树会产生很多的分支，这不便于管理。此外，在面对数据缺值问题时，它没有较好的处理方法。目前，决策树涵盖的算法有ID3、CART、CHAID、SPRINT和SLIQ。

2.3 遗传算法

遗传算法用到了生物学中的一个概念--遗传。物种的繁衍讲究适者生存原则，同样，遗传算法也有着类似原则。其通过模拟自然界物种的进化机制，逐渐产生最合适的规则，并组建新群体，而后产生规则的子体。因此，可利用遗传算法获得最佳模型，优化数据模型。遗传算法是一种弱方法，对信息缺少问题不敏感，效率高，运用也较为灵活，可用于评估数据挖掘算法中的其他算法。

该算法在处理数据分类问题上，极其合适。利用时间类比和空间类比的手段，将大量的种类丰富的信息数据系统化，从而发现数据间的内在关联，获得合适的模型。在模型建立时，可以与神经网络算法相结合，提高模型的可理解性。

2.4贝叶斯网络

贝叶斯网络作为建立在数据统计基础上一种方法，其理论依据就是后验概率的贝叶斯定理。其思路是将不确定事件用网络关联起来，从而预测相关事件的发生概率。其网络变量没有明确要求，可以可见，也可以隐藏于样本中。其功能有聚类、分类、预测和因果分析。对比其他算法，贝叶斯网络的优势在于可理解性好、预测效果好。不过，对于低概率事件的处理问题，它效果较差。

2.5 粗糙集方法

粗糙集方法作为一种数学工具，对于数据挖掘，意义重大。在面对含糊性的问题时，该方法可以找出不准确数据或噪声数据的内在结构联系。此外，还可以进行特征归约和相关性分析的操作。粗糙集主要优点在于，不依赖数据的初始或附加信息。这样，在应对不完整的信息分类时，可以采用它。应用粗糙集方法，可以极大提高数据挖掘的效率。

2.6 神经网络

神经网络属于最常见的数据挖掘技术。其基本思路是，通过模拟人脑的重复学习方式，对训练样本进行学习和训练，最终得到区分各种样本的特征和模式。为保证精准拟合各种样本数据，应尽量挑选具有代表性的训练样本集。它的最大特点在于，可理解性差，即无法知道通过何种规则得到这样的结果。优点在于，能处理复杂问题、对噪声数据不敏感以及能对新数据进行分类。

2.7 统计分析

统计分析是基于统计学和概率论的一种数据挖掘方法。它是基于数学模型的一种方法，具有易于理解，精准计算结果的特点。统计分析主要包含回归分析、因子分析和判别分析三种，实际应用空间较大。

3.数据挖掘技术的应用

数据挖掘技术应用的领域很广泛，下面简单的介绍四种应用领域。

3.1市场销售领域[3]

数据挖掘技术最早开始应用的领域和应用最多的领域就是市场销售，旨在分析消费者的消费习惯和特点，增加销售量。同时，也常用发现潜在客户，增加行业效益。常用的数据挖掘技术有关联分析、决策树和粗糙集方法[1]。需要注意的一点，在对客户数据进行挖掘的同时，注意保护好客户信息不泄露，保护客户的个人隐私。

3.2科研领域

分析各种实验数据，是科研的必要步骤。数据挖掘技术作为一种数据处理技术，经常会被用于分析各种实验数据，寻找相关规律。在科研领域，数据挖掘就是一个工具，各种技术方法都会根据需要而被使用。

3.3制造领域

生产产品的过程中，也会生产出各种数据。这些数据，反映着生产技术、产品、运输等方面的信息。通过使用数据挖掘技术，能找出影响产品质量和生产效率的因素。消除这些因素，就可提高生产效率和产品质量。在制造领域，常用的数据挖掘方法有关联分析、决策树、贝叶斯网络、粗糙集、神经网络和统计分析。

3.4金融领域

金融行业的数据较为完整、齐全，且金融业的利润大。因此，数据挖掘技术在这个行业里，得到较为成熟的应用。其主要通过数据挖掘来分析市場波动，建立对应的预测模型，给投资分析提供便利。常用的数据挖掘技术有遗传算法、粗糙集方法、神经网络和统计分析。

总结

在大数据时代背景下，数据挖掘技术作为能较好处理大数据的工具，其前途不可限量。

参考文献：

[1]唐雅璇，李丽娟，吴芬琳. 大数据时代的数据挖掘技术与应用[J]. 电子技术与软件工程， 2017（21）：159-159.

作者简介：

朱芷莹（1998—），女，汉族，四川成都人，本科在读，西安财经大学信息管理与信息系统专业大三学生

余思贤（1999—），女，汉族，江西上饶人，本科在读，西安财经大学信息管理与信息系统专业大三学生