大数据时代的数据挖掘技术与应用

2020-08-21 09:05徐文平
数码设计 2020年3期
关键词:数据挖掘技术应用探究大数据

摘要:合理的利用信息技术带来的相关成果,并且运用到物流领域、电力控制等多个行业,能够使信息技术在其中发挥卓越的作用。目前在信息化时代,针对大数据、AI人工智能等多项信息技术均得到广泛的关注和深入的探究。企业以及政府的管理往往依靠大量的数据资料,对于相应数据的挖掘深度和分析能力决定该数据的价值,因此需要提升数据的利用有效性,可靠性以及数据传输能力和分析的深度。应用数据挖掘技术能够使相应的管理能力和质量水平有较高的提升。基于此,梳理了大數据时代数据挖掘的相关概念,并且对具体的数据挖掘过程进行分析探究,最后对该技术相关的应用进行多方面的阐述。结果表明,科学合理地应用数据挖掘技术,可快速从海量的情报数据信息中提出隐藏的、具有价值的情报数据,促使相应的决策和管理更加高效科学。

关键词:大数据;数据挖掘技术;应用探究

中图分类号:TP311.13文献标识码:A文章编号:1672-9129(2020)03-0045-02

Abstract:Therationaluseofinformationtechnologybroughtaboutbytherelevantresults,andtheuseoflogistics,powercontrolandotherindustries,canmakeinformationtechnologyplayanoutstandingrole.Atpresent,intheinformationage,manyinformationtechnologiessuchasbigdataandAIartificialintelligencehavereceivedextensiveattentionandin-depthexploration.Enterprisesandgovernmentsoftenrelyonalargenumberofdata,andtheminingdepthandanalysisabilityofthecorrespondingdatadeterminethevalueofthedata.Therefore,itisnecessarytoimprovetheeffectivenessandreliabilityofdatautilization,aswellasthedatatransmissionabilityandanalysisdepth.Theapplicationofdataminingtechnologycanimprovethecorrespondingmanagementabilityandqualitylevel.Basedonthis,relevantconceptsofdataminingintheeraofbigdataaresortedout,specificdataminingprocessisanalyzedandexplored,andrelevantapplicationsofthistechnologyareelaboratedinvariousaspects.Theresultsshowthattheapplicationofdataminingtechnologyscientificallyandreasonablycanquicklyproposethehiddenandvaluableintelligencedatafromthemassiveintelligencedatainformation,andpromotethecorrespondingdecision-makingandmanagementtobemoreefficientandscientific.

Keywords:Bigdata;Dataminingtechnology;Applicationtoexplore

1数据挖掘的概念及作用

1.1数据挖掘的概念。数据挖掘(DM)可以从大量,嘈杂,不完整,模糊和随机的数据源中提取潜在、有价值和不可见数据,通过对这些数据对应的信息和传递的知识进行检索,即可高效的利用数据。在数据的利用过程中首先应保证真实度,再者,在数量级庞大且繁杂的数据中应该针对自身需要的数据目标进行方向性的选择,不能盲目的将所有的数据知识应用到任意问题中,应该在发现问题的基础上带着问题在找到数据中相应的知识,进行概念的理解和规则的判定,通过在庞大数据体系中进行分析统计能够对未来的发展形势以及可预见性的行为进行推测,从而能够使决策者采取更加科学的管理手段和决策方法。数据挖掘是多种专业领域相应知识进行交叉的学科,对人工智能、神经网络、数据管理等多种学科均有密切的联系。数据库技术,机器学习和统计信息对数据挖掘的影响最大。迄今为止,数据挖掘技术已应用于许多方面,以解决相关问题。

1.2数据挖掘技术主要作用。从数据量庞大,并且在有噪点或噪音以及相对模糊随机的数据库中,对潜在价值的信息和知识进行过滤和筛选,能够搜索出人们有利用价值的信息和数据,使人们对信息能够更好的接受,理解并且适当的运用。在数据挖掘过程中,并不能保障所有的数据全部能够被人们理解所应用,但是能够对特定的检索内容进行数据挖掘工作的开展。最后提取到的相应数据可以以多种表达形式进行展示,比如通过概念规则,模式,图形等方式。合理运用数据挖掘技术能对未来的目标的发展导向进行展望,帮助做出科学合理的计划。

1.3数据挖掘的过程。数据挖掘可以大致分为6个阶段,主要由业务分析、数据分析与理解、数据处理组成。下图展示的为数据挖掘的整体流程:

a)业务分析,通过明确具体挖掘任务的需求,根据需求和目标定制网挖掘计划。

b)数据收集,根据业务需求,搜集相关数据,筛选数据,甄别出有可以利用的数据。

c)数据处理,在已搜集的数据中,结合具体业务需求和目标,对数据进行处理,删除数据中不必要的属性,对数据进行清洗等。

d)数据建模,主要是运用相应的数据挖掘技术,创建相应的模式,调节相应的数据让模型达到最好。模型效果不佳,则需要从数据处理阶段或者业务分析重新开始。

e)评估模型,评价模型的合理性和可靠性,未经过评估的模型不能直接去应用。

f)部署应用,将通过评估的模型,制作相应的应用策略,最后应用到业务上。

2数据挖掘的算法

2.1聚类挖掘算法。该算法首先选取k一个对象作为分析中心,然后对不同对象与该中心的距离进行相应数学模型的构建,是广泛应用于数据挖掘技术中的一种基础算法,属于聚类挖掘的开端。在各行业根据需求在获取数据过程中,可以相应的将数据情报数据进行聚类存放。

2.2关联规则挖掘算法。Apriori算法通过两阶段的链接矩阵运算,能够探索相应安全、交易等多种数据库不同事件和物体之间的相应联系和内在的规则。该算法可以高效、准确地收集相应的数据,为顺利完成各项任务奠定基础。Apriori算法在大量的数据中通过项目集创建关联规则,最后对对应的候选项目,出现的频率和次数进行统计,根据人为设定相应支持度为判断依据,从而分析关联规则是否有显著作用。该算法水平方向通过m项目集来寻找下一个项目集,以此形成相互的联系,从而能够开展高效的项目集搜索,实现所有高频项目集均被检索。

强关联规则是否成立,需要通过上述的检验才能进行有效的利用,接着哪些有效的关联规则对当前管理具有实际使用价值,需要经过管理人员和数据控制人员的判断才可以认为是关联的最终结果;通过相关性分析获得的关联规则结果的前后项之间的相关性是可能同时发生的一种相关性,而不是因果关系。根据算法的思想和执行步骤,Apriori关联算法的优势在于对数据要求不高,容易分析、简便,但是也发现存在着相应的缺陷:

(1)对项目集生产过程所需要的循环和相对应的步骤较多,并且不能较好的去除非参与组合的元素。

(2)对项目集的运算需要支持度的评估,并且每次计算均需要与数据库T中整体的记录进行对比,如果该数据库较大,那么扫描对比需要耗费大量的时间,并且占用计算机系统较大的资源,数据库记录越大,那么导致相应的运算压力呈指数增加。

3数据挖掘技术运行过程

3.1数据转换处理。Clementine是能够兼容并且支撑整个挖掘体系的相关软件,该软件拥有众多的分析技术,将相应的技术融为一体,并且配合多种接口,能够展现出更加简单且可视化的操作应用环境。对于数据的读取和写入等多项工作均能高效的运行,并且配合人工智能以及数据统计等多种模型能够实现更加有效的数据挖掘。数据信息系统可以利用该软件,并且借鉴此软件的设计思想,将数据挖掘工作变得简单化和易行化,降低算法的复杂程度以及软件操作的困难度,从而使相关数据挖掘工作人员效率翻倍。

3.2异常错误分析和解决。Python应用广泛的开源计算机编程语言,在该体系的内部已购置高级数据分析结构,并且将相应的数据能够分解成模块和包,在多种硬件平台均能进行应用和拓展。该编程语言最大的优势在于学习难度较低,并且易开展维护工作,对于理论知识薄弱的工作人员也能进行快速的上手,并且高效读取展示的信息和内容,并且伴随着NumPy、Pandas等程序库的完善,能够使数据分析领域不断完善和发展。

3.3数据最终处理。通过对相应的数据库扫描,根据相应的项出现在数据库中一次,则该项的计算相加1,则相应的支持度计数也加1。根据预先设定的最小支持度的值与相应项的支持度数值,当两者相等时,可以判定该项是频繁项,所以可以停止对该项的扫描,开始扫描下一个项集。数据搜索到的知置信度和支撑的能力可以通过关联规则进行分析,从而将各数据的属性和相关的联系进行有效归纳。为了避免太多规则的产生以至于不能突出真正重要的规则,必须适当定义最小支持量以过滤大多数不必要的规则,并且所生成规则的置信度和增益值必须高于决策者给出的最小值,这样的规则才满足需求条件。总之定义了相关阈值,就可以相应地搜索数据库中的满足条件的关联规则。将系统收集到繁杂的、混乱的各种数据信息通过特定的具有数据处理、计算和制图功能的软件系统,将情报数据分门别类、打包装进特定的数据库,为之后的数据挖掘提供便利。

4大数据时代的数据挖掘技术的应用

4.1在物流方面的应用。在传统物流管理过程中,通常都是采用定点配送的方式,将产品运送到经销商手上就算完成了物流运输任务。但是在这一过程中产品质量保证以及物流运输质量管理等方面都缺乏一定的管控,在产品送到消费者手上之后,针对消费者满意度的调查和反馈更是一片空白。这样不利于物流行业不断发展,也不利于其科学合理地制定市场营销战略,容易让物流相关的行业陷入闭环发展的困局。数据挖掘技术和大数据技术在其中的应用,能够结合RFID技术应用,对产品的物流路径进行科学追踪和管控,并将最终的管理数据信息集中于MES系统中来,能够大大提升物流管理质量以及产品追溯管理效果。首先,可以对相关物流产品的配送时间、配送路径以及主要供应地区进行数据挖掘,并利用大数据技术进行云端分类管理。这样能够更好地统计不同类型产品的物流时效等。其次,依托大数据库建设,能够更为直观地看到不同产品仓储情况,节约物流调控的中间环节,节约大量的时间成本。最后,大数据技术和数据挖掘技术的应用还能够通过分析多次物流运输线路所遇到的路况问题以及时效问题,科学计算出最优物流运输和配送路线,最大限度地降低物流运送环节的时间成本,提升客户满意度。利用大数据技术和RFID技术对整个流程进行追踪,能够在面对客户问询时准确有效地汇报产品所在地。依托MES系统的数据挖掘和信息整合,可以对产品进行追溯分析,明确物流出现的质量不佳或者客户不满意的具体原因。

4.2电力行业的应用。通过大数据和数据挖掘技术,能够保障电网安全运行,提升管理效益、决策能力,优化电网运行方式、降低管理成本。在电力大数据安全防护方面,一方面需要先进的技术做支撑,另一方面需要提升数据的安全管理能力,有效保护电力大数据的安全。这主要是因为在大量的电力数据中,不仅包括企业的运营信息和用电用户的隐私信息,而且还有一些关系国国家和社会决策的重要信息。电力数据挖掘技术的应用,需要统一的电力行业数据标准,建设更高效、准确率更高的大数据分析系统,更好地应用电力大数据技術为了建设更高效、准确率更高的大数据分析系统,需要建设和完善电力行业知识管理系统。不断电力行业知识管理系统,建设电力数据共享中心,统一电力行业数据标准。

4.3政府及其多个领域的综合应用。在传统的信息环境下,我国政府及企业开展的数据研究主要依靠图书馆等有特定历史背景的档案机构。在这种环境下,受传统的信息环境和技术条件的限制,他们不能及时、广泛地获取信息,也不具备组织和处理大量信息的技术手段,不能满足信息的分析和研究的要求。然而,网络化和计算机技术的发展使信息收集和研究发生了一些变化。SASEnterpriseMiner(简称SASEM)是一种数据挖掘工具,已被中国的政府及国有企业广泛使用。典型的应用是上海宝钢的矿石分配系统的应用、招商银行的系统应用以及铁路部门的客运运营研究。SAS是通过数据库将数据进行集成,然后简化相应提取数据和捕捉数据的工作,能够实现“端到端”的数据捕捉。可以根据情况存储、修改、更新和重新调整此过程以供以后使用。它的优点是可以指导没有足够的数学统计理论知识和经验积累的浅层次用户,并且针对经验丰富的专家而言,SAS还可以为有经验的专家提供许多选择,以执行精细调整分析和处理。

5结语

在大数据时代背景下,大数据已经成为重要的国家战略资源,对社会经济发展产生了深远影响。数据挖掘工作作为国家宏观调控、产业结构调整、企业战略发展的重要依据,必须适应大数据时代的发展,强化大数据和数据挖掘应用能力和范围,运用大数据思维、技术和方法,积极推进各行业的数字化变革,加大数据在统计数据生成、处理、交换和发布等各个环节的应用力度,构建起适应大数据时代的现代化发展模式。

参考文献:

[1]田志民,梁品超,任艳红,等.大数据时代下数据挖掘技术与应用[J].当代教育实践与教学研究(电子刊),2017,000(010):4.

[2]周凌.浅析大数据时代的数据挖掘技术与应用[J].中小企业管理与科技旬刊,2018,No.540(05):194-195.

[3]刘春琳,冷红.基于大数据挖掘的城市关注平台的构建与应用[C]//城乡治理与规划改革——2014中国城市规划年会.0.

作者简介:徐文平(1983-),女,四川德昌县人,副教授,硕士研究生,主要研究方向为计算机应用、大数据。

猜你喜欢
数据挖掘技术应用探究大数据
基于Web的数据挖掘技术与相关研究
电预热在城市热水供热管网施工中的应用分析
几何画板在初中数学教学中的应用探究
“导学互动”教学模式在初中数学教学中的应用探究
基于大数据背景下的智慧城市建设研究