基于人工智能技术的大数据分析方法研究进展

2021-12-25 23:06刘伟

科学与信息化 2021年14期

刘伟

中国人民大学北京 100872

引言

大数据信息作为人们生存发展最重要的资源，不仅包含着丰富的经验知识，而且还能够在一定程度上促进我国经济社会的发展。为此，我们应该加强对大数据分析方法的研究和创新。基于人工智能技术进行大数据分析的目的是为了在有限的时间内发现信息之间的关联性，探测出海量信息中的隐含信息，从而根据其特征制定计划进行决策。

现阶段，人工智能技术的应用方向主要是在智能制造领域，所以提升人工智能技术在处理海量数据信息过程汇总的计算效率和资源配置能力就可以在一定程度上促进智能制造领域的发展。将人工智能技术有效地应用到智能制造领域是未来社会发展的趋势，这是因为该技术的应用不仅能够在生产领域中完成降低生产成本、提升生产效益、缩短产品制作周期的作用，而且还能够帮助企业有效地规避风险。因此，基于人工智能技术进行大数据分析是非常必要的。

1 基于机器学习的大数据分析

1.1 大数据聚类

由于大数据的信息组成大多数都是横跨各个专业领域、媒体的，所以在实际生活中无法将传统的聚类计算法应用于大数据聚类。为此，相关技术人员提出了映射与归约相结合的编程模式[1]。有效地运用这种编程方式不仅能够实现传统聚类算法的并行运算，增强计算的便捷化，而且还能完美地完成大数据信息的分类与集合。基于此，相关的技术编程人员利用该编程模式不断地将大数据的聚类算法进行创新，如利用Apache基金会开发的分布式系统基础构架实现了K－means聚类算法，该算法的运行步骤分别是映射、分类、归纳；利用MapReduce编程框架不仅实现了凝聚式层次聚类分析，保证了文件信息传输的有效性和保密性，而且还实现了可以运用于密度计算的聚类方法。其中可以运用于密度计算的聚类方法除了可以有效地进行大数据信息的预处理，还可以查找到需要进行整合的信息做集中处理。另外，利用MapReduce编程框架还实现了并行幂迭代聚类的方法，这种计算方法是通过将数据信息进行有效压缩来实现降低计算时间和对计算设备硬件的需求来完成的[2]。

综上所述，随着人们对大数据信息传输、储存的要求不断提升，采用传统的聚类算法进行计算已经无法满足市场的需求。因此，需要相关工作人员能够不断创新并行聚类算法[3]。

1.2 大数据关联分析

在大数据时代下进行关联分析其目的是为了能够快速地查找到信息之间的联系。现阶段，应用比较广泛的关联分析算法有两种，分别是Apriori关联规则挖掘和FP-Growth关联规则挖掘[5]。但是这两种关联分析算法的计算方式不同，Apriori关联规则挖掘需要提前设定一个算法支持的阈值，然后再进行筛选，而FP-Growth关联规则挖掘是需要建立一个频繁模式树，然后分两次完成数据的扫描。Apriori关联规则与FP-Growth关联规则相比，不仅需要在频繁模式下建立大量的数据样本，而且还需要投入较多的时间成本，因此，在实际的应用中，相关的技术人员应该使用FP-Growth关联规则的运算方法进行分布式并行化处理。例如在SPARK平台中运用FP-Growth关联规则算法，首先需要将相应的数据信息进行分组，由大数据信息变成小数据信息，然后在运用FP-Growth算法得到频繁项集[4]。

当前形势下，大数据关联分析已经有效地运用到了交通方面。相关技术人员根据汽车的运行轨迹，提出了能够处理大量小文件的并行频繁模式增长算法，不仅可以对汽车运行所处的时空数据进行关联分析，降低交通事故发生的概率，而且还能通过建立局部频繁模式树来有效地解决全局频繁模式树算法过慢的问题。

1.3 大数据分类

大数据分类是应用于大数据挖掘的有效方式，它不仅能够将相同的数据信息进行整合处理，提升大数据挖掘的工作效率，而且还能够帮助相关工作人员快速地查找需要的信息。当前，大数据分类已经应用到各个行业。例如在医疗诊断行业中，相关技术人员利用医疗大学的数据信息来研究辅助医疗诊断肿瘤问题，并有效地运用MapReduce编程框架中的K近邻分类器对微阵列基因进行大数据分类来检查癌症患者携带的基因[6]。

1.4 大数据预测

为了增强大数据预测在大数据研究中的应用性，相关技术人员开始不断尝试将其运用到各个领域。例如在金融行业中，可以运用机器学习算法来寻找市场之间的差异性和相似性，然后建立相应的交易模型对市场商品的价格进行实时预测。在智能安全领域，可以通过结合云计算、几何特征学习技术以及分布式文件系统来对网页中可能出现的入侵攻击进行合理的预测和把控，从而提升网络系统的安全性[7]。

虽然当前大数据预测的应用性较广，但是依然存在着一些难以得到有效解决的难题。如包含有效信息的时间较少，从大量的数据信息中进行截取这些信息比较困难；在进行大数据的预测过程中虽然能够获得一个大范围的数据信息，但是缺乏一定的精确性。

2 基于深度学习的大数据分析

深度学习作为能够提升机器学习的应用效率方法之一，不仅可以实现使其有效地应用到语言处理、图像处理中，而且还能够增强数据运算的效率。深度学习主要是处理海量密集型任务的，所以在构建模型进行训练的过程中需要对各个参数都进行迭代运算，但是这就需要消耗大量的时间成本。为此，相关技术人员尝试运用Map Reduce、Spark平台来进行分布式计算和分布式储存。而这种与大数据平台相结合的深度学习方式可以有效地降低数据信息运算的时间成本。

虽然这种运算方式具有一定的优点，但是在实际运用中会非常容易出现由于数据样本在质量上的缺乏而导致难以不断地优化深度学习的数字模型。为此，相关技术人员提出了固定模型重用策略，这种方法的运用能够从根本上减少固定模型对数据样本的需求，从而提升运算的效率。同时还应该对深度模型本身进行优化，使其能够在不断地训练中完成量变引起质变的结果。除此之外，其他技术人员还提出了一种残差学习法，这种方法需要运用到学习残差函数来不断地优化深度神经网络的训练，从而提升数据摄取的准确度[8]。

3 面临的挑战及进一步的研究方法

3.1 面临的挑战

在人工智能技术得到应用的背景下，虽然它能够在一定程度上为大数据信息的处理提供更多便利的条件，但是也使大数据分析方法面临更多的难题。例如能够处理小数据的人工智能方法不能直接运用到大数据分析中，这主要是由于在大数据中运用人工智能方法不仅会降低分布式计算的时间成本，而且还会无法有效地提升算法的性能。为此，相关技术人员首先应该将考虑将大数据信息进行分布式计算[9]。当前，Map Reduce、Spark平台已经得到了广泛应用，所以工作人员只需要将机器学习的工作方式变成模型和数据共同协作工作的方式，将海量数据信息、模型根据相应的逻辑性进行分割处理。而人工智能运算的分布策略可以分为维度分布和种群分布，而这两种分布方式又可以继续进行划分，一般可以分为群智能和进化智能[10]。

提升算法的性能是增强大数据分析方法应用率的有效措施，但是在实际的运算过程中，技术人员却无法在提升算法性能的基础上降低分布式计算的时间成本，提升算法的整体效益。为此，技术人员首先应该考虑这一影响算法性能的因素有哪些，是否能够在一定程度上降低分布式计算的时间成本。通常情况下，影响算法性能的只有算法本身设置的各种参数[11]。

3.2 进一步的研究方向

虽然在当前形势下在对大数据进行分析的过程中巧妙地利用人工智能技术能够为各行各业带来一定程度的便利，但是现阶段我国对机器学习技术、深度学习技术以及计算智能技术的研究还难以满足市场的需求，因此，我们应该根据其需要进行进一步的研究。当前，我们的研究方向主要分为三种形式。第一，提升分布式深度学习算法的应用效率。为了满足用户的需求，大数据平台会运用分布式计算和分布式存储的方式来统计用户的使用习惯。但是这种方式也有一定的弊端，为此，我们应该不断地缩短深度学习模型的训练时间，并且加强该模型在大数据分析中的应用。第二，优化分布式模型的算法。在海量数据信息中采用分布式算法能够在保证其运算正确的基础上提升其运算效率，保证数据信息传输的准确性。第三，建立先进的大数据平台。虽然当前大数据分析法应用比较广泛，但是采用的方法和技术并不适用于某些领域。因此，相关技术人员应该针对大数据分析技术在相关领域的具体应用情况进行分析，然后不断地优化其运算时间[12]。

4 结束语

当前，我国的人工智能大数据分析法已经在某些领域得到了有效应用，但是在实际的应用中为了提升算法的应用性，相关的技术人员首先应该有目的性地对大数据聚类、关联分析、分类以及预测这四种不同处理方式进行进一步的研究。同时还应该根据深度学习模型的实际使用情况进行不断的优化创新，使其能够在一定程度上提升算法的准确度。