基于互联网的大数据挖掘关键技术分析

2018-02-17 17:36谢芳

信息记录材料 2018年10期

谢芳

（红河学院云南蒙自 661100）

1 引言

大数据，也被称为巨量资料，是依托计算机、互联网及信息技术而出现的一个新概念，大数据具有数据种类多、数据量大、数据处理快以及数据价值密度低等特点。互联网大数据指的是，用户使用终端的过程中所产生的数据，包括流量、网络协议等方面的内容，供应商提供网络，通过数据，供应商便可以获取用户的相关信息。当今时代背景下，大数据处理已经成为互联网技术的主要发展方向，大数据处理过程中，大数据挖掘占据着十分重要的地位。下文中，笔者就基于互联网的大数据挖掘关键技术进行了分析。

2 互联网大数据采集

互联网大数据采集可以划分为2个阶段，一是基础支撑层大数据采集，二是智能感知层大数据采集。基础支撑层大数据采集，主要目的是为数据平台的建立提供物联网、数据库等技术；智能感知层大数据采集，主要是进行数据识别、数据传输以及数据感知等[1]。运营商通过合理处理互联网大数据，便可以根据用户需求变化情况，及时做出反应，更好地满足用户的数据需求。

互联网之中，时时刻刻产生着大量数据信息，主要以互动信息、日志、视频等形式存在，虽然为用户提供了一定的便利，但给运营商的数据采集带来了沉重的压力，具体体现在：首先，多源数据获取方面存在着一定的问题。大数据有着动态性、多元异构的特征，虽然单个用户的信息价值不高，但整合多个用户的信息之后，便可以提高信息的整体价值。但就现阶段来说，大数据采集过程中，多元化数据的采集难度非常大，给供应商造成了严重的影响。其次，数据实时挖掘的难度较大。信息化时代背景下，数据信息处理过程中已经应用了关联分析、聚类分析手段，但采取模拟分析方法，不能获取实时数据。最后，海量异构管理方面存在着一定的问题[2]。互联网之中的异构数据信息非常多，一些异构数据缺乏注册结构，价值参差不齐，为提高数据质量，必须对关键数据进行异构分析，但其难度相对较大。

3 互联网大数据预处理关键技术

互联网大数据挖掘前期，必须做好预处理，采取科学合理的手段，对互联网大数据进行有效的预处理，主要内容包括数据清理、数据集成、数据归约等。互联网大数据有着庞大的数据量，但其中有价值的数据并不是很多，数据量的增加，也导致了数据噪音问题的加剧，一些不常用的数据，数据量也在不断增加，使得媒体数据处理并不完善，甚至被碎片化处理[3]。面对这样的问题，互联网大数据预处理过程中，可以应用数据清洗技术、数据降噪技术，对大数据进行有效处理。与此同时，采取数据挖掘技术，便可以在预处理阶段获得数据的分类知识、时序知识，这对于数据价值的深入挖掘，有着十分重要的意义。

4 互联网大数据处理技术与互联网大数据可视化技术

互联网大数据的速度较快，在进行大数据处理的过程中，若处理不及时或者是处理不到位，便会导致数据信息价值越来越低。面对这样的情况，大数据处理过程中，应对多个领域进行数据实时挖掘，并采取在线处理手段，实现数据处理效率的提高，并要对数据算法、数据处理模式进行改进。可视化技术指的是，有机结合计算机的认知能力、融合能力以及大数据挖掘技术，通过可视化技术、人机交互技术，来进行数据分析。互联网大数据可视化技术可以实现数据分析能力、数据处理能力的提高。

5 互联网大数据实时挖掘关键技术

互联网大数据具有一定的复杂性，不仅给用户体验带来了不良影响，也给故障诊断带来了很大的难度。互联网大数据挖掘，主要是在明确掌握无线网络原理的基础上，应用数据分析技术、数据挖掘技术，获取数据报表，以达到开放API接口的目的。通过API接口可以获取数据信息，主要包括以下几种类型：一是网络分析数据信息，对会话、流量等方面进行分析，便可以对网络性能的KPI进行评估；二是用户分析数据信息，通过对比分析用户数据，便能获得用户资源的实际使用情况；三是网元分析数据信息，通过分析网元组对比、网元对比的趋势，便能获得RNC性能负载；四是应用分析数据信息，通过分析用户应用业务，便能获得单个用户时间变化、用户累计分布的实际情况；五是终端分析数据信息，通过分析终端设备的具体应用状态，便能获得实时数据变化情况，进而得到相关性能指标；此外，通过分析QoS、QoE等相关指标，还能得到负荷、用户网络状况方面的信息。

6 海量异构数据管理关键技术

计算机、互联网的迅速发展，推动着海量异构数据的产生，海量异构数据有着类型多、数量大、处理速度快、价值密度低的特点，要求在秒级时间内完成数据分析、得到数据分析结果。若是海量异构数据的处理时间过长，则会导致数据价值越来越低。为实现海量异构数据的有效处理，需要科学设计海量异构数据处理模块，具体包括海量异构数据集成模块、海量异构数据处理模块、数据库模块、文件系统模块、易用性模块以及接口数据访问模块。针对海量异构数据处理问题，需要将数据探测模块安装在数据处理系统之中。根据数据处理时间的差异，可以将数据分为离线信息、近线信息、在线信息三种不同的类型。处理秒级信息的时候，多采取流处理技术。流式处理系统的实际应用过程中，主要采取Storm架构或者是Flume架构，数据处理完成之后，将数据传输到数据库之中进行保存，从而实现数据实时处理[4]。设计批处理系统的时候，应依次进行数据存储、数据管理、数据分析以及数据计算，数据存储系统主要采取HBase技术。处理冷数据的时候，可采取Gluster FS技术，可实现数据管理成本的降低。除此之外，数据处理过程中，可应用OLAP来建模，并利用组件分析，以实现数据处理效率的提高。随着互联网、计算机技术的迅速发展，各种新技术不断涌现，为海量异构数据处理提供了新的思路。如，利用Spark技术，可存放中间数据，有利于迭代效率的提高；借助计算模型，可以绘制图形数据库，等等。

7 结语

综上所述，计算机、互联网技术的迅速发展，给大数据挖掘提出了新的要求，也带来了更加严峻的挑战，加强对大数据挖掘相关技术的研究，有着重要的价值与意义。本文主要对互联网大数据采集、互联网大数据预处理、互联网大数据处理技术与互联网大数据可视化技术、互联网大数据实时挖掘、海量异构数据处理等大数据挖掘涉及到的关键技术进行了分析，以供参考借鉴。