基于互联网的大数据挖掘关键技术分析

2018-02-17 17:36
信息记录材料 2018年10期
关键词:海量异构数据处理

谢 芳

(红河学院 云南 蒙自 661100)

1 引言

大数据,也被称为巨量资料,是依托计算机、互联网及信息技术而出现的一个新概念,大数据具有数据种类多、数据量大、数据处理快以及数据价值密度低等特点。互联网大数据指的是,用户使用终端的过程中所产生的数据,包括流量、网络协议等方面的内容,供应商提供网络,通过数据,供应商便可以获取用户的相关信息。当今时代背景下,大数据处理已经成为互联网技术的主要发展方向,大数据处理过程中,大数据挖掘占据着十分重要的地位。下文中,笔者就基于互联网的大数据挖掘关键技术进行了分析。

2 互联网大数据采集

互联网大数据采集可以划分为2个阶段,一是基础支撑层大数据采集,二是智能感知层大数据采集。基础支撑层大数据采集,主要目的是为数据平台的建立提供物联网、数据库等技术;智能感知层大数据采集,主要是进行数据识别、数据传输以及数据感知等[1]。运营商通过合理处理互联网大数据,便可以根据用户需求变化情况,及时做出反应,更好地满足用户的数据需求。

互联网之中,时时刻刻产生着大量数据信息,主要以互动信息、日志、视频等形式存在,虽然为用户提供了一定的便利,但给运营商的数据采集带来了沉重的压力,具体体现在:首先,多源数据获取方面存在着一定的问题。大数据有着动态性、多元异构的特征,虽然单个用户的信息价值不高,但整合多个用户的信息之后,便可以提高信息的整体价值。但就现阶段来说,大数据采集过程中,多元化数据的采集难度非常大,给供应商造成了严重的影响。其次,数据实时挖掘的难度较大。信息化时代背景下,数据信息处理过程中已经应用了关联分析、聚类分析手段,但采取模拟分析方法,不能获取实时数据。最后,海量异构管理方面存在着一定的问题[2]。互联网之中的异构数据信息非常多,一些异构数据缺乏注册结构,价值参差不齐,为提高数据质量,必须对关键数据进行异构分析,但其难度相对较大。

3 互联网大数据预处理关键技术

互联网大数据挖掘前期,必须做好预处理,采取科学合理的手段,对互联网大数据进行有效的预处理,主要内容包括数据清理、数据集成、数据归约等。互联网大数据有着庞大的数据量,但其中有价值的数据并不是很多,数据量的增加,也导致了数据噪音问题的加剧,一些不常用的数据,数据量也在不断增加,使得媒体数据处理并不完善,甚至被碎片化处理[3]。面对这样的问题,互联网大数据预处理过程中,可以应用数据清洗技术、数据降噪技术,对大数据进行有效处理。与此同时,采取数据挖掘技术,便可以在预处理阶段获得数据的分类知识、时序知识,这对于数据价值的深入挖掘,有着十分重要的意义。

4 互联网大数据处理技术与互联网大数据可视化技术

互联网大数据的速度较快,在进行大数据处理的过程中,若处理不及时或者是处理不到位,便会导致数据信息价值越来越低。面对这样的情况,大数据处理过程中,应对多个领域进行数据实时挖掘,并采取在线处理手段,实现数据处理效率的提高,并要对数据算法、数据处理模式进行改进。可视化技术指的是,有机结合计算机的认知能力、融合能力以及大数据挖掘技术,通过可视化技术、人机交互技术,来进行数据分析。互联网大数据可视化技术可以实现数据分析能力、数据处理能力的提高。

5 互联网大数据实时挖掘关键技术

互联网大数据具有一定的复杂性,不仅给用户体验带来了不良影响,也给故障诊断带来了很大的难度。互联网大数据挖掘,主要是在明确掌握无线网络原理的基础上,应用数据分析技术、数据挖掘技术,获取数据报表,以达到开放API接口的目的。通过API接口可以获取数据信息,主要包括以下几种类型:一是网络分析数据信息,对会话、流量等方面进行分析,便可以对网络性能的KPI进行评估;二是用户分析数据信息,通过对比分析用户数据,便能获得用户资源的实际使用情况;三是网元分析数据信息,通过分析网元组对比、网元对比的趋势,便能获得RNC性能负载;四是应用分析数据信息,通过分析用户应用业务,便能获得单个用户时间变化、用户累计分布的实际情况;五是终端分析数据信息,通过分析终端设备的具体应用状态,便能获得实时数据变化情况,进而得到相关性能指标;此外,通过分析QoS、QoE等相关指标,还能得到负荷、用户网络状况方面的信息。

6 海量异构数据管理关键技术

计算机、互联网的迅速发展,推动着海量异构数据的产生,海量异构数据有着类型多、数量大、处理速度快、价值密度低的特点,要求在秒级时间内完成数据分析、得到数据分析结果。若是海量异构数据的处理时间过长,则会导致数据价值越来越低。为实现海量异构数据的有效处理,需要科学设计海量异构数据处理模块,具体包括海量异构数据集成模块、海量异构数据处理模块、数据库模块、文件系统模块、易用性模块以及接口数据访问模块。针对海量异构数据处理问题,需要将数据探测模块安装在数据处理系统之中。根据数据处理时间的差异,可以将数据分为离线信息、近线信息、在线信息三种不同的类型。处理秒级信息的时候,多采取流处理技术。流式处理系统的实际应用过程中,主要采取Storm架构或者是Flume架构,数据处理完成之后,将数据传输到数据库之中进行保存,从而实现数据实时处理[4]。设计批处理系统的时候,应依次进行数据存储、数据管理、数据分析以及数据计算,数据存储系统主要采取HBase技术。处理冷数据的时候,可采取Gluster FS技术,可实现数据管理成本的降低。除此之外,数据处理过程中,可应用OLAP来建模,并利用组件分析,以实现数据处理效率的提高。随着互联网、计算机技术的迅速发展,各种新技术不断涌现,为海量异构数据处理提供了新的思路。如,利用Spark技术,可存放中间数据,有利于迭代效率的提高;借助计算模型,可以绘制图形数据库,等等。

7 结语

综上所述,计算机、互联网技术的迅速发展,给大数据挖掘提出了新的要求,也带来了更加严峻的挑战,加强对大数据挖掘相关技术的研究,有着重要的价值与意义。本文主要对互联网大数据采集、互联网大数据预处理、互联网大数据处理技术与互联网大数据可视化技术、互联网大数据实时挖掘、海量异构数据处理等大数据挖掘涉及到的关键技术进行了分析,以供参考借鉴。

猜你喜欢
海量异构数据处理
一种傅里叶域海量数据高速谱聚类方法
试论同课异构之“同”与“异”
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
海量快递垃圾正在“围城”——“绿色快递”势在必行
吴健:多元异构的数字敦煌
异构醇醚在超浓缩洗衣液中的应用探索
一个图形所蕴含的“海量”巧题
LTE异构网技术与组网研究