大数据测试技术初探

2017-05-18 23:20郜金丽
环球市场信息导报 2017年2期
关键词:海量数据处理数据挖掘

郜金丽

随着计算机处理技术的成熟,大数据处理技术也逐渐得到人们的重视,能够有效的为人们数据支持服务。通过对大数据技术的特点进行分析,探究了大数据技术的关键技术与数据处理的流程,并讨论了大数据测试技术的主要过程。

大数据是继云计算、物联网出现后一个十分重要的计算机数据处理的热点问题,它不仅包括了海量的数据容量。还包括了高速的数据处理技术,大数据在互联网中的运用,解决了海量数据的挖掘问题,能够智能提取有用的信息,为用户提供决策服务。由于网络数据库系统与大数据的结构存在不匹配的情况。要想获得有用的数据信息,必须通过大数据并行处理数据平台才能有效的实现。

大数据技术特点

依托大数据的软件得到了广泛的应用,随着大数据技术在各种行业中的运用,促进了信息化社会的发展。在大数据技术的基础上产生的Hadoop分布式处理的数据软件技术、Hhase数据库技术以及网络可视化软件在网络上得到了广泛的应用,

数据智能处理技术的运用,大数据技术主要是从海量的数据中提取有效的数据,并能对数据进行自动化的处理与分析。进而能够发展对人们有用的数据信息、知识等,进而能够解决生活中的实际问题。因此。在大数据的处理中广泛的采用了智能处理技术,来实现大数据的分析与管理,同时大数据与人工智能结合,能够自动实现对海量数据的分析。

分布式处理架构。分布式处理技术在大数据中的运用。改变了传统的数据处理方式,利用分布式处理系统能够快速的提取有用的数据,提高了数据的处理效率,在大数据分布式处理的架构中,主要包括分布式文件处理系统、分布式数据库处理系统以及分布式编程技术等。已经各个行业得到了广泛的应用。

非结构化数据处理技术。在云数据出现之后。以图片、视频、音频等形式出现的数据都是非结构化的数据。而且这种数据也越来越多。大数据采用非结构化的数据处理技术,能够有效的对非结构化的数据进行处理。提高了非结构数据处理的效率。

大数据测试技术分析

大数据测试技术流程图

大数据的测试需要配合相应的数据计算处理平台,才能够有效的实现对数据的挖掘与处理。它从系统的日志文件、流数据、社会数据以及事务性数据等海量数据中,采用数据提取工具提取相应的数据,并将它们传输到相应的预处理数据库中,在Hadoop中,数据进行相互操作与处理,然后将预处理过的数据送入到数据仓库或者大数据处理系统中对数据进行处理。大数据测试技术的流程如下图1所示:

大数据的测试流程分析

测试数据采集。大数据的数据采集主要是运用数据库来接收用户的数据信息,例如APP客户端数据信息。Web客户端数据信息、社会事务数据信息等方面的数据信息。而且客户端的用户可以通过大数据的数据库对信息进行收集、处理、提取与查询等工作,他可以从SOL数据库、Oracle数据库中保存的一些日常事务数据中提取有用的信息,除了从这些数据库中提取数据外,大数据除了技术还能够从网络数据库、Redis等数据库中采集数据。、

导人、预处理数据。大数据在处理数据的过程中会从多个数据库中采集数据,如何对这些海量的数据进行科学分析是不能解决问题的,需要将采集到的数据导入到一个大型的、集中的数据库。对这些数据进行预处理。剔除一些无用的信息。例如采用Sqoop和Flunm等工具就可以在大型数据库中对这些数据进行相互操作,进行预处理。在导入与预处理数据阶段导入的数据量十分巨大。每秒可以达到百兆或者千兆。

统计分析数据。在经过Hadoop预处理的数据之后,需要将这些大量的数据导入到一个大型的集中数据仓库中,在数据仓库中采用分布式技术对数据进行对比分析、汇总与提取之后,然后通过数据挖掘处理等方式对数据进行分析,提取数据的特征。在统计分析数据阶段明显的特征就是数据的查询量比较大。请求的命令也比较多,通过使用分布式技术来对其中的数据进行分析、汇总等。统计分析数据的特点就是导入量大。其查询数据量也大。请求较多。这里Hadoop是常用的数据统计分析工具。

数据挖掘过程。与前面的几个阶段相比,大数据的数据挖掘过程没有预先设定数据挖掘的主题,而是在现有的数据仓库中对数据进行计算与分析,以保证数据的处理能够达到预算的效果,进而能够有效的达到复杂数据处理与分析的要求。用于大数据挖掘常见的算法有K-means(数据聚类算法)。SVM(数据统计学习挖掘算法)、遗传算法以及naive Bayes(数据分析算法)等,用于数据挖掘工具主要以Mahout工具为主,大数据处理技术的数据挖掘的过程最为重要的特点就是保证数据文件格式能否满足数据挖掘的要求。

数据分析阶段。在对海量数据进行分析处理之后,产生的数据就会被自动的存储在数据仓库或者大数据系统中。这是大数据系统就会对数据进行分析处理,提取与用户相匹配的信息。数据分析阶段就是保证数据处理能够流畅的进行。并且能够有效的对大数据进行处理与分析,并得出有效的数据管理策略,依据數据逻辑给出相应的决策建议。

大数据对数据处理数据的本质是预测数据,只能找出海量数据的相关性,而不能找出数据的准确原因及数据之间的因果性。同样大数据对数据的处理不是随机处理数据,而是挖掘一些有价值的异常数据,通过对大量数据进行对比来发现这些异常数据的价值,为人们提供决策支持服务。随着大数据处理技术的日渐成熟,未来大数据在网络信息处理中将会展示出更大的魅力。

猜你喜欢
海量数据处理数据挖掘
一种傅里叶域海量数据高速谱聚类方法
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
海量快递垃圾正在“围城”——“绿色快递”势在必行
基于并行计算的大数据挖掘在电网中的应用
一个图形所蕴含的“海量”巧题
一种基于Hadoop的大数据挖掘云服务及应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于GPGPU的离散数据挖掘研究
基于文件系统的分布式海量空间数据高效存储与组织研究