基于大数据的信息系统关键技术

2021-03-10 09:20郭子英
电子技术与软件工程 2021年20期
关键词:数据处理数据挖掘分布式

郭子英

(北京化工大学 北京市 100029)

随着信息化技术的迭代发展,各个领域都已经开始运用信息化技术,使用数据信息的数量和种类越来越多。在当前的时代背景下,数据获取数量与途径呈现出几何增长趋势,降低了数据获取的成本。但是面对庞大的数据,如何分析和利用成为一项难题。为了在繁杂的信息当中挖掘出具有价值的信息,需要应用大数据分析与挖掘技术,构建出信息管理系统,使各项数据能够发挥出更高的价值,推动社会各行业领域高质量发展。

1 大数据技术

在大数据时代,为了更好地利用各类信息与数据,需要选择相应的大数据技术,获取具有价值的信息。目前,大数据主要包括数据采集、数据存储、基础架构、数据处理、数据挖掘以及结果呈现几项技术(如图1所示)。

图1:大数据技术主要种类

1.1 数据采集技术

在数据采集过程中,通常会运用到多个数据库,接受来自客户端或者传感器途径的信息。但是这样的大数据采集工作具有一定的难度,主要是受到了并发性高的影响。在某个特定时间段,一个网站的并发访问量很可能是其他时间段的几倍或者几十倍。这对网站系统造成了沉重的压力,甚至会导致网站运行系统的崩溃。为了促进大数据的有效分析,应当将各项数据上传至一个大型分布式数据库当中,或者导入到分布式存储集群内。在数据传输导入的过程中应当进行筛选和甄别处理,除去杂乱、无价值的信息数据,实现预处理的作用。互联网企事业为了提升数据采集工作质量,都具有自己的系统日志数据采集工具,例如Hadoop 的Chukwa,以及Facebook 的scribe 等。这些数据采集工具为分布式架构,能够满足数百MBPS 的日志数据采集和传输需求,保证运行过程的通畅。在对网页数据进行采集的时候,经常会选择网络爬虫或者网站公开API,能够将网页中的音频、视频、图片、文字等非结构化数据抽取出来,并且将其转化为结构化的形式,对其进行统一存储。在对网络流量进行采集的时候,可以运用DPI、DFI 等带宽管理技术,具有一定的精准度和高效性。

1.2 数据存储技术

在完成了数据收集之后,需要将繁多的数据进行合理的存储。互联网企事业在存取数据的过程中,经常会采用PostgreSQL。PostgreSQL在设计的时候主要是为了满足OLTP交互型的相关要求,使其能够实现人机会话功能。除了PostgreSQL 之外,一些互联网企事业也会应用传统的关系型数据库,常见的形式为Oracle,这项技术能够在数据多次修改、增减操作中具有明显的优势,具有较高的效率。但是也具有一定的缺陷,那就是在数据统计、分析过程中效率比较低,不能够带来理想的工作效果。针对这种情况,一些企事业开始尝试Teradata,选择MPP 架构,以软硬一体机的形式呈交给客户。

1.3 基础架构技术

大数据会在网络系统中添加多个节点服务器来达到均衡计算的目的,属于一种横向扩展结构,不属于服务器硬件的纵向扩展结构。在运用大数据技术的过程中,一些企事业在数据归档和备份过程中,数据冗余已经达到了90%以上,这样会严重影响到数据系统的运行效率。因此,应当采取有效的措施,将数据系统中的各类重复数据进行删除。在这个过程中,分布式重复数据删除系统拥有较强的作用,它是由元数据服务器、客户端以及数据服务器组建而成。元数据服务器承担着元数据的维护和存储任务,客户端则是为文件的操作提供操作接口,并且对各项数据进行简单的预处理。数据服务器需要启动重引擎,将繁多的数据进行梳理分类汇总,将其进行有效的存储和管理。

1.4 数据处理技术

为了让各类数据信息释放出自身的价值,需要将收集到的数据进行归纳,展开深入的分析与处理,释放数据信息的运用价值。在处理数据的过程中,需要结合应用需求来选择处理方式,将数据导入到相应的数据模型当中,使其能够实现预测功能。大数据处理技术最初是源于Google 的Hadoop 数据处理架构。这个数据处理架构具有较高的效率,能够实现千兆字节数据的处理。而在这个数据处理架构当中,MapRe-suce 算法以及分布式文件系统HDFS 都是他们的关键部分,具有难以替代的作用。当数据处理任务出现差错到时任务失败时,可以自动重新布置计算任务。但是在这个处理架构当中,容易因任务内串行、链式浪费情况多,中间结果不支持分享等情况导致整体效率低下,并且编程较为复杂。skytree 结合机器学习算法,能够对海量数据进行快速的分析,满足企事业大数据高级分析的需求,目前,已经被运用于异常识别、预测分析、市场细分、相似性搜索等领域当中。Spark 通用并行计算框架是将MapReduxe算法实现的分布式计算作为基础,它会将中间数据放在内存当中,能够带来良好的迭代运算效果,准确度也较为可靠,非常适合用于迭代计算需求较多的数据处理架构当中。

1.5 数据挖掘技术

为了让海量数据的应有价值得以充分释放,需要在现有数据的基础上,选择合适的算法进行计算,了解数据信息潜在价值,实现数据分析和预测的效果,更好的满足高级别数据分析的需求。目前,数据挖掘算法在大数据技术中具有重要的作用,是整个大数据分析理论的核心部分。随着大数据技术的快速发展,数据挖掘算法也衍生出了不同的种类。在当前阶段,应用较为广泛的算法有Kmeans算法、SVM 算法、NaciveBayes 算法。数据挖掘技术在发展的过程中也面对严峻的挑战,因为数据分析挖掘过程中会涉及到不同的算法,算法具有一定的复杂性,使算法的应用于选择具有较高难度。数据挖掘计算过程中需要面对较大的数据规模,计算量也大,为数据挖掘处理工作增加了难度。不同类型的数据挖掘算法需要根据数据类型和数据格式,对各项数据进行深入分析研究,发现数据深层的价值,全面表达数据本身的特性与价值。

1.6 结果呈现技术

对各项数据进行统计与分析,得到相应的数据处理结果,应当选择适合的方式将其直观、可视化地呈现出来,发挥出大数据技术的价值。在对数据处理结果进行呈现的过程中,应当应用适合的数据统计分析系统,制定和设计算法,将各项数据的指标和维度进行梳理。根据主题以及体系将各类数据隐藏的关系进行连接。完成数据处理结果之后,可以将其以柱形图、饼状图、地理信息图等数据形式展现出来,或者通过图像的大小、形状、颜色、亮度等方式借助大屏展示功能,实现数据结果的超清输出,并且支持触控交互,能够对各项数据展开多维定性分析研究。将数据分析结构通过不同的角度展现出来,使用者能够更加全面的掌握数据变化趋势,了解数据之间的比例关系,分析各项数据之间的关联性。正确掌握数据深层次隐藏的规律,使数据内部的价值得以科学有效的应用。

2 基于大数据的信息系统关键技术

大数据的信息系统所具备的功能存在一定的差别,系统架构具有复杂多变的特点。对于大数据信息系统中所涉及到的重要技术,大致可分为以下几种:分别是分布式大数据存储技术、分布式大数据处理技术以及海量数据运算与管理技术。

2.1 分布式文件管理技术

在系统当中,数据的存储与管理是大数据应用的基础功能。传统的数据文件管理系统已经不能够满足当前的使用需求。因此,大数据信息系统需要结合当前的实际需求以及实际的应用方式。对文件管理技术进行合理的设计与分析。目前,应用较为广泛且技术较为成熟的技术为分布式文件管理系统技术。这项技术主要面向具有海量用户的互联网企事业当中。GFS 文件管理系统是由谷歌提出并且开发的一类数据文件管理技术,这项技术能够为廉价服务器搭建一个可以实现扩展的文件管理系统,将繁多的数据存储于多个服务器当中,使其能够得到更好的管理与应用。这项管理基础可以实现分块储存、关联链接、追加更新等功能。但是这项技术也存在一定的限制,在对大文件进行管理和存储的过程中存在一定的不足。为了解决这样的情况,多个类GFS件管理系统已经得到了开发与利用,将其运用到大数据管理当中。这类技术能够增加缓冲层,使用内存加载部分元数据的方式,提高数据存储以及读取的效率,大大提升了工作质量,推进大数据文件管理系统进入集群管理阶段。

2.2 分布式数据处理技术

大数据服务会将繁多、杂乱的数据进行分析处理,为使用者带来更加便捷的数据服务。在分布式处理系统当中,主要应用了批处理技术、流处理技术两种数据处理技术。在批处理技术当中,会将各项数据进行整合归纳,将其进行存储。随后根据数据处理需求将一整个数据划分成多个数据块,将这些数据块分别交给不同处理器进行处理。在这样的数据处理过程中,降低了数据之间的关联性,同时加强了数据的可调度性,提升了数据的集群性。这项技术的核心部分为数据的划分方式、分配方式和处理技术。在此过程中,如果某个环节存在披露,那么将会影响到整个数据分析处理的结果。流处理技术则是需处理的大数据当做一个不间断的流,实时将各项数据划入到处理系统当中对其进行深入研究分析并且反馈结果。流处理技术的应用能够促进数据处理时效性的提升。通过合理运用这两项技术,达到了有效提升数据处理效率和质量,将繁琐的数据信息进行统计管理,挖掘数倍背后隐藏的内容。针对不同的文件选择不同的分布式数据处理技术,优化数据处理模式,使得数据处理技术充分发挥有效作用。

2.3 分布式数据库系统

传统的数据库通常是关系型数据库,这类数据库在对规模性,多样性以及低价值密度性的大数据处理过程中,会存在明显的缺陷与不足。为了提升大数据处理预期效果,应当结合实际需求,采取更简单便捷的数据库模型。例如,Bigtable技术,会将所需处理的数据信息当做字符串,不会对这些字符串进行解释,这样能够让所管理的数据呈现出结构化特征或者半结构化特征。这样一来,数据库系统也就更加简化。除了Bigtable技术之外,Dynamo技术所运用的分布式哈希表、键值存储以及向量时钟等技术也能够实现大数据库系统的高效管理。随着数据库系统的高速发展,推动了关系型数据的进步,令NoSQLogic 数据库得到了发展与应用提升。这个数据库能够实现模式智能化,对应用程序的接口等进行了优化改进,进而达到更好的科学应用效果。为了促进数据库功能效果的提升,需要及时进行优化与改进。借助分布式数据库系统,对各项数据进行处理与分析。结合数据库模型来处理繁杂的数据信息,对各项数据实现规范化、科学化管理,从而达到预期效益。

3 结束语

为了让大数据技术在信息系统中得到更好的运用,需要清楚了解大数据技术的特点,并且正确掌握基于大数据的信息系统关键技术分析。大数据技术具有广阔的发展前景,科学进行大数据分析、处理工作,挖掘数据内部隐藏的价值,提供更加精准可行的策略,为社会信息化发展提供支撑与保障。

猜你喜欢
数据处理数据挖掘分布式
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL
基于GPGPU的离散数据挖掘研究
基于POS AV610与PPP的车辆导航数据处理