云环境下的新型大数据处理平台分析

2020-10-12 13:02石玉峰
科学与信息化 2020年20期

摘 要 本文将详细介绍云计算技术与大数据处理技术的应用方法,并在云环境下对新型大数据处理平台进行具体研究,其中包括大数据处理平台的基本工作流程、平台层次的划分、平台整体的设计架构及其应用集群的实际流程四个方面。当前大数据平台及技术已应用到多项领域中,技术人员需采用科學化手段,合理完善新型大数据处理平台。

关键词 云环境;新型大数据处理平台;大数据处理技术

前言

大数据技术的多样化使其应用到的领域逐渐增多,在科学发现、企业发展,甚至是社会变革都能看到大数据技术的影子。在该技术发展过程中,技术人员设置了新型大数据处理平台,而在该平台内其复杂的工作流程,极高的技术门槛给应用者带去了较大的挑战,技术人员应借助相关数据的调查与研究,加大对大数据处理平台的了解力度,从而使该平台更好地服务于社会中的各领域。

1云计算技术与大数据处理技术的应用方法

1.1 云计算技术

在云环境下,企业与用户都选择了云计算技术,该技术的主要特点有三个方面,其一,云计算技术具有自主配置服务特征,用户或企业在进行服务时可依照负载需求与自身的工作类型。其二,云计算技术的扩展较为弹性化,依据不同的计算需求,用户可自行缩小或增加资源量。其三,企业或用户在采用与计算技术时应按需付费,用户的支付费用主要为已应用的工作量或资源量。

具体来说,云计算技术还有三种服务类别,即软件服务、平台服务与基础设施服务等。在软件服务模式中,云管理人员会定期发布Web服务,即应用程序,广大用户可借助网络系统使用云数据库与其内部的应用软件,常用的服务软件有Office365。对于平台服务来说,该服务平台的主要工作目标为开发多种资源,如软件开发内部的工具与环境等,在此模式中,用户可自行发布或开发软件。总体来说,平台服务是搭建在基础设施服务之上的,常用的平台服务供应商为Amazon Elastic Beanstalk或Google App Engine等。针对基础设施服务,其服务的基础性资源为云主机、虚拟网络与云硬盘等,借助应用程序中的接口可让用户将工作负载转移到云主机中,对于云主机的配置,广大用户可自行选择,并将储存容量进行合理分配,基础设施服务的供应商有阿里云、Axure与AWS等。

1.2 大数据处理技术

大数据处理技术含有诸多计算模式,最为人们熟知的即是流式与批处理计算模式,流式计算主要处理的为新数据,该模式的时效性较强,其主要的处理方法为实时计算场景,其最为典型的框架为Storm模式,具体来说,Storm框架中包含计算单元、数据流与多项数据输入信息等,在发起某一任务时,其计算任务就会一直处于运行的状态中,多项数据信息进入数据输入中,通过计算单元可有效完成相应计算。

而另外一种计算模式为批处理计算模式,在开展批处理计算的过程中,技术人员先要收集与储存相应的数据信息,再借助对应性框架对其实行分批处理。批处理的主要特征为灵活性强、容错率高及吞吐量大等,该处理方法主要应用在离线计算场景中,其主要的计算框架为Map Reduce。针对Map Reduce模式,其在开展计算任务时,其面对的键值对的形式也有些许不同。通常来讲,Map Reduce需经过两种阶段性任务,即Map与Reduce,此计算模式的核心思维为将某一项大任务进行合理拆分。运用Map Reduce模式能将其内部的计算逻辑转化到数据储存位置中,该任务的执行时间会被有效缩短,从而使数据吞吐量获得显著提高。针对相关模式的开发者,在处理相应数据时只需关注Map与Reduce的具体逻辑内容,进而更为高效地进行批处理[1]。

2新型大数据处理平台在云环境下的具体研究

2.1 基本工作流程

大数据有着极为广泛的应用场景与任务类型,对不同的行业也会产生对应性需求,新型大数据处理平台的基本工作流程有五个阶段,即产生数据源、储存数据信息、开展数据分析、进行数据应用及对应到相应的目标客户。

具体来说,技术人员在应用新型大数据处理平台前,先要输入对应性的数据信息,找到并产生数据源,数据源大多分为三种,人们最为熟悉的数据库,其属于结构化数据,而非结构化与半结构化的数据则置于文件与XML中。此后三类数据经过整合与提取后,价值含量较高的数据则进入到储存环节中,再历经集成、筛选与清洗,进入到数据分析环节,在此环节中,借助相应的大数据处理技术与云计算技术对数据信息进行深入挖掘,并实行实时统计。

在处理大数据的基本流程中,此类平台的数据源种类较为丰富,在进行正式的数据分析前,需将价值含量较低的数据清理掉,此类的数据分析结果会用在趋势分析、用户的商业决策等,通过对新型大数据处理平台工作流程的了解,相关技术人员可更好地发现平台中的优势与价值,若其在某一环节出现问题,也能及时找出,待查明原因后科学进行大数据分析工作。

2.2 平台层次的划分

在新型大数据处理平台中,该平台依层次划分为四个层级,即接入层、计算层、输出层与应用层。接入层主要包括日志、关系数据库与消息等,借助相关技术,此三种数据被带入大数据平台中,此类层级的经典工具为Kafka、Flume等。而计算层中则带有三种计算方式,即混合计算、实时计算与离线计算等,在该阶段利用三种不同时间的计算方法对相关数据开展逻辑分析,其主要的工具为Spark、Storm、MapRedece等。多项数据到了输出层后,即分成两个部分,即数据分发与结果储存,当数据信息经过前两个阶段产生分析结果后可自动进入到结果储存中,剩余数据则输入到数据分发中。最后的阶段为应用层,输出的数据则进入到自助报表与用户画像中,此类数据大多在大数据平台内部移动。借助用用层,多项数据结果被输入到多个系统中,值得一提的是,应用系统属第三方平台,大数据平台内的集成种类多为查询引擎或报表系统。此外,在大数据处理平台的底部还包含存储层,该层级的资源呈分布式特点,主要有消息中间件、数据库与存储系统等。而调度层的主要任务为调度数据处理时的资源,其资源多为内存与CPU等,该层级的主要工具为YARN。

2.3 大数据平台的整体设计架构

通过了解大数据处理平台中的不同层级,技术人员需为该平台设计出一套整体架构,经分析后可得出該平台的主要架构有三个层级,即数据流层、应用服务层与基础资源层。数据流层的主要工作任务是严格控制处理数据的过程;应用服务层中包含诸多软件工具;而基础资源层需科学把握云硬盘或云主机等资源。

首先,在基础资源层中,技术人员可将云模式与大数据平台模式进行巧妙结合,借助云环境中的容量动态与资源数,合理部署大数据集群,该方式不但快捷、简单,还能有效改善硬件的利用效率。在基础资源层内,技术人员可及时解决云硬盘服务封装与自动化集群等相关问题,并运用云计算技术科学对接应用服务层。

其次,在应用服务层内,技术人员可将信息处理工具改造为应用服务,其内部所有的应用服务都需进行严格的监控与管理,从而在云环境下使大数据的工具真正实现部署的自动化。应用服务层中的主要内容包含服务的卸载与安装、服务监控、服务管理及服务仓库的搭建。设计应用服务层的主要目的为借助大数据工具对大数据处理平台开展自动化部署、监控和运行维护等。

最后,在开展数据流层时,利用其内部的交互控制平台,进一步大数据的处理流程,在此过程中,技术人员应保证数据的处理方式与具体流向。数据流层主要有两种类型,即自定义数据流与数据流模板,都可有效增强数据流的扩展度与可用性,在大数据处理平台中,应用数据流层能改善数据流模板的实现、设计。

2.4 应用集群的实际流程

针对新型大数据处理平台中的应用集群,技术人员需设置出更加合理的数据工作流程,以促进特定场景的应用。应用集群的详细流程主要为三步,第一,技术人员应搭建基础集群,相关用户借助云主机系统、模板或指定的集群名称创建出系统性的云主机,在安装完成云主机后还需让其集群初始化。第二,技术人员可创制数据流,其模式分为两种,即数据流模板与自定义数据流,并将定义好的数据流进行应用场景的设置。第三,经过系统中严格的分析与整合,可将价值量或服务性较强的数据流提取出来,并设立对应的应用服务组,技术人员可在初始化集群内部将确认的数据流放置到服务组中,进而完成集群构建[2]。

3结束语

综上所述,随着信息技术的发展与推进,新型大数据处理平台可开展多项应用,借用大数据处理技术与云计算技术能实现该信息平台的搭建工作。若想让平台内部的数据信息被有效开发,技术人员需不断提升应用技术的水平,在搭建大数据处理平台时能更加高效与科学,从而使其内部信息更加准确,更好地应用到多种行业中。

参考文献

[1] 孙家良.基于云计算的大数据信息安全问题与解决方案探讨[J].现代信息科技,2019,3(2):106-107,110.

[2] 赵帅.基于大数据的知识服务平台构建关键技术研究[J].自动化与仪器仪表,2018(12):44-46.

作者简介

石玉峰(1981-),女,山西人;学历:本科,职称:讲师,现就职单位:河南工业贸易职业学院,研究方向:计算机应用。