基于云计算技术的大数据分析平台设计与开发

2021-06-28 12:24张淑杰
电子测试 2021年2期
关键词:储存服务器节点

张淑杰

(华北理工大学附属医院,河北唐山,063000)

1 大数据分析平台重点内容

1.1 数据的管理和储存

对于大数据分析平台的构建和应用,储存数据问题的解决是第一要务。由于大数据技术所具有的特点,必须要按照分布式的系统结构建立分析平台,从用户的多元化、个性化需求出发,来设计具有多种数据收集管理的功能和方法。建立分布式文件系统需要对系统现有的资源进行充分的运用,也可以运用其它可靠的方法来实现对信息数据的检测,以满足用户的多样化需求。由于该两种不同的数据服务类型,直接导致建立数据储存结构的难度增大。这是因为大数据中所拥有着海量的信息数据和多种格式的文档图表,这些大规模的信息存量都多属于半结构、非结构类型,要想实现对这些信息数据的高效处理,必须要建立功能稳定的储存模块。对于键值、图表类型的数据的储存,目前还未给予规范的说明,因此,这里所建立的储存模块,也包括对此类型信息进行的储存,通过数据库方式对图标和键值进行处理,这样可以与现今的网络技术环境相适应。与传统的方法相比,数据库的建立可以避免申请这道环节,具有明显的优势。

1.2 数据的收集和储存

在互联网技术环境下,数据的汇集量会不断增多,因此,必须要有效促进数据收集储存的效率的提升。目前,所广泛应用的数据收集技术依然无法较好的满足各类用户的多样化需求,并且存在着内存消耗过大的问题。而通过远程内存访问协议技术的应用能够有效的提升数据测量的效率和质量,并且有效解决了内存消耗过大的难题。从大数据处理技术特点来看,符合应有标准的数据收集方式是较为丰富的,通过数据流处理系统的建立,就能够成功实现数据收集效率的提升,并且有效降低成本,让信息价值得到最大化的发挥。

1.3 云计算架构

集云计算、分布式、储存等多种功能为一体的大数据分析平台,信息数据的处理效率和质量的提升都有了更加可靠的保证,对于云计算数据分析统一平台的构建,结构框架主要包括三个方面:即顶层、中间层、数据层。其中,顶层主要涉及用户接口子系统、工作流,中间层涉及数据预处理、并行数据子系统;数据中心层则是云计算系统里中心数据储存模块。

2 基于云计算的大数据设计方案

2.1 整体设计方法

此次设计的方法和要求说明如下:第一,在企业内建立一个统一的数据运算平台;第二,企业管理人员可以对数据实例进行直接控制;第三,以实体整合的方式实现对企业业绩数据的访问;第四,具有良好的扩展性,能够在配置低的状态下平稳运行,有效降低投资风险。在云技术应用环境下,计算机硬件配置具有良好的扩展性和较高的性价比,才能确保大数据平台的构建具有低成本、高效益的效果,能够支持PB级别和ZB级海量数据的储存,并且支持对结构化、半结构以及非结构等多种类型数据的处理。以此同时,数据统一分析平台的构建必须要充分发挥自身的价值,为企业带来丰厚的经济效益,实现这一目标的关键就是要保证数据价值得到最大化的挖掘。在本文中,笔者对应用云计算技术建立统一分析平台所进行的分析阐述,针对这项技术我们所运用的数据库存储,其中Map Reduce的结构被重点运用,同时设计人员也构建了一个平台,来对相关机构化数据以及半结构化的数据、一些非结构化的数据进行相关的处理与分析,这个平台在项目中的实际应用,对所有客户群体的信息数据进行准确高效的收集和分析,挖掘潜在的客户群体,将是将数据价值变为经济价值,用技术为企业创造更多的利润提供支持和保障。

2.2 统一分析大数据的平台的软件结构

(1)软件结构

对于Segment的主机而言,其中往往存在着很多的节点,在Segment主机中存在着多个节点,运用互联网技术将Segment主机、Master主机和相关数据库进行融合和连接。在网络运行过程中,每一个储存节点之间不产生任何信息交换,他们的运行状态往往都是独立进行的。我们只有通过使用Master的一些相关功能才能让整个的Segment的主机与其他的数据库之间形成信息交换的这一功能,所有的运用程序都要通过Master主机设置的权限来成功访问相关数据信息。每个节点在segment服务器中的运行所具有的任务的相同的,在借助互联网这一介质将这些节点进行了一个有效的连接之后,共同组成了服务器系统。服务器系统在运行过程中,所有的节点保持着独立的状态,不具备数据共享功能,其拥有的数据访问权限仅限于本地资源,正式凭借着这一独特功能,为服务器良好扩展提供了便利。从理论角度来讲,服务器可以实现无限扩展。但是,根据目前的技术支持来看,互联网CPU的可承载数为千个,节点可达到512个。在互联网实现连接的前提下,所有节点直接可以稳定完成数据的共享,并且在共享的过程中不会对对方的内存进行访问,这个运行过程我们可以将其称为数据进行一个重新的分配。

(2)设计的具有较高可用性的方案

在此次设计的方案中,Master主机采用“一主一备”的配置模式,用G(gigabit ethemet)网络来实现对Segment主机和Master主机的有效连接,这样的配置模式可以让Segment主机同时具有两种类型的数据,即网段数据和备份网段数据,从而有效提升的服务器系统运行的稳定性和可靠性。

2.3 统一分析大数据平台的网络结构

(1)现有的,共享的结构

在无交换的信息平台架构中,为了让系统具备在线处理数据的功能,专门设计了通用性较强的数据库、主机SAN/共享磁盘和磁盘SAN/FC网络,这种设计模式主要适用于小规模信息数据的查询。在无交换数据平台运行体系下,用户所具有的信息查询需求,可以分成多个流程步骤在整个集群中完成统一的分析计算,用户所具有的所有信息数据需求都可以在以互联网高带宽的运行体系中快速实现。这种体系模式不仅具有简洁化的优势,其中没一个节点与本地磁盘中间均具有一个保持数据独立运行的高速通道,从而为信息的高质量、高效率处理提供了有力的支持与保障(如图1所示)。

图1 完全共享性架构

2.4 统一分析大数据平台的优点

(1)为保护数据的节点镜像提供了强大保证

在云计算技术下的大数据分析平台的运行过程中,Master主机负责对最原始的信息数据进行保存,在各节点位置处的Segment主机主要就是保存用户的形象,通过镜像技术的运用,通过多个不同任务的Segment主机能够对镜像数据进行保存。这样,如果Segment主机在运行过程中发生损坏,负责镜像数据保存的Segment主机可以将自身已保存的镜像数据恢复到原来的数据库系统中,有效保证了数据的安全性。

(2)外部表的快速加载

对于数据流的SQL而言我们可以通过外部表来进行一个较为直接的操作,这样操作有着非常明显的优点,数据能够进行并行加载,其中加载的最高速度往往能够达到4.5TB/小时的峰值。

(3)Map R educe&SQL

应用云计算技术所建立的大数据分析平台以Map R educe &SQL一体化的技术环境为保障,与传统的编程理念所运用的技术环境有着较大的差异,并且也与传统的关系类型的数据库系统有着本质的区别。

(4)云计算平台的私有性

要想使平台的安全能够较为稳定的运行,那么继续用更加稳定的服务器,为了确保运行效果,此次设计采用了X86开放架构的PC服务器,这种类型服务器具有非常明显的优势,不仅能够快速安全的完成对数据分布式的储存;而且还能够稳定支持数据信息的大规模统一计算,从而使得较为棘手的I/O难题得到了有效的解决(如图2所示)。

3 结束语

从以上的内容中我们可以看出,由于我国近些年来高速发展的网络信息技术,大数据这项技术已经充分的运用到了各个行业之中,,大量新技术、新方案的涌现使得以大数据技术为核心的产品纷纷推向市场。在此趋势和背景下,企业只有充分的运用大数据技术,才能适应时代的发展,为企业创造更多的经济效益。本文,笔者对依靠云计算技术建立大数据分析平台进行了分析阐述,并且尝试设计出了一套分析平台,该平台能够稳定支持对结构复杂、关联度高的信息数据的高效准确处理,并且这种设计模式还能够很好的支持PB级别数据的处理,有效实现了信息数据处理的高效化、准确化目标。因此,在企业的大数据平台构建中具有较高的借鉴参考价值。

猜你喜欢
储存服务器节点
CM节点控制在船舶上的应用
Analysis of the characteristics of electronic equipment usage distance for common users
冬季养羊这样储存草料
基于AutoCAD的门窗节点图快速构建
通信控制服务器(CCS)维护终端的设计与实现
安防云储存时代已来
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御
精液长时间冷冻储存与冷冻复苏率的相关性研究