大数据环境下高校网络架构的设计与优化

2015-09-10 07:22黄海军
中国信息技术教育 2015年12期
关键词:校园网大数据

黄海军

摘要:高校校园网经过多年的发展,已经步入大数据时代,而以往对高校校园网的研究基本停留在优化大数据系统软件架构、优化业务逻辑、优化数据分析算法、优化节点性能等方向,都忽略了对大数据环境网络的优化。就此本文首先分析了高校业务类型的多样性,高校非结构化数据的增长对大数据的促进作用;然后对大数据的处理技术Hadoop进行分析,提出了基于Hadoop的高校校园网设计,建议采用SND架构,通过OpenFlow实现;最后提出基于Hadoop的高校校园网优化。

关键词:大数据;校园网;Hadoop;SND;Openflow

中图分类号:TP393 文献标识码:A 论文编号:1674-2117(2015)12-0118-04

前言

大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。同样,高校中也汇聚着大量的信息[1],从学生角度来看,包括联系方式等基本信息,食堂消费、住宿晚归等生活信息,选课、课后作业、借阅图书、成绩等学习信息,参与的社团、竞赛、讲座等第二课堂信息;从教师角度来看,包含教学任务、课件等教学信息,论文著作、科学研究数据等科研信息;从管理者的角度来看,包含学校的资产信息、师资信息、招生就业信息等。同时,随着移动互联网以及物联网等新技术的兴起,学校师生主动产生和由设备自动收集的信息越来越多,如微博、微信类社交信息,各类搜索点击记录信息等。上述信息存在着数据量大、结构复杂、产生频率快的特点。这导致利用常用软件工具捕获、管理和处理此类数据所耗费时间超过了可容忍的时间。如何优化校园网配合大数据的使用环境将是一个需要我们思考的问题。

高校数据结构的分析

在实际应用中,数据因不同的应用场景其表现方式也有所不同,根据在不同应用中数据表现形式的不同,可以把数据区分成不同的类型,即数据类型。随着校园网业务应用日趋丰富多样,数据类型也呈现出多样性。不同的数据类型,其数据组织的结构、属性、存储方式、分析方法、数据价值等都存在很大的差异。

从数据结构特征[2]来分类,主要可以分为:结构化数据、非结构化数据和半结构化数据。结构化数据即指可以用二维表结构来逻辑表达实现的数据,简单来说就是数据库。非结构化数据,即不方便用数据库二维逻辑表来表现的数据。包括所有格式的高校办公文档、精品课件里包含的文本、图片、XML、HTML、各类报表、图像和音频/视频信息、高校智慧图书馆包括的相关信息等。半结构化数据包括校园邮件、HTML、报表、资源库等。高校大数据的范畴包含结构化数据和非结构化数据,非结构化数据的增长对大数据的促进作用相比结构化数据更大、更明显。

大数据处理技术Hadoop

针对以非结构化数据为主的高校校园网大数据技术处理技术比较有代表性的是Hadoop。Hadoop[3]是一种开源的对大规模数据进行分布式处理的技术框架,在处理大数据中非结构化数据有着性能和成本方面的优势。

Apache Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。

1.HDFS简介

HDFS(Hadoop Distributed File System)是一个高度容错性的分布式文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,并且可以运行于廉价的机器集群上。HDFS是以默认大小为64MB的酷爱作为存储和处理数据的逻辑单元,使用这种抽象分块的优点是可以存储任意大的文件,而不会受到网络中单节点磁盘大小的限制,另外一个优点是使用抽象块作为操作单元可以简化存储子系统。HDFS体系结构包括元数据节点(NameNode)和数据节点(DataNode)两类节点。NameNode可以看作是分布式文件系统中的管理者,DataNode是文件存储的基本单元。它在本地文件系统中存储文件块,保存了文件块的meta-data,同时周期性地发送所有存在的文件块的报告给NameNode。存储文件系统的Metadata主要负责管理文件系统的命名空间,集群配置信息,存储块的复制。Client就是需要获取分布式文件系统文件的应用程序。

2.MapReduce简介

Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群的多个节点上并行计算,然后再合并计算结果,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容,减轻了使用者的负担,提高了分布式资源的利用率。Map阶段主要过程是:首先主节点将输入语句进行划分,得到子问题集。然后将这些子问题分配给工作节点,如果本次划分的子问题不能由一个工作节点在一定时间内完成,工作节点将继续对语句进行划分,直到得到的子问题可以由一个工作节点完成为止,最终形成树状结构,计算完成后,按树形结构逆序返回,得到一个输出结果。Reduce阶段是把Map输出集按照一定的方式归并,并输出最终结果。

基于Hadoop的高校校园网络设计

在大数据时代,校园网中的软件、存储和计算基础设施必须能够接收、验证和分析大量的数据;校园网络体系结构[4]和组件必须足够灵活,以适应和整合多功能需求的大数据变量。软件定义和融合技术将成为大数据基础设施的关键技术。对于网络层[5]来说,软件定义网络将会成为最好的解决方式。

1.SND简介

因特网的高速发展可以归结于细腰的TCP/IP架构和开放的应用层软件设计,但从网络核心来讲,由于有专有的硬件设备和操作系统,网络在很大程度上是封闭的SDN[6](软件定义网络),旨在实现数据平面节点控制的虚拟化。SDN的行业定义将得以扩展,并从数据中心领域分离出来,为服务提供商降低成本、拓展商业模式带来全新商机。SDN将控制功能从传统的分布式网络设备中迁移到可控的计算设备中,使得底层的网络基础设施能够被上层的网络服务和应用程序所抽象,最终通过开放可编程的软件模式来实现网络的自动化控制功能。OpenFlow实现了SDN可编程网络的思想,代表了SDN技术的实现原型和部署实例。但从整个SDN架构来看,OpenFlow特指控制平面和数据平面的某一种通信协议。下页图描述了SDN架构的逻辑视图,主要分为基础设施层、控制层和应用层。基础设施层表示网络的底层转发设备,包含了特定的转发面抽象(如OpenFlow交换机中流表的匹配字段设计)。中间的控制层集中维护网络状态,并通过南向接口(控制和数据平面接口,如OpenFlow)获取底层基础设施信息,同时为应用层提供可扩展的北向接口。目前,ONF仍在制定和完善南向接口OpenFlow协议,面向应用的可编程北向接口仍处在需求讨论阶段。应用层根据网络不同的应用需求,调用控制层的北向接口,实现不同功能的应用程序。通过这种软件模式,网络管理者能够通过动态的SDN应用程序来配置、管理和优化底层的网络资源,从而实现灵活、可控的网络,这也是SDN开放性和可编程性最重要的体现。

在SDN的这种三层架构下,高校校园网络的运行维护仅需通过软件的更新来实现网络功能的升级,网络配置将通过网络服务和应用程序的形式直接得到部署,网络管理者无须再针对每一个硬件设备进行配置或者等待网络设备厂商硬件的发布,从而加速网络部署周期。同时,SDN降低了网络复杂度,使得网络设备从封闭走向开放,底层的网络设备能够专注于数据转发而使得功能简化,有效降低了网络构建成本。另外,传统网络中的结点只能通过局部状态和分布式算法来实现数据转发,因而很难达到最优性能。SDN通过软件来实现集中控制,使得网络具备集中协调点,因而能够通过软件形式发挥最优性能,从而加速网络创新周期。

2.SND的实现方式

实现SDN有多种方式,而近年来在SDN的实现方式中,OpenFlow最为流行,它以良好的灵活性、规范性被广泛应用,成为SDN事实上的标准。OpenFlow将传统的由交换机/路由器控制的报文转发过程转换为由控制器(Controller)和OpenFlow交换机(OpenFlow Switch)共同完成,从而实现路由控制和数据转发的分离。通过将控制权从交换机/路由器中分离出来,网络管理者可以借助自定义的策略来控制网络中数据流的走向及行为。这种控制权与交换设备的解耦合为网络带来了更大的灵活性和可控性。与此同时,数据中心网络在处理大数据时需要更加灵活的计算能力。因此,其资源配置也对网络平台提出了新的要求。网络平台连接着服务器、存储等各类数据中心设备。数据中心内的数据网络、计算网络和存储网络正在向融合与统一的方向发展。由于大数据的“4V”特性,要求高校数据中心数据读取的速度要快,只有网络层次越简单,处理速度才越快,因此高校数据中心网络应由三层架构向两层架构(TOR—核心)演变。云计算数据中心发展的重要引擎就是以太网融合和虚拟化的需求驱动着增强以太网的发展,而万兆以太网则在推动数据中心桥接(Data Center Bridging,DCB)网络进行融合。

基于Hadoop的高校校园网络优化

一个有弹性的高校校园网络对Hadoop集群非常重要。对Hadoop集群具有重要影响的网络特性,以其影响程度从大到小依次排序为:网络可用性和弹性、Burst流量突发处理和队列深度、网络过载比、Datanode网络接入和网络延迟。

1.网络可用性和弹性

要部署一个高冗余性和可扩展的网络,支持Hadoop集群的增长。在Datanode之间部署多条链路的技术要比那些有单点失效或两点失效的技术要好。交换机和路由器已经在业界被证明能够为服务器提供网络可用性。

2.Burst流量突发处理和队列深度

HDFS的有些操作和MapReduce Job会产生突发流量,如向HDFS加载文件或者把结果文件写入HDFS都需要通过网络。网络如果处理不了突发流量,就会丢弃数据包,所以适当的缓存可以缓解突发流量的影响。确保选择使用缓存和队列的交换机和路由器,来有效处理流量突发。

3.网络过载比

一个好的网络设计需要考虑到网络中关键节点的拥塞情况。一个ToR交换机从服务器接收20Gbps的数据,但是只有2个1Gbps的上联口会造成数据包丢失(10:1的过载比),严重影响集群的性能。过度配置的网络的价格又非常昂贵。一般情况下,服务器接入层可以接受的过载比在4:1左右,接入层和汇聚层之间,或者核心层的过载比在2:1左右。

4.Datanode网络接入

要基于集群工作负荷来推荐带宽配置。一般集群中的节点有1到2根1GB的上联口,是否选择10Gbps的服务器要权衡价格和性能。

5.网络延迟

交换机和路由器延迟的变化对集群性能的影响有限。相比网络延迟,应用层延迟对任务的影响比例更大。但是网络的延迟会对应用系统造成潜在的影响,如造成不必要的应用切换等。

小结

大数据是智慧校园网发展的新助推器,大数据的技术、工具、方法还将不断发展,高校网络也会随之不断演进。在这场刚刚开始的高校大数据信息革命中,高校网络应该尽早与时俱进。高校校园网今后的升级与规划,要充分认识大数据的重要性,充分发挥大数据的优势,为智慧高校的实现提供更加有力、更加精准的支持。

参考文献:

[1]孙其伟,陆春.大数据在高校中的应用研究[J].中国教育网络,2014(1):63-65.

[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.

[3]郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术,2012,(7):37-42.

[4]徐欣欣.大数据时代高校信息系统建设的探讨[J].信息与电脑,2013,24(4):120-121.

[5]邓自立.云计算中的网络拓扑设计和Hadoop平台研究[J].中国科学技术大学学报,2009.

[6]左青云,陈鸣,赵广松,等.基于OpenFlow的SDN技术研究[J].软件学报,2013(3):1079-1095.

猜你喜欢
校园网大数据
中职学校校园网教育功能应用现状及对策的研究
高职院校校园网应用存在的问题与对策
网络安全技术在校园网中的应用
校园网贷 今生后世
基于大数据背景下的智慧城市建设研究