基于Flink平台的运用探讨

2019-09-09 08:14王志红
数码世界 2019年5期
关键词:生态系统大数据时代

王志红

摘要:在当前我国大数据时代的背景下人们对于信息的实时处理平台愈发关注,早在2014年,对于数据的分析处理,Flink平台便为其提供了新思路与新方法。笔者结合自身多年经验,对Flink平台理论进行分析,阐述生态系统等相关技术,除此之外,还分析了当前Flink平台所面临的挑战。文章内容可供各位同行相互参考,希望能为Flink平台未来的发展有所启示。

关键词:Flink平台 大数据时代 生态系统

前言

在当前我国现代化信息时代,人们在日常生活工作中,会产生大量的数据信息,这便是大数据。结合当下我国Flink平台的实际发展情况来看,有关数据分析、实时计算搜索等功能都能够在Flink平台上实现,但是Flink平台在当前社会快速发展的背景下,在运用过程中面临着诸多问题,基于此本文主要内容研究Flink平台的运用具有十分重要的现实意义。

1 Flink平台的工作机制与相关技术

Flink其本质以一个较为新型的流处理系统,在Flink中所蕴含的丰富的API接口能够有效帮助相关工作人员,对流处理应用进行开发,除此之外,Flink自身还具有十分显著的灵活性这一特征,与此同时,Flink还具有十分高效的流和数据容错。在Flink中,流处理能够有效以低延时的状态对相关工作任务开展处理工作。一些新型的而应用在处理相关数据过程中,需要开展持续查询工作,这些应用在一定程度上只能通过流架構实现。

在开展流架构处理工作时,首选需要从各种数据源中收集各种数据信息,主要数据源包含有机器业务平台的生产业务操作日志、数据库结构化数据、半结构化数据、文本数据等,在此过程中,需要对相关数据进行实时加工清洗计算后组织到一个中心。其次,在此中心中形成各种流,例如Apache Kafka这一典型工具,能够在运行过程中提供broker功能,以自身较高的可靠性,以及较低的失败容错率,来对缓冲数据以及流日志开展收集工作,进而将相关数据信息结合受众的喜好进行分发。再次,要对流开展真正的分析工作,在此工程中,Flink能够提供分析工作所需的一步到位的高级编程。基于上述内容可知,Flink不仅能够有效开展流处理,还能够进行批处理。

结合Flink的实际运行情况来看,在其运行过程中主要依赖于Hadoop平台来执行相关动作。Hadoop平台最早起源于Nutch,Nutch的本质是一个搜索引擎,基于开源JAVA进行实现的。而Flink是Spark扩展而来的平台,能够对开展流式数据的处理工作以及批处理工作,基于此我们可知Flink对于Hadoop具有良好的兼容性。结合Hadoop与Flink的实际运行情况来看,Flink相较于Hadoop拥有较好的数据处理能力这是因为Flink在运行过程中,通过内存来开展相关计算活动。

2 Flink流处理的时间窗口

针对于流式处理平台而言,在运行过程中,流入其中的信息为无限量,在信息流人之后,流处理系统自身需要开展聚合连接操作,在此过程中,对流入消息会进行分段处理,随后根据系统在对不同阶段的信息进行聚合连接处理。其中对消息进行分段则被称为窗口,在流式处理系统中会支持各种各样的窗口类型,时间窗口也在其中,时间窗口指代的是,根据时间间隔对流系统的流人信息进行分段处理。对于当前我国Flink流处理平台的实际发展情况来看,通常情况下是根据系统内TASK所在节点的本地时间对相关消息进行切分处理,采用时间窗口模式,能够促使流式处理系统在运行过程中不会阻塞消息,保持系统自身的流畅性,但是在此过程中可能会导致部分应用的要求无法满足。例如,Flink流处理的信息本身带有时间戳,因此,用户自身希望能够按照信息自身的时间戳来进行处理,此要求在Flink流处理的时间窗口中无法实现,除此之外,由于Flink流处理平台中不同节点的时间不同,导致信息在被处理过程中,流经系统中各个节点的延迟不同,通常情况下表现为,在某节点,同属于一个时间窗口的消息在流经系统中下一个节点时可能会被切分到不同的时间窗口中,最终会导致信息最终的处理结果不能符合预期的结果。

结合当前Flink流处理平台的实际运行情况来看,现如今主要支持三种类型的时间窗口,能够有效满足用户对Flink流处理平台中时间窗口的要求。首先为Operator Time,它的使用导致Flink平台在运行过程中能够根据task所在节点的本地时钟对时间窗口进行切分。其次为Event Time,当流入的消息自带时间戳时,能够促使Flink流处理平台能够根据时间戳对消息进行处理,确保统一时间戳内的消息能够被正确处理。最后为Ingress Time,当消息自身并没有携带时间戳时,但是用户仍旧希望按照消息进行处理,而不是按照系统平台中的节点时钟进行划分,此时利用Ingress Time能够对消息进行有效处理。

3 未来发展所面临的挑战

结合当前我国Flink平台的发展现状来看,目前流式处理平台类型众多,其中主要平台包含有Spark Streaming、Storm、Trident等,并且不同平台在处理信息数据方面具有自身优势,例如,如果仅仅只从模型建造方面对流处理平台进行分析的化,Storm、Trident对于小批量处理方面优势较为突出,并且在处理过程中其所占用的空间较小。如果要从流式处理平台的延时方面考虑,Storm在此方面优势较为突出,但是在处理过程中的吞吐率上,Flink具有十分明显的优势,但是结合流处理平台的整体发展现状来看,Flink平台成熟度较低,其余三种主流平台都相较于Flink平台成熟。目前Flink平台在运行过程中主要面临的问题为工作负载的问题,因为在当前大数据时代,Flink平台在处理数据信息等相关内容时,需要处理巨大数量的数据量,也要面临着不断动态变化的工作量。由于流应用在运行过程中自身特性导致相关外来数据信息能够随着时间的变化而变化,因此,Flink平台在运行过程中不能针对自身工作量进行提前预估,因此,在运行过程中需要适应动态资源消耗这一特征,针对于此,Flink平台在未来发展过程中,需要对其运行过程中的问题进行解决,促使自身适应数据处理的工作负载,只有这样才能够有效保障自身不断发展。在Flink平台的应用中,还需对Yarn进行合理整合,提升数据处理效率,但是就目前来看业务平台在发展中数据的数量在不断增加,Flink平台一旦在应用中出现故障,就会对业务平台生产环境中的数据处理造成极大阻碍,而这也是Flink平台在日后需要解决的问题。

4 结语

综上所述,Flink平台在发展过程中,相较于其他主流流式处理平台成熟度度较低,因此,在运行发展过程中,应该结合自身实际情况,增强自身工作负载能力,以便能够在当前大数据时代,对相关数据信息进行处理,有效促使自身不断发展。

参考文献

[1]蔡鲲鹏.基于Flink平台的应用研究[J].现代工业经济和信息化,2017, 7(2):99-101.

[2]马黎[1.Spark和Flink平台大数据批量处理的性能分析[J],中国电子科学研究院学报,2018,13(2):81-85+103.

[3]倪政君,夏哲雷.Flink的并行Apriori算法设计与实现[J].中国计量学院学报,2018,29(2):175-180.

猜你喜欢
生态系统大数据时代
“互联网+”下医药电子商务生态系统的构建与发展路径
生态系统理论视角下医院志愿者角色和功能的研究
生态系统视角下:农村留守幼儿情绪问题的形成
大数据时代下计算机信息处理技术的应用
大数据时代背景下高职院校宣传思想工作的思考与实践
基于价值共创共享的信息服务生态系统协同机制研究
大数据时代下图书馆的服务创新与发展
大数据时代高校学生知识管理
从“数据新闻”看当前互联网新闻信息传播生态
网络空间的生态化治理研究