铁路客票系统中大数据技术应用探析

2024-04-06 12:49顾浩
电脑知识与技术 2024年3期
关键词:数据分析大数据铁路

顾浩

关键词:铁路;大数据;数据分析;信息化;数据应用

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)03-0069-03

0 引言

隨着我国高铁行业的快速发展,高铁建设逐步迈向国际市场,作为我国立于世界之林的一张明信片,不断地完善高铁系统,推广我国高铁事业发展,是至关重要的。依靠信息化的高速发展,铁路系统可与旅客数据管理平台、公安系统、机场、汽车站、港口等交通系统以及智慧城市相关系统对接[1],为旅客提供全面、便捷、安全、可靠的出行服务。我国高铁建设基本已覆盖100万人口以上城市,由此可以看出,采用铁路出行的旅客较多,客流量占公共出行的比例较大,高铁作为旅客出行的交通方式之一,从售票、进站、检票、乘车、离站等过程,会产生大量的数据,面对所产生的海量数据,采集、存储、加工、分析、应用等方面是亟待解决的问题。以客票系统产生的数据为例,本文从数据采集到应用过程进行探析,并对铁路数据管理系统进行简述,提出建议及意见,合理地开发铁路旅客产生的数据信息,更好地为旅客出行服务。

1 大数据

1.1 大数据概述

大数据是近年来信息技术领域的一大热门话题。它指的是那些数据量巨大、类型多样、处理速度快,且具有较高价值的数据集合。随着数字化时代的到来,大数据的应用场景越来越广泛,对各行各业的发展产生了深远的影响。个人计算机的普及,数据量开始呈现爆炸式增长。物联网、云技术、分布式处理、存储技术等领域的突破,推动了大数据技术的发展。同样在铁路行业高速发展过程中,旅客每年出行的数量巨大,因此对所产生的巨量信息的加工处理存储等均需进一步探讨。对于铁路旅客出行所涉及大数据的应用价值主要体现在以下几个方面:

1) 它能够帮助铁路单位更好地了解客户需求,预测市场趋势,从而制定更加精准的服务。

2) 大数据分析能够提高铁路行业的运营效率,减少不必要的成本。

3) 大数据还能帮助铁路实现智慧出行,提高旅客出行的满意度。

随着大数据技术的发展,同样面临着一些挑战,对于数据信息的有效存储和检索,数据隐私及安全的保障,海量数据信息的提取加工利用等,这些都是大数据技术需要解决的问题。

1.2 铁路行业大数据

铁路行业高速发展,旅客出行数据量呈倍数增长,产生了一系列与旅客出行相关的数据。IBM公司提出大数据的5V 特征:Volume(大量)、Variety(多样)、Veracity(真实性)、Value(价值)、Velocity(高速),这些特征在大数据的发展中不断被印证。

铁路行业在数据获取过程中,大多是大量的、分散的、片段化的、相对独立的、杂乱无章的,仅从单一的数据信息无法推断出信息背后的缘由,这种情况下形成了数据孤岛,为打破这种数据孤岛问题,则需要对数据进行统一管理,找出相互关联的数据信息,进行对比判断,经过人工或计算机分析,得出数据背后的本质信息,将获取的结果应用于现实生活中。

2 客票系统

铁路行业的旅客出行产生了大量数据,并且获取数据信息的途径较多,主要包含客票系统、旅服系统、办公系统等,本文以客票系统获取数据为例加以阐述。

目前,铁路客票系统主要分为车站级、路局级和铁路总公司三个级别,旅客数据信息获取主要从车站前端设备进行采集。客票系统常见的前端设备主要包括:窗口售票机、自动售取票机、网络售票设备(手机)、实名制闸机、检票闸机、手持检票机、人工检票等。每一级均可设置旅客数据管理平台,但所获取、存储、分析的数据量不同。车站级主要获取本站旅客相关数据,路局级主要获取分析该局内包含所有车站内客票相关的数据信息,铁路总公司则对全国铁路旅客客票信息进行把控。根据不同级别的数据信息,分析得出的结论所应用场景也各不相同。

3 数据处理流程

图2为数据处理流程示意图。

3.1 数据采集

客票数据是指与旅客售检票相关的系统所能获取的各种数据信息集合。通过上述所说的客票系统前端设备,对旅客身份及出行信息进行收集,可以为存储、处理、分析、应用数据信息打下良好的基础,客票系统中每个前端设备均有不同的功能。

售票机:包含全功能自动售票机、非现金自动售票机、自动取票机、退票机、窗口售票机等一系列与售取退票相关的设备,随着电子客票的推广,以及第三方支付的成熟,人们对于现金的使用量逐渐减少,因此售票机中纸币的功能不断弱化,取而代之的是电子支付方式。

未来对于旅客购票信息的采集都将有新的改革。

检票机:包含实名制自动检票机、电子客票自动检票机、手持检票机。实名制自动检票机是用于旅客进入候车厅的第一道屏障,对旅客的车票、人脸、二维码等信息进行识别,核验旅客是否购票,车票信息与本人是否一致,乘车时间是否在规定的时间内进站候车等。电子客票自动检票机则是对已候车旅客所购买的车票与所要乘车的车次进行比对,确保旅客不会因一些特殊的原因乘错车次。手持检票机是车站人员利用手持终端对旅客的车票及身份信息进行核验,可进行移动检票。

通过前端设备内的传感器,对旅客身份、车票等信息进行识别,利用铁路内专用客票网络传输所采集的信息,发送至票务数据库进行存储。

3.2 数据存储

数据信息的存储主要经历了三个阶段:传统的信息存储、计算机信息存储、网络信息存储。传统的信息存储方式大多通过数字、文字和图像存储在纸质介质中,这种方式存量大、保存周期长,但是传送信息速度慢,查询检索也不方便。计算机信息存储方式是将信息存储在硬盘、光盘等介质中,存取速度极快,存储的数据量较大,但与网络隔绝,因此异地查询效率也有待提高。网络信息的存储方式是将传统的数据库向分布式数据库转型,具备了传统数据存储及计算机信息存储两种方式的优点,使得用户在查询检索方面的应用更加高效便捷。

对于海量的旅客数据信息,可采用分布式存储方式,hadoop作为行业内十分优秀的分布式存储系统。其核心部分主要是HDFS(存储系统)和MapReduce (计算框架)。将客票信息通过M/R作业切分成若干个独立的信息块,由Map任务以完全并行的方式处理。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务,作业的输入和输出数据都会被存储在HDFS中,整个框架负责任务的调度和监控以及失败任务的重新执行。对于存储后的信息可通过ETL 将数据经过抽取(Extract) 、清洗转换(Transform) 之后加载(Load) 到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,对这些数据信息特征进行判断分析,为客票数据信息决策提供依据[2]。

3.3 数据分析

数据分析是将上述存储于数据仓库中的数据进行算法分析。hdfs用于存储大型数据,hive提供结构化数据,spark提供集群计算,然后spark SQL或者Py?thon调用spark进行计算。算法由Python或其他语言进行提供,计算后的结果再存储于其他的数据库中,由报表或者图形化页面进行展示,也可以供应用分析进行使用[3]。

以Python为例,利用Python对结构化数据库中的数据信息进行数据分析,通常采用pandas、numpy和natplotlib.pyplot等模块进行数据分析,如图3所示。

利用Python对数据进行分析,首先,导入pandas、numpy、math等模块,通过mean()函数求得平均值,var()函数求得方差,std()函数求得标准差。至于获取数据中的最大最小值则更为简单,将数据存储到list数据中,直接利用max(list)获取最大值,min(list)获取最小值。通过对这些数据的分析,可得出不同的结论。例如:可以分析不同天数相同时段旅客的数量或是同一天不同时段旅客的数量,也可以分析同一车次在不同时间段旅客乘车的数量等信息等。

3.4 可视化展示

科学计算可视化的诞生为数据可视化奠定了重要基础[4]。科学计算可视化实现把计算过程中所涉及的和所产生的数字信息转变为直观的,以图像或图形信息为表示方式,随着时间和空间变化的物理现象或物理量呈现在研究者面前,使他们能观察到基础模型,即看到传统意义上不可见的事物或现象,同时还提供与模拟和计算的视觉交互手段[5]。简而言之,常规的数据可视化则是对数据进行聚类、归类、离散等方式进行处理,通过柱形图、饼图、条形图、折线图、散点图等方式将数据信息进行展现,使得数据更加直观地展现在用户面前,用户根据以往的经验对图形及数据信息分析,以此对旅客出行目的进行判断,最终对提高旅客出行满意度做决策。

数据分析也为数据可视化、直观化打下了很好的基础。通过Python 中Matplotlib 模块进行数据可视化,导入matplotlib.pyplot模块,通过read_csv()函数读取需要进行处理的数据文件,将数据文件中的内容显示出来。通过subplots 获取坐标系,通过bar(name,value)方法,传入横坐标名称和值,生成柱状图,scatter()生成散点图,plot()生成折线图等。最后使用plt.show()方法展示图像。

4 客票数据信息实际应用

4.1 车站级客票数据信息

面对车站级的海量数据,通过数据分析,可以对旅客、车站工作人员、车站产品的应用等实现资源的合理分配。

对于旅客购买车票信息的显示,为决策者呈现对应时间段,对应车次旅客的数量,挖掘图表所包含的信息,一方面做到为旅客合理安排进站时间和候车区域,另一方面判断旅客所需检票的时间节点,提前或延迟开放检票口,做到在规定的时间内完成对旅客检票工作。

为满足旅客的服务需求,同样可以通过购票信息的反馈,对车站工作人员进行合理的人员安排,尽量做到优化人力资源配置。在旅客众多的候车区域安排较多的工作人员做引导,减少该区域可能产生的候车问题。通过对车站工作人员的管理,合理安排工作时间、休息时间,在提高旅客出行服务满意度的同时,增强车站工作人员的忠诚度。

车站新产品的投入使用,大多是为满足车站现场需求而研发应用的。近年来检票闸机的大规模投入使用,在减少车站工作人员的工作量同时,也提高了旅客出行效率。从纸质车票到电子车票,都在实现资源最优化配置。因此通过车站级的数据分析,推进车站信息化的建设,提高旅客出行的舒适度。

4.2 路局级客票数据信息

我国共有18个铁路局,不同的车站归属不同的路局管理,不同的铁路线路以及车站的分散情况也各不相同。通过分析路局内各车站旅客出行信息,一方面可以对各车站客流量情况进行判断,缓解线路方面的客流压力,合理安排列车时间表,优化该铁路局内资源配置。另一方面可以将数据上传至铁路总公司级别,为国家铁路信息化的建设提供基础数据,起到承上启下的作用。

4.3 铁路总公司客票数据信息

铁路总公司管理着全国所有旅客出行的数据以及购买车票信息,通过对这些信息的收集、存储、加工、处理,统筹规划我国铁路行业的建设与发展,增强铁路信息化程度,提高城市建设繁华程度以及人民的生活水平等。通过数据挖掘、大数据分析,找寻旅客出行相對较少的省、市,发掘潜在影响因素,推动该地区铁路建设,最终达到提升出行效率,提高生活质量的目的。

5 总结

我国作为崛起的大国,城市信息化的建设仍需不断进行。数据的获取至最终的应用都体现着一个城市乃至一个国家信息化进程,信息化从依附于农业、工业、第三产业到现在已发展为独立的信息化产业,从军用到民用,信息化都在扩大对各行各业的影响,国际局势中信息化的不断发展反映着信息化是不可逆转的趋势。目前发达国家已处于信息源核心,我国正处于吸收信息阶段,为了尽快追赶发达国家的步伐,我国需要规划信息化战略,结合我国实际情况,将理论与实践相结合,最终在信息化的道路上走出一片天地。

【通联编辑:唐一东】

猜你喜欢
数据分析大数据铁路
沿着中老铁路一路向南
铁路通信线路维护体制改革探索与实践
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于大数据背景下的智慧城市建设研究
无人机在铁路工程建设中的应用与思考
GSM-R在铁路通信中的应用