汤 宁,王 娟,汪 华
(贵州省气象信息中心,贵州 贵阳 550002)
现有省级国内通信系统硬件平台使用共享磁盘阵列和Symantec Veritas CFS 共享文件系统,为通信服务集群提供快速数据存储服务。但从该业务运行以来,由于通信系统负载重等原因,存在共享文件系统和磁盘阵列故障隐患。另一方面,对于省级实时通信业务,由于不存在应急备份环境,一旦出现问题无法及时恢复很容易对省级气象通信业务造成严重影响。
为了解决上述问题,国家气象信息中心结合省级国内通信系统的实际情况,设计并准备了省级国内通信降级备份软件。该软件是基于省级国内通信硬件平台的实际情况,为省级通信业务构造一个国内通信系统的单机运行的应急备份环境;当省级国内通信业务系统发生故障的时候,临时切换到该降级环境,以满足最基本的国内通信业务需求,包括国内上行实时资料的实时收集、处理和上传。该备份软件的优点是不需要另行准备专用硬件平台,只需要在现有硬件平台上进行部署;目前仅支持上行实时资料的通信业务,不支持现有通信系统的前台Web 功能,如实时监视、统计分析等监控功能,同时对于资料的业务检查功能比较简单。
我省使用NBU(NBU 是新一代国内通信系统备份服务器)服务器进行降级备份软件的部署。该系统服务器是一台SUSE 10 Linux 64 位版本操作系统,此服务器连接在省级国内通信系统的网络环境中。
该服务器处于备份状态时业务负载很轻,不承担重要的业务或者任务,当省级国内通信系统发生故障时,能够停止现有任务,转入应急运行状态。服务器的管理需要和国内通信系统业务用服务器一致,做到国内通信系统故障时,维护人员能够迅速启用降级备份环境。
2.2.1 时钟设置 本系统服务器的时区时钟设置,设置为国际标准时(UTC)。使用超级用户在YaST管理界面中对日期与时间进行设置修改,本系统还同时与业务系统NTP 做时间同步,本服务器启动了crond 定时作业来更新校准系统时间:
在/etc/rc.d/rc.local 这个脚本的末尾加上:/sbin/service crond start 使系统开机时自动启动该服务。(# chkconfig crond on)
以root 身份运行crond 定时作业:
输入:crontab-e
添加以下内容,每天15 时更新一下时间:
0 15 * * * ntpdate ntp_server //ntp_server 为所配时间服务器地址,可以根据实际情况来确定什么时间校时以及校时的频率。
2.2.2 防火墙访问控制 为实现正常状态下和应急状态下备份系统均能与国家级国内通信系统之间互相访问,网络管理员开通本省备份系统与国家级国内通信系统间的访问控制。
2.2.3 收集目录组织结构 我省按照业务系统省内资料收集的目录建立目录结构,保证在应急状态下,从测站和地市收集的资料能透明的接入而不需要进行修改。在超级用户中执行备份软件脚本setup-ftp.sh 即可完成默认组织结构创建(见如下目录结构)
/cccc/workdir/incoming
|——agm 农气资料
|——aws 自动站资料(AWS_ST,AWS_PRF)
|——aws_new 新Z 自动站资料(ST_NEW)
|——clim 气候资料目录
|——cawn 大气成分资料目录
|——gps GPS 探测资料目录
|——grib 数值预报产品资料目录
|——lpd 闪电定位资料目录
|——mon 监控信息资料目录
|——msg 常规观测资料目录
|——nafp 长文件名命名格式的数值预报产品资料目录
|——ocen 海洋资料目录
|——othe 其它资料目录
|——prog 指导预报资料目录
|——qbzq 情报灾情资料目录
|——qcdata 质量控制反馈资料目录
|——rad 雷达拼图资料目录
|——radi 气象辐射资料目录
|——radr 气象雷达资料目录
|——sand 沙尘暴资料目录
|——sevp 气象服务产品资料目录
|——upar_temp 探空基数据资料目录
|——wind 风能探测资料目录
2.2.4 配制文件和资料接入 使用cmss_bak 用户进行操作。在默认的资料配置DIR_CONFIG.1(省级资料上行配置)中。对比现有通信系统的DIR_CONFIG.1 配置,降级备份系统不支持所有资料的格式检查功能、存档选项、格式转换以及部分打包功能。
在默认DIR_CONFIG.1 配置中,需要进行本地化修改,以新Z 资料配置为例,其他资料类似:
默认配置情况下,只有上行北京的DIR_CONFIG.1 配置,可以根据自身需求增加重要省内用户的推送服务,如新增加DIR_CONFIG.n(n 代表序号,可以顺序使用2,3,……),需要在AFD_CONFIG中增加DIR_CONFIG_NAME /home/cmss_bak/cma_afd/etc/DIR_CONFIG.n
在HOST_CONFIG 中增加对应服务的主机别名。
目前,降级备份软件不能支持CMACast 接收功能,并且本系统为做到资料范围的尽量精简,只首要保障核心上行业务的应急备份传输。
2.2.5 资料接入 资料接收和上行目录树结构必须与上述DIR_CONFIG 配置文件需要的目录树结构相一致。本地资料接入目录与现有通信系统接入目录保持一致。省际资料直接接入通信系统,将备份系统地址直接修改为原省级通信系统接入漂移地址;若省际资料接入由通信系统前置机,在应急状态下,将资料接入地址改为降级备份系统的实IP 地址。
目前在HOST_CONFIG 中的默认配置是国家局的上行地址10.1.X.X,备份系统已经通过测试,指向国家局的地址与国内新一代通信系统一样,在正常运行状态中不必向备份系统发送数据,一旦出现特殊情况,可以使用该系统传输。
2.2.6 应急运行状态的启动和恢复 ①应急运行状态的启动:第1 步,使用cmss_bak 帐户登录备份系统服务器;第2 步,使用如下命令启动降级备份系统的收发系统:afd-a;第3 步,检查确认收发系统运行正常;第4 步,确认本省国内通信系统服务地址10.X.X.30,停用后,将备份系统服务器IP 地址修改为本省国内通信系统服务地址10.X.X.30。
②正常运行状态的恢复:在检查确认省级国内通信系统软硬件环境一切正常后,可从应急运行状态恢复至正常状态。恢复时先将备份系统服务器IP 地址由10.X.X.30 修改为正常状态的地址10.X.72.34(以NBU 做为备份系统为例),之后在省级国内通信系统启用服务地址10.X.X.30。
完成网络调整后,首先使用cmss_bak 帐户登录备份系统服务器,关闭降级备份系统的收发系统运行(执行afd-s);随后,即可启动本省省级国内通信主系统(新一代)运行。主系统启动运行后,可再次检查备份系统是否待发文件,如有,可手工送入主系统相应接口目录,由主系统完成后续处理和分发。
2.2.7 备份软件目录结果说明
$AFD_WORK_DIR/
|——etc 收发运行配置文件存放目录
|——archive 收发子系统发送存档目录
|——datarch 收集与存档接口目录
|——fifodir 系统用目录,用于存放各类fifo文件等文件
|——files 系统用目录,用于存放临时文件和排队信息
|——incoming 主动获取远程文件的临时存放目录
|——outgoing 文件分发目录
|——pool 文件收集缓存目录
|——time 文件时间检查目录
|——crc 用于文件重复检查
|——store 用于文件重复检查
|——log 系统日志目录
|——messages 系统用目录,存放分发任务编号(Job ID)等文件
2.2.8 常用维护工具介绍 ①指令工具(afdcmd)。可以使用afdcmd 程序发送大部分命令。当没有设置任何参数时运行afdcmd,它会自动显示使用帮助。
分发选项,后跟分发目的主机别名:
接收选项,后跟接收目录别名:
全局选项:
②启动和停止(afd)。
用法:afd[-w <AFD 工作目录 >][-u[<用户名>]][选项]
-a 仅启动AFD
-c 仅检查AFD 是否在运行
-C 检查AFD 是否在运行,如果没有启动AFD
-h 仅检查heartbeat
-H 检查heartbeat 是否存在,如果没有则启动AFD
-i 通过删除先进先出(FIFO)队列,初始化AFD
-I 除etc 目录外删除所有内容,初始化AFD
-s 停止(关闭)
用-i 选项初始化AFD,会删除$AFD_WORK_DIR/fifodir的所有内容,但不会删除AFD 提交的任务和正在传输的任务。只有在AFD 没有运行时才会删除这些内容。
-I 选项会把AFD 恢复到第1 次运行前的状况,同时会删除AFD 提交的任务和正在传输的任务。
如果AFD 运行在共享硬盘或文件系统上,用-h 或-H 选项查看AFD 是否在活动。
该系统运行以来使国内新一代通信数据传输有了应急备份,从建立至今在国内新一代通信系统维护和出现故障过程中,有力的保障了各类气象数据的传输。