基于民航气象数据库系统疑似故障处理的探析

2018-01-02 11:55杨浩
科学与财富 2018年33期
关键词:故障处理

杨浩

摘 要:民航气象数据库系统是民航气象业务的核心信息系统,其24小时不间断的运转保证了气象业务的正常开展,本文重点阐述了数据库系统的一次硬盘自身驱动器监控报错故障处理。

关键词:民航气象数据库系统;AIX;故障处理

0引言

本文是基于民航气象数据库系统疑似故障处理的探析,针对的是民航气象第三级数据库系统。民航数据库系统是民航气象业务的核心信息系统,它采用一套分级的,包含发送、请求、响应、回复、转发等多种功能的,复杂的数据交换模式,实现了实时收集、处理、储存、交换民航国内、国际飞行所需的综合航空气象情报信息的功能,提供给用户气象资料自动分析和制作等功能,为航空气象用户提供航空气象产品[1]。

1民航气象数据库系统架构分析

民航气象数据库系统分为三级体系架构,每一级根据业务处理能力的实际需求进行不同的配置,同级间则采用了相同的配置。本场属于民航气象第三级数据库系统,系统由一台ibm system p520 作为数据库服务器,一台ibm system p520 作为应用服务器,一台DELL OPTIPLEX 745作为通信服务器,采用cisco2960 交换机作为本地网络的核心交换机,通过cisco2851 路由器与所在地区气象中心数据库相连,利用cisco pix 515e 作为安全隔离。在数据库服务器和应用服务器上,均安装了AIX操作系统并搭配目前功能最强大的ORACLE数据库,而通信服务器则安装了Linux操作系统[2]。

通过本场一次气象数据库系统硬盘自身驱动器监控报错故障处理分析,结合AIX系统管理技术学习,总结出了民航气象数据库系统在维护时对主机系统、网络系统、数据库进行故障检查的方法及命令总结,以便发现问题及时处理。

针对济南本场的情况,数据库系统主机系统包括了数据库服务器DB00、数据库服务器DB01、通信服务器,其中数据库服务器安装的是AIX操作系统,通信服务器安装的是Linux操作系统。

2疑似故障处理

在民航气象第三级数据库系统中数据库服务器为ibm system p520q,当系统出现告警时,主机面板上的黄灯会亮起,济南本场在黄灯告警亮起时对系统进行巡检,发现数据库hdisk0硬盘驱动器显示硬盘自身驱动器监控功能有问题,报错代码为具体报错内容为:

LABEL:DISK_ERR2

Location:U787F.001.DPM27Y2-P1-T10-L3-L0

Type:PERM

Resource Name:hdisk0

進一步查看日志信息,发现文件系统无坏块,rootvg读写正常,为了防止hdisk0的读写损坏,决定执行更换硬盘操作。

Hdisk0和hdisk1互为镜像,内含操作系统,故在更换时需要更加谨慎,首先将更换硬盘的整体思路整理出来:准备阶段(停止业务和服务、更改硬盘启动顺序)、更换阶段(确定hdisk0位置、拆除hdisk0镜像、更换hdisk0并做镜像)和检查阶段。

3.1准备阶段

首选需要停止数据库服务器DB00的业务和服务,使用命令bootlist –m normal –o查看当前引导顺序,然后为hdisk1添加引导信息,使用命令bosboot –ad/dev/hdisk1,重新设置引导顺序,将hdisk1设置为最优先,使用命令bootlist –m normal hdisk1 hdisk0,再次检查引导顺序后重启系统。

重启系统后需要检查rootvg是否有stale块,确保更换引导顺序后系统无问题,使用命令lsvg –M rootvg。

3.2更换硬盘阶段

通过命令diag进入选项,依次选择Task Selection-RAID Array Manager-PCI-X SCSI Disk Array Manager-Diagnostics and Recovery Options-SCSI and SCSC RAID Hot Plug Manager-Identify a Device Attached to an SCSI Hot Swap Enclosure Device来确认hdisk0的位置,并且点亮它,记住hdisk0的位置。然后使用命令unmirrorvg rootvg hdisk0拆除镜像,若lg_dumplv系统诊断卷在hdisk0上则需要迁移至hdisk1,然后去掉hdisk0的rootvg,reducevg rootvg hdisk0,去除hdisk0的引导信息chpv –c hdisk0.

然后在系统中删除hdisk0,使用命令rmdev –dl hdisk0,此时可以拔出hdisk0,插入新硬盘,在更换过程中必须确保预防静电,执行命令cfgmgr进行扫描,然后查看新硬盘状态执行lspv,若显示为pdisk需要设置为hdisk后继续操作。

确认新硬盘状态为hdisk后,清除其物理卷组,chdev –l hdisk0 –a pv=clear,重新分配卷组信息chdev –l hdisk0 –a pv=yes,将hdisk0加入rootvg,extendvg –f rootvg hdisk0,此时到达做镜像的步骤,然后才可以把hdisk0加入启动引导,设置其启动顺序为最优先,更改启动顺序的不在赘述。做镜像需要等待一个小时左右时间,命令为mirrorvg –S rootvg hdisk0。

验证做镜像是否成功需要使用lsvg –l rootvg命令,若PPS是LPS的两倍,则镜像制作成功。更换硬盘操作到此结束。

3.3检查阶段

检查errpt和系统信息,执行巡检脚本再次检查系统,确认完毕后启动数据库业务和服务。

参考文献:

[1]梁帆. 民航气象第三级数据库系统管理维护和典型故障处理.硅谷.2011,24:124-125.

[2]张迪馨. 民航二期气象数据库系统主机维护经验总结.空中交通管理.2007,08:45-46.

猜你喜欢
故障处理
智能阀门定位器的工作原理及故障处理
变电运行故障处理维护技术解析
高校网络维护与故障处理探析
钢铁冶炼机械设备的故障诊断及处理分析
基于计算机网络故障处理及网络维护方法研究