长输管道SCADA系统优化升级中引发服务器冗余故障研究

2015-06-03 18:51苏豪育
科技创新导报 2015年9期
关键词:冗余服务器

苏豪育

摘 要:在对某长输管线SCADA系统进行优化升级工作时,引发了服务器冗余故障,为了解决这一问题。该文针对SCADA系统服务器,提出了重启服务器网卡后,依据802.3协议将A、B服务器设定使用相同的工作方式、速率及master attribute中的配置,同时在数据库中重新下载AB通道控制器,最终成功地解决了SCADA系统优化升级中引发的服务器冗余故障。

关键词:SCADA系统 服务器 冗余

中图分类号:TP333.4 文献标识码:A 文章编号:1674-098X(2015)03(c)-0033-02

1 故障描述

按照《某长输管线SCADA系统程序优化升级》的工作计划,工作人员到某站进行程序升级,升级进行过程中发现STATION界面显示A、B服务器出现不冗余(HMI系统配置页面中,冗余服务器冗余状态指示灯显示:红色,not synchronization),B服务器为停止状态(红色,stoped),且link 0、link 1均为红色failed状态。

在进行ping测试后发现B服务器的大小网段IP均不通,立即前往机柜间查看服务器状态,发现A、B服务器状态均为primary状态。在停止B服务器server服务后,更换B服务器的交换机端处网线网口,重启B服务器后。此时两块网卡均正常的收发包。

程序升级完成后,此时进行服务器同步,服务器能够正常同步(A(primary)同步B(back up))。站上工作人员要求切换主备服务器,切换后再次出现问题。发现此次同步过程中在发送文件的过程中左上角提示“synchronization error occurred”。B服务器的link 0(active link)出现红色failed(网卡状态只有发包没有收包)状态。确认报警后再次同步,此时link 1正常(link active),同步过程中,出现与link 0类似的情况,即同步失败。

此时北京中控电话告知该站通讯已中断,将服务器A切为主时,通讯数据恢复;STATION报警中提示AB channel failed,且无论怎么使能,link A的错误率都是100%。此时有3个故障:

(1)服务器A、B无法同步。

(2)备服务器为主时,北调通讯中断。

(3)AB的一个通道(channel)中断。

2 故障排查

经过仔细观察发现,服务器同步异常总是出现于主服务器向备服务器发送文件“sending file 101-sending”至“sending file 104”的过程,且出现错误后,B服务器处于active状态的link 均会failed; failed后的网卡只有发包,无收包;此时重启服务器网卡不能恢复正常,分别重启大小网段的交换机,B服务器的网卡才能正常。此时考虑原因可能为:交换机与服务器通信模式不对导致大量数据传输时出现问题。此时交换机端口状态见图1。

服务器网卡对应的交换机端口均为AUTO模式。查看A、B服务器网卡配置发现:A服务器两个网卡设置均为AUTO,而B服务器两个网卡均为100M FULL。将B服务器的网卡设置改为与A服务器一致的设置,再次同步发现A、B服务器能通正常同步。

3 故障原因分析

(1)A、B服务器全半双工不匹配。

只有A发送快速链路脉冲,B只发送发送FAST ETHERNET IDLE流,以检测链路是否UP。B(强行设定的站点)不会告诉A自己(B服务器)的速率和工作模式。由于B不进行协商,A无法知道B的工作方式。根据802.3协议A必须与B使用相同的速率。工作在半双工方式下。不管速率如何(除了10Gig),半双工是以太网的默认方式,这就造成了全半双工不匹配的问题。避免此类问题有两种方式:两端均使用自动协商模式(AUTO),或者双方均进行强行设定(100M,FULL)。

(2)与北调备用链路通讯中断。

与北调对ping均能够正常ping通,无丢包。104协议升级前后,都不能正常通讯。查看104配置后发现Localhost IP Adress设置为:172.16.153.1。正常的服务器104配置应该为A服务器为server小网段IP,B服务器server为大网段IP。对比master attribute中的配置将B改为与A一致。与北调通讯恢复。

(3)与AB通讯问题。

AB两块网卡均能ping通,且都能够上载程序,在线程序。在线后AB程序未提示异常。AB硬件应该没有问题。考虑数据库同步时出现错误导致此问题,在数据库中重新下載AB通道控制器,再次使能AB的两路通道恢复正常。

4 结语

(1)PKS数据库同步时最好不要对数据库有别的操作(不要远程桌面)。

(2)AB 的ENBT模块的指示灯正常是OK绿色常亮,net绿色常亮,link(绿色闪烁:有数据传输;绿色常亮:数据准备完毕,但无数据传输);但是实际发现中net灯绿色闪烁也是正常的。

(3)通道出现问题,可以尝试将数据库中的重新下载通道控制器。

(4)与北调通信,采用冷备方式(一路通讯中断,北调需手动切换另外一路。)在104配置中,A服务器填写自己小网段网卡地址;B服务器填写大网段网卡的地址。

参考文献

[1] 邓李.PLC编程基本教程[M].北京:机械工业出版社,2011.

[2] 王树青,乐嘉谦.自动化与仪表工程师手册[M].北京:化学工业出版社,201l.

[3] 石油化工仪表自动化培训教材编写组.自动控带1理论基础[M].北京:中国石化出版社,2009.

[4] James A.Rehg,Glenn J.Sartori.Programmable Logic Contrllers[M].Prentice Hall,2006.

[5] 邓李.Control Logix系统实用手册[M].北京:机械工业出版社,2011.

[6] 石油化工仪表自动化培训教材编写组.可编程序控制器[M].北京:中国石化出版社,2009.

猜你喜欢
冗余服务器
通信控制服务器(CCS)维护终端的设计与实现
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御
服务器操作系统可信加固技术研究
关于Linux的视频服务器开发与实现分析