DCS系統通訊故障
一、事件經(jīng)過(guò)
10月20日20時(shí)40分,#4機在運行中DCS的五臺操作員站大部分數據顯示紫色,約2分鐘后又自動(dòng)恢復到正常(此種現象以前曾多次發(fā)生)。21時(shí)31分,#3爐在吹灰過(guò)程中,突然發(fā)現#4機DCS的五臺操作員站所有的數據均為紫色,不能自動(dòng)恢復。運行人員立即通知檢修人員速進(jìn)廠(chǎng)處理。因DCS全部死機,無(wú)法在遠方監視機組情況,運行值班人員在就地監視水位,壓力,溫度等關(guān)鍵參數,并作好隨時(shí)打閘停機的事故準備。經(jīng)熱工同意,運行人員對服務(wù)器主機重啟,仍然無(wú)法恢復。
檢修人員在現場(chǎng)檢查發(fā)現所有PCU柜上的通訊接口主模件,包括NPM和ICT的狀態(tài)燈均為紅色,故障代碼為均為L(cháng)ED2&5燈亮(為L(cháng)OOPBACK故障或NIS故障)。但是所有MFP12主模件以及對應的子模件均工作正常(機組仍能維持運行)。對ICT模件進(jìn)行復位和拔插操作,故障依舊,不能消除。經(jīng)運行、檢修人員商討決定進(jìn)行停機檢查。機組停機后,對NPM模件進(jìn)行復位和拔插操作,故障依舊不能消除。
待#2機、4機和#11機均已停機后,將中心環(huán)的PCU電源停掉,再將#4機的#2、#5、#7和#9PCU的電源停掉,并將所有的NIS模件拔出后,將中心環(huán)甩開(kāi),單獨檢查#4機的環(huán)路電纜:
#2PCU→#5PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
#5PCU→#7PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
#7PCU→#9PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
#9PCU→#2PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
將中心環(huán)連接#4機環(huán)路側的兩塊NIS模件拔出后,單獨檢查#4機到中心環(huán)的環(huán)路電纜:
#2PCU→#18PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
#18PCU→#2PCU,環(huán)路電纜的同軸芯與外殼間的電阻為∞;
檢查環(huán)路電纜沒(méi)有短路現象。
仍然將中心環(huán)甩開(kāi),將#4機環(huán)路電纜接好,并將所有的NIS模件插入后,將#4機的#2、5、7和#9PCU重新上電,自檢完成后,所有的ICI和NPM模件狀態(tài)均顯示正常(包括SOE的接點(diǎn),EWS的ICI需要在EWS上人為連接),五臺操作員站的所有數據均顯示正常,通訊系統恢復正常,初步懷疑故障起因源自中心環(huán)的IIL模件。
為驗證上述的懷疑,再次將中心環(huán)接入#4機環(huán)路,將包括中心環(huán)在內的所有PCU重新上電,自檢完成后,#4機環(huán)路上所有的ICI和NPM模件狀態(tài)均顯示正常(包括SOE的接點(diǎn)),五臺操作員站的所有數據均顯示正常,但位于中心環(huán)PCU柜上18-6-1、18-6-2、18-6-3位置的IIL模件仍處于故障狀態(tài),而另一IIL模件則正常。之后進(jìn)行如下試驗:
NPM、MFP各自的冗余切換。
正常的啟機操作。
旁路快開(kāi)/快關(guān)保護。
汽機保護傳動(dòng)。
SERVER和CLIENT的切換。
以上試驗均正常,機組具備開(kāi)機條件(如果要開(kāi)機,當時(shí)設想將掛在#4機的中心環(huán)甩開(kāi),解環(huán)運行)。
21日7時(shí)15分,完成上述的檢查與處理。22日下午,制造廠(chǎng)工程師到達后開(kāi)始進(jìn)行如下檢查、處理:
檢查通訊接口子模件以及對應的端子板NTCL01,當檢查到位于中央環(huán)的IIL模件時(shí),發(fā)現與#2環(huán)相聯(lián)的一個(gè)NIS11模件,無(wú)論其對應的IIT主模件處于主還是備用時(shí),與其相聯(lián)的TCL端子板上的狀態(tài)燈均激活(不正常)。
當復位對應的IIT主模件時(shí),該IIT主模件也進(jìn)入故障模式,故障代碼為2&5紅燈。此時(shí)如果對其他的PCU柜內的NIS/NPM模件做冗余切換,則該PCU柜內的NPM模件將顯示故障,故障代碼為1、3、5紅燈。
如果拔出上述有問(wèn)題的NIS11模件,再復位任一NPM模件,則該NPM模件故障消失。
接著(zhù)將上述有問(wèn)題的NIS11模件重新插回原來(lái)的位置,再將#2環(huán)內的所有四個(gè)PCU柜均斷電后再上電,發(fā)現所有四個(gè)PCU柜內的NPM主模件均進(jìn)入故障模式,錯誤代碼為2、5紅燈,并且#2PCU柜內的一塊NIS11模件上的所有十六個(gè)LED均紅閃,表明輸入到該NIS11子模件的兩個(gè)控制環(huán)均斷路。此時(shí)如果拔出上述有問(wèn)題的NIS子模件,再復位任一個(gè)NPM模件,則該NPM模件工作正常,如果不拔出上述有問(wèn)題的NIS模件,復位任一個(gè)故障的NPM模件,則該NPM模件依舊進(jìn)入故障模式,故障代碼依舊。
將上述有問(wèn)題的NIS11模件和PCU7內一個(gè)NIS11模件交換,故障依舊。用一個(gè)新的NIS11模件替代上述有問(wèn)題的NIS11模件,則故障消失。上述故障是由于該NIS11子模件損壞所致,即更換了該模件。
二、原因分析
1.本次故障為NIS11模件損壞造成。按SYMPHONY DCS控制系統的設計,如果一個(gè)NIS11子模件故障,則該NIS11子模件以及對應的NPM模件均進(jìn)入故障模式,與該NIS11子模件相聯(lián)的TCL端子板將兩個(gè)控制環(huán)自動(dòng)旁路,同時(shí)處于后備模式的NIS/NPM模件將接替上述故障的NIS/NPM的工作。但本次事件中NIS11子模件故障后,未能將對應端子板上連接的兩個(gè)控制環(huán)旁路,顯然不正常。這種故障屬于極罕見(jiàn)現象。至于NIS11模件上的哪個(gè)部件損壞會(huì )導致上述現象,有待于進(jìn)一步分析。
2.關(guān)于SERVER25有時(shí)也出現顯示數據為紫色、大約2-3分鐘后自動(dòng)恢復的現象。20日檢查時(shí)初步懷疑為,#7PCU上有一段Control Way與該SERVER的ICI通信模件相連所致,為了驗證上述懷疑,當時(shí)拔掉該段Control Way觀(guān)察。11月3日,#4機DCS的SERVER#25三臺電腦參數再次出現壞質(zhì)量,約一分鐘后自動(dòng)恢復(從此可以否定當初的懷疑)。故障原因尚待分析查找,目前初步懷疑SERVER的ICI通信模件有問(wèn)題,11月5日,將SERVER25與工程師站的ICI(ICT+NIS)模件進(jìn)行了對調,待繼續觀(guān)察。
三、防范措施
1.在每臺機組的SERVER上增加中心環(huán)節點(diǎn)的標簽,與其他節點(diǎn)的標簽一樣,將他們的報警級別設置為帶音響的最高級。
2.加強對PCU模件柜的巡檢工作,每天巡檢機組時(shí)必須觀(guān)察PCU模件柜中主要模件的狀態(tài)。
3.在近期利用停機間隙,對所有機組的DCS機柜和操作員站進(jìn)行一次徹底的清灰工作。
4.制訂出Symphony系統的定期工作和日常維護導則,并對運行人員進(jìn)行相關(guān)培訓,重點(diǎn)進(jìn)行DCS系統本身故障(軟件、硬件)報警的判別及處理,即出現哪些(級別)報警時(shí)需立即停機處理;哪些(級別)可待檢修到場(chǎng)處理等。
5.對于NIS模件的故障原因,要求制造廠(chǎng)盡快找出故障原因并提出改進(jìn)措施。
6.DCS通信系統故障后,機組的操作采用應急方案。
?