【摘 要】本文講述了Honeywell PKS系統(tǒng)的基本知識(shí)及系統(tǒng)維護(hù)。
【關(guān)鍵詞】PKS;基本知識(shí);故障處理;系統(tǒng)優(yōu)化;FTE;服務(wù)器 ERDB數(shù)據(jù)庫(kù)
前言
本文簡(jiǎn)要介紹了神華寧煤集團(tuán)煤炭化學(xué)工業(yè)分公司甲醇廠60萬(wàn)噸甲醇裝置DCS系統(tǒng)的結(jié)構(gòu)及其存在的缺陷。結(jié)合一起典型的因DCS系統(tǒng)數(shù)據(jù)通訊中斷而導(dǎo)致的全廠停車(chē)事故,論述了對(duì)該系統(tǒng)的改造優(yōu)化過(guò)程。
一、系統(tǒng)結(jié)構(gòu)及現(xiàn)狀
神華寧煤集團(tuán)煤炭化學(xué)工業(yè)分公司甲醇廠二套裝置(所用DCS系統(tǒng)是霍尼韋爾公司的PKS系統(tǒng)。系統(tǒng)控制著全廠兩臺(tái)240T/h的循環(huán)流化床鍋爐裝置、兩套45000Nm3的空分裝置、3臺(tái)84m3的氣化爐裝置及凈化、合成、精餾、硫回收裝置和全廠蒸汽管網(wǎng)、循環(huán)水系統(tǒng),共計(jì)約7304個(gè)硬件信號(hào)點(diǎn)。
霍尼韋爾公司的PKS系統(tǒng)是以Windows2003SERVER為操作系統(tǒng),包含了最新設(shè)計(jì)的混合型控制器(HybridController)、冗錯(cuò)以太網(wǎng)(FTE)、以及高級(jí)的工程工具和應(yīng)用軟件包。
全廠PKS系統(tǒng)的應(yīng)用為:
1、在鍋爐有兩臺(tái)服務(wù)器,分為主從服務(wù)器(名為nm1a及nm1b),此工程師站分別控制鍋爐、空分、公用工程及循環(huán)水三個(gè)工段。
2、中央控制室的工程師站有兩臺(tái)服務(wù)器,也分為主從服務(wù)器(名為nm2a及nm2b),此工程師站分別控制氣化、合成及罐區(qū)、硫回收三個(gè)工段。
二、一起事故及其暴露出的問(wèn)題
2009年12月5日,儀表車(chē)間系統(tǒng)維護(hù)人員和系統(tǒng)廠家調(diào)試人員一起進(jìn)行鍋爐工程師機(jī)柜間兩臺(tái)服務(wù)器的硬件加密狗重新插拔的工作時(shí),按程序分別對(duì)從服務(wù)器和主服務(wù)器進(jìn)行重啟和備份。結(jié)果出現(xiàn)DCS畫(huà)面上所有數(shù)據(jù)都不動(dòng)且顯示為藍(lán)色,操作工無(wú)法通過(guò)DCS系統(tǒng)進(jìn)行任何操作,使得正在正常運(yùn)行的空分裝置跳車(chē),鍋爐裝置緊急壓火,造成了一起嚴(yán)重的停車(chē)事故。通過(guò)與霍尼韋爾中國(guó)總部聯(lián)系,將相關(guān)記錄發(fā)給對(duì)方分析后得出如下結(jié)論:服務(wù)器通過(guò)Experion PKS Control Data Access服務(wù)從C200控制器讀取數(shù)據(jù),所有操作站以客戶端的方式從服務(wù)器的SQL數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)。由于服務(wù)器數(shù)據(jù)庫(kù)出現(xiàn)問(wèn)題,造成了操作站無(wú)法從服務(wù)器讀取數(shù)據(jù),而服務(wù)器的CDA服務(wù)可以從控制器中正常讀取數(shù)據(jù),所以,服務(wù)器B認(rèn)為A在正常工作,所以服務(wù)器的主備并沒(méi)有切換。兩臺(tái)服務(wù)器重新啟動(dòng)后,SQL數(shù)據(jù)庫(kù)恢復(fù)正常,操作站重新與服務(wù)器建立連接。對(duì)ERDB數(shù)據(jù)庫(kù),服務(wù)器B始終為Primary,服務(wù)器A為Secondary,兩臺(tái)服務(wù)器的數(shù)據(jù)庫(kù)同步始終是Enable的,這樣保證了兩臺(tái)服務(wù)器的數(shù)據(jù)庫(kù)始終相同。當(dāng)服務(wù)器B數(shù)據(jù)庫(kù)出現(xiàn)問(wèn)題時(shí),服務(wù)器A數(shù)據(jù)庫(kù)也同樣存在問(wèn)題,所以,重啟完服務(wù)器A并沒(méi)有解決操作站畫(huà)面顯示的問(wèn)題,當(dāng)服務(wù)器B重啟后問(wèn)題才真正解決。通過(guò)分析可以認(rèn)定這次發(fā)生的DCS 系統(tǒng)故障的直接原因是微軟的SQL Server 2000出現(xiàn)問(wèn)題造成的。
三、采取的措施
Honeywell的PKS R301系統(tǒng)的數(shù)據(jù)庫(kù)是基于Microsoft SQL Server 2000數(shù)據(jù)庫(kù)軟件工作的。Honeywell技術(shù)工程師的指導(dǎo)下立即安裝Microsoft SQL Server 2000漏洞更新。
通過(guò)此次事故,結(jié)合廠家的建議,維護(hù)人員在系統(tǒng)的運(yùn)行維護(hù)過(guò)程中,做到以下幾點(diǎn):
1、服務(wù)器盡量不做軟件組態(tài)、畫(huà)面修改及調(diào)試用,因?yàn)檫^(guò)多的操作會(huì)加大服務(wù)器的負(fù)荷,平時(shí)服務(wù)器不運(yùn)行任何執(zhí)行程序,處于Logoff 狀態(tài)為最佳;
2、定期檢查服務(wù)器事件記錄,發(fā)現(xiàn)不正常的報(bào)警應(yīng)及時(shí)處理,以免問(wèn)題越積越多,最后造成系統(tǒng)故障;
3、每月可以將服務(wù)器進(jìn)行主備切換一次,并重啟服務(wù)器,服務(wù)器切換及重啟都屬于正常的維護(hù)。主備切換最好在Station軟件里選擇Manual Failover切換,不要直接重啟;
4、車(chē)間系統(tǒng)維護(hù)人員應(yīng)經(jīng)常關(guān)心微軟方面的漏洞更新,及時(shí)與Honeywell溝通以了解微軟軟件漏洞。
四、問(wèn)題的進(jìn)一步分析和改造措施
通過(guò)軟件更新使得問(wèn)題得到初步解決,但我們意識(shí)到把系統(tǒng)的安全性建立在對(duì)軟件版本的適時(shí)更新和軟件漏洞的及時(shí)修復(fù)是不可靠的,也會(huì)使系統(tǒng)維護(hù)人員承受過(guò)大的思想壓力和精神包袱。在對(duì)該套DCS系統(tǒng)進(jìn)一步的了解后,我們發(fā)現(xiàn)問(wèn)題的癥結(jié)所在是:普通操作站(FlexStation站)是從服務(wù)器的數(shù)據(jù)庫(kù)中讀取數(shù)據(jù),而服務(wù)器的CDA服務(wù)可以從控制器中正常讀取數(shù)據(jù),在中間數(shù)據(jù)傳遞的過(guò)程中會(huì)因?yàn)榉?wù)器沒(méi)有真正同步而出現(xiàn)類(lèi)似前面提到的通訊中斷事故。改造的關(guān)鍵點(diǎn)是為每個(gè)工段都配置兩臺(tái)直讀操作站(CONSOLE站),以確保每個(gè)工段有2臺(tái)操作站可以直接與DCS系統(tǒng)的控制器直接通訊以讀寫(xiě)數(shù)據(jù)。
改造之前我們對(duì)系統(tǒng)現(xiàn)狀及存在的問(wèn)題進(jìn)行認(rèn)真分析:
1、我廠DCS系統(tǒng)原設(shè)計(jì)配置為2套冗余服務(wù)器,2臺(tái)CONSOLE站,22臺(tái)FlexStation操作站結(jié)構(gòu)。該系統(tǒng)結(jié)構(gòu)主要是基于冗余服務(wù)器加客戶端的主從結(jié)構(gòu),進(jìn)行數(shù)據(jù)交換的。該結(jié)構(gòu)對(duì)于服務(wù)器依賴性較強(qiáng),一旦冗余服務(wù)器均出現(xiàn)故障情況時(shí),僅憑借現(xiàn)有2臺(tái)CONSOLE站,無(wú)法完成對(duì)全廠所有重要裝置的運(yùn)行狀態(tài)進(jìn)行監(jiān)控。。
2、應(yīng)HoneyWell服務(wù)部要求,對(duì)原配置系統(tǒng)中所有FlexStation操作站的Intel 單口網(wǎng)卡升級(jí)為Intel 雙口網(wǎng)卡,其作用是保證每臺(tái)操作站具有連續(xù)的MAC地址,優(yōu)化網(wǎng)絡(luò)通訊質(zhì)量,使FTE網(wǎng)絡(luò)結(jié)構(gòu)更穩(wěn)定可靠。
在分析現(xiàn)狀的基礎(chǔ)上提出實(shí)施方案:
1、增加CONSOLE站
1)目前DCS系統(tǒng)配置,共有4臺(tái)服務(wù)器,2臺(tái)CONSOLE站(1臺(tái)在鍋爐,1臺(tái)在氣化),24操作站(水汽5臺(tái),汽輪機(jī)1臺(tái),空分4臺(tái),氣化5臺(tái),合成6臺(tái),191罐區(qū)1臺(tái),循環(huán)水1臺(tái),調(diào)度臺(tái)1臺(tái))。根據(jù)配置情況,現(xiàn)把7臺(tái)操作站升級(jí)為CONSOLE站。
2)增加的CONSOLE站分配安排為:水汽1臺(tái),空分2臺(tái),氣化1臺(tái),合成2臺(tái),循環(huán)水1臺(tái)。
3)增加CONSOLE站之前,先對(duì)各服務(wù)器進(jìn)行例行檢查維護(hù):主要針對(duì)服務(wù)器近期運(yùn)行狀況、事件是否存在錯(cuò)誤報(bào)告逐一進(jìn)行檢查。
4)記錄所有指定升級(jí)計(jì)算機(jī)原有配置信息,以便安裝完成后,按原配置信息掛上DCS系統(tǒng)。
5)對(duì)升級(jí)的CONSOLE站增加1根DELL 1GB內(nèi)存。
2、更換FlexStation操作站網(wǎng)卡
1)更換的FlexStation操作站網(wǎng)卡分配安排在:水汽4臺(tái),空分2臺(tái),氣化4臺(tái),合成4臺(tái),調(diào)度臺(tái)1臺(tái)。因?yàn)槠啓C(jī)1臺(tái)和191罐區(qū)1臺(tái)FlexStation操作站為應(yīng)工藝要求新增加的操作站,此次改造不對(duì)其操作站網(wǎng)卡進(jìn)行更換升級(jí)。
2)記錄所有指定升級(jí)計(jì)算機(jī)原有配置信息,以便安裝完成后,按原配置信息掛上DCS系統(tǒng)。
五、總結(jié)
經(jīng)過(guò)以上的優(yōu)化改造和兩步的檢驗(yàn),充分驗(yàn)證了此次改造是成功的,系統(tǒng)運(yùn)行至今再未出現(xiàn)過(guò)類(lèi)似事故,說(shuō)明我們對(duì)這套DCS系統(tǒng)的優(yōu)化完善取得了預(yù)期的效果,避免了因控制系統(tǒng)本身原因造成的減產(chǎn)、停車(chē)事故,為企業(yè)的安全穩(wěn)定運(yùn)行做出了積極貢獻(xiàn)。只要我們從技術(shù)上把系統(tǒng)結(jié)構(gòu)、原理搞清楚,就完全可以對(duì)其進(jìn)行優(yōu)化使之更加安全可靠。