高 鶯
列車運行控制系統(tǒng)(以下簡稱“列控系統(tǒng)”)是集計算機、通信、控制、信號技術(shù)為一體,確保列車安全高效運行的系統(tǒng),具有典型的計算機系統(tǒng)結(jié)構(gòu)。例如,測速測距傳感器、加速度傳感器等傳感輸入信息,需要通過計算機系統(tǒng),將列車的運行距離、速度、加速度等處理成能夠被車載處理器識別的二進(jìn)制信息,以便控制列車運行速度,確保行車安全;車載的各種制動實施信號、車門的關(guān)閉且鎖閉信號等,也需要處理成二進(jìn)制信息,以便及時實施制動或開/關(guān)門操作;另外,列控系統(tǒng)與司機、調(diào)度、維護(hù)等相關(guān)人員進(jìn)行的人機交互,也需要由計算機系統(tǒng)完成。為此,本文通過分析計算機系統(tǒng)的安全特征來驗證列控系統(tǒng)的安全性。
一些研究機構(gòu)針對計算機系統(tǒng)(尤其是航空、軍工等行業(yè))各種組件的失效類型進(jìn)行了總結(jié)和討論,并形成了國際標(biāo)準(zhǔn)或商用數(shù)據(jù)庫[1]。其中,很多標(biāo)準(zhǔn)按照失效致因機理的差別,將計算機系統(tǒng)的失效分為隨機性失效和系統(tǒng)性失效[2]。系統(tǒng)性失效主要是由于系統(tǒng)需求和硬件設(shè)計錯誤導(dǎo)致的,需要在設(shè)計和實施階段采用質(zhì)量控制和檢查流程等手段避免發(fā)生或及時予以糾正,可以看作是確定事件,只能進(jìn)行定性分析;而隨機性失效可以看作是一個或一系列隨機事件,具有不確定性,在已知硬件元器件的失效率、失效模式和隨機失效出現(xiàn)次數(shù)等基礎(chǔ)上,可以對其量化,因此可以進(jìn)行定量分析[3]。本文著眼于列控系統(tǒng)硬件安全性的定量分析,針對可能影響定量分析結(jié)果的參數(shù),利用蒙特卡洛采樣法對輸入?yún)?shù)進(jìn)行采樣,得出不同的采樣值,再對比分析不同參數(shù)對列控系統(tǒng)硬件安全性的影響。
隨著計算機事故致因機理及信號系統(tǒng)的復(fù)雜性不斷提高,軌道交通行業(yè)的安全理念也不斷發(fā)生轉(zhuǎn)變,“危險”成為系統(tǒng)安全理念的核心。諸多國際標(biāo)準(zhǔn)中定義“危險”為“系統(tǒng)運行過程中,真實存在或可能出現(xiàn)的條件,這種條件下可能引發(fā)某個或一系列意外事件,導(dǎo)致人員傷亡、設(shè)備/財產(chǎn)損失、環(huán)境破壞、職業(yè)疾病的惡劣后果”[4]。危險不是系統(tǒng)的靜止?fàn)顟B(tài),而是系統(tǒng)行為與運行環(huán)境的耦合作用,即系統(tǒng)在某種環(huán)境或前因后果下的特定輸出。列控系統(tǒng)是否安全,與設(shè)備的工作環(huán)境、子系統(tǒng)間接口、線路參數(shù)等緊密相關(guān)。系統(tǒng)安全保障的主線是在整個運行過程中對系統(tǒng)危險進(jìn)行跟蹤控制,其核心過程見圖1[5]。
圖1 系統(tǒng)安全保障核心過程
由于“安全”是相對的,因此可以用具體的量值表示危險程度,找出導(dǎo)致事故發(fā)生的潛在危險,并且用具體的數(shù)值來表示其發(fā)生的可能性,計算由其導(dǎo)致事故發(fā)生的概率和嚴(yán)重程度,制定對策和措施,從而預(yù)防事故的發(fā)生。
《電氣、電子、可編程電子安全相關(guān)系統(tǒng)的功能安全》(IEC 61508)中規(guī)定了在低要求模式、高要求模式或連續(xù)模式下,需要分配給一個安全相關(guān)系統(tǒng)安全功能的目標(biāo)失效概率區(qū)間。鐵路信號系統(tǒng)屬于“高要求模式或連續(xù)模式”,其量化指標(biāo)為“每小時危險故障的平均頻率(PFH)”。同時,“安全完整性”定義為“在規(guī)定的條件下和規(guī)定的時間內(nèi),安全相關(guān)系統(tǒng)成功實現(xiàn)所要求的安全功能的概率”。為了量化安全完整性,IEC 61508 提出了安全完整性等級(Safety Integrity Level, SIL)的概念,用于衡量系統(tǒng)是否具備達(dá)到所要求的安全功能的能力。SIL 分為5 個等級,SIL4 為最高等級,SIL0為最低等級,SIL值越高,安全相關(guān)系統(tǒng)在執(zhí)行安全功能時失效的可能性越小,每一級SIL對應(yīng)一個PFH的取值范圍[6]。本文用SILXU表示SIL的等級,且為每一級SIL的上限。
本文選用列控系統(tǒng)安全計算機二乘二取二結(jié)構(gòu)作為分析對象。該結(jié)構(gòu)依據(jù)IEC 61508、EN 50129和EN 50128 標(biāo)準(zhǔn),基于分層思想設(shè)計,邏輯上分成應(yīng)用軟件層、安全計算機軟件層、實施多任務(wù)操作系統(tǒng)層和硬件層,如圖2所示[7]。
圖2 列控系統(tǒng)安全計算機二乘二取二結(jié)構(gòu)
FTSMU 容錯及安全管理(Fault Tolerant and Safe Management Unit)機制是保證列控系統(tǒng)安全計算機安全性的基礎(chǔ)?;诖_定性原則設(shè)計,要求安全計算機在正確的時間執(zhí)行正確的動作,并產(chǎn)生正確的結(jié)果,否則判錯而導(dǎo)向安全。列控系統(tǒng)安全計算機接收的應(yīng)用數(shù)據(jù)通過以太網(wǎng)外網(wǎng),分別發(fā)送給通信控制器A 和B,二取二的A 系處理單元1 和2、二取二的B系處理單元3和4承載的列控應(yīng)用軟件,在FTSMU A 系和B系的控制下,通過冗余的以太網(wǎng)內(nèi)網(wǎng),讀取通信控制器A和B中的應(yīng)用數(shù)據(jù)并進(jìn)行處理[8]。
IEC 61508-6 提供的幾種安全苛求系統(tǒng)的PFH常用計算方法,均可以將PFH表示為參數(shù)MTTR、λD、β、βD、DC的 函 數(shù) , 即PFH=Φ(MTTR,λD,β,βD,DC)[6]。其中:MTTR為系統(tǒng)平均故障恢復(fù)時間;λD為單位時間內(nèi)(每小時)危險側(cè)的失效概率,可以表示為λD=λDU+λDD;λDU表示未檢測到的危險側(cè)失效概率;λDD表示檢測到的危險側(cè)失效概率;β為未檢測到的共因失效因子;βD為檢測到的共因失效因子;DC為診斷覆蓋率 , 與λDD、λDU的 關(guān) 系 為λDU=λD(1-DC),λDD=λD·DC。
蒙特卡洛采樣法是常見的用來分析隨機變量不確定的方法,本文采用蒙特卡洛采樣法獲得PFH計算中需要抽樣的樣本值。
定義1:設(shè)x為隨機變量,其累積分布函數(shù)為F(x),則其逆函數(shù)為[9]
通過逆變換算法獲得隨機變量x的樣本值:①根據(jù)隨機變量x的概率密度函數(shù),計算其累計分布函數(shù)F(x);②求F(x)的反函數(shù)F-1(x);③設(shè)置隨機變量Z,Z在(0,1)范圍內(nèi)服從均勻分布,即Z~Uniform(0,1);④令Z=F(x),通過隨機數(shù)發(fā)生器獲得隨機數(shù)Z;⑤計算樣本值X,X=完成隨機變量x的樣本抽樣。
假設(shè)PFH計算中輸入的參數(shù)MTTR,λD,β,βD,DC都是不確定的,將它們依次表示為X1,X2,X3,X4,X5,通過蒙特卡洛采樣法均勻采樣n次,獲得輸入?yún)?shù)的數(shù)據(jù)樣本Xi,即Xi=(xi1,xi2,…,xin),i=1,2,3,4,5;用Yi表示輸出數(shù)據(jù)樣本,即PFH的樣本,將輸入?yún)?shù)的數(shù)據(jù)樣本Xi代入PFH=Φ(MTTR,λD,β,βD,DC)可獲得輸出數(shù)據(jù)樣本Yi,并得到輸出樣本分布fY(y)=(Y1,Y2,…,Yn)[10]。
定義2:FY為輸出數(shù)據(jù)樣本中PFH高于SILXU的累積分布概率,則
定義 3:FY|Xi=xˉi為在Xi=xˉi條件下的輸出數(shù)據(jù)樣本中PFH高于SILXU的累積分布概率,則
利用式(3)可以計算輸入?yún)?shù)Xi的不確定性,對系統(tǒng)的安全完整性等級影響的貢獻(xiàn)度Ci:
式中,ΔF=FY-FY|Xi=xˉi。
圖3 表示消除了輸入?yún)?shù)的不確定性后,ΔF的3種典型情況,具體說明如下。
1)ΔF=FY,此時Ci=1,輸出數(shù)據(jù)全部分布在規(guī)定的SILX 區(qū)域內(nèi),見圖3(a)。表明輸入?yún)?shù)不確定導(dǎo)致硬件安全完整性等級不確定的概率為100%,即輸入?yún)?shù)完全影響硬件安全完整性等級。
2)ΔF=0,此時Ci=0,輸出數(shù)據(jù)不在SILX區(qū)域內(nèi)的部分累積分布與輸入?yún)?shù)不確定時的累積分布相同,見圖3(b)。表明輸入?yún)?shù)不確定導(dǎo)致硬件安全完整性等級不確定的概率為0,即輸入?yún)?shù)對硬件安全完整性等級沒有影響。
3) 0< ΔF< 1,此時 0<Ci<1,輸出數(shù)據(jù)不在SILX 區(qū)域內(nèi)的部分累積分布大于輸入?yún)?shù)不確定時的累積分布,見圖3(c)。表明輸入?yún)?shù)的不確定導(dǎo)致硬件安全完整性等級不確定性的概率為0~100%,即輸入?yún)?shù)對硬件安全完整性等級有積極影響。
圖3 ΔF典型情況
通過上述3 種典型情況分析可知:Ci值越大,相應(yīng)的輸入?yún)?shù)對硬件安全完整性等級的影響越大。
在列控系統(tǒng)安全計算機二乘二取二結(jié)構(gòu)下,分析MTTR,λD,β,βD和DC這 5 個輸入?yún)?shù)對硬件安全完整性等級影響的貢獻(xiàn)度。假設(shè)各輸入?yún)?shù)服從均勻分布,通過蒙特卡洛采樣法得到輸入數(shù)據(jù)的樣本,每次采樣獲得樣本個數(shù)為10 000,各輸入?yún)?shù)取值為:MTTR~U(0.5,24);λD~U(5e-8,1e-6);β~U(0.02,0.2);βD~U(0.01,0.1);DC~U(0.9,0.99)。
令λD、β、βD、DC不變,通過蒙特卡洛采樣法,分別獲得MTTR在不確定條件下的PFH輸出數(shù)據(jù)樣本及其累積分布函數(shù),見圖4。假定二乘二取二結(jié)構(gòu)硬件的安全目標(biāo)為SIL4,即SIL4U=1e-8。由圖4 可知,MTTR不確定時,PFH輸出數(shù)據(jù)不在SIL4 區(qū)域內(nèi)部分的累積分布與MTTR確定時的情況相同,即CMTTR=0,則MTTR不會對硬件的安全完整性等級的取值產(chǎn)生影響。
圖4 MTTR在不確定條件下對硬件SIL影響的貢獻(xiàn)度分析
令MTTR、β、βD、DC不變,分別獲得λD在不確定條件下的PFH輸出數(shù)據(jù)樣本及累積分布函數(shù),見圖5。假定2 乘2 取2 結(jié)構(gòu)硬件的安全目標(biāo)為SIL4,由圖5 可知,λD不確定時,PFH輸出數(shù)據(jù)全部分布在規(guī)定的SIL4 區(qū)域內(nèi),即CλD=1,可知λD完全影響硬件的安全完整性等級。如果希望硬件的安全完整性等級達(dá)到SIL4,首先需要控制好λD的取值。
圖5 λD在不確定條件下對硬件SIL影響的貢獻(xiàn)分析
令MTTR、λD、βD、DC不變,分別獲得β在不確定條件下的PFH輸出數(shù)據(jù)樣本及累積分布函數(shù),見圖6。假定安全目標(biāo)為SIL4,由圖6可知,β不確定時,PFH輸出數(shù)據(jù)不在SIL4 區(qū)域內(nèi)部分的累積分布大于β不確定時的累積分布。同時,根據(jù)公式(4),通過Python 工具進(jìn)行計算可得Cβ=0.8610,可知β對硬件的安全完整性等級有積極影響。如果希望硬件的安全完整性等級達(dá)到SIL4,需要關(guān)注β的取值。
圖6 β在不確定條件下對硬件SIL影響的貢獻(xiàn)分析
令MTTR、λD、β、DC不變,分別獲得βD在不確定條件下的PFH輸出數(shù)據(jù)樣本及累積分布函數(shù)。假定安全目標(biāo)為SIL4,則βD不確定時,PFH輸出數(shù)據(jù)不在SIL4 區(qū)域內(nèi)部分的累積分布與MTTR確定時相同,CβD=0,可知βD不會對硬件的安全完整性等級的取值產(chǎn)生影響,其對SIL 影響的貢獻(xiàn)分析曲線與圖4類似。
令MTTR、λD、β、βD其他輸入?yún)?shù)不變,分別獲得DC在不確定下的PFH輸出數(shù)據(jù)樣本及累積分布函數(shù)。假定安全目標(biāo)為SIL4,DC不確定時,PFH輸出數(shù)據(jù)不在SIL4 區(qū)域內(nèi)部分的累積分布大于β不確定時的累積分布。通過Python工具計算可得,CDC=0.8568,可知DC對硬件的安全完整性等級有積極影響,其對SIL 影響的貢獻(xiàn)分析曲線與圖6 類似。如果希望硬件的安全完整性等級達(dá)到SIL4,需要關(guān)注DC的取值。
綜合上述分析結(jié)果,可得到各輸入?yún)?shù)在二乘二取二結(jié)構(gòu)下對硬件安全完整性等級影響的貢獻(xiàn)度大小,如表1所示。
表1 二乘二取二結(jié)構(gòu)中輸入?yún)?shù)對硬件SIL影響的貢獻(xiàn)度
通過表1 可知:在二乘二取二結(jié)構(gòu)下,CλD>Cβ>CDC>CMTTR/CβD,即λD對 SILX 的影響最大,β和DC有一定影響,λD和MTTR幾乎沒有影響。這是因為:λD指向危險側(cè)失效概率,表示的失效是導(dǎo)向危險的,因此在系統(tǒng)安全性中是最需要關(guān)注的指標(biāo);β指向沒有檢測到的共因失效,由于是沒有檢測到的失效,所以有潛在的風(fēng)險,也是需要關(guān)注的;DC指向能夠檢測到的危險側(cè)失效率,因此對安全性的影響比λD和β小。相比之下,βD指向可以檢測到的共因失效,貢獻(xiàn)度比β小;MTTR是系統(tǒng)平均故障恢復(fù)時間,在系統(tǒng)可靠運行周期中所占比重很小,因此對系統(tǒng)安全性的影響最小。
本文以安全完整性等級作為衡量列控系統(tǒng)安全性的指標(biāo),分析了二乘二取二結(jié)構(gòu)中不同輸入?yún)?shù)對其安全性的影響。為了避免單一的分析結(jié)果缺乏說服力,采用蒙特卡洛分析法對所有的輸入?yún)?shù)進(jìn)行采樣,得出一組不同的采樣值,再逐一分析每一個參數(shù)在其他輸入?yún)?shù)不變的條件下,對列控系統(tǒng)安全完整性等級的貢獻(xiàn)度。該分析結(jié)果對列控系統(tǒng)研發(fā)人員在設(shè)計產(chǎn)品的性能指標(biāo)及參數(shù)的選擇方面具有一定的參考意義。定量的安全分析能夠為控制隨機性失效,識別產(chǎn)品中的安全薄弱環(huán)節(jié),找到影響安全指標(biāo)的關(guān)鍵部件提供參考依據(jù),指導(dǎo)設(shè)計進(jìn)行針對性優(yōu)化和失效防護(hù)。