林捷
(福建師范大學(xué)光電與信息工程學(xué)院,福州 350100)
隨著計算機控制系統(tǒng)飛速發(fā)展,對安全關(guān)鍵系統(tǒng)的可靠性、安全性等提出了更高的要求,安全關(guān)鍵系統(tǒng)是指其在失效情況下會造成重大生命財產(chǎn)損失的系統(tǒng),如軌道交通、航空航天、核工業(yè)等。安全關(guān)鍵系統(tǒng)中對通信的實時性和確定性具有非常高的要求。傳統(tǒng)計算機控制系統(tǒng)中采用的通信總線,如CAN總線,是基于事件觸發(fā)的機制,使得系統(tǒng)通信存在不確定和不可預(yù)知性安全威脅[1]。為防護安全苛求系統(tǒng)通信中的安全風(fēng)險,歐盟標準委員會在IEC61508標準中引入了時間觸發(fā)架構(gòu)[2]。在文獻[3]指出:在時間觸發(fā)架構(gòu)(TTA)的系統(tǒng)中,系統(tǒng)的所有活動將會從一個全新的初始狀態(tài)開始,活動的進展狀況會基于一個同步的時間基。各個應(yīng)用在時間觸發(fā)總線上占有一個固定的時間段,所有的應(yīng)用任務(wù)之間都在進行著消息交換,依據(jù)確定的調(diào)度表進行交換。時間觸發(fā)總線被證實可有效減少系統(tǒng)測試和證明所需要的準備工作,促進分布式實時系統(tǒng)的設(shè)計,提高系統(tǒng)的通信安全性。時間觸發(fā)總線彌補了既有總線協(xié)議在列控系統(tǒng)或者同安全相關(guān)的系統(tǒng)時容錯性和傳輸速率低的不足。
時間觸發(fā)通信總線的研究已經(jīng)引起很多研究學(xué)者的關(guān)注,大部分研究主要集中在協(xié)議運行的調(diào)度算法優(yōu)化方面如文獻[4]將裝箱算法與遺傳算法相結(jié)合形成混合遺傳算法,從而能更快地找到最優(yōu)近似解,來提高FlexRay總線的通信效率。文獻[5]基于FMEA(失效模式及影響分析方法)提出通用性框架分析FlexRay總線可能存在的系統(tǒng)故障及其影響。NiuRu等人采用廣義Petri網(wǎng)形式化的驗證了TTP/C總線協(xié)議成員服務(wù)的一致性[6]。
這些研究往往都是從理論的角度分析時間觸發(fā)總線的性能,很少從定量的角度分析時間觸發(fā)機制的可靠信。本文采用FMEA方法分析列控安全計算機平臺的通信總線的結(jié)構(gòu)基礎(chǔ)上,評估系統(tǒng)可能存在的風(fēng)險,在協(xié)議的設(shè)計中采用與TTP/C總線和FlexRay總線相似的時間觸發(fā)機制,并在協(xié)議的運行中采用數(shù)據(jù)重發(fā)機制來防護通信中存在的風(fēng)險,最后從定量的角度分析所設(shè)計的時間觸發(fā)通信總線可以滿足列控安全計算的安全需求。
基于時間觸發(fā)方式的通信網(wǎng)絡(luò),由于在整個系統(tǒng)中建立了全局統(tǒng)一的時鐘[7],因此時間觸發(fā)通信總線具有很強的可預(yù)測性與周期性。不同的通信設(shè)備在通信時能夠?qū)崿F(xiàn)在規(guī)定的時間序列,依據(jù)確定的調(diào)度表進行數(shù)據(jù)收發(fā)操作,從而實現(xiàn)高可靠的數(shù)據(jù)傳輸機制,非常適合應(yīng)用在對系統(tǒng)安全等級要求高的領(lǐng)域如鐵路、航空、汽車等行業(yè),目前應(yīng)用最廣泛的時間觸發(fā)總線有TTP/C總線和FlexRay總線等。如在軌道交通領(lǐng)域,根據(jù)EN50159標準對軌道交通控制系統(tǒng)中通信安全威脅做出詳細定義,由于當前通信系統(tǒng)存在的一些尚未解決的缺陷,可能導(dǎo)致信息在傳輸?shù)倪^程當中會出現(xiàn)一些差錯或者誤碼,諸如此類隱患都有可能對通信系統(tǒng)產(chǎn)生潛在的威脅[8]。
相比于OSI和TCP模型,本系統(tǒng)的通信協(xié)議層相對簡化,包括物理層、鏈路層和應(yīng)用層。
圖1 通信總線的系統(tǒng)結(jié)構(gòu)
圖2 時間觸發(fā)總線物理層結(jié)構(gòu)圖
通過該時間觸發(fā)總線的物理層結(jié)構(gòu)圖中可以看出,物理層位于系統(tǒng)的最底層,并且針對該系統(tǒng)的電氣特性和電路接口進行了一些規(guī)定,協(xié)議鏈路層的職責(zé)是除了對數(shù)據(jù)包采取組包和解包的措施之外,還承擔(dān)著對數(shù)據(jù)進行校驗、傳送進行差錯處理。應(yīng)用層的職能為對各類不同的數(shù)據(jù)進行邏輯分析處理和分析計算,與此同時,在傳輸方面也沒有停滯,直接將各類數(shù)據(jù)的邏輯分析處理結(jié)果下發(fā)至通信的協(xié)議鏈路層中進行傳輸。該系統(tǒng)的核心所在不是物理層的功能與規(guī)定,而是協(xié)議鏈路層針對該系統(tǒng)的特殊性而產(chǎn)生的一種全新形式的自定義通信協(xié)議。
所謂的FMEA(失效模式及影響分析方法)是一種歸納分析方法。它通過分析產(chǎn)品或系統(tǒng)可能存在的故障模式而確定對產(chǎn)品或系統(tǒng)性能及功能的發(fā)揮、人員安全與維修等的影響。FMEA可以在系統(tǒng)的初期階段,在第一步對各項數(shù)據(jù)進行邏輯處理以及對系統(tǒng)分析設(shè)計,找出潛在的威脅和隱患,從這些威脅和隱患當中繼續(xù)根據(jù)數(shù)據(jù)觀察多方面威脅和隱患的產(chǎn)生因素,對其產(chǎn)生的后果和影響進行模擬,最小化影響。從而能夠在通信系統(tǒng)實現(xiàn)前預(yù)先采取措施,減少失效模式,從而有效地提高系統(tǒng)的質(zhì)量和可靠性。它能夠系統(tǒng)地分析潛在的風(fēng)險因素,在系統(tǒng)級采用FMEA分析可能出現(xiàn)的失效模式,及其導(dǎo)致的后果和發(fā)生的原因,并確定和初步評估協(xié)議設(shè)計中所采取的保護策略。
下面匯總了FMEA分析的結(jié)果,F(xiàn)MEA分析的結(jié)果都會包含其核心內(nèi)容,也就是協(xié)議失效模式、協(xié)議原因、故障影響和防護措施。具體分析結(jié)果參照表1通信節(jié)點的FMEA分析。
表1 通信節(jié)點的FMEA分析
首先,時間觸發(fā)通信總線必須符合故障安全原則的總要求。其次,還需保證它與安全關(guān)鍵計算機控制系統(tǒng)可穩(wěn)妥適配,不允許其他特異性問題出現(xiàn)。因此該總線在相關(guān)的安全領(lǐng)域的應(yīng)用中,一方面釆用時間觸發(fā)機制保證通信時間的確定性,另一方面設(shè)計相應(yīng)的安全通信協(xié)議應(yīng)對通信失效的風(fēng)險,如引入總線通信的重傳機制,防止重復(fù)、刪除、插入、延遲、亂序等時間相關(guān)的傳輸風(fēng)險
在上一節(jié)中采用FMEA方法分析總線通信存在的風(fēng)險,通過借鑒ARINC659高可靠度和安全度的物理層,在物理層總線上采用4條冗余通道[3],進一步提高總線的可靠性、容錯性以及利用率。物理層總線分為兩組H1和H2,由通信控制器進行主控,每組總線又有x 和 y兩個通道,共有 H1x、H1y、H2x、H2y四條總線,每條總線在每個時鐘的上升沿傳輸4bit數(shù)據(jù)。在發(fā)送和接收上利用半雙工進行通信傳輸,同時采用交叉檢測容錯機制對接收的數(shù)據(jù)進行校驗,再對比較后的數(shù)據(jù)進行CRC解碼,最終數(shù)據(jù)校驗無誤后判斷接收到的數(shù)據(jù)為有效數(shù)據(jù)。由于每條線路且相同時間發(fā)生傳輸錯誤的概率極小,由于每條線路在同一個時間內(nèi)發(fā)生傳輸錯誤的概率極小,倘若某個時刻單條線路發(fā)生傳輸錯誤就變得可被允許,這將極大地提高通信的容錯能力。
圖3 總線物理層冗余結(jié)構(gòu)
時間觸發(fā)架構(gòu)(以下簡稱TTA)由Kopetz等人提出,目的是為設(shè)計可靠性分布式系統(tǒng)提供一個可靠性框架。該架構(gòu)可用于車載網(wǎng)絡(luò),飛行器控制網(wǎng)絡(luò),過程自動化等領(lǐng)域。TTA將大型應(yīng)用系統(tǒng)逐步分解成相對獨立的簇和節(jié)點。在每個節(jié)點中生成一個已知精度的全局時基。時間觸發(fā)總線依賴于通信各節(jié)點時間調(diào)度管理。時間調(diào)度管理的基礎(chǔ)是時間無沖突分配和各節(jié)點時間同步。因此,時間觸發(fā)架構(gòu)的關(guān)鍵之處在于控制不同的設(shè)備節(jié)點時間相一致,否則會造成總線沖突競爭情況,導(dǎo)致整體通信陷入癱瘓。理想狀況是多設(shè)備通信的總線之間保持同步(這需要依賴物理時鐘同步機制),各個節(jié)點之間跟隨相同的主控節(jié)點的全局時鐘。
(1)通信模型
時間觸發(fā)總線通信節(jié)點之間的關(guān)系模型為主從關(guān)系模型,該模型單位周期內(nèi)有且只有一個主設(shè)備來控制協(xié)調(diào)全局設(shè)備通信。該模型的參考原理是幾個待同步的節(jié)點的時間段必須同時參考同一個主控節(jié)點的時間,從而實現(xiàn)同步。
基于此模型,時間觸發(fā)總線可在單位周期內(nèi)以主控節(jié)點的時鐘為同步基準時鐘,將多個從節(jié)點的時鐘同步于主控節(jié)點,實現(xiàn)在每個周期內(nèi)對多個從節(jié)點進行同步,避免時鐘誤差累積造成的通信失步問題。
(2)時間片劃分策略
由于時間觸發(fā)總線是數(shù)據(jù)線和時鐘線多節(jié)點共享,屬于半雙工通信方式。需要采用分時復(fù)用技術(shù)實現(xiàn)多對多雙向通信。分時復(fù)用是指利用不同的時間實現(xiàn)在同一組通信線路上實現(xiàn)接收和發(fā)送數(shù)據(jù)功能,以及多個節(jié)點利用不同時間實現(xiàn)兩兩通信,但在同一時間只能有一個節(jié)點能發(fā)送數(shù)據(jù)。為此需要合理劃分時間段才能實現(xiàn)多個通信節(jié)點無沖突通信。首先根據(jù)節(jié)點數(shù)n,取其中一個為主控節(jié)點,其余(n-1)節(jié)點為從。每個節(jié)點兩兩相互通信,則至少需要劃分為n*(n-1)時間片。
(3)節(jié)點時鐘同步策略
主從節(jié)點的時間同步有全局時鐘和局部時鐘兩個概念。局部時鐘是表示節(jié)點時間計時是以自身晶振時鐘為基準,而全局時鐘是指全部節(jié)點相同時間源的時鐘為基準。傳統(tǒng)的全局時鐘策略是直接采用統(tǒng)一時鐘源,通過時鐘線與各節(jié)點時鐘保持一致。該策略雖然可以達到絕對的時鐘同步,但存在時鐘頻率受限,節(jié)點距離受限、高抗干擾環(huán)境等缺點。因此我們將采用局部時鐘和全局時鐘相結(jié)合方式,通過總線的數(shù)據(jù)線和時鐘線來進行周期性全部時鐘同步,其他時間段各節(jié)點采用局部時鐘計時。主控節(jié)點在通信周期T開始前維持一個短時固定的同步時隙,該同步時隙用于全局時鐘同步。在同步時隙內(nèi),從節(jié)點以主控節(jié)點的晶振時鐘為基準。主控節(jié)點根據(jù)鏈路層規(guī)定向總線發(fā)送一定固定格式數(shù)據(jù)信息以及一定頻率的時鐘信號作為全局同步信號,同步信號使得全局節(jié)點開始統(tǒng)一計時。
這種同步廣播機制除了可以防止通信中出現(xiàn)數(shù)據(jù)亂序,延遲等風(fēng)險,還可以在其中的一個通信對象出現(xiàn)故障停止工作時,保證其他通信對象正常運行。當系統(tǒng)維護人員更換通信對象或者添加新的通信對象時,通信對象只有收到當前主通信對象發(fā)送的廣播同步信號才可以按照預(yù)定的時間片輪轉(zhuǎn)表正常運行,大大提高通信總線的容錯能力與擴展性。
在第2節(jié)中從定性的角度分析時間觸發(fā)通信總線在協(xié)議層上的同步機制與數(shù)據(jù)重傳機制如何防范重復(fù)、刪除、插入、延遲、亂序等時間相關(guān)的傳輸風(fēng)險。通信總線傳輸數(shù)據(jù)時,往往會存在傳輸延遲等現(xiàn)象,如果傳輸延遲過長會引發(fā)延遲、重復(fù)、亂序等風(fēng)險,本文運用網(wǎng)絡(luò)演算對時間觸通信總線進行最壞網(wǎng)絡(luò)延遲分析。
網(wǎng)絡(luò)演算理論用于定量求解通信數(shù)據(jù)隊列長度、延遲、數(shù)據(jù)包丟失率等通信總線性能的確定性邊界,其中,到達曲線模型與服務(wù)曲線模型是最重要的兩個概念。通過到達曲線模型與服務(wù)曲線模型求解總線通信的最大延遲。
定理1最大延遲時間。假定一個系統(tǒng)S數(shù)據(jù)流的到達曲線為α(t),為數(shù)據(jù)流提供的服務(wù)曲線為β(t),其最大延遲D(α,β)滿足:
則系統(tǒng)中數(shù)據(jù)流的最大延遲為D(α,β),如圖所示,為到達曲線為α(t),服務(wù)曲線β(t)的最大水平距離。
圖4 到達曲線、服務(wù)曲線與最大延遲
考慮到通信總線數(shù)據(jù)流的突發(fā)性,根據(jù)文獻[9]中的漏銅模型,可令其到達曲線模型為:
其中bi為數(shù)據(jù)突發(fā)量,γi為數(shù)據(jù)傳輸?shù)钠骄俾省?/p>
由數(shù)據(jù)幀格式可知,數(shù)據(jù)信息準備發(fā)送之前需要對每個數(shù)據(jù)段進行相應(yīng)地添加幀頭和幀尾,進行組幀后,在總線上實時傳輸數(shù)據(jù)。組幀就是對數(shù)據(jù)段前加入起始位、目標地址、源地址、數(shù)據(jù)幀長度,在數(shù)據(jù)段后面添加CRC校驗碼與結(jié)束標識符。同理數(shù)據(jù)在接收時也需要進行解幀處理。數(shù)據(jù)的傳輸延遲與消息數(shù)據(jù)幀的長度有關(guān),則計算公式為:
其中:Td為傳輸延遲時間,F(xiàn)Head代表幀頭字節(jié)個數(shù)為7,F(xiàn)Tail代表幀尾字節(jié)個數(shù)為3,DataSegment表示數(shù)據(jù)段字節(jié)個數(shù)為0-256,tbit表示傳輸1比特(bit)數(shù)據(jù)所需要的時間。通過理論公式的計算,確定將來實現(xiàn)時間觸發(fā)總線協(xié)議的時間片周期T,確保T>Td保證在一個時間片在無故障情況下能夠傳輸一幀數(shù)據(jù)。
由于外界的電磁干擾、線路短路等故障導(dǎo)致傳輸線路上的數(shù)據(jù)丟失或者錯誤,因此總線通信中引入數(shù)據(jù)重傳機制保證數(shù)據(jù)傳輸?shù)目煽啃浴T跁r間觸發(fā)通信總線的鏈路層協(xié)議中,消息的調(diào)度是預(yù)先定義在時間片輪換表中,發(fā)送方在發(fā)送時間片結(jié)束后就放棄了總線的使用權(quán),交給了下一個時間片。為提高總線利用率,在數(shù)據(jù)重傳機制中采用“雙消息ID”方式,也就是每個節(jié)點在發(fā)送消息時包含自身消息ID同時附帶接收數(shù)據(jù)的應(yīng)答消息ID,這樣保證數(shù)據(jù)在同一周期得到應(yīng)答,無需等到下一個周期。如果發(fā)送節(jié)點沒有收到上一個時間片的應(yīng)答幀ID,此時發(fā)送節(jié)點重新發(fā)送數(shù)據(jù),同時記錄重發(fā)的次數(shù)??紤]到時間觸發(fā)通信協(xié)議工作在具有電磁屏蔽的插箱中,收到外界干擾的可能性較低,為保證時效性,可定義通信數(shù)據(jù)重發(fā)有限次數(shù),若超過規(guī)定數(shù)據(jù)重傳的次數(shù),系統(tǒng)將導(dǎo)向故障安全處理。
在現(xiàn)代的通信系統(tǒng)之中,針對各類通信對象相互之間進行各類通信之時,由于外界的無關(guān)電磁波產(chǎn)生的多種干擾而引發(fā)瞬態(tài)故障,從而致使數(shù)據(jù)信息的丟包,損壞,丟失,對端根據(jù)所接收的數(shù)據(jù)進行分析核驗發(fā)現(xiàn)問題之后,無法進行下一步操作,因此時間觸發(fā)通信總線的數(shù)據(jù)重傳機智的可靠性目標可以定義為:
其中P表示由于干擾而導(dǎo)致數(shù)據(jù)丟失以及損壞的概率。根據(jù)文獻可知,在時間Ti內(nèi)單條總線通信數(shù)據(jù)發(fā)生的隨機錯誤服從泊松分布[10]:
由泊松分布可以看出:時間觸發(fā)通信總線數(shù)據(jù)傳輸中,在整個通信周期中不存在冗余。不存在出現(xiàn)一個或者多個錯誤,消息處理過程能夠被正確發(fā)送的,故其消息傳送出錯概率為:
圖5 不同重傳次數(shù)的可靠性對比
圖6 不同重傳次數(shù)的延遲時間
由于通信數(shù)據(jù)重傳的次數(shù)越多,導(dǎo)致通信帶寬的利用率越低,綜合考慮,在實現(xiàn)時間觸發(fā)通信總線的流程中我們選定數(shù)據(jù)重傳的次數(shù)為3次。
本文根據(jù)國際安全相關(guān)標準,采用FMEA方法辨識評估時間觸發(fā)通信總線在安全關(guān)鍵系統(tǒng)中應(yīng)用中可能存在的安全風(fēng)險,分析表明在通信總線設(shè)計中引入時間觸發(fā)機制能有效地保障安全關(guān)鍵系統(tǒng)的通信確定性與可預(yù)測性。同時也表明時間觸發(fā)通信總線通過在不同通信對象間主動應(yīng)答方式和數(shù)據(jù)重傳等策略來防護系統(tǒng)由于瞬態(tài)故障導(dǎo)致數(shù)據(jù)的損壞。最后對時間觸發(fā)總線在通信傳輸時的延遲特性進行分析,根據(jù)實際的仿真驗證和理論計算來驗證時間觸發(fā)總線整體時延特性,定量地分析時間觸發(fā)總線的可靠性與安全性,進一步說明時間觸發(fā)架構(gòu)下通信總線可滿足安全關(guān)鍵系統(tǒng)通信的安全性需求。
參考文獻:
[1]Maier R,Bauer G,St?ger G,et al.Time-Triggered Architecture:a Consistent Computing Platform[J].IEEE Micro,2010,22(4):36-45.
[2]Hérard J,Hedberg J,Kivipuro M,et al.Validation of Communication in Safety-Critical Control Systems[J].Nordtest report.104 p
[3]李佳,田光宇,鈕翔,等.FlexRay網(wǎng)絡(luò)通信延遲時間分析[J].清華大學(xué)學(xué)報(自然科學(xué)版),2007,47(08):1343-1346.
[4]Muller C,Valle M,Armengaud E,et al.A Generic Framework for Failure Modes and Effects Analysis of Automotive Networks[C].IEEE International Conference on Industrial Informatics.IEEE,2011:293-298.
[5]Lboudec B J,Patrick.T.:Network Calculus,A Theory of Deterministic Queuing Systems for the Internet[J],2010.
[6]Niu R,Cao Y,Tang T.Formal Safety Verification for TTP/C Network in Drive-by-Wire System[C].IEEE International Conference on Vehicular Electronics and Safety.IEEE,2007:1-6.
[7]楊佳谞,吳成富,段曉軍.時間觸發(fā)架構(gòu)總線分析[J].航空計算技術(shù),2013,43(04):125-128.
[8]Functional Safety of Electrical/Electronic/Programmable Electronic Safety-Related Systems German Version EN 61508:2010[S],2010,4.
[9]張連明,陳志剛,黃國盛.網(wǎng)絡(luò)演算理論及應(yīng)用研究[J].計算機工程與應(yīng)用,2006,42(27):8-11.
[10]Maier R,Bauer G,St?ger G,et al.Time-Triggered Architecture:a Consistent Computing Platform[J].IEEE Micro,2010,22(4):36-45.