王 普,李 平,阿茹娜,楊連報
(1. 中國鐵道科學(xué)研究院 研究生部,北京 100081;2. 中國鐵道科學(xué)研究院集團有限公司 電子計算技術(shù)研究所,北京 100081;3.中國中鐵股份有限公司 規(guī)劃發(fā)展部,北京 100039)
截至2019年底我國高速鐵路運營里程達到3.5萬km,是世界上高速鐵路運營里程最長、運輸密度最高、成網(wǎng)運營場景最復(fù)雜的國家。高速鐵路具有技術(shù)復(fù)雜度高、安全性要求高、運行速度快、救援難度大等特點,突發(fā)事件將給高速鐵路運輸安全帶來極大影響,因此加強高速鐵路的突發(fā)事件應(yīng)急管理研究極為必要。
鐵路應(yīng)急管理就是對鐵路管轄范圍發(fā)生的自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生、社會安全等突發(fā)事件,圍繞鐵路應(yīng)急預(yù)案進行預(yù)防、準備、處置、恢復(fù)的過程。應(yīng)急預(yù)案是對高速鐵路突發(fā)事件進行科學(xué)高效處置的核心,規(guī)定了突發(fā)事件發(fā)生時鐵路各級管理和執(zhí)行部門的處置過程。原中國鐵路總公司印發(fā)了《突發(fā)事件應(yīng)急預(yù)案管理辦法》,明確規(guī)定了國鐵集團-鐵路局基層組織-站段崗位處置辦法等3級鐵路應(yīng)急預(yù)案體系,在鐵路突發(fā)事件應(yīng)急管理過程中發(fā)揮了重要作用。但由于大量應(yīng)急預(yù)案通常以紙質(zhì)文本、電子文檔等方式存儲,存在著數(shù)字化程度不足、查詢效率不高、全文檢索困難、智能關(guān)聯(lián)性差等不足。隨著文本大數(shù)據(jù)分析技術(shù)、本體技術(shù)等的發(fā)展,應(yīng)急預(yù)案的數(shù)字化、動態(tài)關(guān)聯(lián)化等成為可能。
目前應(yīng)急預(yù)案數(shù)字化已經(jīng)成為應(yīng)急管理領(lǐng)域研究的熱點,當前研究主要集中在數(shù)字化本體方法理論研究和地震、煤礦、軌道交通等具體領(lǐng)域的應(yīng)用研究。在數(shù)字化本體方法理論研究方面:文獻[1]提出了應(yīng)急預(yù)案數(shù)字化統(tǒng)一拆分模板,提高了應(yīng)急預(yù)案處置的靈活性;文獻[2]通過XML+關(guān)系型數(shù)據(jù)庫實現(xiàn)了數(shù)字化應(yīng)急預(yù)案的存儲和基于案例推理的預(yù)案自動生成。在地震領(lǐng)域:文獻[3]應(yīng)用 Open XML和本體構(gòu)建了地震應(yīng)急預(yù)案數(shù)字化模型,探討實現(xiàn)與其他相關(guān)系統(tǒng)的聯(lián)動和集成;文獻[4]實現(xiàn)了地震應(yīng)急預(yù)案的數(shù)字化管理和基于地圖形式的應(yīng)急救援和指揮。在煤礦領(lǐng)域:文獻[5]實現(xiàn)了基于本體和XML的煤礦應(yīng)急預(yù)案數(shù)字化管理原型系統(tǒng)。在軌道交通領(lǐng)域:文獻[6]提出了基于規(guī)則推理和案例推理的軌道交通突發(fā)事件處置方案生成模型,可以有效利用歷史突發(fā)事件處置的經(jīng)驗;文獻[7]從技術(shù)發(fā)展和功能優(yōu)化角度闡述了城市軌道交通應(yīng)急平臺優(yōu)化的需求,并從數(shù)據(jù)類型和數(shù)據(jù)量的角度分析了數(shù)據(jù),設(shè)計了基于云架構(gòu)的應(yīng)急平臺結(jié)構(gòu)和功能架構(gòu);文獻[8]則實現(xiàn)了交通行業(yè)中應(yīng)急預(yù)案的數(shù)字化管理。
綜上所述,目前研究工作主要集中在應(yīng)用本體實現(xiàn)數(shù)字化應(yīng)急預(yù)案的構(gòu)建并應(yīng)用案例和規(guī)則推理實現(xiàn)應(yīng)急處置方案的生成,但對于突發(fā)事件消息文本的智能識別和應(yīng)急方案實時動態(tài)生成的研究較少。本文提出一種新的融合本體和深度學(xué)習(xí)(Bidirectional-Long Short-Term Memory + Condition Random Field,Bi-LSTM+CRF)的高速鐵路應(yīng)急預(yù)案數(shù)字化方法,首先提取突發(fā)事件消息文本中有關(guān)高速鐵路突發(fā)事件發(fā)生的具體事件類型、事件名稱、發(fā)生時間、地理位置等關(guān)鍵字段,然后基于目標樹通過語義查詢,生成最適合該突發(fā)事件處置的流程。
應(yīng)急預(yù)案數(shù)字化主要是對應(yīng)急預(yù)案進行結(jié)構(gòu)化、智能化處理,主要包括應(yīng)急預(yù)案結(jié)構(gòu)分解、突發(fā)事件信息結(jié)構(gòu)化處理、應(yīng)急處置流程生成等,主要包含高速鐵路突發(fā)事件文本提取、應(yīng)急預(yù)案數(shù)字化構(gòu)建和處置流程生成3層[9],見圖1。
圖1 融合本體和深度學(xué)習(xí)的高速鐵路應(yīng)急預(yù)案數(shù)字化方法
高速鐵路突發(fā)事件消息文本提取層是通過人工BIO文本標注、詞向量生成以及基于Bi-LSTM+CRF深度學(xué)習(xí)模型,實現(xiàn)高速鐵路突發(fā)事件消息文本中所包含的突發(fā)事件發(fā)生的具體事件類型、事件名稱、發(fā)生時間、地理位置等關(guān)鍵字段等的提取,轉(zhuǎn)換為結(jié)構(gòu)化的高速鐵路突發(fā)事件消息。
高速鐵路應(yīng)急預(yù)案數(shù)字化構(gòu)建層是應(yīng)用本體對高速鐵路應(yīng)急預(yù)案結(jié)構(gòu)進行分解,按照預(yù)防預(yù)警、分級響應(yīng)、應(yīng)急處置、后期處置4個部分實現(xiàn)高速鐵路應(yīng)急預(yù)案的數(shù)字化構(gòu)建,對各個部分的主要功能模塊應(yīng)用本體描述語言進行描述、存儲和管理。
高速鐵路應(yīng)急預(yù)案處置流程生成層主要是將高速鐵路應(yīng)急預(yù)案中的具體操作拆分為應(yīng)急處置流程單元,然后根據(jù)突發(fā)事件發(fā)生和演變過程,按照特定的約束實現(xiàn)流程單元的拼接,從而生成具有針對性和靈活性的應(yīng)急處置方案。
高速鐵路突發(fā)事件消息為突發(fā)事件發(fā)生時所形成的一段概要性非結(jié)構(gòu)化文本,傳統(tǒng)方法主要是應(yīng)急值守人員人工解讀。本文基于Bi-LSTM+CRF深度學(xué)習(xí)模型實現(xiàn)高速鐵路突發(fā)事件消息文本命名實體的自動抽取,提取的字段主要有事件類型、事件名稱、發(fā)生時間、地理位置等。為實現(xiàn)突發(fā)事件消息文本特征的自動提取,需要定義BIO實體類型并通過標記形成訓(xùn)練樣本數(shù)據(jù),見表1。
表1 高速鐵路突發(fā)事件消息實體
Bi-LSTM+CRF是目前文本特征提取的主流模型,其中Bi-LSTM是具有門結(jié)構(gòu)的雙向長短時循環(huán)神經(jīng)網(wǎng)絡(luò),能夠?qū)W習(xí)上下文依賴關(guān)系;CRF是條件隨機場模型,通過發(fā)射矩陣和轉(zhuǎn)移矩陣學(xué)習(xí)文本序列標注結(jié)果的全局關(guān)系,從而保證Bi-LSTM模型輸出標注序列的合理性[10-15]。
LSTM內(nèi)部主要有遺忘門、輸出門、輸入門3個門結(jié)構(gòu)和1個記憶單元的特殊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),見圖2。圖2中:h為隱含層狀態(tài);c為記憶單元。
圖2 LSTM鏈狀結(jié)構(gòu)
本文中CRF采用Linear-CRF,主要有兩組變量組成,即輸入的觀測序列X=(x1,x2,x3,…,xn)和輸出的標注序列Y=(y1,y2,y3,…,yn),n為觀測序列的長度,見圖3。
圖3 Linear-CRF結(jié)構(gòu)圖
此時,輸出序列的條件概率分布為
P(Y|X)=P(yi|X,y1,y2,…,yi-1,yi+1,…,yn)=
P(yi|X,yi-1,yi+1)
(1)
X取值為x,Y取值為y時的條件概率為
(2)
(3)
式中:Z(x)為歸一化因子;tk為轉(zhuǎn)移特征函數(shù);λk為轉(zhuǎn)移特征的權(quán)值系數(shù);sl為結(jié)構(gòu)特征函數(shù);μl為結(jié)構(gòu)特征的權(quán)值;k為定義在該節(jié)點的局部特征函數(shù)的總個數(shù);l為定義在該節(jié)點的節(jié)點特征函數(shù)的總個數(shù);i為當前節(jié)點在序列的位置。
高速鐵路突發(fā)事件消息文本特征提取主要是通過極大似然估計方法構(gòu)建損失函數(shù),通過隨機梯度下降法實現(xiàn)最優(yōu)模型訓(xùn)練。在獲得最優(yōu)的高速鐵路突發(fā)Bi-LSTM+CRF模型之后,可以自動提取出突發(fā)事件消息的關(guān)鍵特征。例如 “2018年5月23日8時50分,××縣發(fā)生6.2級地震,經(jīng)鐵路相關(guān)部門確認××站在震中100 km范圍內(nèi)”,可以提取出該突發(fā)事件消息的關(guān)鍵特征,見表2。
表2 高速鐵路突發(fā)事件消息提取內(nèi)容
依據(jù)本體的層次和領(lǐng)域依賴度將高速鐵路應(yīng)急預(yù)案本體分為3類:區(qū)域本體、突發(fā)事件本體、突發(fā)事件案例本體。其中:區(qū)域本體指國鐵集團、鐵路局集團公司和站段的區(qū)域管理范圍;突發(fā)事件本體指各類別突發(fā)事件隸屬關(guān)系;突發(fā)事件案例本體指按照案例人員、組織、資源等實現(xiàn)突發(fā)事件案例的結(jié)構(gòu)拆分。
圖5 突發(fā)事件本體圖
依據(jù)我國鐵路層級管理結(jié)構(gòu)和各鐵路局集團公司管轄范圍,應(yīng)用本體構(gòu)建“區(qū)域”概念,包含“國鐵集團”“鐵路局集團公司”“站/段”3類,其中“國鐵集團”包含“鐵路局集團公司”,“鐵路局集團公司”包含“站/段”,見圖4。
圖4 區(qū)域本體圖
構(gòu)建高速鐵路應(yīng)急預(yù)案區(qū)域本體后需要應(yīng)用網(wǎng)絡(luò)本體語言(Ontology Web Language,OWL)定義實體的屬性,從而實現(xiàn)實體中實例的關(guān)聯(lián)查詢和推理。其中“國鐵集團”“鐵路局集團公司”“站/段”同屬于區(qū)域類,“國鐵集團”包含有枚舉屬性為 “隸屬于國鐵集團的鐵路局集團公司”,“鐵路局集團公司”包含有枚舉屬性為“隸屬于鐵路局集團公司的站段”。其中“隸屬于國鐵集團的鐵路局集團公司”和“隸屬于鐵路局集團公司的站段”對應(yīng)的實例取值集合分別為{北京局集團公司,上海局集團公司,成都局集團公司,…}等18個鐵路局集團公司以及各鐵路局集團公司對應(yīng)的站/段。根據(jù)OWL的傳遞屬性和函數(shù)屬性性質(zhì),可以實現(xiàn)
[(p→q)∩(q→r)]→(p→r)
(4)
式中:p為“站/段”;q為“鐵路局集團公司”;r為“國鐵集團”。
通過式(4)可以實現(xiàn)在通報某個站段的突發(fā)事件時,通過Bi-LSTM+CRF抽取出發(fā)生的站/段時,可以實現(xiàn)到具體鐵路局集團公司和國鐵集團相關(guān)的聯(lián)合查詢和推理。
突發(fā)事件本體構(gòu)建主要是按照自然災(zāi)害、社會安全、事故災(zāi)害、公共衛(wèi)生4大類及每一個大類下包含的突發(fā)事件小類進行構(gòu)建,以便在突發(fā)事件發(fā)生時快速根據(jù)突發(fā)事件類型找到對應(yīng)的應(yīng)急預(yù)案。突發(fā)事件本體見圖5。
由圖5可知突發(fā)事件本體的第3層中包含的突發(fā)事件小類較多,可以在突發(fā)事件發(fā)生時無法精確匹配到具體突發(fā)事件類別時,通過本體計算其兄弟節(jié)點的應(yīng)急預(yù)案來提供參考。
突發(fā)事件案例本體的構(gòu)建主要是利用本體對案例進行形式化描述,增加了約束、任務(wù)、組織概念,其中:約束定義了任務(wù)的約束條件,決定了任務(wù)的次序;任務(wù)包含具體的步驟并且使用若干資源,最終生成具體的處置過程;組織包含人員,并定義了角色,用于明確在任務(wù)中人員所擔(dān)任的具體角色。構(gòu)建后的應(yīng)急案例本體見圖6。
圖6 高速鐵路突發(fā)事件案例本體圖
高速鐵路應(yīng)急預(yù)案數(shù)字化主要是按照預(yù)防預(yù)警、分級響應(yīng)、應(yīng)急處置、后期處置4部分將應(yīng)急預(yù)案轉(zhuǎn)換為損失評估、信息發(fā)布等22項子模塊。其中:預(yù)防預(yù)警主要是根據(jù)既有高速鐵路相關(guān)的監(jiān)測系統(tǒng)和傳感器等實現(xiàn)鐵路沿線環(huán)境、線路狀態(tài)、接觸網(wǎng)、動車組等數(shù)據(jù)的監(jiān)控,對突發(fā)事件的發(fā)生能夠快速處置并進行快速的分發(fā)和通知;分級響應(yīng)和應(yīng)急處置則是根據(jù)突發(fā)事件等級來采取調(diào)集救援隊伍和救援設(shè)備等具體的應(yīng)急處置措施;后期處置是處整個突發(fā)事件處理完成之后,進行歸納和總結(jié),并更新到案例庫中。
基于目標樹的高速鐵路應(yīng)急處置方案生成主要是將應(yīng)急處置方案拆分為若干應(yīng)急處置單元,并根據(jù)突發(fā)事件處理所要達到的最主要目的確定應(yīng)急處置的總目標,同時逐步細化若干子目標來實現(xiàn)確定的總目標,在細化子目標時需要借鑒高速鐵路應(yīng)急處置案例庫中的相似成功處置案例的經(jīng)驗,最后生成應(yīng)急處置方案。其中,應(yīng)急處置單元可以定義為
Node=〈Id,Name,Category,Content,Time,
Person,Resource,Description,PreNodes〉
式中:Id、Name、Category、Content、Time、Person、Resource、Description、PreNodes分別為高速鐵路應(yīng)急處置方案單元的編號、名稱、類別、應(yīng)急處置措施、完成時間、所需人員、所需資源、概要描述、前驅(qū)應(yīng)急處置單元集合。
高速鐵路應(yīng)急處置方案生成首先是輸入突發(fā)事件的概況和現(xiàn)場處置情況進行目標樹的初始化,如果直接匹配到應(yīng)急處置流程則添加到應(yīng)急流程處置單元的備選集合之中,并根據(jù)約束條件對處置幾個符合條件的處置流程進行排序,返回若干處置流程供決策者選擇;若無法直接匹配到應(yīng)急處置流程,則需要對目標樹的子目標表進行拆分,獲取每個子目標的應(yīng)處置流程并進行拼接生成最后的處置流程;如果以上兩種方式均無法找到匹配的應(yīng)急處置流程,則顯示錯誤信息。具體過程見圖7。
圖7 基于目標樹的高速鐵路應(yīng)急處置流程
為了驗證本文所提方法的正確性,假設(shè)突發(fā)事件場景為:“××××年×月×日×?xí)r×分,××次動車組在××站突發(fā)火災(zāi),造成了2人受傷”。針對此次突發(fā)事件,首先提取出此次突發(fā)事件類型為火災(zāi),并通過構(gòu)建的應(yīng)急預(yù)案區(qū)域本體和突發(fā)事件本體,快速調(diào)取該所屬鐵路局集團公司的火災(zāi)應(yīng)急預(yù)案,并根據(jù)現(xiàn)場的情況分析歷史發(fā)生過的類似案例事件,基于避免火災(zāi)引發(fā)次生災(zāi)害發(fā)生和快速恢復(fù)行車的目標,快速生成應(yīng)急處置流程,見圖8。
圖8 高速鐵路應(yīng)急處置流程的生成
同時以1 000條高速鐵路突發(fā)事件消息為例,1 000條某局集團公司的高速鐵路應(yīng)急處置案例庫為例進行實驗,本文提出的基于Bi-LSTM+CRF的高速鐵路應(yīng)急突發(fā)消息的特征提取平均準確率達到80%,相關(guān)案例語義搜索命中率平均達到90%,通過案例匹配動態(tài)生成的應(yīng)急處置方案比實際決策更加具有靈活性和針對性,同時結(jié)合專家確認生成的應(yīng)急處置方案可以為下次同類型應(yīng)急處置提供參考。
本文提出了一種融合本體和深度學(xué)習(xí)的高速鐵路應(yīng)急預(yù)案數(shù)字化方法,可以有效實現(xiàn)高速鐵路突發(fā)事件消息的特征提取,并通過對高速鐵路應(yīng)急預(yù)案進行本體的構(gòu)建、應(yīng)急處置單元的定義以及基于目標樹的應(yīng)急處置流程生成等方法,可實現(xiàn)對高速鐵路文本預(yù)案的智能數(shù)字化與推理檢索。通過應(yīng)用Bi-LSTM+CRF實現(xiàn)高速鐵路突發(fā)事件消息文本的特征提取和基于本體的語義查詢和推理,可以根據(jù)具體突發(fā)事件情況,基于目標樹生成有針對性的處置方案,為突發(fā)事件應(yīng)急處置提供決策支持和參考。