国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于事件提取和改進MMHC的航空旅客運輸事故征候貝葉斯網(wǎng)絡建模*

2021-03-12 02:30:54周志鵬諸澤宇
關(guān)鍵詞:貝葉斯語義事故

周志鵬,諸澤宇

(南京航空航天大學 經(jīng)濟與管理學院,江蘇 南京 211189)

0 引言

由于航空旅客運輸事故的偶然性以及事故后果的嚴重性,事故預防始終是各地區(qū)發(fā)展航空業(yè)的首要任務。在航空旅客運輸過程中,事故征候相較事故,出現(xiàn)頻率更高。事故征候指非失事而關(guān)系飛機運行,并影響飛行安全的事件。導致事故發(fā)生的致因因素同樣存在于事故征候中,事故征候與事故的差異僅在于某個偶然因素,部分條件的改變可能導致其演化為事故,進而造成人員傷亡或財產(chǎn)損失。

目前事故征候研究主要集中于某類特定事故征候,如跑道超限[1]、尾流[2],或某個特定飛行階段,如著陸[3]、滑行[4]。然而,事故征候之間、致因因素之間、致因因素與事故征候之間相互引起與被引起的關(guān)系,構(gòu)成客觀存在的事故征候網(wǎng)絡,這在機場運營過程中具有一定普遍性。因此研究事故征候網(wǎng)絡的演化機理和風險控制措施,有利于進一步拓展和完善民航事故致因理論,同時各要素間的耦合作用的解析有助于控制事故征候風險,阻止其演變?yōu)槭鹿剩嵘窈较到y(tǒng)的安全管理水平。

基于歷史事故數(shù)據(jù)的分析和關(guān)鍵信息的提取,學者運用概率統(tǒng)計[5]與數(shù)據(jù)挖掘[6]技術(shù)研究事故征候機理。Arnaldo等[7]運用貝葉斯推理和層次分析,構(gòu)建具有不同復雜性和目標的統(tǒng)計估計和預測模型,識別飛行器的異常情況。Rao等[8]基于美國國家運輸安全委員會事故數(shù)據(jù)庫中民用直升機事故案例,識別高風險致因序列,構(gòu)建機上失控事故致因鏈?,F(xiàn)有研究中致因因素數(shù)據(jù)通常直接來源于數(shù)據(jù)庫或依賴于低效的人工提取。不同數(shù)據(jù)庫、不同學者對于事故征候致因的表述方式尚未形成統(tǒng)一,阻礙了數(shù)據(jù)互通。如何高效準確地分析事故征候報告并提取致因信息是當前民航安全管理工作面臨的主要挑戰(zhàn)之一。

本文擬基于實際案例數(shù)據(jù)集與事件提取技術(shù),提取事故征候敘述文本中的致因事件集合,運用貝葉斯網(wǎng)絡學習算法,解析致因事件之間、致因事件與結(jié)果事件之間的因果關(guān)系,構(gòu)建航空旅客運輸事故征候貝葉斯網(wǎng)絡(Bayesian Network of Civil Aviation Passenger Transport Incidents,CAPTI-BN)?;诰W(wǎng)絡建模結(jié)果,量化分析航空旅客運輸風險以及各致因事件參數(shù)特征,識別關(guān)鍵致因事件。

1 模型要素定義

貝葉斯網(wǎng)絡是分析事故因素間相互作用及其演化過程的有效工具[9-10]。在化工[11]、道路交通[12]等領域,學者利用模型中基于局部條件的依賴關(guān)系,進行雙向不確定性研究,對事故致因之間、事故與事故致因之間的關(guān)聯(lián)性進行量化分析[13],為風險評估、事故預測提供決策支持。在貝葉斯網(wǎng)絡(Bayesian Network,BN)中,基于BN中節(jié)點的有向關(guān)聯(lián),P(XN)計算方法如式(1)所示:

(1)

式中:XN為節(jié)點集合;P(XN)為節(jié)點聯(lián)合概率分布;Xn為XN中的節(jié)點元素;Xpa(n)為節(jié)點Xn的父節(jié)點集合;P(Xn|Xpa(n))為父節(jié)點狀態(tài)已知情況下Xn的條件概率。

因此,貝葉斯網(wǎng)絡由節(jié)點、有向弧、概率3部分組成。CAPTI-BN中事故征候的演化機理是網(wǎng)絡的描述對象,致因事件和結(jié)果事件為網(wǎng)絡的節(jié)點。有向弧和節(jié)點概率分布則用于表征致因事件之間、致因事件與結(jié)果事件之間的因果關(guān)系。

定義1:致因事件指在事故征候演化過程中,對事件結(jié)果有直接影響的參與者行為。致因事件的主體要素包括機組成員、管制人員等機場工作人員,飛行器及其關(guān)聯(lián)設備以及飛機運行的天氣條件。因此,根據(jù)主體要素,致因事件包含人的不安全行為或狀態(tài)、飛行器的不安全動作、不良的天氣條件3種類型。

定義2:結(jié)果事件指在事故征候演化過程中致因事件引起的主體要素相應措施和狀態(tài)變化。

ASRS(Aviation Safety Reporting System)數(shù)據(jù)庫創(chuàng)建于1976年,是目前數(shù)據(jù)規(guī)模最大、發(fā)展最完善的航空安全自愿報告系統(tǒng),是本文致因事件和結(jié)果事件類型劃分的主要參考依據(jù)。根據(jù)ASRS案例字段的分析,本文選取Human Factor,Anormal,Result 3個字段,其中,Human Factor主要記錄事故征候中人的不安全狀態(tài)。Anormal字段記錄事故征候中機組成員、飛行器、管制人員、天氣環(huán)境等主體要素的異常動作。Result字段記錄主體要素由事故征候?qū)е碌臓顟B(tài)和動作的變化。根據(jù)致因事件和結(jié)果事件定義,上述3個字段中,Human Factor與Anormal字段主要描述事故征候中致因事件的信息,而Result字段則描述結(jié)果事件信息。本文針對上述字段,重新進行人工分類與編碼,提出航空旅客運輸事故征候中致因事件和結(jié)果事件的類型和編碼,見表1。AE表示飛行器致因事件,HE表示人為致因事件,WE表示天氣致因事件,R表示結(jié)果事件。

此外,ASRS數(shù)據(jù)庫的Narrative字段記錄事故征候過程的敘述文本,該字段將作為后續(xù)事件提取算法的數(shù)據(jù)集。

2 事故征候貝葉斯網(wǎng)絡建模

2.1 致因事件提取

在自然語言處理領域,ACE[14](Automatic Content Extraction)項目對事件的定義是涉及參與者的特定事件或是事物狀態(tài)的變化。與本文的致因事件概念存在相似性。致因事件提取可認為是民航語境下的事件提取任務。因此,結(jié)合ACE中事件提取任務的定義,本文對致因事件提取任務范圍進行界定。致因事件提取的3個子任務包括事件觸發(fā)詞提取、事件參數(shù)提取以及致因事件分類,見表2。致因事件提取是1個語義識別和文本分類的過程。與文獻[15]類似,本文引入抽象語義表達(Abstract Meaning Representation,AMR)的思想,將事件中觸發(fā)詞、參數(shù)間語義關(guān)系轉(zhuǎn)化為句子成分的語法結(jié)構(gòu)關(guān)系。

表1 CAPTI-BN節(jié)點編碼及含義Table 1 Node code and meaning of CAPTI-BN

同時,依據(jù)致因事件分類體系,人工構(gòu)建致因事件類型抽象語義結(jié)構(gòu)。提取算法將事故文檔中的句子解析為各語句成分的關(guān)系樹,并將不同的致因事件結(jié)構(gòu)和事件敘述文本映射至同一語義空間中,以確定語義空間中最接近的事件類型。該方法將事件提取的觸發(fā)詞識別、參數(shù)識別轉(zhuǎn)化為句子結(jié)構(gòu)的分類,只需少量現(xiàn)有事件類型的人工注釋,而無需對事件類型、觸發(fā)詞、參數(shù)的標注,節(jié)約大量人力成本。

表2 致因事件提取子任務及其內(nèi)容Table 2 Extracted subtasks and their contents of causal event

事故征候敘述文本是致因提取算法的輸入數(shù)據(jù),其語法結(jié)構(gòu)較為復雜,加大了語義抽取難度。為提升算法精度和效率,本文調(diào)用StanfordParser解析事故描述文中語義成分的依存關(guān)系,簡化敘述文本。 StanfordParser引入Compositional Vector Grammar (CVG),將Probabilistic Context Free Grammar (PCFG)與遞歸神經(jīng)網(wǎng)絡結(jié)合,以學習句子語法語義和句子成分[16]。句中謂語作為句子的中心詞和AMR結(jié)構(gòu)的根,選取主語、賓語、賓語補足語、狀語4種語法成分,作為根的參數(shù)。因此,對于語句中的觸發(fā)詞t,可根據(jù)事件參數(shù)和參數(shù)關(guān)系構(gòu)建事件語義結(jié)構(gòu)St。對于現(xiàn)有致因事件類型e,將其事件類型作為根,并構(gòu)建包含其預定義參數(shù)的語義結(jié)構(gòu)Se。

同時,為更好表征文本中每個單詞的語義、語法和位置信息,引入Bert進行詞向量化,并將輸入文本中每個句子轉(zhuǎn)化為1個詞向量序列[17]。Bert應用Masked LM和Next Sentence Prediction 2種方法分別捕捉詞語和句子級別的語義表達。通過Bert詞嵌入,語句的事件語義結(jié)構(gòu)St中參數(shù)w1,w2的關(guān)系如式(2)所示:

Vt=[Vw1;Vw2]×Mφ

(2)

式中:w1,w2為語義結(jié)構(gòu)參數(shù);Vw1,Vw2為參數(shù)w1,w2的d維向量化表示;Mφ為參數(shù)關(guān)系的矩陣化表示;Vt為參數(shù)w1,w2及其關(guān)系的向量化結(jié)果。

預定義的致因事件類型Se,同理可向量化表示為Ve。Bert的輸出結(jié)果是分類模型的輸入,計算輸入事件與事件類型的相似度,輸出相似度最高的事件類型,作為事件提取的結(jié)果,如式(3)所示:

(3)

式中:e*為語句t相似度最高的事件類型;Ve*為事件類型e*的向量化表示;E為事件類型集合;ei為E中的事件類型;Vei為ei的向量化表示。

2.2 CAPTI-BN網(wǎng)絡學習

基于數(shù)據(jù)驅(qū)動的貝葉斯網(wǎng)絡學習通常分為2階段執(zhí)行。第1階段是結(jié)構(gòu)學習,從數(shù)據(jù)集中學習節(jié)點間的條件獨立性規(guī)則,并構(gòu)建網(wǎng)絡拓撲結(jié)構(gòu)。第2階段是參數(shù)學習,學習網(wǎng)絡結(jié)構(gòu)中隱含的局部分布,構(gòu)建條件概率表。

在結(jié)構(gòu)學習階段,條件獨立性測試和評分搜索的混合算法能夠得到更精確的計算結(jié)果,計算效率更高[18]。因此,本文通過CAPTI-BN節(jié)點定義,預設部分節(jié)點間的關(guān)系,并結(jié)合混合算法中經(jīng)典的最大最小爬山算法(Max-Min Hill Climbing,MMHC),提出改進MMHC算法。算法具體執(zhí)行步驟如下:

步驟1:確定黑名單與白名單。黑名單指不存在因果關(guān)系的節(jié)點對集合。由定義2可知,結(jié)果事件僅由致因事件引起,因此結(jié)果事件之間不存在有向弧,將結(jié)果事件對加入黑名單中。白名單指存在因果關(guān)系的節(jié)點對集合。白名單可根據(jù)歷史數(shù)據(jù)和管理經(jīng)驗,人工構(gòu)建。本文因缺少該類數(shù)據(jù)支持,暫不考慮白名單,后續(xù)研究中可進一步補充。

步驟2:前向過程。對于目標變量T,輸出其候選父、子節(jié)點集合CPC(Candidate Parents and Children)。若白名單中存在涉及T的節(jié)點對,將此類節(jié)點對中的非T變量加入CPC集合中。之后,基于CPC及其子集,得到除CPC內(nèi)變量外所有變量與T最小條件關(guān)聯(lián),并取其中的最大值,以及達到最大值的變量F,如式(4)~(5)所示:

assocF=maxx∈VMinassoc(X;T|CPC)

(4)

F=argmaxMinassoc(X;T|CPC)

(5)

式中:V為變量X的集合;T為目標變量;CPC為變量T的候選父子節(jié)點集合;assoc(X;T|CPC)為變量X與T的CPC條件關(guān)聯(lián)函數(shù);assocF為條件關(guān)聯(lián)最大值;F為條件關(guān)聯(lián)取最大值時X的取值。

關(guān)聯(lián)值函數(shù)assoc(X;T|CPC)通過G2統(tǒng)計測算。計算G2統(tǒng)計量對應的p值,并取負值,作為關(guān)聯(lián)值函數(shù)結(jié)果。通常p值低于0.05時,X與T是條件獨立的。若F與T非條件獨立,則將變量F加入到CPC中,重復上述過程直至CPC集合不再變化,如式(6)~(7)所示:

(6)

assoc(X;T|CPC)=-p_value(G2)

(7)

步驟3:后向過程。當給定CPC某個子集S時,若目標變量T與CPC表中元素X是獨立的,則從CPC表中剔除X。遍歷CPC中所有的變量后,輸出變量T滿足條件獨立的父節(jié)點和子節(jié)點,得到新的CPC表。

步驟4:爬山算法。運用貪婪爬山算法,對網(wǎng)絡結(jié)構(gòu)添加新弧、刪除原有弧、改變弧的方向。其中當且僅當A屬于B的CPC集合且A→B不屬于黑名單集合時,添加新弧A→B,最終,輸出BDeu得分最高的網(wǎng)絡結(jié)構(gòu)。BDeu評分函數(shù)假設模型滿足迪利克雷分布,計算過程如式(8)~(9)所示:

(8)

(9)

式中:G為網(wǎng)絡結(jié)構(gòu);D為數(shù)據(jù)集;fBDeu(G,D)為網(wǎng)絡結(jié)構(gòu)G在數(shù)據(jù)集D中的BDeu評分結(jié)果;Γ為Gamma函數(shù);n為節(jié)點數(shù)量;mijk為節(jié)點i的狀態(tài)為k且父節(jié)點取值為j時的樣本數(shù)量;ri為節(jié)點i狀態(tài)數(shù)量;qi為父節(jié)點取值組合的數(shù)量;αijk為迪利克雷分布參數(shù);m′為中間統(tǒng)計量;P(G)為G的概率分布。

在參數(shù)學習階段,結(jié)合結(jié)構(gòu)學習的父子節(jié)點分布與式(1)的變量全概率公式,計算各節(jié)點條件概率表(Conditional ProbabilityTable,CPT)。

3 結(jié)果與分析

3.1 CAPTI-BN建模結(jié)果

本文的訓練數(shù)據(jù)集包含ASRS中2017年1月至2019年12月的7 265份旅客運輸事故征候報告。

在致因事件提取階段,本文選取Stanford parser4.0版本,Bert選用uncased_L-4_H-256_A-4版本,在pytorch環(huán)境下運行算法程序。敘述文本是致因提取模型的輸入數(shù)據(jù)。該階段模型輸出為案例中致因事件集合。依據(jù)表1和ASRS的result字段,對案例中的致因事件與結(jié)果事件進行0-1編碼。遍歷所有案例后,將數(shù)據(jù)集轉(zhuǎn)化為0-1矩陣。

在貝葉斯網(wǎng)絡結(jié)構(gòu)學習階段,0-1矩陣是貝葉斯網(wǎng)絡學習算法的輸入。在此階段,本文通過R中的bnlearn庫調(diào)用MMHC算法,用于學習CAPTI-BN的拓撲結(jié)構(gòu)。在參數(shù)學習部分,將結(jié)構(gòu)學習階段的0-1矩陣數(shù)據(jù)集與CAPTI-BN拓撲結(jié)構(gòu)導入貝葉斯網(wǎng)絡軟件Netica,計算得到各節(jié)點CPT。

Gephi軟件是被廣泛應用的網(wǎng)絡可視化和分析工具,將結(jié)構(gòu)學習輸出的節(jié)點超鄰接矩陣導入Gephi后,可得到CAPTI-BN的拓撲結(jié)構(gòu),如圖1所示。網(wǎng)絡共有94個節(jié)點和247條有向弧。

3.2 結(jié)果驗證

本文將ASRS中2016年的事故征候數(shù)據(jù)作為事件提取階段測試集,驗證事件提取算法的準確性。經(jīng)計算,測試集事件提取準確率為83%。

為驗證網(wǎng)絡學習階段MMHC求解結(jié)果的準確性和可行性,本文引入另1種混合搜索方法RSMAX2對數(shù)據(jù)集進行貝葉斯網(wǎng)絡結(jié)構(gòu)學習,并通過k-fold交叉驗證,比較2種算法結(jié)果與數(shù)據(jù)的擬合程度。k-fold驗證將CAPTI-BN視為1個貝葉斯分類模型,并將數(shù)據(jù)集劃分為k個子集,每次選取k-1個子集作為訓練集,剩余的1個子集作為測試集,重復k次,并運用對數(shù)損失函數(shù)表征分類準確率,如式(10)所示:

(10)

式中:logloss為對數(shù)損失函數(shù)結(jié)果;N為測試集樣本數(shù)量;M為可能類別數(shù);yij為布爾型變量,判斷j是否為變量xi的真實類別;pij為測試集中變量xi屬于類別j的概率。

圖1 CAPTI-BN拓撲結(jié)構(gòu)Fig.1 CAPTI-BN topology structure

最終取k次對數(shù)損失函數(shù)結(jié)果均值表示算法的擬合度。

交叉驗證取bnlearn中k的默認值10,交叉驗證結(jié)果如圖2所示。MMHC算法對數(shù)損失函數(shù)值更低,因此MMHC算法對于現(xiàn)有數(shù)據(jù)集的擬合程度更高。

圖2 交叉驗證結(jié)果Fig.2 Results of cross validation

3.3 關(guān)鍵致因分析

本節(jié)通過致因事件和結(jié)果事件間證據(jù)敏感性測度,識別CAPTI-BN的關(guān)鍵致因事件。Zhang等[5]依據(jù)事故征候后果嚴重程度和專家意見,將ASRS數(shù)據(jù)庫中的結(jié)果事件劃分為低至高5個等級。其中高風險事故結(jié)果包括人員受傷、發(fā)動機空中停車、空中交通管制分離航道及飛機損壞,該類結(jié)果事件往往會造成高額的經(jīng)濟損失和不良的社會影響。其中,發(fā)動機空中停車指飛機飛行過程中發(fā)動機停止工作。

證據(jù)敏感性分析使用熵和互信息的度量方法來評估不同條件下BN后驗概率分布的變化?;谛畔㈧乩碚?,互信息指標可衡量不同變量間的依賴程度?;バ畔⒅翟酱?,事故后果與致因事件間的關(guān)聯(lián)越強。結(jié)果事件與致因事件間的互信息,以及致因事件占比計算如式(11)~(12)所示:

(11)

(12)

式中:R為結(jié)果事件;E為致因事件;Ei為致因事件的狀態(tài);r為結(jié)果事件的狀態(tài);P為事件概率;I(R,E)為結(jié)果事件與致因事件間的互信息;I(R,R)為結(jié)果事件自身信息熵;Pe(R,E)為致因事件信息熵占比。

高風險結(jié)果事件最相關(guān)的5個致因事件見表3。其中空中交通管制隔離交通主要由空中交通管制不足和空降沖突引起,其余致因事件對其影響較小。飛機損壞主要原因是外物撞擊,如飛行器、車輛、動物等。發(fā)動機空中停車主要受設備嚴重故障影響。而人員受傷主要是由機組成員疾病或心理問題導致。

表3 高風險結(jié)果事件敏感性分析Table 3 Sensitivity analysis of high risk result events

低風險增至高風險導致的致因事件后驗分布變化,可評估事故征候演化過程中各致因事件及其狀態(tài)的重要性[17]。對于多結(jié)果的事故征候,確定每個結(jié)果的風險等級,并用其中最高的風險等級表示整個事故征候的風險程度。當風險等級由低風險轉(zhuǎn)為中風險和由中風險轉(zhuǎn)為高風險時,致因事件變量后驗概率的分布及其變化情況,如圖3所示。由圖3可知,事故征候發(fā)生時,機組成員違反公司規(guī)章(H16)是最高正敏感性的致因事件,且后驗概率始終高于50%,證明違反公司規(guī)章是目前事故征候中最普遍的人為致因事件。此外,設備輕微故障(AE2)是較為常見的飛行器致因事件。

圖3 低-中-高風險等級下致因事件后驗概率Fig.3 Posterior probabilities of causal events at low, medium and high risk level

當結(jié)果事件由低風險轉(zhuǎn)為中風險時,程序許可偏差(AE12)、遭遇可控飛行撞地(AE33)及空中交通管制問題(HE18)的后驗概率增幅較大,而違反政策規(guī)定(HE16)的事件后驗概率顯著下降,上述4類事件是區(qū)分中、低風險的重要致因事件。而當風險提升至最高等級時,空降沖突(AE4)、嚴重設備故障(AE1)、機組成員疾病(HE12)及火災煙霧(AE22)的后驗概率有較大提高,該類致因事件的產(chǎn)生往往會導致嚴重的事故后果,與表3中高風險結(jié)果事件證據(jù)敏感性分析結(jié)論一致。此類致因事件本身具備較高風險,在安全監(jiān)管過程中消除或減弱關(guān)鍵致因事件的發(fā)生,可最大程度降低事故征候的風險程度,減少次生或衍生事故發(fā)生的概率。

4 結(jié)論

1)定義CAPTI-BN中節(jié)點、有向弧及概率要素,從人、飛行器、環(huán)境3個角度,提出事故征候中直接致因事件和結(jié)果事件的分類體系。

2)利用事件提取算法分析事故征候文本,提取致因事件,并引入MMHC算法學習網(wǎng)絡結(jié)構(gòu),實現(xiàn)CAPTI-BN自動化建模,提升數(shù)據(jù)分析效率。

3)量化結(jié)果事件風險并結(jié)合證據(jù)敏感性分析,得出空降沖突(AE4)、嚴重設備故障(AE1)、機組成員疾病(HE12)及火災煙霧(AE22)是CAPTI-BN中高風險關(guān)聯(lián)的致因事件。

4)引入不同的數(shù)據(jù)集,本文的建模方法可拓展應用于其他地區(qū)與機場的航空旅客運輸風險現(xiàn)狀,并比較不同區(qū)域、不同機場的風險特征差異。

猜你喜歡
貝葉斯語義事故
學中文
語言與語義
廢棄泄漏事故
小恍惚 大事故
好日子(2018年9期)2018-10-12 09:57:28
貝葉斯公式及其應用
基于貝葉斯估計的軌道占用識別方法
“上”與“下”語義的不對稱性及其認知闡釋
一種基于貝葉斯壓縮感知的說話人識別方法
電子器件(2015年5期)2015-12-29 08:43:15
認知范疇模糊與語義模糊
IIRCT下負二項分布參數(shù)多變點的貝葉斯估計
东源县| 安仁县| 仪陇县| 安塞县| 栾川县| 和龙市| 林芝县| 金溪县| 台湾省| 上饶市| 靖远县| 武邑县| 绥芬河市| 汝南县| 贵州省| 格尔木市| 崇义县| 于都县| 神池县| 绥棱县| 太仓市| 延寿县| 台北县| 中山市| 扬州市| 禄劝| 贵州省| 南平市| 噶尔县| 东山县| 比如县| 绍兴县| 桐梓县| 集贤县| 武鸣县| 同仁县| 清苑县| 东丰县| 黑山县| 滦南县| 锡林郭勒盟|