關(guān)鍵詞:交通事故嚴(yán)重程度;深度學(xué)習(xí);可解釋性
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
在當(dāng)今社會(huì),交通事故頻發(fā),對(duì)人們的生命和財(cái)產(chǎn)構(gòu)成了嚴(yán)重的威脅。因此,精準(zhǔn)預(yù)測(cè)交通事故的嚴(yán)重程度,成為交通安全領(lǐng)域亟待解決的關(guān)鍵問(wèn)題。為了應(yīng)對(duì)這一挑戰(zhàn),本文提出了一種具備可解釋性的深度神經(jīng)模糊系統(tǒng),旨在結(jié)合深度學(xué)習(xí)和模糊推理的優(yōu)勢(shì),提高對(duì)交通事故嚴(yán)重程度的預(yù)測(cè)能力和模型的可解釋性。
該系統(tǒng)深度融合注意力可解釋性表格學(xué)習(xí)網(wǎng)絡(luò)(AttentiveInterpretable Tabular Learning Network,TabNet)和自適應(yīng)神經(jīng)網(wǎng)絡(luò)模糊推理系統(tǒng)(Adaptive Neuro Fuzzy Inference System,ANFIS),通過(guò)挖掘數(shù)據(jù)屬性之間的相關(guān)性對(duì)決策的影響,以期實(shí)現(xiàn)對(duì)事故影響因素更精準(zhǔn)的建模,為模型提供更準(zhǔn)確和可解釋的決策依據(jù),從而增強(qiáng)決策者對(duì)模型預(yù)測(cè)的信任。
1 相關(guān)研究(Related research)
據(jù)國(guó)家統(tǒng)計(jì)局的數(shù)據(jù)統(tǒng)計(jì),2021年全國(guó)共發(fā)生了273 098起交通事故,導(dǎo)致62 218人死亡。這一嚴(yán)峻形勢(shì)凸顯了預(yù)測(cè)交通事故嚴(yán)重程度對(duì)于應(yīng)急響應(yīng)人員的重要性[1]。為應(yīng)對(duì)交通管理和事故預(yù)測(cè)方面的挑戰(zhàn),研究者使用了多種模型,包括統(tǒng)計(jì)學(xué)模型、機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型實(shí)現(xiàn)對(duì)交通事故嚴(yán)重程度的預(yù)測(cè)。
統(tǒng)計(jì)學(xué)模型在預(yù)測(cè)事故嚴(yán)重程度方面有著廣泛應(yīng)用,例如回歸分析[2]和方差分析[3]。然而,統(tǒng)計(jì)學(xué)模型通常會(huì)對(duì)變量施加嚴(yán)格的假設(shè),一旦違反這些假設(shè),便可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)果,同時(shí)在處理非線性關(guān)系和復(fù)雜模式方面存在一定的局限性。隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,研究者開(kāi)始將支持向量機(jī)[4](Support Vector Machine,SVM)、決策樹(shù)[5](Decision Tree,DT)、隨機(jī)森林[6](Random Forest,RF)等機(jī)器學(xué)習(xí)算法應(yīng)用于事故嚴(yán)重程度的預(yù)測(cè)。這些模型能夠從大量的數(shù)據(jù)中學(xué)習(xí)復(fù)雜的模式,并且適應(yīng)不同類型的變量HHJvTbSHaZBlKkz9C1vqeiLjX9zx2WZETKPuYxzZ/TI=。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)[7](Convolutional Neural Networks,CNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[8](Long Short Term Memory,LSTM)和貝葉斯網(wǎng)絡(luò)[9](Bayesian Network,BN)等深度學(xué)習(xí)模型被引入,用于捕捉更復(fù)雜的時(shí)空關(guān)系和非線性模式。深度學(xué)習(xí)模型由于具有網(wǎng)絡(luò)深、參數(shù)多、復(fù)雜度高的特性,導(dǎo)致其在進(jìn)行決策時(shí)缺乏可解釋性。相比之下,ANFIS有助于彌補(bǔ)深度學(xué)習(xí)模型在可解釋性方面的不足[10],能夠?yàn)闆Q策提供更清晰的可解釋性依據(jù)。然而在交通事故嚴(yán)重程度預(yù)測(cè)領(lǐng)域,對(duì)于ANFIS模型的應(yīng)用相對(duì)較少。
2 深度神經(jīng)模糊系統(tǒng)的理論及構(gòu)建(Theoryand construction of DNFS)
DNFS在TabNet的基礎(chǔ)上融合了ANFIS的優(yōu)勢(shì),彌補(bǔ)了深度學(xué)習(xí)模型在可解釋性方面的不足,顯著提高了DNFS對(duì)交通事故嚴(yán)重程度預(yù)測(cè)的準(zhǔn)確度和可解釋性。
2.1 注意力可解釋性表格學(xué)習(xí)網(wǎng)絡(luò)
TabNet是一種創(chuàng)新性的深度學(xué)習(xí)模型,它利用神經(jīng)網(wǎng)絡(luò)模擬樹(shù)模型[11],使網(wǎng)絡(luò)能夠?qū)⒆⒁饬杏跀?shù)據(jù)中最重要的特征。TabNet的基本網(wǎng)絡(luò)結(jié)構(gòu)主要包括特征轉(zhuǎn)換器和注意力轉(zhuǎn)換器(圖1)。
與傳統(tǒng)的深度學(xué)習(xí)模型相比,TabNet充分利用了特征的稀疏性,通過(guò)稠密特征和稀疏特征兩個(gè)分支,分別處理連續(xù)型和離散型特征。在特征處理過(guò)程中引入特征重構(gòu)機(jī)制,通過(guò)學(xué)習(xí)特征之間的潛在關(guān)系,提高了模型的表達(dá)能力。
2.2 自適應(yīng)神經(jīng)模糊推理系統(tǒng)
ANFIS融合了神經(jīng)網(wǎng)絡(luò)和模糊推理的優(yōu)勢(shì),因此在很多領(lǐng)域得到了廣泛應(yīng)用。ANFIS融合了模糊推理的能力,使其能夠有效地處理模糊規(guī)則和不確定信息,其體系結(jié)構(gòu)主要由模糊化層、規(guī)則層、歸一化層、后驗(yàn)部分層和聚合層組成(圖2)。
在模糊化層中,原始的輸入數(shù)據(jù)經(jīng)過(guò)模糊化處理后,由隸屬度函數(shù)映射到模糊集合中,將清晰的輸入值轉(zhuǎn)化為不確定、模糊的值。在規(guī)則層中,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)模糊規(guī)則,采用邏輯運(yùn)算對(duì)模糊化層傳入的隸屬度進(jìn)行合并,生成規(guī)則激活度。在歸一化層中,對(duì)規(guī)則的激活度標(biāo)準(zhǔn)化,確保在后續(xù)的加權(quán)求和中,每個(gè)規(guī)則的貢獻(xiàn)度都是合理的。在后驗(yàn)部分層中,通過(guò)神經(jīng)網(wǎng)絡(luò)自適應(yīng)地調(diào)整參數(shù),以獲得規(guī)則的最佳輸出關(guān)系。在聚合層中,根據(jù)規(guī)則的激活度對(duì)各個(gè)規(guī)則的后驗(yàn)部分進(jìn)行加權(quán)求和,形成最終的輸出。
2.3 深度神經(jīng)模糊系統(tǒng)的構(gòu)建
為了更好地處理交通事故數(shù)據(jù)中的模糊性和不確定性問(wèn)題,并確保模型的可解釋性,本文采用自上而下的方法將TabNet和ANFIS融合成一個(gè)端到端的深度神經(jīng)模糊系統(tǒng)DNFS,DNFS模型結(jié)構(gòu)如圖3所示。
DNFS模型結(jié)構(gòu)主要包含特征轉(zhuǎn)換器、特征切分、注意力轉(zhuǎn)換器和模糊推理網(wǎng)絡(luò)4個(gè)部分。
2.3.1 特征轉(zhuǎn)換器
特征轉(zhuǎn)換器用于學(xué)習(xí)數(shù)據(jù)中的高級(jí)表示,實(shí)現(xiàn)決策步的特征計(jì)算,特征轉(zhuǎn)換器結(jié)構(gòu)如圖4所示。
2.3.3 注意力轉(zhuǎn)換器
注意力轉(zhuǎn)換器根據(jù)特征切分網(wǎng)絡(luò)的輸出結(jié)果,獲取當(dāng)前決策步的Mask矩陣,并使Mask矩陣是稀疏且不重復(fù)的,注意力轉(zhuǎn)換器結(jié)構(gòu)如圖5所示。
3 數(shù)據(jù)選取與處理(Data selection and processing)
3.1 數(shù)據(jù)選取
本文選擇的數(shù)據(jù)源自公開(kāi)網(wǎng)站Kaggle所提供的美國(guó)交通事故數(shù)據(jù)集,該數(shù)據(jù)描述了2016—2022年美國(guó)49個(gè)州的交通事故數(shù)據(jù)。數(shù)據(jù)的收集涉及多個(gè)來(lái)源,包括美國(guó)的交通運(yùn)輸部門(mén)、執(zhí)法部門(mén),以及交通攝像頭、路網(wǎng)中的交通傳感器,涵蓋事故地點(diǎn)、天氣、時(shí)間、POI(Point of Interest)等方面的信息,充分考慮了交通事故發(fā)生時(shí)的多方面因素。
3.2 數(shù)據(jù)處理
為確保實(shí)驗(yàn)結(jié)果的可靠性和有效性,通過(guò)多重共線性分析對(duì)變量進(jìn)行篩選,保留相關(guān)性較強(qiáng)的變量,以提高數(shù)據(jù)的質(zhì)量。最終得到包含119989條交通事故記錄的數(shù)據(jù)集,每條記錄由31個(gè)特征變量和1個(gè)目標(biāo)變量組成。表1描述了變量的詳細(xì)信息。
目標(biāo)變量表示交通事故嚴(yán)重程度,根據(jù)嚴(yán)重程度的不同,將其分為3個(gè)有序的層次:0級(jí)表示輕微事故、1級(jí)表示嚴(yán)重事故、2級(jí)表示致命事故。
表2展示了交通事故數(shù)據(jù)集中的數(shù)據(jù)缺失情況。
為了能更有效地利用當(dāng)前數(shù)據(jù),采用線性回歸的方法擬合觀察到的數(shù)據(jù),從而填補(bǔ)缺失值,提高數(shù)據(jù)的完整性和可用性。
4 模型對(duì)比與結(jié)果分析(Model comparisonand result analysis)
4.1 交通事故嚴(yán)重程度預(yù)測(cè)的評(píng)價(jià)方法
為了確定算法預(yù)測(cè)的準(zhǔn)確性,需要確定評(píng)估測(cè)量指標(biāo)。實(shí)驗(yàn)選擇以混淆矩陣作為基礎(chǔ)的評(píng)價(jià)框架,選取常見(jiàn)的分類預(yù)測(cè)評(píng)價(jià)指標(biāo),包括準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)和F1值(F1-Score)。
4.2 實(shí)驗(yàn)結(jié)果分析
將交通事故數(shù)據(jù)按照8∶2的比例劃分為訓(xùn)練樣本集和測(cè)試樣本集,訓(xùn)練集用于訓(xùn)練模型,而測(cè)試集用于驗(yàn)證模型的預(yù)測(cè)效果。
本文設(shè)計(jì)的對(duì)比實(shí)驗(yàn)采用了XGBoost(Extreme GradientBoosting)、Logistic(邏輯回歸)、隨機(jī)森林(Random Forest,RF)、決策樹(shù)(Decision Tree,DT)、貝葉斯網(wǎng)絡(luò)(Bayesiannetwork,BN)、可解釋性表格學(xué)習(xí)網(wǎng)絡(luò)(Attentive InterpretableTabular Learning Network,TabNet)和自適應(yīng)神經(jīng)網(wǎng)絡(luò)模糊推理系統(tǒng)(Adaptive Neuro Fuzzy Inference System,ANFIS)。
DNFS模型參數(shù)如表3所示。
表3中,N_c表示模糊集的數(shù)量,N_d表示決策預(yù)測(cè)層的寬度,N_a表示注意力嵌入層的寬度,N_steps表示決策步數(shù),Optimizer_fn表示優(yōu)化器,Lr表示學(xué)習(xí)率,Epoch表示訓(xùn)練輪次。
在DNFS模型中,N_c、N_d、N_a和N_steps這4個(gè)參數(shù)共同決定了模型的規(guī)模,減少這些參數(shù)可以防止模型過(guò)擬合,同時(shí)對(duì)模型預(yù)測(cè)的精度不會(huì)產(chǎn)生較大的影響。
將DNFS的預(yù)測(cè)結(jié)果分別與BN、Logistic、RF、DT、XGBoost、ANFIS及TabNet模型進(jìn)行對(duì)比,其結(jié)果如表4所示。
DNFS在對(duì)輕微事故、嚴(yán)重事故和致命事故的預(yù)測(cè)上都取得了最佳的結(jié)果,分別為0.91、0.93和0.93,在多類別預(yù)測(cè)任務(wù)中展現(xiàn)出卓越的性能。在4個(gè)評(píng)價(jià)指標(biāo)上,DNFS的表現(xiàn)均優(yōu)于其他模型,說(shuō)明DNFS在交通事故嚴(yán)重程度的預(yù)測(cè)方面勝過(guò)傳統(tǒng)的預(yù)測(cè)模型。
在DNFS的損失值逐漸收斂至穩(wěn)定狀態(tài)的同時(shí),模型的各項(xiàng)指標(biāo)也趨于穩(wěn)定狀態(tài),表明DNFS應(yīng)用于交通事故嚴(yán)重程度的預(yù)測(cè)具有一定的可行性。DNFS的收斂圖如圖6所示。
根據(jù)圖7可以發(fā)現(xiàn),Visibility(mi)特征對(duì)交通事故嚴(yán)重程度的預(yù)測(cè)貢獻(xiàn)度較高,其次是Wind_Chill(F)、Temperature(F)、Humidity(%)、Sunrise_Sunset和Pressure(in)。以上結(jié)果表明,天氣因素在決定事故嚴(yán)重程度上發(fā)揮著至關(guān)重要的作用。然而在事故發(fā)生的環(huán)境中,其中的天氣狀況受到多種因素影響,呈現(xiàn)出復(fù)雜多變的狀態(tài)。DNFS的模糊推理層能夠?qū)τ绊懱鞖獾囊蛩剡M(jìn)行模糊化處理,將具體的天氣信息轉(zhuǎn)化為模糊集合。通過(guò)隸屬度計(jì)算,可以量化每個(gè)特征在不同模糊集合中的隸屬程度,從而捕捉到天氣的復(fù)雜多變性。此外,DNFS規(guī)則推理層的規(guī)則可以學(xué)習(xí)不同因素之間的復(fù)雜關(guān)系。通過(guò)對(duì)規(guī)則權(quán)重的解釋,可以揭示DNFS是如何從影響天氣的因素中提取關(guān)鍵信息,有助于DNFS解釋如何處理不確定性和模糊性,使得決策更具有魯棒性。
5 結(jié)論(Conclusion)
在交通安全領(lǐng)域,對(duì)事故嚴(yán)重程度的準(zhǔn)確預(yù)測(cè)至關(guān)重要,因?yàn)椴煌慕煌ㄊ鹿实挠绊懗潭扔泻艽蟮牟町悾瑢?duì)救援時(shí)資源的調(diào)配和緊急響應(yīng)有很大的影響。本文通過(guò)構(gòu)建深度神經(jīng)模糊系統(tǒng)(DNFS),在深度學(xué)習(xí)和模糊推理的基礎(chǔ)上綜合利用了TabNet和ANFIS的優(yōu)勢(shì),旨在解決交通事故嚴(yán)重程度預(yù)測(cè)中影響因素多、預(yù)測(cè)偏差大、可解釋性低等問(wèn)題。
實(shí)驗(yàn)驗(yàn)證結(jié)果表明,與其他模型相比,DNFS在誤差、準(zhǔn)確性和可解釋性等方面表現(xiàn)出色,說(shuō)明模型在交通事故嚴(yán)重程度預(yù)測(cè)中具有較高的可行性和有效性。DNFS的性能優(yōu)勢(shì)體現(xiàn)在對(duì)復(fù)雜數(shù)據(jù)的學(xué)習(xí)和對(duì)不確定性的處理方面,為交通管理部門(mén)提供了更準(zhǔn)確的預(yù)測(cè)結(jié)果,有助于其更好地制訂應(yīng)急和預(yù)防措施。
作者簡(jiǎn)介:
王園園(1997-),女,碩士生。研究領(lǐng)域:數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能。
史東輝(1966-),男,博士,教授。研究領(lǐng)域:知識(shí)工程,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能。本文通信作者。
甘書(shū)靈(1999-),女,碩士生。研究領(lǐng)域:數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能。