王 翠 胡昊天 鄧三鴻▲
(1.南京大學(xué)信息管理學(xué)院 南京 210023;2.南京大學(xué)江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室 南京 210023)
世界衛(wèi)生組織發(fā)布的2018年全球道路交通安全分析報(bào)告中顯示,全世界每天大約有3 500人因道路交通碰撞而死亡,由此造成的死亡人數(shù)每年高達(dá)135萬(wàn)人,且道路交通傷害是人類的第八大死亡原因,是5~29歲的兒童和年輕人的主要死因[1]。2019年的《中國(guó)統(tǒng)計(jì)年鑒》展示了2018年國(guó)內(nèi)的交通事故情況,共發(fā)生244 937起,直接財(cái)產(chǎn)損失為138 455.9萬(wàn)元[2]。導(dǎo)致道路交通事故發(fā)生的原因可分為主觀因素和客觀因素2大類[3],其中主觀因素一般是指人為因素,客觀因素是指道路、車輛、環(huán)境等要素。為了預(yù)防和減少交通事故,保護(hù)公民合法權(quán)益,我國(guó)制定并頒布包括《中華人民共和國(guó)道路交通安全法》在內(nèi)的一系列有關(guān)道路交通的法律法規(guī),對(duì)道路交通系統(tǒng)中的人、車等要素進(jìn)行約束。交通警察依法對(duì)各種交通違法行為進(jìn)行懲處,以示警戒,維護(hù)道路交通秩序。
本文試圖從事理圖譜的角度收集整理道路交通違法行為信息,構(gòu)建基礎(chǔ)知識(shí)庫(kù),并設(shè)計(jì)開發(fā)交通違法智能問(wèn)答系統(tǒng),可以幫助執(zhí)法人員快速查詢違章信息,有效處理違章事件。
道路交通安全是指在交通活動(dòng)過(guò)程中,能將人身傷亡或財(cái)產(chǎn)損失控制在可接受水平的狀態(tài)。道路交通安全問(wèn)題一直是社會(huì)各界普遍關(guān)注的焦點(diǎn),道路交通安全知識(shí)一直被推廣普及,但交通亂象和交通事故屢見不鮮。學(xué)者們?cè)诘缆方煌ò踩I(lǐng)域的研究也未曾間斷,主要包括以下幾個(gè)研究方向[4]:①交通事故影響因素研究。毛敏等[5]對(duì)道路交通事故的致因進(jìn)行分析,提出顯性和隱性故障的致因模型,并強(qiáng)調(diào)隱性故障的危險(xiǎn)性;王磊等[6]從人、車、路和環(huán)境4個(gè)方面選取15個(gè)影響因素,通過(guò)Logit模型定量分析各因素造成高速公路交通事故的嚴(yán)重程度。②駕駛者行為特征研究。Hezaveh等[7]通過(guò)調(diào)查問(wèn)卷獲得632名伊朗駕駛員的樣本,確定了5個(gè)影響道路交通安全的駕駛員行為。③交通系統(tǒng)與安全研究。其重要組成部分包括智能交通系統(tǒng)(intelligent transport system,ITS)[8]研究,張可等[9]全面介紹了當(dāng)時(shí)中國(guó)ITS體系框架研究的進(jìn)展情況;萬(wàn)文佳等[10]通過(guò)回顧發(fā)展歷史和過(guò)往經(jīng)驗(yàn),對(duì)智能交通系統(tǒng)的智能道路子系統(tǒng)中的智能化道路基礎(chǔ)設(shè)施在交通安全方面的應(yīng)用進(jìn)行總結(jié)研究。
道路交通系統(tǒng)是1個(gè)動(dòng)態(tài)的、開放的系統(tǒng),系統(tǒng)內(nèi)部因素和系統(tǒng)外部環(huán)境都對(duì)其安全有一定影響。為了保障道路安全,給人民群眾營(yíng)造1個(gè)穩(wěn)定的出行環(huán)境,國(guó)家頒布道路交通安全法以規(guī)范行人與駕駛?cè)藛T的出行行為,并對(duì)違法行為依法進(jìn)行相應(yīng)的懲罰及道路交通事故處理等。若能在此方面實(shí)現(xiàn)智能化,可以幫助城市交通管理部門提高處理交通違章事件的效率并輔助決策。
在2012年,Google首次提出知識(shí)圖譜(knowledge graph)的概念[11],用以描述現(xiàn)實(shí)世界中的實(shí)體(或概念)及其相互關(guān)系。以傳統(tǒng)本體為基礎(chǔ)的知識(shí)圖譜著重于描述概念的靜態(tài)特征,缺乏對(duì)動(dòng)態(tài)特征的描述。此外,知識(shí)圖譜一般只能完成“when”“who”“what”“where”等常識(shí)問(wèn)題,而對(duì) 于“how”“why”等動(dòng)態(tài)問(wèn)題的作答顯得有些乏力,在推理規(guī)則的學(xué)習(xí)方面仍存在不足[12]。在此背景下,研究者逐漸開始轉(zhuǎn)向以事件及其關(guān)系為研究對(duì)象的事理圖譜(event evolutionary graph)研究。哈爾濱工業(yè)大學(xué)劉挺教授研究團(tuán)隊(duì)首先提出了“事理圖譜”這一概念[13],指出事理圖譜本質(zhì)上是1個(gè)關(guān)于事理邏輯的知識(shí)庫(kù),在其重要的圖結(jié)構(gòu)中,節(jié)點(diǎn)代表事件,有向邊代表事件之間的關(guān)系(順承、因果、反轉(zhuǎn)、條件、上下位、組成等[14])。
隨著大量事件信息的出現(xiàn)和事理圖譜概念的提出,與其相關(guān)的理論研究和應(yīng)用研究不斷涌現(xiàn)。周京艷等[15]將概念地圖、知識(shí)圖譜、事理圖譜進(jìn)行比較區(qū)分,對(duì)情報(bào)事理圖譜的概念進(jìn)行界定。同知識(shí)圖譜的應(yīng)用類似,按事件領(lǐng)域可分為通用領(lǐng)域事理圖譜和垂直領(lǐng)域事理圖譜2類。目前,國(guó)內(nèi)已有公開的基本成型的實(shí)時(shí)事理邏輯知識(shí)庫(kù)——學(xué)跡[16],它便是1個(gè)大規(guī)模的聚焦于事件的事理知識(shí)系統(tǒng),通過(guò)學(xué)跡進(jìn)行事件搜索,既能得到以“概念描述”的方式表達(dá)出來(lái)的相關(guān)實(shí)體信息,達(dá)到解釋實(shí)體的目的,又能獲得該事件的前因后果、產(chǎn)業(yè)鏈知識(shí)。在網(wǎng)絡(luò)輿情、城市治理、教育教學(xué)等垂直領(lǐng)域[17-19],皆有利用事理圖譜為各行各業(yè)的智慧化發(fā)展提供新技術(shù)指導(dǎo)的研究。
縱覽人工智能技術(shù)的發(fā)展,依托現(xiàn)代信息技術(shù)構(gòu)建智慧法院,帶動(dòng)司法領(lǐng)域知識(shí)圖譜和事理圖譜的興起和發(fā)展。朱福勇等[20]以知識(shí)圖譜和事理圖譜相融合的方式對(duì)司法領(lǐng)域中的術(shù)語(yǔ)及法律關(guān)系進(jìn)行結(jié)構(gòu)化表達(dá),構(gòu)建證據(jù)要素、證據(jù)鏈條與證據(jù)規(guī)則的知識(shí)模型,設(shè)計(jì)出訴訟司法知識(shí)庫(kù)。其中,在道路交通安全領(lǐng)域,孫鑫瑞等[21]構(gòu)建了城市道路交通事件知識(shí)圖譜和事理圖譜,可以識(shí)別微博文本中的交通事件,幫助發(fā)現(xiàn)交通問(wèn)題,進(jìn)行交通預(yù)警。姬艷濤等[22]通過(guò)文獻(xiàn)計(jì)量對(duì)我國(guó)交通安全管理的研究態(tài)勢(shì)、研究熱點(diǎn)和研究前沿進(jìn)行了梳理,智能化交通建設(shè)是目前的研究重點(diǎn)之一,也是未來(lái)的研究趨勢(shì)。
隨著私家車數(shù)量不斷增加和城鎮(zhèn)化水平顯著提高,我國(guó)道路交通安全不斷面臨新的挑戰(zhàn)[23],為維護(hù)道路交通良好秩序,預(yù)防和減少道路交通事故,針對(duì)駕駛?cè)藛T和行人的違規(guī)行為,相關(guān)部門制定詳細(xì)的處罰條款。以智慧化建設(shè)為目標(biāo),本文面向道路交通領(lǐng)域,構(gòu)建以事件為中心的交通違法事理圖譜,并基于此設(shè)計(jì)開發(fā)交通違法問(wèn)答系統(tǒng),提高智能化水平。
筆者選用“上海發(fā)布”微信公眾號(hào)中“監(jiān)管”專欄上的典型交通違法案例作為數(shù)據(jù)集,結(jié)合其中的“交警提醒”或“警方提示”模塊進(jìn)行數(shù)據(jù)標(biāo)注。面向道路交通違法行為的事件主要包括違法行為和處罰事件2類,如常見的酒駕、醉駕交通違法行為,根據(jù)道路交通安全法相關(guān)規(guī)定,對(duì)相關(guān)違法行為人的處罰見表1。
表1 酒駕醉駕行為及處罰內(nèi)容Tab.1 Drink-driving,drunk driving and penalties
通過(guò)典型交通違法案例分析發(fā)現(xiàn),每一類具體的違法行為都有法可依,管理處罰的量罰規(guī)則詳細(xì),處罰形式多樣,且可利用處罰組合以加大懲罰力度。故本次研究主要涉及2類事件,即道路交通違法行為和處罰事件。此外,考慮到事件鏈的完整性,將加入法律條款這一實(shí)體,見表2。
表2 道路交通違法行為涉及要素Tab.2 Elements involved in road traffic violations
事件是1個(gè)抽象的概念,通常包含事件的參與者、事件發(fā)生的時(shí)間和地點(diǎn)等核心要素。對(duì)事件內(nèi)容進(jìn)行語(yǔ)義表示,抽取出更為結(jié)構(gòu)化的事件描述,對(duì)基于事件數(shù)據(jù)的語(yǔ)義互操作和智能化應(yīng)用具有重要意義。在目前的研究中,主要通過(guò)原始短語(yǔ)和句子、事件核心詞匯、事件組成要素、事件本體等表示事件內(nèi)容[24]。事件短語(yǔ)或句子表示方式是從標(biāo)題等關(guān)鍵位置中提取一些簡(jiǎn)短的句子或短語(yǔ)來(lái)描述事件;事件核心詞匯表示方式是通過(guò)識(shí)別以動(dòng)詞、名詞和動(dòng)名詞為主的事件關(guān)鍵詞匯及其特征來(lái)抽取候選事件;事件組成要素表示方式是根據(jù)事件的組成要素框架組織事件,對(duì)事件進(jìn)行結(jié)構(gòu)化處理;事件本體表示方式是通過(guò)建模對(duì)事件要素及其之間的語(yǔ)義關(guān)系進(jìn)行規(guī)范組織,事件模型能被計(jì)算機(jī)自動(dòng)處理且可復(fù)用于其他領(lǐng)域。
基于上述分析,結(jié)合道路交通領(lǐng)域的特點(diǎn)和性質(zhì),本文采用事件短語(yǔ)或句子和事件核心詞匯2種方式表示涉及事件。使用短語(yǔ)或句子來(lái)表示違法行為的內(nèi)容語(yǔ)義,既易于理解,又簡(jiǎn)潔凝練,還保證數(shù)據(jù)的完整性;通過(guò)識(shí)別關(guān)鍵詞匯抽取處罰事件,具有較高的準(zhǔn)確性和結(jié)構(gòu)化。參考《中華人民共和國(guó)交通違章處罰條例》及官方網(wǎng)站權(quán)威公告,確定處罰事件的核心關(guān)鍵詞有“記分”“警告”“罰款”“暫扣”“拘留”“吊銷”。
事件抽取是指從無(wú)結(jié)構(gòu)化的文本數(shù)據(jù)中抽取事件信息并以結(jié)構(gòu)化的形式表示[25],是事理圖譜構(gòu)建的關(guān)鍵環(huán)節(jié)。本文的事件抽取過(guò)程主要包括事件類型識(shí)別、事件句識(shí)別、事件關(guān)鍵詞識(shí)別、事件泛化等步驟。通過(guò)對(duì)道路交通違法行為語(yǔ)料庫(kù)中的文本進(jìn)行分詞、詞性標(biāo)注、去停用詞、語(yǔ)義分析等預(yù)處理工作,結(jié)合事件觸發(fā)詞及道路交通領(lǐng)域特征詞構(gòu)造規(guī)則,識(shí)別事件關(guān)鍵詞和事件類型,利用目前最常用且效果較好的Bert-BiLSTM-CRF模型進(jìn)行事件抽取。該模型原理見圖1。第1層,利用BERT模型嵌入向量實(shí)現(xiàn)輸入文本序列中字符的語(yǔ)義表示;第2層,采用BiLSTM模型進(jìn)行上下文特征學(xué)習(xí)和特征捕獲;第3層,利用CRF將概率最大的標(biāo)簽序列進(jìn)行標(biāo)記并提取事件。
圖1 BERT-BiLSTM-CRF模型示意圖Fig.1 Diagram of BERT-BiLSTM-CRF model
關(guān)系判定是事理圖譜構(gòu)建的重要子任務(wù)之一,主要目的是從文本中識(shí)別事件并抽取事件之間的語(yǔ)義關(guān)系,理清事件之間的邏輯關(guān)系。本文主要涉及因果關(guān)系和順承關(guān)系。因果關(guān)系描述的是1種前因后果聯(lián)系,即前1個(gè)事件會(huì)導(dǎo)致后1個(gè)事件的發(fā)生;順承關(guān)系描述的是1種時(shí)間上的偏序關(guān)系,是1種先后動(dòng)作邏輯。由于本文的研究主要聚焦于道路交通領(lǐng)域違法行為間的因果和順承關(guān)系,且事件之間的關(guān)系較為明顯,故針對(duì)法律條款、違法行為和處罰事件約定了依據(jù)、參考和觸發(fā)3類事件關(guān)系。
以1條事件鏈為例,如“在高速公路上倒車,罰款200元,并記分12分”,其中,在高速公路上倒車是違法行為,參照違章代碼,可以用47011替代,故可將該描述形式化表示為<47011,觸發(fā),記分12分><47011,觸發(fā),罰款200元>?!霸诟咚俟飞系管嚒边@一違法行為是根據(jù)《中華人民共和國(guó)道路交通安全法實(shí)施條例》第八十二條第一項(xiàng)判定的,且依照《中華人民共和國(guó)道路交通安全法》第九十條給予相應(yīng)處罰,可表示成<《條例》第八十二條第一項(xiàng),依據(jù),47011><47011,參考,《法》第九十條>。
面向道路交通安全違法行為的圖譜構(gòu)建過(guò)程見圖2。
圖2 交通違法事理圖譜基本構(gòu)建過(guò)程示意圖Fig.2 Schematic diagram of basic construction process of the traffic violation evolutionary graph
筆者利用搜索引擎收集與交通違章有關(guān)的信息,對(duì)返回的文本進(jìn)行初步篩選與分析后,最終選擇以北京市2019年發(fā)布的道路交通安全違法行為及處罰記分標(biāo)準(zhǔn)為主要數(shù)據(jù)源。其中包括了違法行為代碼與內(nèi)容、行為依據(jù)及處罰依據(jù)與內(nèi)容,記載了具體的道路交通違法行為和對(duì)違法行為的處理。
根據(jù)語(yǔ)料集的特點(diǎn),利用Bert-BiLSTM-CRF模型抽取事件信息。在抽取交通安全事件時(shí)表現(xiàn)良好,其F1值達(dá)到0.832,這表明所選用的Bert-BiLSTM-CRF模型能較好地完成交通安全事件的抽取任務(wù)。本文最終得到664條常見的道路交通違法行為,5種扣分方式,26種罰款方式,15種其他具體處罰措施,共涉及到536條詳細(xì)條款。表3展示了部分違法行為對(duì)應(yīng)的代碼、行為依據(jù)和處罰依據(jù)及處罰措施。
表3 北京市道路交通安全違法行為及處罰記分標(biāo)準(zhǔn)(部分)Tab.3 Road traffic violations and penalty standards in Beijing(Part)
本文采用現(xiàn)今較流行的開源圖數(shù)據(jù)庫(kù)Neo4j進(jìn)行事理圖譜的存儲(chǔ)。Neo4j是由Java語(yǔ)言實(shí)現(xiàn)的高性能NoSQL圖形數(shù)據(jù)庫(kù),具有更簡(jiǎn)化的數(shù)據(jù)建模、由點(diǎn)及面地挖掘知識(shí)體系、面向?qū)ο蟮乃季S、簡(jiǎn)單的多維度數(shù)據(jù)表示等明顯優(yōu)勢(shì),其提供了完善的圖查詢語(yǔ)言,能更好、更快速的查詢和分析相關(guān)數(shù)據(jù)。Neo4j具有專屬查詢語(yǔ)言——Cypher語(yǔ)句。筆者將構(gòu)建的道路交通安全事件相關(guān)數(shù)據(jù)通過(guò)Cypher LOAD CSV語(yǔ)句、Cypher CREATE語(yǔ)句、Cypher MATCH語(yǔ)句、Cypher MERGE語(yǔ)句以及neo4j-import工具導(dǎo)入Neo4j數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)利用顏色、箭頭、文字等元素將實(shí)體和實(shí)體之間的關(guān)系以圖的方式進(jìn)行清晰直觀地展示。
根據(jù)表3數(shù)據(jù)繪制以道路交通違法行為為中心,以行為依據(jù)指向違規(guī)事件、違規(guī)事件指向處罰依據(jù)、違規(guī)事件指向處罰事件的有向圖譜,見圖3。由于表3中結(jié)構(gòu)化數(shù)據(jù)存在省略,故在進(jìn)行形式化表示時(shí),需補(bǔ)充省略的部分,以使事件更加完整,最終得到如圖3所示的Neo4j數(shù)據(jù)庫(kù)中的高速公路通行事件關(guān)系,每個(gè)圓圈代表1個(gè)節(jié)點(diǎn),圓圈之間的有向線段代表實(shí)體關(guān)系,由原因事件指向結(jié)果事件或前1個(gè)事件指向后1個(gè)事件,圖中共包含116個(gè)節(jié)點(diǎn),315個(gè)關(guān)系。該圖譜可解釋為:依據(jù)《條例》第八十二條第一項(xiàng),在高速公路上倒車屬于交通違章行為,參考《法》第九十條和《辦法》第一百零四條第七項(xiàng),給予扣12分、罰款200元的懲罰;依據(jù)《法》第四十二條,《條例》第四十五條、四十六條、七十八條,《辦法》第三十九條,駕駛中型以上載客汽車在高速公路上行駛超過(guò)規(guī)定時(shí)速50%屬于交通違章行為,參考《法》第九十九條第一款第四項(xiàng)、第二款,給予扣12分、罰款1 800元的懲罰,甚至可以吊銷駕照,等等。
圖3 高速公路通行違章-依據(jù)-處罰事理圖譜Fig.3 Highway traffic violations-basis-penalties graph
本文通過(guò)收集道路交通違法行為的相關(guān)數(shù)據(jù),構(gòu)建相關(guān)事理圖譜,形成事件知識(shí)庫(kù),為問(wèn)答系統(tǒng)提供了知識(shí)儲(chǔ)備保障。構(gòu)建針對(duì)國(guó)內(nèi)道路行駛過(guò)程中違反規(guī)定的行為進(jìn)行依法處罰的知識(shí)問(wèn)答系統(tǒng),其重點(diǎn)在于正確理解中文問(wèn)句和準(zhǔn)確判別其間的行為事件,從事件知識(shí)庫(kù)中匹配事件,并獲取相關(guān)信息,返回給用戶最優(yōu)的答案,完成1次問(wèn)答。面向道路交通違章的問(wèn)答系統(tǒng)整體框架見圖4。
圖4 道路交通違法問(wèn)答系統(tǒng)框架Fig.4 Framework of the question answering system of road traffic violations
匯總用戶提問(wèn),按照性質(zhì)對(duì)問(wèn)題進(jìn)行類別劃分,問(wèn)答系統(tǒng)可以根據(jù)不同類別的問(wèn)題采取不同的答案選擇策略,此外候選答案所用的空間將會(huì)大大減少。一般情況下,常用的問(wèn)題分類體系是按照問(wèn)句中的疑問(wèn)詞語(yǔ)對(duì)其進(jìn)行類別劃分,國(guó)際上常將問(wèn)題分為ABBR,DESC,ENTY,HUM,LOC,NUM這6類[26],結(jié)合中文的特點(diǎn),國(guó)內(nèi)常用的中文問(wèn)題分類體系包括人物(HUM)、地點(diǎn)(LOC)、數(shù)字(NUM)、時(shí)間(TIME)、實(shí) 體(OBJ)、描 述(DES)、未 知(Un-known)[27]。根據(jù)表1中的模塊,筆者對(duì)用戶提問(wèn)進(jìn)行了總結(jié),發(fā)現(xiàn)其中的疑問(wèn)詞大致概括為2種:“是什么(What)”和“怎么做(How)”,故本文選擇以問(wèn)句中的詢問(wèn)對(duì)象為標(biāo)準(zhǔn)進(jìn)行類別劃分,主要分為詢問(wèn)處罰、詢問(wèn)法律條款、詢問(wèn)法律條款和處罰、詢問(wèn)違法行為、其他5類,見表4。
表4 問(wèn)題分類Tab.4 Classification of user questions
利用Python編程語(yǔ)言開發(fā)了面向道路交通違法行為的問(wèn)答系統(tǒng)平臺(tái)。該平臺(tái)將交通違法行為、處罰事件、法律條款及其關(guān)系存儲(chǔ)到Neo4j數(shù)據(jù)庫(kù),利用Python的Django框架進(jìn)行系統(tǒng)的前后臺(tái)連接。此外,本文選擇現(xiàn)今流行的數(shù)據(jù)可視化圖表庫(kù)ECharts生成前端的可視化圖譜。系統(tǒng)從Neo4j數(shù)據(jù)庫(kù)中檢索出結(jié)果后利用Echarts在前端生成相關(guān)關(guān)系圖,以直觀展示事件關(guān)系。若用戶提供的信息充分,則返回唯一對(duì)應(yīng)違法行為,并根據(jù)事理圖譜返回相關(guān)行為依據(jù)、處罰依據(jù)及處罰結(jié)果,見圖5(a);若信息量欠缺,則返回多個(gè)包含關(guān)鍵詞的違法行為及相應(yīng)法律條款、處罰結(jié)果,以供用戶選擇,見圖5(b)。
圖5 交通違法問(wèn)答系統(tǒng)Fig.5 Road traffic violation retrieval system
針對(duì)復(fù)雜的道路交通場(chǎng)景,以智慧化為目標(biāo),本文提供了1種領(lǐng)域知識(shí)庫(kù)構(gòu)建方法,并基于所構(gòu)建的交通違法事理圖譜設(shè)計(jì)開發(fā)了問(wèn)答系統(tǒng)。該項(xiàng)研究在一定程度上彌補(bǔ)了事理圖譜技術(shù)在道路交通領(lǐng)域的應(yīng)用空缺。
雖然本文利用事理圖譜技術(shù)對(duì)違法行為、處罰事件、事件關(guān)系等進(jìn)行程序化表達(dá),將事件信息存儲(chǔ)到知識(shí)庫(kù)中,結(jié)合事件鏈條完成條件問(wèn)答,實(shí)現(xiàn)長(zhǎng)久性的存儲(chǔ)和事實(shí)性的推理。但由于交通違章事件劃分詳細(xì),系統(tǒng)在相關(guān)反饋方面可以進(jìn)一步優(yōu)化,多輪問(wèn)答讓用戶補(bǔ)充描述以使事件更加完整。此外,關(guān)于交通事件的事實(shí)案例較多,若能結(jié)合實(shí)際,便能為交警提供切合現(xiàn)實(shí)情況的判斷參考,未來(lái)的探索將進(jìn)一步擴(kuò)大知識(shí)系統(tǒng)在專業(yè)領(lǐng)域的應(yīng)用。