黃淑兵 張亞洲 繆新頓 陸楊 楊卓敏
(公安部交通管理科學(xué)研究所,江蘇 無錫 214151)
近年來,在我國道路交通基礎(chǔ)設(shè)施的建設(shè)快速發(fā)展,汽車保有量持續(xù)增長的背景下,深化警務(wù)機(jī)制改革工作也在不斷的推進(jìn),城市交通管理警務(wù)效能水平在不斷提高。對公安交通管理領(lǐng)域來說,“信息引領(lǐng)”和“科技賦能”的概念逐步成為建設(shè)現(xiàn)代化警務(wù)機(jī)制的導(dǎo)向,多種警用設(shè)備的研發(fā)應(yīng)用以及各個(gè)數(shù)據(jù)平臺的建設(shè)運(yùn)行匯總了大量的警務(wù)數(shù)據(jù),為深度研判分析工作提供了有力的支撐。與此同時(shí),公安交管部門相應(yīng)的信息報(bào)送機(jī)制也在不斷完善,面對大量的交通安全事故數(shù)據(jù)分析工作,由人工進(jìn)行數(shù)據(jù)量化統(tǒng)計(jì)的分析模式正逐步淘汰,取而代之的是數(shù)據(jù)自動(dòng)化處理、多維度關(guān)聯(lián)分析等更加智能化的分析模式,這樣才能滿足對大量數(shù)據(jù)的多維度分析需求,即構(gòu)建并維護(hù)一個(gè)穩(wěn)健的數(shù)據(jù)分析模型能夠有效的輔助人工進(jìn)行分析研判工作。
建立交通安全事故數(shù)據(jù)分析模型的重點(diǎn)是對事故信息中的文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,通常文本數(shù)據(jù)主要包括報(bào)警人或接警人對發(fā)生事故的過程描述以及處警人員對事件處置的結(jié)果描述。雖然這些文本數(shù)據(jù)由人工錄入系統(tǒng)時(shí)會按照相關(guān)規(guī)定對文字描述進(jìn)行簡化處理,但是簡化后的文本數(shù)據(jù)并沒有提取關(guān)鍵信息,也不能作為結(jié)構(gòu)化數(shù)據(jù)直接存儲。所以,文本數(shù)據(jù)中描述事件過程或處置結(jié)果的實(shí)體和關(guān)系需通過NLP(NaturalLanguageProcessing 自然語言處理)技術(shù)進(jìn)一步抽取和篩選。包含實(shí)體和關(guān)系文本處理完成后,即可對案發(fā)時(shí)間、案發(fā)地點(diǎn)、車輛情況、人員情況、道路設(shè)施等多維的因素進(jìn)行數(shù)據(jù)分析。每起交通事件看似是偶然性事件,其實(shí)伴隨事故與隱患排查工作的深入可發(fā)現(xiàn),事故發(fā)生的根源或者安全隱患點(diǎn)往往能關(guān)聯(lián)起多個(gè)類似的歷史警情,如多起事故的案發(fā)路段、路口處均存在某個(gè)安全隱患;某路口經(jīng)常發(fā)生機(jī)動(dòng)車左轉(zhuǎn)與非機(jī)動(dòng)車碰撞的事故原因之一是該路口缺乏防護(hù)裝置和交通安全標(biāo)志等等。通過挖掘關(guān)聯(lián)規(guī)則,可以發(fā)現(xiàn)一些潛在的規(guī)則和產(chǎn)生事故的誘因,最后采取相應(yīng)的處置措施達(dá)到降低此類交通事故發(fā)生概率的目的。
中文警情文本數(shù)據(jù)包括接處警人員錄入數(shù)據(jù)和系統(tǒng)自動(dòng)疊加的常規(guī)數(shù)據(jù),其中事故數(shù)據(jù)多為非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),針對中文文本復(fù)雜的處理流程,陳永俊[1]等人采用BERT+LSTM 的方法進(jìn)行公安警情數(shù)據(jù)的命名實(shí)體識別、采用BERT 與CNN 結(jié)合的方法挖掘關(guān)系;張明芳[2]等人引入分層級聯(lián)強(qiáng)化學(xué)習(xí)機(jī)制抽取涉案新聞實(shí)體關(guān)系;哈工大社會計(jì)算與信息檢索研究中心研制的語言技術(shù)平臺(LTP)[3]在各種自然語言處理場景中被廣泛應(yīng)用。關(guān)聯(lián)規(guī)則Apriori 等經(jīng)典數(shù)據(jù)挖掘算法被廣泛應(yīng)用于各行業(yè)的數(shù)據(jù)挖掘任務(wù)中。可以用來發(fā)現(xiàn)事情之間的聯(lián)系,但隨著數(shù)據(jù)量的增長,經(jīng)典方法在計(jì)算支持度的時(shí)候時(shí)間和空間復(fù)雜度較高,越來越多的研究采用使用并行體系架構(gòu)的GPU 來加速頻繁項(xiàng)集的生成過程。本文設(shè)計(jì)的主要分析過程如圖1 所示。
圖1 依存句法分析與關(guān)聯(lián)規(guī)則挖掘流程
因?yàn)閿?shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)主要包括警情單編號、數(shù)據(jù)來源、接警人、管轄部門、警情類型、報(bào)警時(shí)間、處置結(jié)果標(biāo)記、反饋人、反饋部門、反饋時(shí)間、警情倒查標(biāo)記和警情核實(shí)標(biāo)記等;非結(jié)構(gòu)化數(shù)據(jù)主要包括從各種平臺接入系統(tǒng)的“報(bào)警內(nèi)容”和“反饋內(nèi)容”,為了便于后期的關(guān)聯(lián)規(guī)則挖掘,需要對所有數(shù)據(jù)進(jìn)行編碼,文本信息的編碼工作放在事故因子匹配之后進(jìn)行。把結(jié)構(gòu)化數(shù)據(jù)的屬性進(jìn)行編碼,并對屬性的值進(jìn)行再編碼,即某個(gè)屬性的值能用維度較低的編碼來表示。維護(hù)的部分?jǐn)?shù)據(jù)編碼方式示例如表1。
表1
維護(hù)的事故因子名稱和編碼方式類似。
表2
使用基于自然語音處理的工具,如LTP 對非結(jié)構(gòu)化數(shù)據(jù)(報(bào)警內(nèi)容和反饋內(nèi)容)進(jìn)行分詞、詞性標(biāo)注、句法結(jié)構(gòu)描述以及語義依存分析,得到依存句法分析樹。依存分析樹中包含多個(gè)依存關(guān)系,根據(jù)LTP 定義的依存關(guān)系如表3。
表3
因?yàn)榻泳藭?bào)警人口述的信息進(jìn)行簡化,簡單明確的描述出警情的主要信息,且路面經(jīng)常發(fā)生的交通警情類型相對比較固定,所以進(jìn)行依存分析后以主要謂語為中心,例如報(bào)警內(nèi)容:“在中山路二師附小學(xué)校門口,一輛黑色轎車違停在了非機(jī)動(dòng)車道上,轎車后排的乘客打開右側(cè)的車門,后面的一輛紅色電動(dòng)車碰撞到車門,電動(dòng)車的駕駛員摔倒在地,其頭部、臉部等多處受傷?!卑选稗I車后排的乘客打開右側(cè)的車門”這個(gè)關(guān)鍵的描述單獨(dú)進(jìn)行依存分析結(jié)果如下:
以動(dòng)詞“打開”與根節(jié)點(diǎn)root 的關(guān)系為HED 得出“打開”是核心,類似的將文本信息均進(jìn)行依存句法樹的構(gòu)建,然后篩選出SBV 主謂關(guān)系、VOB 動(dòng)賓等關(guān)系、ATT 定中關(guān)系、POB 介賓關(guān)系,將抽取結(jié)果進(jìn)行事件三元組的組裝。得出三元組信息如下:
[′一輛黑色轎車′,′違?!?′在非機(jī)動(dòng)車道′]
[′轎車′,′后排′,′乘客打開車門′]
[′乘客′,′打開′,′車門′]
[′一輛紅色電動(dòng)車′,′碰撞到′,′車門′]
[′電動(dòng)車駕駛員′,′摔倒′,′在地′]
綜上,對所有待處理的文本信息進(jìn)行以下技術(shù)路線處理得到文本信息的三元組半結(jié)構(gòu)化信息。
引入事故因子與事件三元組匹配方法,根據(jù)先驗(yàn)知識維護(hù)事故因子數(shù)據(jù),事故因子數(shù)據(jù)同樣按警情類型進(jìn)行歸類,根據(jù)該條記錄的警情類型進(jìn)而事故因子與事件三元組的匹配,即該類別的事故因子與事件的三元組逐一匹配。匹配后將該事故的結(jié)構(gòu)化信息與事故因子進(jìn)行綁定。
以下是list 類型的數(shù)據(jù)為例進(jìn)行說明:待匹配的事故因子列表:[壓實(shí)線,逆行,違停,逃逸,碾壓行人,刮撞行人,開車門,側(cè)翻,翻滾,墜車,…,交通擁堵]。綁定后數(shù)據(jù)擴(kuò)充為:案發(fā)時(shí)間:“某年某月某日某時(shí)某分”、案發(fā)地點(diǎn):“某某地點(diǎn)”、違法行為:“開關(guān)車門妨礙其他車輛違法和行人通行”、是否逃逸:“是”、是否有現(xiàn)場“無”、是否受傷“有”、現(xiàn)場通行情況“擁堵”、車輛是否可移動(dòng)“是”、涉事車輛類型“02 小型汽車”、事故類型“車輛與非機(jī)動(dòng)車碰撞”、事故因子“開車門、違停”等,將這些字段安裝預(yù)定的編碼方式進(jìn)行屬性和屬性值的編碼。
構(gòu)建Apriori 算法模型對每個(gè)事故因子對應(yīng)多條綁定的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,首先,根據(jù)事故因子和事故類型的不同,對項(xiàng)集D 的項(xiàng)目也進(jìn)行不同的設(shè)計(jì),交通事故類的項(xiàng)集Dtrans字段:案發(fā)時(shí)間、案發(fā)地點(diǎn)、違法行為、是否逃逸、是否有現(xiàn)場、是否受傷、現(xiàn)場通行情況、車輛是否可移動(dòng)、涉事車輛類型、人員類型、事故類型、事故因子等。
設(shè)置最小置信度閾值,即min(Confidencem)。
在上述挖掘步驟中,我們的數(shù)據(jù)格式是“橫向表達(dá)的”,即每一條警情結(jié)構(gòu)化處理后的數(shù)據(jù)有很多個(gè)字段,所以在求頻繁1 階項(xiàng)集至頻繁k 階項(xiàng)集的過程要重復(fù)的遍歷每一行待挖掘數(shù)據(jù)集,這樣產(chǎn)生了較大的計(jì)算量,而龐大的警情結(jié)構(gòu)化數(shù)據(jù)不適合選擇經(jīng)典的挖掘方法,文獻(xiàn)[4]均提到了將“橫向數(shù)據(jù)”進(jìn)行“縱向表達(dá)”,再利用GPU 并行計(jì)算的優(yōu)勢來優(yōu)化頻繁K 階項(xiàng)集的尋找?;贕PU 的挖掘方法,均提進(jìn)行了大量的可行性分析和測試,本文選擇利用GPU 來加速頻繁k項(xiàng)集的生成。
將上述生成的將關(guān)聯(lián)規(guī)則進(jìn)行屬性還原,建立并維護(hù)一個(gè)分析結(jié)果與評價(jià)的映射關(guān)系表。例如將2021 年9 月以來的接處警業(yè)務(wù)實(shí)驗(yàn)數(shù)據(jù)經(jīng)過置信度計(jì)算后進(jìn)一步得到某條關(guān)聯(lián)規(guī)則為:[事故因子:刮撞非機(jī)動(dòng)車,違法行為:碰撞非機(jī)動(dòng)車輛,是否有現(xiàn)場:無現(xiàn)場,車輛是否逃逸:是,是否有人受傷:是,案發(fā)時(shí)段:上午7 點(diǎn)至8 點(diǎn)]→案發(fā)地點(diǎn):育紅小學(xué)北門],即該規(guī)則等得到的結(jié)果為育紅小學(xué)北門,此時(shí)記評價(jià)因子的數(shù)據(jù)類型為Map,Map 的key 記錄的是生成的規(guī)則結(jié)果,對應(yīng)的value 是結(jié)論對應(yīng)的評價(jià),如Map 的某個(gè)Key 值是:“小學(xué)”,對應(yīng)的Value 維護(hù)的內(nèi)容是“加強(qiáng)學(xué)校周邊巡邏及監(jiān)控覆蓋面”。
若產(chǎn)生的關(guān)聯(lián)規(guī)則沒有相匹配的評價(jià)信息,則需要進(jìn)一步人工分析,如果規(guī)則符合常識,的確需要排查,就將此映射關(guān)系添加至評價(jià)關(guān)系映射表中,例如實(shí)驗(yàn)得出以下部分規(guī)則:
1:[違法行為:妨礙其他車輛和行人通行,是否有警示標(biāo)志:無,案發(fā)地點(diǎn):濱河西路XX 路口北向南,道路類型:一般城市道路,案發(fā)時(shí)段:上午09 點(diǎn)至10 點(diǎn)]→事故因子:開車門。
2:[事故因子:別車,事故類型:車輛間事故,隔離設(shè)施:中央護(hù)欄,是否有警示標(biāo)志:無,道路類型:一般城市道路,案發(fā)時(shí)段:上午09 點(diǎn)至10 點(diǎn)]→案發(fā)地點(diǎn):XX 路XX 橋下。
本文通過基于自然語言的處理工具以及關(guān)聯(lián)規(guī)則分析算法,對非結(jié)構(gòu)化的文本信息進(jìn)行事件三元組提取,并結(jié)合大量數(shù)據(jù)對不同的事故誘因匹配,利用并行計(jì)算能力,生成有效的關(guān)聯(lián)規(guī)則,進(jìn)而提升接處警系統(tǒng)的警情分析能力,能夠更有針對性的開展事故原因排查和相關(guān)行為整治行動(dòng),本文亦可結(jié)合知識圖譜構(gòu)建技術(shù)將警情數(shù)據(jù)和挖掘結(jié)果信息可視化展示。