管雨涵,劉 勘
(1.華中科技大學(xué) 管理學(xué)院,湖北 武漢 430074;2.中南財(cái)經(jīng)政法大學(xué) 信息與安全工程學(xué)院,湖北 武漢 430073)
突發(fā)公共衛(wèi)生事件多指有擴(kuò)散趨勢(shì)、嚴(yán)重危害公眾安全的突發(fā)性重大傳染疾病等,這類(lèi)事件影響力大、危害程度高、涉及范圍廣,將嚴(yán)重危害經(jīng)濟(jì)發(fā)展、人民健康及社會(huì)安定[1]。面對(duì)突發(fā)公共衛(wèi)生事件,需要依據(jù)國(guó)家政策快速制定和部署綜合性的應(yīng)急管理方案,及時(shí)響應(yīng)和解決可能出現(xiàn)的各類(lèi)突發(fā)問(wèn)題。
2020 年初期,新冠疫情暴發(fā),國(guó)務(wù)院及各地政府不斷發(fā)布各項(xiàng)應(yīng)對(duì)政策和通告,指導(dǎo)各級(jí)部門(mén)采取相應(yīng)措施;后疫情時(shí)期,在大多數(shù)國(guó)家選擇與“病毒共存”的趨勢(shì)下,中國(guó)仍堅(jiān)持“動(dòng)態(tài)清零”,總體應(yīng)急管理取得顯著成效。不可忽視的是,疫情初期由于信息輸入渠道單一、跨域部門(mén)協(xié)調(diào)薄弱等原因,導(dǎo)致“信息疫情”暴發(fā),政策發(fā)布落后于謠言傳播,群眾陷入恐慌狀態(tài),各種“信息孤島”也導(dǎo)致后續(xù)應(yīng)對(duì)策略發(fā)布遲緩,疫情管控和應(yīng)急處理處于弱勢(shì)地位。此外,由于政府應(yīng)急管理實(shí)行分級(jí)條塊管理模式,應(yīng)急中心分散,地方?jīng)Q策參與和風(fēng)險(xiǎn)分擔(dān)機(jī)制不足,部門(mén)間尤其是橫向部門(mén)間協(xié)調(diào)能力低,合作機(jī)制運(yùn)行不暢,導(dǎo)致部分處理政策出現(xiàn)程序不明確、多頭同質(zhì)化處理、權(quán)責(zé)混亂的情況,極大降低了政府應(yīng)急管理效率[2]。
基于此,本文以新冠疫情治理為例,構(gòu)建突發(fā)公共衛(wèi)生事件應(yīng)急政策知識(shí)圖譜。知識(shí)圖譜及其實(shí)體、關(guān)系的多層次性能較好地匹配應(yīng)急政策中的多主體、多主題、多對(duì)象,因此,考慮將知識(shí)圖譜運(yùn)用于政府應(yīng)急政策。應(yīng)急政策知識(shí)圖譜能通過(guò)多元的輸入信息、綜合的共享信息,幫助政策快速傳播流轉(zhuǎn),構(gòu)建跨部門(mén)的應(yīng)急聯(lián)防聯(lián)控機(jī)制網(wǎng)絡(luò);同時(shí),通過(guò)在圖譜中對(duì)防控政策進(jìn)行歸納、分類(lèi),形成應(yīng)急政策知識(shí)深度關(guān)聯(lián),更好地聚焦應(yīng)急政策核心,輔助中央地方聯(lián)合響應(yīng)、共同決策,改進(jìn)應(yīng)急政策部署和執(zhí)行效率。本文主要貢獻(xiàn)在于:①構(gòu)建應(yīng)急管理知識(shí)圖譜的Schema 模式框架;②利用深度學(xué)習(xí)和文本處理技術(shù),形成SPO(Subject To Object)政策三元組知識(shí)結(jié)構(gòu),進(jìn)而通過(guò)推理發(fā)現(xiàn)政策信息傳遞流向,構(gòu)建突發(fā)公共衛(wèi)生事件管理政策知識(shí)圖譜;③對(duì)應(yīng)急政策通過(guò)知識(shí)圖譜結(jié)構(gòu)化、規(guī)范化,建立基本應(yīng)急政策知識(shí)庫(kù),實(shí)現(xiàn)專(zhuān)業(yè)應(yīng)急部門(mén)的快速查詢(xún)、更新及可視化分析,并為突發(fā)公共衛(wèi)生事件的應(yīng)急管理提供方案生成、自動(dòng)推薦等決策支持。
知識(shí)圖譜可以被看作是一種特殊的語(yǔ)義網(wǎng)絡(luò),形成一種以信息為節(jié)點(diǎn)、關(guān)系為邊的有向圖,它能將數(shù)據(jù)凝練整合形成智能型知識(shí)庫(kù),清楚呈現(xiàn)每一條知識(shí)的全息結(jié)構(gòu),同時(shí)利用推理機(jī)制發(fā)現(xiàn)數(shù)據(jù)關(guān)系及其邏輯關(guān)聯(lián)。知識(shí)圖譜的研究主要從理論與應(yīng)用兩個(gè)方面展開(kāi)。理論研究主要探討知識(shí)抽取、知識(shí)融合、知識(shí)推理等構(gòu)建方法中的關(guān)鍵步驟[3]。在知識(shí)圖譜構(gòu)建上,Hogan 等[4]詳細(xì)介紹了知識(shí)圖譜的完整構(gòu)建過(guò)程與構(gòu)建方法。隨著機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,越來(lái)越多的技術(shù)被運(yùn)用在了知識(shí)圖譜構(gòu)建中,劉嶠等[5]介紹了一些最新的知識(shí)抽取、融合、加工技術(shù)。在知識(shí)抽取方面,目前多采用依存句法分析[6]、深度強(qiáng)化模型[7]等方法進(jìn)行實(shí)體與關(guān)系識(shí)別;將知識(shí)通過(guò)Trans 模型[8]進(jìn)行表示,再通過(guò)基于邏輯規(guī)則、深度學(xué)習(xí)和強(qiáng)化模型[9]的方式進(jìn)行實(shí)體關(guān)系的發(fā)現(xiàn)與推理;對(duì)于構(gòu)建完成的知識(shí)圖譜,則多采用Neo4j 或Gephi 數(shù)據(jù)庫(kù)進(jìn)行可視化[5],或直接使用CiteSpace 軟件構(gòu)建整體關(guān)系知識(shí)圖譜。
應(yīng)用研究則可以分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜應(yīng)用。其中,通用知識(shí)圖譜的構(gòu)建已經(jīng)較為成熟,目前典型的通用知識(shí)圖譜包括國(guó)外的YAGO、DBpedia、Freebase和國(guó)內(nèi)的zhishi.me、CNDBpedia 和OpenKG 等項(xiàng)目,包括谷歌、百度、搜狗在內(nèi)等企業(yè)都構(gòu)建了基于知識(shí)圖譜的搜索引擎,如谷歌搜索引擎、搜狗知立方等[10]。這些知識(shí)圖譜,將無(wú)規(guī)則語(yǔ)言轉(zhuǎn)化為高度結(jié)構(gòu)化可用知識(shí)并用于深度搜索和知識(shí)問(wèn)答,有效地提高了網(wǎng)絡(luò)檢索的效率與質(zhì)量。
近年來(lái),領(lǐng)域知識(shí)圖譜應(yīng)用越來(lái)越多,針對(duì)2020 年初暴發(fā)的新冠肺炎疫情,研究人員構(gòu)建了病毒傳播知識(shí)圖譜[11]、醫(yī)療用藥知識(shí)圖譜[12]。國(guó)內(nèi)OpenKG 平臺(tái)[14]則建立了新冠知識(shí)圖譜專(zhuān)題,包含病毒科研知識(shí)、臨床方案、防控常識(shí)等[14]。這些知識(shí)圖譜在疫情傳播控制[15]、疫情輿論引導(dǎo)[16]、風(fēng)險(xiǎn)防范管理[17]等方面發(fā)揮了重要作用。
關(guān)于應(yīng)急管理圖譜,李綱等[18]關(guān)注重大國(guó)家安全事件構(gòu)建圖譜,全面監(jiān)控掌知全局安全動(dòng)態(tài)。張海濤等[19-20]以新冠疫情和大旱事件為例構(gòu)建事件圖譜,探究國(guó)家安全事件圖譜的態(tài)勢(shì)狀態(tài)提取方法。正是由于圖譜的強(qiáng)關(guān)聯(lián)性,能較好地著重于事件發(fā)生狀況和發(fā)展?fàn)顟B(tài),與政策文本處于發(fā)展傳遞狀態(tài)相匹配,故而考慮構(gòu)建政策知識(shí)圖譜。
此外,由于政策的格式規(guī)整性,知識(shí)圖譜對(duì)于政策文件有較好應(yīng)用。Wang 等[21]基于規(guī)則和機(jī)器學(xué)習(xí)抽取實(shí)體關(guān)系,構(gòu)建政策圖譜分析平臺(tái)。韓娜等[22]聚焦于“開(kāi)放數(shù)據(jù)”和“數(shù)據(jù)安全”主題,利用規(guī)則關(guān)聯(lián)和定量分析對(duì)政策文本進(jìn)行協(xié)同性語(yǔ)義推理。張雨等[23]構(gòu)建科技垂直領(lǐng)域知識(shí)圖譜,更好發(fā)揮科技政策引領(lǐng)科技發(fā)展。單曉紅等[24]構(gòu)建政策影響事理圖譜,找出關(guān)鍵節(jié)點(diǎn)有效進(jìn)行政策管控。霍朝光等[25]利用TF-IDF 和強(qiáng)化字典構(gòu)建新冠肺炎政策知識(shí)圖譜,歸檔重大突發(fā)公共衛(wèi)生事件處理方案,追溯政策法律淵源。
目前政策圖譜多聚焦于政策計(jì)量,集中于關(guān)聯(lián)分析和歸檔處理,多采用人工或簡(jiǎn)單規(guī)則方式[26],靈活性與完整性較差;而知識(shí)圖譜構(gòu)建方面少有聚焦于重大突發(fā)公共衛(wèi)生突發(fā)事件,且未有完整的可以重復(fù)利用的應(yīng)急管理框架以供未來(lái)參考和回溯。
在應(yīng)急管理方面,盡管目前新冠疫情在國(guó)內(nèi)得到了良好的控制,但是不可忽視疫情初期的無(wú)序狀態(tài)。丁榮嶸等[27]提出當(dāng)前政府應(yīng)急管理效率低下,需要建立一個(gè)統(tǒng)一的應(yīng)急管理體系標(biāo)準(zhǔn),健全協(xié)同管理體系,對(duì)政策信息智能分類(lèi)、簡(jiǎn)化歸口、直達(dá)直報(bào)。楊雯等[28]認(rèn)為疫情期間政策發(fā)布制度不完善,逐級(jí)政策發(fā)布導(dǎo)致跨域部門(mén)溝通不充分,建議應(yīng)建立應(yīng)急治理中心指揮樞紐,加強(qiáng)行政系統(tǒng)內(nèi)部合作,共享信息協(xié)調(diào)多部門(mén)聯(lián)合調(diào)動(dòng)。王媛[29]強(qiáng)調(diào)對(duì)于突發(fā)公共衛(wèi)生事件,政府應(yīng)急管理缺乏內(nèi)部主動(dòng)性,過(guò)度依賴(lài)上級(jí)決策,同時(shí)應(yīng)急預(yù)案制定溝通不充分,跨區(qū)域協(xié)調(diào)困難,提出中央和地方、多地方、多機(jī)構(gòu)、多部門(mén)合作平臺(tái)的亟需性。
基于此,本文聚焦于上述問(wèn)題,利用知識(shí)圖譜在構(gòu)造和應(yīng)用上的獨(dú)有特征,構(gòu)建突發(fā)公共衛(wèi)生事件中應(yīng)急政策知識(shí)圖譜。
在邏輯上,知識(shí)圖譜分成兩個(gè)層系:Schema 本體模式層和Data 數(shù)據(jù)層。其中,Schema 層是知識(shí)圖譜構(gòu)建的核心與重點(diǎn),它定義了各類(lèi)實(shí)體間以及實(shí)體屬性間的關(guān)系,通常使用本體庫(kù)進(jìn)行管理。本體庫(kù)相當(dāng)于知識(shí)庫(kù)的模型,良好的Schema 層次為知識(shí)圖譜的構(gòu)建搭建了框架,這樣形成的知識(shí)冗余少、泛化能力強(qiáng),推理出的關(guān)系也更全面。而Data 數(shù)據(jù)層由基本的事件、事實(shí)構(gòu)成[30],是知識(shí)的基本存儲(chǔ)單位,一般情況下,使用SPO 三元組形式來(lái)表達(dá)知識(shí)。
華斌等[31]結(jié)合政策精準(zhǔn)性四大要素,將政策分為主體、客體、目標(biāo)、工具四大類(lèi)。本文針對(duì)疫情應(yīng)急管理知識(shí)圖譜設(shè)計(jì)的Schema 本體則需要考慮兩個(gè)因素:①每則政策公文的結(jié)構(gòu)層次體系;②執(zhí)行部門(mén)對(duì)政策的落實(shí)要求。
政策數(shù)據(jù)實(shí)體關(guān)系如圖1 所示,包括部門(mén)、標(biāo)題、內(nèi)容、附件等。本文設(shè)計(jì)6 種實(shí)體類(lèi)型和9 種屬性類(lèi)型,各類(lèi)實(shí)體的定義與實(shí)體間的映射關(guān)系如表1、表2所示。
Table 1 Knowledge graph entity types and examples表1 知識(shí)圖譜實(shí)體類(lèi)型及樣例
Table 2 Knowledge graph attribute types and examples表2 知識(shí)圖譜屬性類(lèi)型及樣例
Fig.1 Policy data entity relationships圖1 政策數(shù)據(jù)實(shí)體關(guān)系
政策文件的實(shí)體間關(guān)系較為簡(jiǎn)單,華斌等[31]將政策實(shí)體間關(guān)系主要分為六類(lèi),張雨等[23]則分為四大類(lèi)。根據(jù)構(gòu)建的以上實(shí)體及屬性,本文主要設(shè)計(jì)了6 種關(guān)系類(lèi)型,將實(shí)體之間連接起來(lái),其關(guān)系映射如表3 所示。這樣,通過(guò)對(duì)實(shí)體、關(guān)系、屬性的定義,將來(lái)源于國(guó)務(wù)院和各省政府政策文件庫(kù)的半結(jié)構(gòu)化數(shù)據(jù)和部分非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為知識(shí)圖譜所需的結(jié)構(gòu)化格式,通過(guò)實(shí)體間關(guān)系與屬性,可以實(shí)現(xiàn)政策知識(shí)的統(tǒng)一表示,使分散的管理政策相互聯(lián)系。
知識(shí)抽取過(guò)程中可以將實(shí)體與關(guān)系分別抽取,也可以采用聯(lián)合抽取模型,聯(lián)合抽取能同時(shí)考慮實(shí)體與關(guān)系之間的聯(lián)系,故而犯錯(cuò)較少。但由于本文實(shí)驗(yàn)中使用大量半結(jié)構(gòu)化數(shù)據(jù),可以通過(guò)簡(jiǎn)單的規(guī)則提取出部分實(shí)體與關(guān)系,因而采用實(shí)體與關(guān)系分開(kāi)抽取的流水線(xiàn)模型。
2.2.1 實(shí)體抽取
本文采取基于BiLSTM+CNN-CRF 的實(shí)體抽?。?2]算法,先用NLPIR 漢語(yǔ)工具[33]識(shí)別出主要實(shí)體,再用少量人工標(biāo)注語(yǔ)料訓(xùn)練BiLSTM+CNN-CRF 模型實(shí)現(xiàn)命名實(shí)體抽取,這樣能在極大減少人工標(biāo)注的基礎(chǔ)上得到有效的實(shí)體識(shí)別效果。
BiLSTM+CNN-CRF 模型由CNN、BiLSTM 和CRF 3 個(gè)模塊組成。首先將輸入文本通過(guò)Word2vec 分布式嵌入方式將每個(gè)詞處理為n維詞向量;然后將處理好的詞向量分別輸入CNN 模塊,提取出文本的字符級(jí)特征,再輸入BiLSTM 模塊,提取出全局特征,將得到的字符向量和詞向量進(jìn)行拼接,輸入全連接層和CRF 模塊進(jìn)行解碼,利用已有標(biāo)簽,選取一個(gè)最優(yōu)的標(biāo)記序列。只使用BiLSTM 時(shí),如果輸入過(guò)長(zhǎng),會(huì)對(duì)較前的輸入丟失較多的特征,因此引入CNN 先輸入文本的局部特征,減少信息丟失。同時(shí),CRF相比于Softmax 可以更好地考慮標(biāo)簽間的影響與偏置,綜合計(jì)算每個(gè)詞X 的得分s(X,y),得到實(shí)體標(biāo)簽的概率p(y|X),在訓(xùn)練過(guò)程中,使用對(duì)數(shù)似然最大化正確概率p(y|S),計(jì)算公式如式(1)所示,盡可能地優(yōu)化標(biāo)簽序列如式(2)中的結(jié)果y*。
BiLSTM+CNN-CRF 模型進(jìn)行實(shí)體抽取的算法如下:
輸入:部分標(biāo)注數(shù)據(jù)集、原始數(shù)據(jù)
輸出:標(biāo)注實(shí)體數(shù)據(jù)集
步驟:(1)將原始數(shù)據(jù)轉(zhuǎn)換為詞向量集
(2)得到的詞向量輸入CNN和BiLSTM
(3)初始化雙向長(zhǎng)短時(shí)層,求解網(wǎng)絡(luò)權(quán)重矩陣
(4)初始化卷積層,設(shè)置參數(shù)
(5)拼接輸入(3)、(4)的詞向量
(6)對(duì)結(jié)果進(jìn)行加權(quán)后輸入條件隨機(jī)場(chǎng),得出最優(yōu)序列標(biāo)注模型
(7)修改參數(shù)的設(shè)置,比較結(jié)果
(8)將模型應(yīng)用到數(shù)據(jù)集
對(duì)政策文本進(jìn)行序列標(biāo)注的具體處理過(guò)程如圖2所示。
Fig.2 Entity recognition algorithm flow based on BiLSTM+CNNCRF圖2 基于BiLSTM+CNN-CRF 的實(shí)體識(shí)別算法流程
2.2.2 關(guān)系抽取
關(guān)系抽取主要是為了得到應(yīng)急管理政策公文、實(shí)施部門(mén)等實(shí)體間的關(guān)系。本文關(guān)系抽取通過(guò)卷積神經(jīng)網(wǎng)絡(luò)CNN 實(shí)現(xiàn)。將對(duì)政策信息實(shí)體抽取完成后得到的詞向量和相對(duì)位置特征作為輸入,加入到CNN 中獲得句子級(jí)向量表示,這個(gè)句向量通過(guò)非線(xiàn)性全連接層計(jì)算輸出進(jìn)行關(guān)系分類(lèi),通過(guò)上述模型訓(xùn)練得到實(shí)體間的關(guān)系。關(guān)系抽取流程如圖3所示。
Fig.3 CNN-based relation extraction process圖3 基于CNN的關(guān)系抽取過(guò)程
在進(jìn)行知識(shí)推理前,首先要通過(guò)實(shí)體鏈接和實(shí)體對(duì)齊等方法,統(tǒng)一實(shí)體名稱(chēng)、合并同義三元組,消除知識(shí)冗余。由于本文構(gòu)建知識(shí)圖譜源數(shù)據(jù)為政策類(lèi)文件,格式較為工整,并無(wú)太多相似或冗余知識(shí),通過(guò)定義一些簡(jiǎn)單的規(guī)則即可進(jìn)行消歧,如將實(shí)體“新冠”“新型冠狀”“COVID-19”看作是同一個(gè)實(shí)體,將“省政府”“省人民政府”看作同一對(duì)象等。數(shù)據(jù)經(jīng)過(guò)人工檢測(cè)已基本不存在有歧義或多余的三元組。
知識(shí)推理是知識(shí)圖譜構(gòu)建中十分重要的一環(huán),通過(guò)知識(shí)推理可以發(fā)現(xiàn)一些新的政策間和政策部門(mén)間的關(guān)系,這對(duì)應(yīng)急管理尤為重要,能極大程度地提高政策部署和執(zhí)行過(guò)程中眾多實(shí)體的深度關(guān)聯(lián)。由于本文知識(shí)圖譜所涉及的部門(mén)實(shí)體大多是上層部門(mén)(Department),同時(shí)政府應(yīng)急管理政策文本常常較為寬泛,沒(méi)有詳述具體部門(mén)(Subordinate),為了更方便具體部門(mén)內(nèi)部人員查詢(xún)和使用,實(shí)現(xiàn)政策通知更精準(zhǔn)的發(fā)放,在進(jìn)行知識(shí)推理前先補(bǔ)充了600 個(gè)常見(jiàn)具體政務(wù)部門(mén)實(shí)體數(shù)據(jù),加入管理政策知識(shí)庫(kù)中,數(shù)據(jù)來(lái)源于中文通用百科知識(shí)圖譜中的部門(mén)數(shù)據(jù)[34]。針對(duì)其中出現(xiàn)的部門(mén)間名稱(chēng)重復(fù)、簡(jiǎn)寫(xiě)的情況,需要在特定的簡(jiǎn)寫(xiě)前加上部門(mén)限制,使其一一對(duì)應(yīng)。以教育部為例,導(dǎo)入的子部門(mén)節(jié)點(diǎn)如表4和圖4所示。
Table 4 Example of triplet for a sub-department of the Ministry of Education表4 教育部子部門(mén)三元組示例
Fig.4 Sub-departments of the Ministry of Education imported圖4 導(dǎo)入的教育部所屬子部門(mén)
本文采用基于規(guī)則的推理與基于分布式圖的推理兩種推理方式[35]?;谝?guī)則的推理能利用簡(jiǎn)單的邏輯運(yùn)算推斷出政策通知的傳遞過(guò)程;基于分布式的推理則能在信息缺失的情況下更好地關(guān)聯(lián)知識(shí),深入挖掘?qū)嶓w間的關(guān)系,更好地處理復(fù)雜的實(shí)體間關(guān)系。
2.3.1 基于規(guī)則的推理
按照實(shí)體周?chē)吖?jié)點(diǎn)的連接推斷出此節(jié)點(diǎn)可能存在的新連接,進(jìn)而推理出實(shí)體之間的連接關(guān)系[36]。比如消息在管理部門(mén)之間可能的傳遞性,從主部門(mén)推理到具體從屬部門(mén),推理過(guò)程用一階謂詞邏輯表示為:<通知,notify_to,對(duì)象A>∧<對(duì)象A,include_of,對(duì)象B>→<通知,notify_to,對(duì)象B>。實(shí)例如圖5、圖6 所示,從<教育部—do_realse(發(fā)布)—新冠肺炎防治方案>∧<教育部,include_of,高等學(xué)校>→<新冠肺炎防治方案,notify_to,高等學(xué)校>。其中,圖5 為教育部發(fā)布通知,通知自動(dòng)推理到其下屬涉及部門(mén),推理結(jié)果如圖6 所示,從而揭示了教育部疫情防控方案與高等學(xué)校的關(guān)系。這種推理規(guī)則只適用于所屬子部門(mén)屬于同一類(lèi)對(duì)象而不適用于各司其職分管不同事物的子部門(mén),如教育部分管所有高校,有關(guān)考試防疫的政策通知應(yīng)傳遞到與通知內(nèi)容相關(guān)的所有高校而不能傳遞到下屬報(bào)刊社、傳媒出版集團(tuán)等部門(mén)。
Fig.5 Pre-inference relationship of the three(example of rule reasoning)圖5 推理前三者關(guān)系(規(guī)則推理舉例)
Fig.6 Post-inference relationship of the three(example of rule reasoning)圖6 推理后三者關(guān)系(規(guī)則推理舉例)
2.3.2 基于表示學(xué)習(xí)的推理
本文基于TransR 模型[37]為每個(gè)關(guān)系引入一個(gè)映射矩陣,將實(shí)體投影到對(duì)應(yīng)的關(guān)系空間中,得到三元組的映射向量,具有關(guān)系的實(shí)體相互靠近,其損失函數(shù)表示如式(3)所示。
基于表示學(xué)習(xí)的推理,其具體思想是將實(shí)體、關(guān)系映射為向量表示,根據(jù)向量的空間距離自動(dòng)學(xué)習(xí)推理所需特征,使得知識(shí)圖譜能夠通過(guò)預(yù)設(shè)向量空間的特征表示自動(dòng)計(jì)算實(shí)現(xiàn)推理過(guò)程。理論上,重復(fù)路徑多的并在同一層次上的實(shí)體被通知到的可能性更大,推理過(guò)程表示為<通知,notify_to,對(duì)象A>→<通知,notify_to,對(duì)象B>,其中對(duì)象A 與對(duì)象B 之間沒(méi)有明顯上下層次關(guān)系。如從<強(qiáng)化中醫(yī)醫(yī)療機(jī)構(gòu)新冠肺炎疫情防控工作,notify_to(通知),直轄市>推理到<強(qiáng)化中醫(yī)醫(yī)療機(jī)構(gòu)新冠肺炎疫情防控工作,notify_to(通知),自治區(qū)>,其中自治區(qū)和直轄市都屬于同等層次Target 可通知目標(biāo)實(shí)體,它們?cè)谠S多通知中有相似的傳遞路徑,空間距離向量近,因而可以合理推理出該通知應(yīng)該同時(shí)傳遞給兩者。
本文基于新冠肺炎疫情的管理政策文件實(shí)現(xiàn)知識(shí)抽取、知識(shí)推理、知識(shí)存儲(chǔ)等知識(shí)圖譜構(gòu)建過(guò)程。其中,知識(shí)抽取從半結(jié)構(gòu)化和非結(jié)構(gòu)化的疫情應(yīng)急政策數(shù)據(jù)中通過(guò)人工抽取與自動(dòng)抽取的方式得到圖譜中的部門(mén)節(jié)點(diǎn)與政策節(jié)點(diǎn),核心是抽取出數(shù)據(jù)中的對(duì)象實(shí)體、關(guān)系及屬性,形成SPO 三元組知識(shí)。知識(shí)推理則是發(fā)現(xiàn)實(shí)體節(jié)點(diǎn)之間可能存在的關(guān)系,實(shí)現(xiàn)政策間互聯(lián),發(fā)現(xiàn)更多潛在的應(yīng)急方案知識(shí)。最后,將知識(shí)存儲(chǔ)在圖數(shù)據(jù)庫(kù)以進(jìn)行可視化且不斷補(bǔ)充完善,形成全面的突發(fā)公共衛(wèi)生事件應(yīng)急管理知識(shí)庫(kù)。本文總體知識(shí)圖譜構(gòu)建模型如圖7所示。
Fig.7 Knowledge graph construction model of COVID-19 emergency management policy圖7 新冠疫情應(yīng)急管理政策知識(shí)圖譜構(gòu)建模型
可供選擇的新冠肺炎疫情應(yīng)急管理政策信息來(lái)源主要包括國(guó)務(wù)院政府政策文件庫(kù)、各省官方網(wǎng)站、人民日?qǐng)?bào)官網(wǎng)等,考慮到國(guó)務(wù)院和省政府官網(wǎng)數(shù)據(jù)較為正式明確、數(shù)據(jù)格式規(guī)范,本文選擇國(guó)務(wù)院文件庫(kù)與各省政府官方網(wǎng)站作為數(shù)據(jù)來(lái)源,選擇湖北、湖南、廣東、河南、江西、浙江、安徽7 個(gè)疫情較為嚴(yán)重的省份。采集數(shù)據(jù)時(shí)設(shè)置檢索關(guān)鍵字為“新冠肺炎”“新型冠狀病毒肺炎”或“COVID-19”,設(shè)置時(shí)間“兩年內(nèi)”進(jìn)行篩選,截至2021 年12 月31 日,最終共搜集國(guó)務(wù)院政策文件304篇,各省政府文件8 951篇。
為了后續(xù)政策文本實(shí)體抽取,需要先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注以訓(xùn)練模型,本文采取BIOES 標(biāo)注規(guī)范,只要不在三元組中的字標(biāo)簽都為O,其余字符按照標(biāo)注格式:實(shí)體類(lèi)型(下述6 種實(shí)體類(lèi)型每種用一個(gè)字母表示)-位置(B begin/I inside/E end/S single)+順序編號(hào)(B/I/O/E 種的第幾位),依次進(jìn)行標(biāo)注,具體方法如圖8 所示。其中,“教”標(biāo)記為“部門(mén)Department 類(lèi)型-處于實(shí)體開(kāi)頭begin+開(kāi)頭的第1 個(gè)字符”,“育”標(biāo)記為“部門(mén)Department 類(lèi)型-處于實(shí)體中間inside+中間的第1 個(gè)字符”,“部”為“部門(mén)Department 類(lèi)型+處于實(shí)體末尾end+最后的第1 個(gè)字符”,“關(guān)于……”一律標(biāo)記為“O”表示非實(shí)體。
Fig.8 Schematic diagram of data labeling strategy in the process of entity relation extraction 圖8 實(shí)體關(guān)系抽取過(guò)程中的數(shù)據(jù)標(biāo)注策略示意圖
標(biāo)注完成后,按照一定的規(guī)則檢驗(yàn)標(biāo)注正確性,包括:①同一個(gè)實(shí)體對(duì)象中,B 和E 只能出現(xiàn)在開(kāi)頭結(jié)尾處且只能被編號(hào)為1;②I 只能出現(xiàn)在B 和E 中間且編號(hào)遞增;③S只能出現(xiàn)編號(hào)1的情況。
目前階段,并沒(méi)有專(zhuān)門(mén)針對(duì)政府文件的標(biāo)注語(yǔ)料庫(kù),實(shí)驗(yàn)中利用中文語(yǔ)料庫(kù)以及部分手工標(biāo)注數(shù)據(jù)訓(xùn)練,共選取國(guó)務(wù)院發(fā)布的200 篇政策共10 069 條數(shù)據(jù)進(jìn)行了標(biāo)注。實(shí)驗(yàn)中,訓(xùn)練語(yǔ)句取80%,測(cè)試語(yǔ)句取20%。
本文利用BiLSTM+CNN-CRF 模型從9 255 篇政策數(shù)據(jù)中共抽取實(shí)體33 072 個(gè),表5 列舉了部分抽取的實(shí)體結(jié)果及規(guī)模情況。
Table 5 Examples and specifications of main entity extraction results表5 主要實(shí)體抽取結(jié)果舉例與規(guī)格
關(guān)系抽取仍采用此前標(biāo)注的10 069 條數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)中,經(jīng)過(guò)多次參數(shù)調(diào)整,最終選擇學(xué)習(xí)率為0.01,dropout 值為0.1,迭代次數(shù)選擇為10 輪,filter 為3,kernel_size 為4。
經(jīng)過(guò)關(guān)系抽取,共獲得405 368 條關(guān)系,以“新冠肺炎疫情聯(lián)防聯(lián)控機(jī)制”政策為例,關(guān)系抽取后得到的部分結(jié)果如表6 所示,每行展示一組信息,表示為實(shí)體1 與實(shí)體2之間的關(guān)系,由于一句話(huà)可能包含多個(gè)實(shí)體與關(guān)系,故需將每個(gè)關(guān)系分開(kāi)進(jìn)行單獨(dú)處理,如“聯(lián)防聯(lián)控機(jī)制”包括“激活應(yīng)急指揮能力”“提升核酸檢測(cè)能力”“加強(qiáng)溯源”等7個(gè)小要求,需將每個(gè)小要求均與大政策“聯(lián)防聯(lián)控機(jī)制”單獨(dú)聯(lián)系為subtitle_of(包含)。
Table 6 Partial extraction results of policy relationship of joint prevention and control mechanism for COVID-19表6 “新冠肺炎疫情聯(lián)防聯(lián)控機(jī)制”政策關(guān)系部分抽取結(jié)果
知識(shí)抽取完成后,基于簡(jiǎn)單部門(mén)邏輯的推理后,再將實(shí)體映射到對(duì)應(yīng)關(guān)系空間進(jìn)行向量表示以預(yù)測(cè)鏈路,每次選擇80%三元組作為訓(xùn)練集,設(shè)置向量嵌入維度為200 維并通過(guò)10 輪迭代訓(xùn)練,進(jìn)行實(shí)體關(guān)系預(yù)測(cè)。同時(shí),在訓(xùn)練過(guò)程中,對(duì)于不符合事實(shí)邏輯的錯(cuò)誤推理,需要及時(shí)進(jìn)行修正、刪除,然后重新進(jìn)行訓(xùn)練,經(jīng)過(guò)多輪反復(fù),新冠疫情政策知識(shí)圖譜內(nèi)容會(huì)逐漸完善,推理結(jié)果將會(huì)逐漸準(zhǔn)確。以上實(shí)驗(yàn)重復(fù)5 次,最終結(jié)果取均值,實(shí)驗(yàn)結(jié)果如圖9 所示。試驗(yàn)結(jié)果表明,該模型能較好地在該政策數(shù)據(jù)上進(jìn)行推理。
Fig.9 Change of loss curve圖9 損失變化曲線(xiàn)
經(jīng)過(guò)兩種推理完成后,本文知識(shí)圖譜關(guān)系數(shù)量增長(zhǎng)26 933 條,最終圖譜規(guī)模如表7 所示。隨著通知數(shù)目的增加、涉及部門(mén)的進(jìn)一步詳細(xì)分類(lèi)以及圖譜中加入更多的部門(mén)實(shí)體,圖譜將能夠推理出更多的關(guān)系。
Table 7 Policy knowledge graph scale表7 政策知識(shí)圖譜規(guī)模
在進(jìn)行知識(shí)抽取后,對(duì)抽取結(jié)果進(jìn)行評(píng)估,采用常規(guī)準(zhǔn)確率、召回率和F 值作為評(píng)價(jià)指標(biāo)。如表8 所示,分別與只使用BiLSTM 的算法和BiLSTM-CRF 算法進(jìn)行對(duì)比,最終本文模型準(zhǔn)確率達(dá)85%以上,說(shuō)明了BiLSTM+CNNCRF 模型的有效性。
Table 8 Entity extraction algorithm comparison results表8 實(shí)體抽取算法對(duì)比結(jié)果(%)
在知識(shí)推理環(huán)節(jié),采用損失值Loss 作為判斷指標(biāo),當(dāng)損失函數(shù)不再下降時(shí),認(rèn)為推理完成。在知識(shí)推理完成后,還需要進(jìn)行錯(cuò)誤評(píng)估、知識(shí)更新等加工過(guò)程,以提升知識(shí)圖譜的可靠性和結(jié)構(gòu)性。
構(gòu)建好的知識(shí)圖譜可能存在一些錯(cuò)誤,主要集中在3個(gè)方面:上下位問(wèn)題即圖譜應(yīng)該呈樹(shù)狀結(jié)構(gòu)而無(wú)環(huán)、實(shí)體屬性偏差、實(shí)體間關(guān)系邏輯錯(cuò)誤。推理后得到的圖譜經(jīng)過(guò)查找,發(fā)現(xiàn)無(wú)環(huán)狀結(jié)構(gòu);對(duì)于屬性偏差和邏輯錯(cuò)誤的問(wèn)題,通過(guò)人工分組隨機(jī)抽檢,從最終圖譜中隨機(jī)抽取500 個(gè)實(shí)體和500 組推理關(guān)系,經(jīng)過(guò)檢驗(yàn),認(rèn)為它們的屬性無(wú)異常情況,推理均符合實(shí)際邏輯。
此外,在實(shí)際應(yīng)用時(shí),每個(gè)部門(mén)也應(yīng)該自行檢查自己部門(mén)的知識(shí)可信度,若發(fā)現(xiàn)可能存在的推理錯(cuò)誤時(shí),可及時(shí)更正、刪除,保證圖譜及時(shí)更新,這也是進(jìn)一步提升政策傳遞推理準(zhǔn)確性的關(guān)鍵。
本文利用RDF 和圖數(shù)據(jù)庫(kù)的方式實(shí)現(xiàn)政策知識(shí)存儲(chǔ),然后利用Neo4j 圖數(shù)據(jù)庫(kù)實(shí)現(xiàn)管理政策信息可視化。通過(guò)Neo4j 數(shù)據(jù)庫(kù)實(shí)現(xiàn)實(shí)體關(guān)系存儲(chǔ),實(shí)體包括疫情政策的對(duì)象、主題、內(nèi)容等。圖10 展示了單個(gè)政策信息結(jié)構(gòu)(彩圖掃OSID 碼可見(jiàn)),包括發(fā)布部門(mén)Department“中醫(yī)藥局辦公室”(綠色圈)、通知主體Announcement“強(qiáng)化中醫(yī)醫(yī)療機(jī)構(gòu)新冠肺炎疫情防控工作”(粉紅色圈)、內(nèi)容Contents(玫紅色圈)、通知對(duì)象Target(藍(lán)色圈)等。圖11 則為部分政策通知的節(jié)點(diǎn)展示。
Fig.10 Single policy structure圖10 單個(gè)政策結(jié)構(gòu)
Fig.11 Partial management policy nodes圖11 部分管理政策結(jié)點(diǎn)
以管理政策實(shí)體“強(qiáng)化中醫(yī)醫(yī)療機(jī)構(gòu)新冠肺炎疫情防控工作”為例,其屬性情況如圖12 所示,包括公文主題分類(lèi)、公文種類(lèi)、發(fā)文字號(hào)、發(fā)文機(jī)關(guān)、成文日期等。
Fig.12 Entity property圖12 實(shí)體屬性
一個(gè)通知對(duì)象會(huì)被若干個(gè)具體通知所涉及,這些通知屬于不同主題,其中通知節(jié)點(diǎn)會(huì)根據(jù)通知路徑的相似或距離的相近自動(dòng)推理到可能被通知的對(duì)象。圖13 以中醫(yī)藥管理局為中心節(jié)點(diǎn)展示了知識(shí)圖譜中發(fā)布政策的代表性細(xì)節(jié)結(jié)構(gòu),一個(gè)部門(mén)會(huì)發(fā)布若干個(gè)通知,每一則通知又包含若干個(gè)具體通知內(nèi)容,會(huì)通知到不同的對(duì)象。
整個(gè)突發(fā)公共衛(wèi)生事件應(yīng)急管理政策知識(shí)圖譜的部署和應(yīng)用結(jié)構(gòu)如圖14 所示。在這種政策發(fā)布模式中,中央政府具有最高權(quán)限,原先政策分級(jí)發(fā)布、疫情分級(jí)管理模式變?yōu)楸馄交Y(jié)構(gòu),將權(quán)力分散,極大減少了政策傳遞的時(shí)間損耗。該結(jié)構(gòu)通過(guò)“政策知識(shí)圖譜+信息系統(tǒng)”的智能模式,輔助中央機(jī)關(guān)部門(mén)實(shí)時(shí)自動(dòng)監(jiān)督各地機(jī)關(guān)部門(mén),從全局評(píng)估并強(qiáng)化各地應(yīng)急管理能力。這樣知識(shí)圖譜的構(gòu)建相當(dāng)于建立了一個(gè)全面的政策信息管理平臺(tái),形成了一個(gè)專(zhuān)業(yè)的突發(fā)公共衛(wèi)生事件資源庫(kù),輔助實(shí)現(xiàn)多元共治、內(nèi)生驅(qū)動(dòng)的綠色響應(yīng)信息應(yīng)急通道,實(shí)現(xiàn)統(tǒng)一快速的應(yīng)急管理。
Fig.14 The deployment structure of knowledge graph圖14 知識(shí)圖譜部署結(jié)構(gòu)
利用Neo4j 數(shù)據(jù)庫(kù),相關(guān)政策人員可以查詢(xún)到具體每一則政策文本的細(xì)節(jié),包括內(nèi)容、主題、部門(mén)等,對(duì)其進(jìn)行可視化操作,發(fā)現(xiàn)政策通知的協(xié)作管理部門(mén)及其聯(lián)系,并在圖譜中發(fā)現(xiàn)推理后政策可能的流向。部分查詢(xún)語(yǔ)句如表9 所示,查詢(xún)界面如圖15 所示,部門(mén)關(guān)系查詢(xún)實(shí)例如圖16、圖17 所示,在圖中可以查詢(xún)到“人社部發(fā)(2020)24 號(hào)”通知及其在各部門(mén)的傳遞網(wǎng)絡(luò)。
Table 9 Part of the commands to query the graph表9 部分查詢(xún)圖譜指令
Fig.15 User query interface圖15 用戶(hù)查詢(xún)界面
Fig.16 Policy notification example圖16 政策通知實(shí)例
知識(shí)圖譜的構(gòu)建可以清晰地從長(zhǎng)篇政策文章中快速捕捉重點(diǎn),圍繞核心展開(kāi)部署。同時(shí),該政策通知與其他子通知、子部門(mén)對(duì)象之間的關(guān)系也可以展示出來(lái),比如該通知所涉及的司法、人力資源、衛(wèi)生健康、知識(shí)產(chǎn)權(quán)等多部門(mén)合作,還可以利用多級(jí)查詢(xún)展示各部門(mén)在下一層的圖譜關(guān)系,同時(shí)探索出可能存在的多級(jí)政策傳遞鏈,快速幫助快速傳遞政策文件,提升政府政策文件管理及傳播效率。
政策知識(shí)圖譜除可以按照部門(mén)查詢(xún)信息,還可以從主題視角發(fā)現(xiàn)政策間的關(guān)聯(lián),這些主題通過(guò)抽取得到,在數(shù)據(jù)庫(kù)中搜索相關(guān)關(guān)鍵詞即可查到相關(guān)政策并可視化觀察它們之間的聯(lián)系。比如,多則政策通知同時(shí)涉及物資調(diào)配與復(fù)工復(fù)產(chǎn)相關(guān)主題,通過(guò)主題到政策再到部門(mén)的鏈接分析可以得到這兩個(gè)主題下的相應(yīng)機(jī)構(gòu)(見(jiàn)圖18),進(jìn)而可以給這些關(guān)聯(lián)的物資生產(chǎn)機(jī)構(gòu)推送與其權(quán)責(zé)相關(guān)的政策通知,促進(jìn)相關(guān)機(jī)構(gòu)根據(jù)各級(jí)政府發(fā)布的政策合理合規(guī)地安排自己的生產(chǎn)工作,減少信息不對(duì)稱(chēng)和信息傳遞所造成的成本和時(shí)間浪費(fèi)。
Fig.18 Materials and resumption of work and production policies series(part)圖18 物資與復(fù)工復(fù)產(chǎn)系列處理政策(部分)
類(lèi)似地,對(duì)于疫情初期救援物資調(diào)度混亂、責(zé)任不清等問(wèn)題,包括應(yīng)急管理部、物資局在內(nèi)的多個(gè)部門(mén)之間都發(fā)布了物資調(diào)度政策,有些政策重復(fù)發(fā)布,有些分管部門(mén)權(quán)責(zé)不清,導(dǎo)致物流物資一系列處理政策混亂的問(wèn)題。而通過(guò)應(yīng)急管理政策知識(shí)圖譜能及時(shí)更新所有部門(mén)發(fā)布的政策與處理方案,聚合中央及地方政府下達(dá)的物資調(diào)配指令,促進(jìn)援助物資配置優(yōu)化,區(qū)域聯(lián)動(dòng)資源共享,形成有效的物資聯(lián)動(dòng)機(jī)制。這樣,疫情防控政策知識(shí)圖譜的構(gòu)建相當(dāng)于用另一種方式將政策文件深度關(guān)聯(lián),為一個(gè)主題類(lèi)型的政策制定提供知識(shí)庫(kù)。
本文以新冠疫情防控政策為例,構(gòu)建了一個(gè)突發(fā)公共衛(wèi)生事件應(yīng)急管理政策知識(shí)圖譜,實(shí)現(xiàn)了構(gòu)建的主要步驟,即Schema 構(gòu)建、知識(shí)抽取、知識(shí)推理、可視化及應(yīng)用分析,進(jìn)而提取和分析新冠疫情應(yīng)急管理的經(jīng)驗(yàn)知識(shí)和管理策略。該知識(shí)圖譜的構(gòu)建豐富了突發(fā)公共衛(wèi)生事件應(yīng)急管理知識(shí)體系,建立了應(yīng)急政策信息快速響應(yīng)通道,形成整體的信息傳遞網(wǎng)絡(luò)結(jié)構(gòu),在發(fā)生類(lèi)似事件時(shí)能提供應(yīng)急管理政策的整體布局、可視分析、精準(zhǔn)傳達(dá)等智能決策功能。
知識(shí)圖譜的擴(kuò)展和更新是下一步研究的重點(diǎn),比如不斷加入新頒布政策、加快圖譜更新速度、將時(shí)間屬性嵌入到推理過(guò)程中、探索更準(zhǔn)確的關(guān)系抽取模型、融合更便捷的人機(jī)交互查詢(xún)方式和更有效的知識(shí)圖譜檢驗(yàn)系統(tǒng)等。同時(shí),由知識(shí)圖譜帶來(lái)的一系列應(yīng)急政策及管理方式的變革思路等也值得探索。