劉奕明,段 立,謝振杰
(海軍工程大學(xué)電子工程學(xué)院,武漢 430033)
隨著軍事高新技術(shù)的不斷發(fā)展,戰(zhàn)爭(zhēng)進(jìn)入了以信息技術(shù)為主導(dǎo)的“信息兵器時(shí)代”,這對(duì)指揮信息系統(tǒng)的綜合信息服務(wù)能力提出了更高要求。軍事法律法規(guī)作為指導(dǎo)戰(zhàn)場(chǎng)行動(dòng)的重要依據(jù),重要性不可忽視。信息化戰(zhàn)爭(zhēng)下,傳統(tǒng)的人工查閱文本的方式顯然已無法滿足輔助決策需要,軍事法律法規(guī)問答系統(tǒng)應(yīng)用前景廣闊。
構(gòu)建基于知識(shí)圖譜問答系統(tǒng)的重點(diǎn)和難點(diǎn)在于建立高質(zhì)量的圖數(shù)據(jù)。目前公開的具有通用本體知識(shí)的數(shù)據(jù)集包括WordNet、Cyc、DBpedia、YAGO、Freebase、NELL 與Wikidata 等[1-7]。專業(yè)領(lǐng)域數(shù)據(jù)集用于評(píng)估專業(yè)領(lǐng)域任務(wù),例如標(biāo)準(zhǔn)醫(yī)學(xué)用語系統(tǒng)(unified medical language system,UMLS)、商用門診術(shù)語數(shù)據(jù)集SNOMED CT[8-9]等。由此可見,目前的知識(shí)圖譜研究主要集中于開放域知識(shí),而在軍事法律法規(guī)專業(yè)域內(nèi),未見大規(guī)模開源圖譜工作,難以很好地支持軍事法律法規(guī)問答。
基于知識(shí)圖譜的問答以“實(shí)體-關(guān)系-實(shí)體”三元組為基礎(chǔ),實(shí)體類型與關(guān)系類型較為明確。相比之下,軍事法律法規(guī)專業(yè)性強(qiáng)、信息量大,在此基礎(chǔ)上的問答系統(tǒng)知識(shí)細(xì)化、概念多樣、關(guān)系復(fù)雜。在構(gòu)建軍事法律法規(guī)知識(shí)圖譜的過程中發(fā)現(xiàn),使用現(xiàn)有的命名實(shí)體識(shí)別與關(guān)系抽取技術(shù)所構(gòu)建的知識(shí)圖譜質(zhì)量不高,各法律條目的語義信息與邏輯嚴(yán)重丟失,大量有用信息無法簡(jiǎn)單地以三元組形式保留為圖數(shù)據(jù),難以滿足搭建問答系統(tǒng)的需要。此外,現(xiàn)有基于知識(shí)圖譜的問答系統(tǒng)一般以短答案的形式呈現(xiàn)問答結(jié)果,無上下文和出處,即可解釋性不足,而戰(zhàn)場(chǎng)行動(dòng)牽一發(fā)動(dòng)全身,指揮員依據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)作出判斷決策需要更詳細(xì)的法律法規(guī)支持,每一步都應(yīng)做到有據(jù)可查。因此,需要借助其他手段或全新的知識(shí)表達(dá)方法為軍事法律法規(guī)問答應(yīng)用提供支撐。
近年來,隨著以多跳問答為代表的一系列復(fù)雜問 答 任 務(wù) 和WebQuestions、ComplexQuestions、WebQuestionsSP、SQuAD 等復(fù)雜知識(shí)庫問答評(píng)測(cè)數(shù)據(jù)集的出現(xiàn)[10-13],三元組知識(shí)表達(dá)能力不足的短板逐漸顯現(xiàn)。為了彌補(bǔ)現(xiàn)有知識(shí)庫的能力限制,一個(gè)普遍做法是引入文檔等異質(zhì)數(shù)據(jù)以豐富語義信息,稱為基于文檔的問答(document-based question answering,DbQA)方法[14]。文獻(xiàn)[15]將文檔進(jìn)行多粒度建模,構(gòu)建層次圖,通過機(jī)器閱讀理解的方法進(jìn)行圖推理和答案預(yù)測(cè)。由于軍事法律法規(guī)文檔的層次結(jié)構(gòu)大多以各級(jí)標(biāo)題形式呈現(xiàn),且各段落與各級(jí)標(biāo)題間的語義關(guān)聯(lián)度較高,因此,對(duì)軍事法律法規(guī)文檔進(jìn)行結(jié)構(gòu)化表示,將文檔結(jié)構(gòu)等異質(zhì)數(shù)據(jù)融入知識(shí)圖譜,成為了一種可探索的研究思路。
元知識(shí)為描述知識(shí)的知識(shí)(knowledge about knowledge),反映了具體知識(shí)的邏輯關(guān)聯(lián)[16]。早期的人工智能相關(guān)研究探索了元知識(shí)的數(shù)據(jù)實(shí)現(xiàn)方式和應(yīng)用場(chǎng)景[17-22],但受限于數(shù)據(jù)、工具和計(jì)算條件,元知識(shí)未能成為知識(shí)工程領(lǐng)域的主流研究對(duì)象。目前,新的知識(shí)挖掘、知識(shí)表示方法不斷涌現(xiàn),為推進(jìn)元知識(shí)研究提供了條件。
本文從公開軍事法律法規(guī)入手,將元知識(shí)作為文本的結(jié)構(gòu)化表示方法,使用基于規(guī)則的方法抽取結(jié)構(gòu)要素,使用BERT+BiLSTM+CRF 模型與浙江大學(xué)DeepKE 工具包抽取語義要素[23-24],構(gòu)建了軍事法律法規(guī)元知識(shí)網(wǎng)絡(luò),可為問答系統(tǒng)及相關(guān)應(yīng)用提供支撐。將文檔各級(jí)標(biāo)題作為節(jié)點(diǎn)融入元知識(shí)網(wǎng)絡(luò),一方面使同一標(biāo)題下的實(shí)體具備語義相關(guān)性,另一方面大量無法以三元組形式存在的知識(shí)得以保留。與傳統(tǒng)知識(shí)圖譜中的三元組相比,元知識(shí)的語義豐富性與層次性有了提高,更好地反映了知識(shí)間的邏輯關(guān)系。同時(shí)文檔結(jié)構(gòu)信息也可滿足問答系統(tǒng)對(duì)可解釋性的需求,即針對(duì)某一問題,在給出短答案的同時(shí),輸出答案所在段落及其所屬條目作為完整解釋,可更好地為指揮員提供軍事決策輔助。
元數(shù)據(jù)為描述數(shù)據(jù)的數(shù)據(jù),是關(guān)于數(shù)據(jù)的組織、數(shù)據(jù)域及其關(guān)系的信息,反映了數(shù)據(jù)的屬性特性。在軍事法規(guī)特點(diǎn)的基礎(chǔ)上,參照元數(shù)據(jù)的定義,引入元知識(shí)的概念,在一定程度上彌補(bǔ)三元組的缺陷。元知識(shí)是描述知識(shí)的知識(shí),可用來描述一類知識(shí)或知識(shí)集合所包含的內(nèi)容和一般特性,可作為知識(shí)的索引。
定義1 通過關(guān)系鏈接起來的一定規(guī)模的實(shí)體所形成的語義網(wǎng)絡(luò)(semantic network),稱為具體知識(shí),簡(jiǎn)稱知識(shí)(knowledge)?!皩?shí)體-關(guān)系-實(shí)體”三元組(triplet)是構(gòu)成知識(shí)的基本單元[25]。
定義2 元知識(shí)(metaknowledge)是知識(shí)的結(jié)構(gòu)化表示,是具有結(jié)構(gòu)特征的知識(shí),其結(jié)構(gòu)反映了知識(shí)“遞進(jìn)”或“并列”的邏輯。
定義3 以文檔為數(shù)據(jù)來源生成的元知識(shí)稱為文檔元知識(shí)(document metaknowledge),其結(jié)構(gòu)特征通過文檔的各級(jí)標(biāo)題體現(xiàn)出來,這種層次結(jié)構(gòu)蘊(yùn)含著文檔各部分之間起承轉(zhuǎn)合的內(nèi)在邏輯。
定義4 一定規(guī)模的文檔元知識(shí)通過文檔之間的語義相關(guān)性鏈接形成的網(wǎng)絡(luò),稱為文檔元知識(shí)網(wǎng)絡(luò)(document metaknowledge network),簡(jiǎn)稱元知識(shí)網(wǎng)絡(luò)(metaknowledge network)。
各級(jí)標(biāo)題下的段落是文檔的基本語義單元,是文檔具體知識(shí)的直接來源。從段落中抽取的實(shí)體和關(guān)系構(gòu)成了具體知識(shí),將具體知識(shí)按照其所屬的各級(jí)標(biāo)題,以文檔結(jié)構(gòu)的形式有序地組織起來,即構(gòu)成了文檔元知識(shí)。成規(guī)模的文檔元知識(shí)通過文檔主題之間的語義相關(guān)性建立鏈接,形成了元知識(shí)網(wǎng)絡(luò)。
各級(jí)標(biāo)題在生成元知識(shí)時(shí)均被視為實(shí)體,稱為層次實(shí)體;要素之間從屬或并列的層次結(jié)構(gòu)關(guān)系稱為層次關(guān)系;層次實(shí)體與層次關(guān)系構(gòu)成了結(jié)構(gòu)要素。從文檔段落正文中抽取出的實(shí)體和關(guān)系分別稱為語義實(shí)體和語義關(guān)系,它們并稱為語義要素。
元知識(shí)即包含了文檔結(jié)構(gòu)信息的三元組知識(shí),各級(jí)標(biāo)題作為元知識(shí)層次實(shí)體,搭建了文檔元知識(shí)的基本框架。正文中的語義實(shí)體作為層次實(shí)體的下屬節(jié)點(diǎn),以共同的層次關(guān)系為紐帶,具備了相關(guān)性。而傳統(tǒng)知識(shí)圖譜中的三元組僅鏈接了語義實(shí)體,不涉及層次實(shí)體,一方面位于同一標(biāo)題下的實(shí)體由于不具備層次關(guān)系而失去了相關(guān)性,另一方面未標(biāo)注語義關(guān)系的實(shí)體無法以三元組的形式融入知識(shí)圖譜。
軍事法律法規(guī)的層次結(jié)構(gòu)非常清晰,各級(jí)標(biāo)題對(duì)所屬內(nèi)容概括很精確,同一標(biāo)題下看似沒有語義關(guān)系的實(shí)體有較強(qiáng)的相關(guān)性,實(shí)體的各級(jí)標(biāo)題也能指明其主旨。所以,相比于傳統(tǒng)知識(shí)圖譜,包含了文檔結(jié)構(gòu)信息的元知識(shí)網(wǎng)絡(luò)更適合用來表示軍事法律法規(guī)。
構(gòu)建軍事法律法規(guī)元知識(shí)網(wǎng)絡(luò)的輸入為非結(jié)構(gòu)化的文檔集,流程大致可分為元知識(shí)結(jié)構(gòu)要素抽取、元知識(shí)語義要素抽取、文檔元知識(shí)構(gòu)建和語義相關(guān)度量4 部分,如圖1 所示。
圖1 軍事法律法規(guī)元知識(shí)網(wǎng)絡(luò)構(gòu)建流程Fig.1 The construction flow of metaknowledge network of military laws and regulations
各級(jí)標(biāo)題為層次實(shí)體,上下級(jí)標(biāo)題間的從屬關(guān)系為層次關(guān)系,二者共同構(gòu)成元知識(shí)結(jié)構(gòu)要素。通過分析軍事法律法規(guī)庫,發(fā)現(xiàn)其文檔層次清晰,各級(jí)標(biāo)題具有很強(qiáng)的規(guī)律性,故本文采用基于規(guī)則的方法對(duì)文檔結(jié)構(gòu)要素進(jìn)行抽取。軍事法律法規(guī)的標(biāo)題表述形式如表1 所示。
表1 軍事法律法規(guī)標(biāo)題形式Table 1 The headline form of military laws and regulations
對(duì)文檔進(jìn)行文本清洗,即檢查換行、空格、縮進(jìn)、括號(hào)等字符,確保全文規(guī)范統(tǒng)一。基于標(biāo)題表述規(guī)則識(shí)別文檔中的各級(jí)標(biāo)題和正文。將文檔內(nèi)容進(jìn)行結(jié)構(gòu)化表示,以XML 格式輸出。轉(zhuǎn)換后的XML 文檔結(jié)構(gòu)如下:
文檔結(jié)構(gòu)要素抽取結(jié)果如圖2 所示(以《國際海上避碰規(guī)則》為例,下同)。
圖2 文檔結(jié)構(gòu)要素Fig.2 The structural elements of documents
元知識(shí)語義要素由語義實(shí)體和語義關(guān)系構(gòu)成。例如,人員、單位、裝備、獎(jiǎng)勵(lì)、處分、動(dòng)作、口令和場(chǎng)地等視為語義實(shí)體,執(zhí)行權(quán)限、應(yīng)獲獎(jiǎng)勵(lì)、應(yīng)受處分、速度、角度和距離等視為語義關(guān)系。
對(duì)部分文檔進(jìn)行“B-I-O”實(shí)體標(biāo)注與“h- r-t”關(guān)系標(biāo)注。使用標(biāo)注文檔對(duì)BERT+BiLSTM+CRF 實(shí)體抽取模型及DeepKE 少樣本關(guān)系抽取模型進(jìn)行訓(xùn)練[23-24]。使用訓(xùn)練的模型對(duì)軍事法律法規(guī)文檔進(jìn)行語義要素抽取。結(jié)果如圖3 所示。
圖3 文檔語義要素Fig.3 The semantic elements of documents
需要注意的是,由于訓(xùn)練數(shù)據(jù)集規(guī)模有限,抽取完成后應(yīng)進(jìn)行數(shù)據(jù)質(zhì)量檢查,如果抽取效果不理想,可考慮標(biāo)注更多文本用于訓(xùn)練,或調(diào)整模型參數(shù)。其次,部分語義實(shí)體在同一段落內(nèi)反復(fù)出現(xiàn),視為同一實(shí)體,應(yīng)將其對(duì)應(yīng)的語義要素進(jìn)行融合。
以文檔的結(jié)構(gòu)要素為框架,將語義要素下掛至所屬的各級(jí)標(biāo)題(層次實(shí)體),構(gòu)建文檔元知識(shí),如圖4 所示。
圖4 文檔元知識(shí)Fig.4 Document metaknowledge
文檔元知識(shí)以JSON 字典形式保存,示例如下:
上述示例展示了層次實(shí)體、語義實(shí)體、層次關(guān)系和語義關(guān)系的描述方法。其中,“position”字段指明了實(shí)體類型及其在文檔中的位置,是實(shí)體溯源以及體現(xiàn)鄰近實(shí)體相關(guān)性的關(guān)鍵。將構(gòu)建好的文檔元知識(shí)保存為JSON 文件,可隨時(shí)按需加載。
在文檔元知識(shí)內(nèi)部,實(shí)體之間已通過層次關(guān)系和語義關(guān)系建立鏈接,但標(biāo)注的語義關(guān)系僅限于同一段落內(nèi)部。然而,文檔的不同章節(jié)之間、不同文檔之間也存在廣泛聯(lián)系,人工標(biāo)注如此海量節(jié)點(diǎn)的相關(guān)性是不現(xiàn)實(shí)的,應(yīng)引入自動(dòng)化的方法實(shí)現(xiàn)各章節(jié)之間以及跨文檔的語義相關(guān)度量,將文檔元知識(shí)集合構(gòu)建為相互之間存在語義關(guān)聯(lián)的元知識(shí)網(wǎng)絡(luò)。
設(shè)有n 個(gè)相互聯(lián)系的文檔D1,D2,…,Dn,分別生成文檔元知識(shí)M1,M2,…,Mn。令vH1∈M1和vH2∈M2是來自不同文檔的兩個(gè)層次實(shí)體,語義嵌入值分別為embH1=LM(textH1)和embH2=LM(textH2),其中,textHi表示各級(jí)標(biāo)題的拼接文本(例如上節(jié)10331#層次實(shí)體對(duì)應(yīng)的標(biāo)題文本為“國際海上避碰規(guī)則駕駛和航行規(guī)則船舶在任何能見度情況下的行動(dòng)規(guī)則 安全航速”),LM(·)為BERT 預(yù)訓(xùn)練語言模型,其輸出為稠密語義向量。使用余弦相似性(cosine similarity)計(jì)算embH1和embH2之間的語義關(guān)聯(lián),若高于設(shè)定閾值,則為vH1和vH2建立跨文檔的“語義相關(guān)”關(guān)系。
語義相關(guān)度量需計(jì)算大量層次實(shí)體的語義嵌入值并進(jìn)行比對(duì),輸出結(jié)果為文檔元知識(shí)集合內(nèi)全部層次實(shí)體的相關(guān)性矩陣,適合以稀疏矩陣(稱為語義相關(guān)矩陣)進(jìn)行存儲(chǔ)和計(jì)算。正是由于軍事法律法規(guī)的標(biāo)題精確而規(guī)范,來自不同文檔的節(jié)點(diǎn)才得以通過各級(jí)標(biāo)題語義上的相關(guān)性建立聯(lián)系,從而使原本孤立的文檔元知識(shí)相互鏈接形成元知識(shí)網(wǎng)絡(luò)。
本文以3 部公開的軍事法律法規(guī)為例,構(gòu)建元知識(shí)網(wǎng)絡(luò),驗(yàn)證了所提流程和方法的可行性。3 部法規(guī)各取前5 章內(nèi)容,構(gòu)成的元知識(shí)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),如圖5 所示。
圖5 元知識(shí)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)(局部)Fig.5 The topology(local)of metaknowledge network
圖5 表明,構(gòu)建的元知識(shí)網(wǎng)絡(luò)具有明顯的分層特性,下級(jí)節(jié)點(diǎn)以層次關(guān)系鏈接到上級(jí)節(jié)點(diǎn),形成樹形結(jié)構(gòu),節(jié)點(diǎn)之間通過語義關(guān)系相互鏈接(圖中未繪制),形成更加復(fù)雜的網(wǎng)狀結(jié)構(gòu)。臨近的葉節(jié)點(diǎn)(語義實(shí)體)之間即使沒有標(biāo)注語義關(guān)系,也因其屬于同一上級(jí)節(jié)點(diǎn)而具備了相關(guān)性,并通過語義相關(guān)矩陣與來自其他文檔的節(jié)點(diǎn)廣泛建立聯(lián)系。
作為對(duì)比,同時(shí)構(gòu)造了這3 部法規(guī)的知識(shí)圖譜。二者的基本拓?fù)湫再|(zhì)如表2 所示,度分布(雙對(duì)數(shù)坐標(biāo))如圖6 所示。
表2 元知識(shí)網(wǎng)絡(luò)與知識(shí)圖譜的基本拓?fù)湫再|(zhì)Table 2 The basic topological properties of metaknowledge network and knowledge graph
圖6 元知識(shí)網(wǎng)絡(luò)與知識(shí)圖譜的度分布Fig.6 Degree distribution of metaknowledge network and knowledge graph
與元知識(shí)網(wǎng)絡(luò)相比,知識(shí)圖譜不包含結(jié)構(gòu)要素,且舍棄“孤立”的語義實(shí)體,故節(jié)點(diǎn)和邊的數(shù)量明顯減少,平均度降低表明節(jié)點(diǎn)之間的聯(lián)系減少;平均聚類系數(shù)為0,反映了其內(nèi)部節(jié)點(diǎn)較為孤立,沒有聚集成環(huán)狀結(jié)構(gòu)。因此,對(duì)于本實(shí)驗(yàn)所用的文檔集合,知識(shí)圖譜信息失真較為嚴(yán)重,可見其并不適用于結(jié)構(gòu)嚴(yán)謹(jǐn)、語言精煉、語義豐富且篇章之間存在復(fù)雜關(guān)聯(lián)的軍事法律法規(guī)。而元知識(shí)網(wǎng)絡(luò)引入結(jié)構(gòu)要素作為框架,保留未標(biāo)注語義關(guān)系的實(shí)體,節(jié)點(diǎn)之間通過語義相關(guān)性和層次上的從屬關(guān)系形成社團(tuán)結(jié)構(gòu),這種社團(tuán)結(jié)構(gòu)與文檔篇目緊密相關(guān),反映了具體知識(shí)(語義實(shí)體和關(guān)系)與概括性知識(shí)(層次實(shí)體與關(guān)系)之間的上下位關(guān)系,顯著提升了網(wǎng)絡(luò)的語義豐富性與層次性。
目前,在知識(shí)工程研究與實(shí)踐中,以三元組為基本單元構(gòu)建的大規(guī)模知識(shí)庫廣泛應(yīng)用于檢索、推薦和問答等多個(gè)領(lǐng)域。然而,在處理復(fù)雜語義背景問題時(shí),傳統(tǒng)知識(shí)圖譜表達(dá)能力不足的問題逐漸暴露,需要借助文檔結(jié)構(gòu)等異質(zhì)數(shù)據(jù)來補(bǔ)足短板。
軍事法律法規(guī)結(jié)構(gòu)嚴(yán)謹(jǐn),用語精煉而規(guī)范,句式句法較為復(fù)雜,具有豐富的語義,篇章之間普遍存在語義關(guān)聯(lián),使用通用的標(biāo)注語義、構(gòu)建知識(shí)圖譜的方法,難以完整準(zhǔn)確地表示其中的知識(shí)以及知識(shí)間的廣泛聯(lián)系。本文利用軍事法律法規(guī)層次鮮明、語義邏輯與文檔結(jié)構(gòu)關(guān)系密切的特點(diǎn),將文檔結(jié)構(gòu)融入元知識(shí)網(wǎng)絡(luò),設(shè)計(jì)了構(gòu)建元知識(shí)網(wǎng)絡(luò)的一般方法,提出了元知識(shí)要素抽取、元知識(shí)網(wǎng)絡(luò)構(gòu)建和語義相關(guān)度量的技術(shù)路線,所提流程和方法同樣適用于與軍事法律法規(guī)特征類似的其他文檔。元知識(shí)網(wǎng)絡(luò)引入了層次實(shí)體與層次關(guān)系,大量被知識(shí)圖譜舍棄的實(shí)體得以保留,并通過層次和語義關(guān)聯(lián)廣泛鏈接形成復(fù)雜網(wǎng)絡(luò),更好地挖掘了文檔中的信息。對(duì)比實(shí)驗(yàn)表明,針對(duì)同一文檔集,元知識(shí)網(wǎng)絡(luò)的規(guī)模和節(jié)點(diǎn)之間的關(guān)聯(lián)程度都明顯高于知識(shí)圖譜。元知識(shí)網(wǎng)絡(luò)包含的文檔結(jié)構(gòu)信息可對(duì)問題的答案形成完整解釋,并明確其出處,可實(shí)現(xiàn)長(zhǎng)、短答案共同輸出,后續(xù)可與圖推理模型等深度學(xué)習(xí)方法結(jié)合應(yīng)用,從而更好地為指揮員提供軍事決策輔助。