楊躍翔 涂新雨 劉文玲
(中國(guó)礦業(yè)大學(xué)(北京)管理學(xué)院,北京 100083)
標(biāo)準(zhǔn)是為了在一定范圍內(nèi)獲得最佳秩序,經(jīng)協(xié)商一致制定并由公認(rèn)機(jī)構(gòu)批準(zhǔn),共同使用的和重復(fù)使用的一種規(guī)范性文件[1]。隨著時(shí)代的發(fā)展,標(biāo)準(zhǔn)在經(jīng)濟(jì)社會(huì)發(fā)展中所起的作用越來(lái)越突出,標(biāo)準(zhǔn)文獻(xiàn)在數(shù)量上呈現(xiàn)增長(zhǎng)趨勢(shì)。
目前,我國(guó)標(biāo)準(zhǔn)文獻(xiàn)是以PDF格式或紙質(zhì)版進(jìn)行發(fā)布和存儲(chǔ),不能實(shí)現(xiàn)機(jī)器可讀,標(biāo)準(zhǔn)尚處于以文獻(xiàn)為基本單元的方式進(jìn)行知識(shí)表示的階段,無(wú)法實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)間知識(shí)交叉關(guān)聯(lián);現(xiàn)有標(biāo)準(zhǔn)文獻(xiàn)的存儲(chǔ)方式不利于標(biāo)準(zhǔn)體系構(gòu)建和知識(shí)梳理,無(wú)法實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)的快速檢索和精確匹配,難以發(fā)揮標(biāo)準(zhǔn)文獻(xiàn)知識(shí)輔助決策的作用。同時(shí),標(biāo)準(zhǔn)文獻(xiàn)之間存在對(duì)同一術(shù)語(yǔ)進(jìn)行不同定義等知識(shí)沖突現(xiàn)象,易造成用戶(hù)理解上的歧義,不利于標(biāo)準(zhǔn)的規(guī)范化,影響使用,亟需進(jìn)行標(biāo)準(zhǔn)的數(shù)字化轉(zhuǎn)型。標(biāo)準(zhǔn)的數(shù)字化轉(zhuǎn)型是利用數(shù)字技術(shù)對(duì)標(biāo)準(zhǔn)化工作的全流程及標(biāo)準(zhǔn)本身的全生命周期賦能,實(shí)現(xiàn)靈活高效可交互的標(biāo)準(zhǔn)研制過(guò)程,創(chuàng)建標(biāo)準(zhǔn)結(jié)構(gòu)和內(nèi)容機(jī)器可讀的新型標(biāo)準(zhǔn)模式,拓展標(biāo)準(zhǔn)使用的數(shù)字化、智能化服務(wù)[2]。
知識(shí)圖譜技術(shù)的出現(xiàn)能夠很好地賦能標(biāo)準(zhǔn)的數(shù)字化轉(zhuǎn)型。知識(shí)圖譜是一種解釋實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò),可以實(shí)現(xiàn)對(duì)事物及其相互關(guān)系進(jìn)行形式化描述,同時(shí)也提供了一種全新的信息檢索模式。借助知識(shí)圖譜技術(shù)對(duì)標(biāo)準(zhǔn)文獻(xiàn)進(jìn)行知識(shí)組織可以較好地展示標(biāo)準(zhǔn)的知識(shí)語(yǔ)義關(guān)聯(lián),實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容知識(shí)的可關(guān)聯(lián)、可對(duì)比、可追溯和可分析。知識(shí)圖譜通過(guò)實(shí)體、屬性和關(guān)系來(lái)定義標(biāo)準(zhǔn)知識(shí),支持標(biāo)準(zhǔn)知識(shí)的共享和重用,同時(shí)采用語(yǔ)義相似度計(jì)算和實(shí)體關(guān)系匹配等方法,可以對(duì)標(biāo)準(zhǔn)文獻(xiàn)中的使用范圍、術(shù)語(yǔ)、關(guān)鍵技術(shù)指標(biāo)等知識(shí)進(jìn)行比較分析,為標(biāo)準(zhǔn)立項(xiàng)、審核、使用和修訂等工作提供標(biāo)準(zhǔn)知識(shí)的輔助決策,服務(wù)于標(biāo)準(zhǔn)全生命周期。
本研究通過(guò)對(duì)標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)特征進(jìn)行解析,得到標(biāo)準(zhǔn)文獻(xiàn)中共性要素的概念和關(guān)系,構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜本體層,并參照國(guó)外標(biāo)準(zhǔn)標(biāo)簽集對(duì)我國(guó)標(biāo)準(zhǔn)標(biāo)簽集進(jìn)行拓展和細(xì)化,完成標(biāo)準(zhǔn)文獻(xiàn)XML格式轉(zhuǎn)換,實(shí)現(xiàn)機(jī)器可讀,同時(shí)進(jìn)行知識(shí)抽取,從而構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜,并以自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)進(jìn)行實(shí)證研究,構(gòu)建自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜,探討標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜的實(shí)際應(yīng)用場(chǎng)景。
國(guó)際上已經(jīng)開(kāi)展標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的相關(guān)研究,但都處于初步探索階段。目前,三大國(guó)際標(biāo)準(zhǔn)組織(ISO、IEC、ITU)、歐洲標(biāo)準(zhǔn)化組織(CEN/CENELEC),以及美國(guó)、德國(guó)、俄羅斯等均已啟動(dòng)機(jī)器可讀標(biāo)準(zhǔn)的研制和實(shí)施工作[3]。其中,國(guó)際標(biāo)準(zhǔn)化組織(ISO)開(kāi)發(fā)了標(biāo)準(zhǔn)標(biāo)簽集ISOSTS(ISO Standards Tag Set)[4],用于描述標(biāo)準(zhǔn)全文內(nèi)容和元數(shù)據(jù),提供可用于發(fā)布和交換標(biāo)準(zhǔn)內(nèi)容的通用格式。美國(guó)國(guó)家信息標(biāo)準(zhǔn)組織(NISO)在ISOSTS的基礎(chǔ)上進(jìn)行豐富和優(yōu)化,形成了標(biāo)準(zhǔn)標(biāo)簽集NISOSTS(NISO Standards Tag Set)[5]。我國(guó)于2019年發(fā)布國(guó)家標(biāo)準(zhǔn)《基于XML的國(guó)家標(biāo)準(zhǔn)結(jié)構(gòu)化置標(biāo)框架》(GB/T 37967—2019),規(guī)定了標(biāo)準(zhǔn)文本結(jié)構(gòu)的XML標(biāo)簽集,但標(biāo)簽集相對(duì)簡(jiǎn)略,僅實(shí)現(xiàn)了標(biāo)準(zhǔn)結(jié)構(gòu)層面的標(biāo)注。標(biāo)準(zhǔn)標(biāo)簽集用于對(duì)標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)和技術(shù)內(nèi)容要素進(jìn)行標(biāo)記和分析,可以通過(guò)標(biāo)準(zhǔn)標(biāo)簽集拓展和細(xì)化以豐富機(jī)器可讀標(biāo)準(zhǔn)內(nèi)容[6]。借助XML建模語(yǔ)言技術(shù)轉(zhuǎn)化標(biāo)準(zhǔn)文獻(xiàn)為機(jī)器可讀,可以實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容信息的直接提取和查詢(xún)[7]。但經(jīng)過(guò)轉(zhuǎn)換的標(biāo)準(zhǔn)文獻(xiàn)XML格式,只能實(shí)現(xiàn)機(jī)器可讀,對(duì)語(yǔ)義關(guān)系的表示有限,不能實(shí)現(xiàn)不同標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容知識(shí)的語(yǔ)義交叉關(guān)聯(lián)和共享重用[8],難以達(dá)到標(biāo)準(zhǔn)知識(shí)智能化服務(wù)的效果。對(duì)此,ISO定義了SMART(Standard Machine Applicable,Readable,Transferable)標(biāo)準(zhǔn)的概念[9],認(rèn)為構(gòu)建機(jī)器可用、可讀、可解析標(biāo)準(zhǔn)是標(biāo)準(zhǔn)數(shù)字化的發(fā)展方向。Loibl等[10]提出要實(shí)現(xiàn)標(biāo)準(zhǔn)的機(jī)器可操作需要將標(biāo)準(zhǔn)文獻(xiàn)信息建模為機(jī)器可操作的形式,并從語(yǔ)義關(guān)聯(lián)可見(jiàn)性、易擴(kuò)展性和數(shù)據(jù)調(diào)用速度等角度將傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)與圖數(shù)據(jù)庫(kù)進(jìn)行對(duì)比,認(rèn)為圖數(shù)據(jù)庫(kù)更適合機(jī)器可操作標(biāo)準(zhǔn)的存儲(chǔ)和應(yīng)用。劉曦澤等[11]提出利用知識(shí)圖譜等技術(shù)進(jìn)行標(biāo)準(zhǔn)內(nèi)容知識(shí)的提取、分類(lèi)與表達(dá),將標(biāo)準(zhǔn)文本轉(zhuǎn)化為可自由使用的動(dòng)態(tài)知識(shí)網(wǎng)絡(luò),進(jìn)而實(shí)現(xiàn)“人機(jī)交互”,這是標(biāo)準(zhǔn)數(shù)字化的發(fā)展趨勢(shì)。
關(guān)于采用知識(shí)圖譜技術(shù)對(duì)標(biāo)準(zhǔn)文獻(xiàn)進(jìn)行知識(shí)組織,相關(guān)學(xué)者從不同角度論證了其可行性。Luttmer等[12]以公式為例將標(biāo)準(zhǔn)內(nèi)容從XML格式轉(zhuǎn)換為基于圖形表示的知識(shí)圖譜,驗(yàn)證知識(shí)圖譜適合于表示機(jī)器可操作的標(biāo)準(zhǔn)內(nèi)容。Sana等[13]分析了基于XML數(shù)據(jù)進(jìn)行知識(shí)圖譜建模、存儲(chǔ)和處理的可能性。XML標(biāo)簽可以自定義攜帶語(yǔ)義信息,可以通過(guò)XML解析實(shí)現(xiàn)批量知識(shí)抽取,輔助知識(shí)圖譜的構(gòu)建[8]。劉慧琳等[14]提出在各種文獻(xiàn)信息資源中,標(biāo)準(zhǔn)文獻(xiàn)的自身特點(diǎn)可以較好適配知識(shí)圖譜結(jié)構(gòu)。目前學(xué)術(shù)界對(duì)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜構(gòu)建方法的研究比較缺乏,部分學(xué)者只是選取標(biāo)準(zhǔn)文獻(xiàn)中的部分結(jié)構(gòu)要素進(jìn)行知識(shí)抽取。Ren等[15]提出了標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜構(gòu)建和應(yīng)用的結(jié)構(gòu)框架。張慧等[16]采用基于規(guī)則的知識(shí)抽取方法,抽取標(biāo)準(zhǔn)文獻(xiàn)的前言部分和規(guī)范性引用文件部分,構(gòu)建了描述標(biāo)準(zhǔn)文獻(xiàn)與組織機(jī)構(gòu)關(guān)聯(lián)關(guān)系的知識(shí)圖譜。張鵬飛等[17]通過(guò)大量人工標(biāo)注,采用BERT-TCNN-BiLSTM模型對(duì)綠色標(biāo)準(zhǔn)中的部分共性結(jié)構(gòu)要素進(jìn)行實(shí)體抽取,搭建綠色標(biāo)準(zhǔn)知識(shí)圖譜。基于規(guī)則的方法可以保證知識(shí)抽取的準(zhǔn)確率,但需嚴(yán)格限制文本語(yǔ)言格式,只能局限于部分知識(shí)的識(shí)別和抽取,而采用深度學(xué)習(xí)等方式進(jìn)行知識(shí)抽取需要大量人工標(biāo)注,且其實(shí)驗(yàn)準(zhǔn)確率欠佳,難以滿(mǎn)足標(biāo)準(zhǔn)文獻(xiàn)規(guī)范度的要求。郝文建等[18]提出標(biāo)準(zhǔn)文獻(xiàn)要素抽取的思路,認(rèn)為可以采用基于規(guī)則的方法與自然語(yǔ)言處理技術(shù)相結(jié)合的方式進(jìn)行要素抽取。秦麗等[19]采用基于規(guī)則和人工參與相結(jié)合的方式,對(duì)標(biāo)準(zhǔn)文獻(xiàn)中引用關(guān)系和標(biāo)準(zhǔn)中的部分內(nèi)容進(jìn)行知識(shí)抽取,構(gòu)建國(guó)家食品安全標(biāo)準(zhǔn)知識(shí)圖譜。Jiang等[20]通過(guò)分析建筑安全標(biāo)準(zhǔn)體系,設(shè)計(jì)了由五個(gè)層次概念和八種類(lèi)型關(guān)系組成的概念層,構(gòu)建了建筑安全標(biāo)準(zhǔn)知識(shí)圖譜。
綜上,目前標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜構(gòu)建的研究大多停留在僅選取標(biāo)準(zhǔn)文獻(xiàn)的部分結(jié)構(gòu)性?xún)?nèi)容(如標(biāo)準(zhǔn)文獻(xiàn)引用關(guān)系、標(biāo)準(zhǔn)文獻(xiàn)與組織單位之間的關(guān)系等),缺少?gòu)臉?biāo)準(zhǔn)文獻(xiàn)整體結(jié)構(gòu)內(nèi)容出發(fā),對(duì)標(biāo)準(zhǔn)文獻(xiàn)進(jìn)行知識(shí)拆解的研究,對(duì)于標(biāo)準(zhǔn)文獻(xiàn)知識(shí)抽取方法的研究也處于探索階段,目前尚未形成適用于標(biāo)準(zhǔn)文獻(xiàn)知識(shí)抽取的較為成熟的方法。因此,本文從標(biāo)準(zhǔn)文獻(xiàn)整體結(jié)構(gòu)內(nèi)容出發(fā),采用拓展XML標(biāo)準(zhǔn)標(biāo)簽集,基于XML標(biāo)注進(jìn)行知識(shí)抽取的方法,構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜,實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)整體結(jié)構(gòu)內(nèi)容的知識(shí)切片和重組,可以更全面地挖掘、分析和展示標(biāo)準(zhǔn)文獻(xiàn)之間知識(shí)的關(guān)聯(lián)關(guān)系,解決現(xiàn)有研究對(duì)標(biāo)準(zhǔn)知識(shí)加工不充分、知識(shí)關(guān)聯(lián)不全面,難以有效支持標(biāo)準(zhǔn)文獻(xiàn)知識(shí)的實(shí)際應(yīng)用的問(wèn)題,更好地服務(wù)于標(biāo)準(zhǔn)的應(yīng)用。
標(biāo)準(zhǔn)是為各項(xiàng)活動(dòng)及其結(jié)果提供規(guī)則、指南或特性,共同使用和重復(fù)使用的文件,標(biāo)準(zhǔn)的起草和編寫(xiě)需要按照統(tǒng)一的規(guī)則和規(guī)范,以便于起草者編訂適用性更好的標(biāo)準(zhǔn),更好地服務(wù)于標(biāo)準(zhǔn)使用者。為此,我國(guó)先后制定了多項(xiàng)標(biāo)準(zhǔn)編寫(xiě)規(guī)范類(lèi)的標(biāo)準(zhǔn)。通過(guò)分析標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)和內(nèi)容,可以發(fā)現(xiàn)標(biāo)準(zhǔn)具有文本結(jié)構(gòu)規(guī)范、層次清晰和詞義表述明確、言簡(jiǎn)意賅的特點(diǎn)。標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)單元和知識(shí)關(guān)聯(lián)模式是識(shí)別、研究和應(yīng)用標(biāo)準(zhǔn)知識(shí)的基本出發(fā)點(diǎn)。構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜,需要對(duì)標(biāo)準(zhǔn)文獻(xiàn)的組成要素、層次和知識(shí)關(guān)聯(lián)邏輯進(jìn)行分析,進(jìn)而確定標(biāo)準(zhǔn)文獻(xiàn)文本特征的知識(shí)切片和重組方法。因此,標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)解析是采用知識(shí)圖譜對(duì)其進(jìn)行表達(dá)的基礎(chǔ)。
《標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》(GB/T 1.1—2020)明確規(guī)定了標(biāo)準(zhǔn)文獻(xiàn)的組成要素,包括封面、目次、前言、引言、范圍、規(guī)范性引用文件、術(shù)語(yǔ)和定義、符號(hào)與縮略語(yǔ)、分類(lèi)與編碼/系統(tǒng)構(gòu)成、總體原則和/或總體要求、核心技術(shù)要素、其他技術(shù)要素、參考文獻(xiàn)和索引。此外,按照要素存在的狀態(tài)將要素分為必備要素和可選要素,其中,封面、前言、范圍和核心技術(shù)要素是必備要素,規(guī)范性引用文件、術(shù)語(yǔ)和定義既屬于必備要素也屬于可選要素,其他要素屬于可選要素。封面主要包括標(biāo)準(zhǔn)中文名稱(chēng)、標(biāo)準(zhǔn)英文名稱(chēng)、標(biāo)準(zhǔn)號(hào)、ICS分類(lèi)號(hào)、CCS分類(lèi)號(hào)、發(fā)布日期、實(shí)施日期和發(fā)布單位;前言包括提出單位、歸口單位、起草單位、起草人信息;范圍是標(biāo)準(zhǔn)文獻(xiàn)的摘要信息,主要介紹標(biāo)準(zhǔn)所規(guī)定的內(nèi)容和適用界限;規(guī)范性引用文件主要包括標(biāo)準(zhǔn)所引用的文件和文件代碼;術(shù)語(yǔ)和定義是對(duì)標(biāo)準(zhǔn)中所涉及的專(zhuān)業(yè)術(shù)語(yǔ)進(jìn)行定義;核心技術(shù)要素是標(biāo)準(zhǔn)的主體內(nèi)容部分,主要以章、條標(biāo)題和內(nèi)容形式呈現(xiàn)。將標(biāo)準(zhǔn)文獻(xiàn)中必備的組成要素定義為標(biāo)準(zhǔn)文獻(xiàn)的共性結(jié)構(gòu)要素,可得標(biāo)準(zhǔn)文獻(xiàn)的共性結(jié)構(gòu)要素如圖1所示。
圖1 標(biāo)準(zhǔn)文獻(xiàn)共性結(jié)構(gòu)要素
由于標(biāo)準(zhǔn)文獻(xiàn)具有共性結(jié)構(gòu)要素,可以對(duì)其進(jìn)行結(jié)構(gòu)化處理。XML格式文檔可以實(shí)現(xiàn)對(duì)固定文本結(jié)構(gòu)文檔的結(jié)構(gòu)化處理,通過(guò)對(duì)標(biāo)準(zhǔn)文獻(xiàn)中的共性要素進(jìn)行自定義標(biāo)簽標(biāo)記,將其轉(zhuǎn)化為XML文檔,可以更便捷地被計(jì)算機(jī)識(shí)別、讀取,進(jìn)而實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)的批量解析,從中獲取標(biāo)準(zhǔn)文獻(xiàn)共性要素知識(shí)信息。
標(biāo)準(zhǔn)按照功能類(lèi)型可劃分為術(shù)語(yǔ)標(biāo)準(zhǔn)、符號(hào)標(biāo)準(zhǔn)、分類(lèi)標(biāo)準(zhǔn)、試驗(yàn)標(biāo)準(zhǔn)、規(guī)范標(biāo)準(zhǔn)、規(guī)程標(biāo)準(zhǔn)和指南標(biāo)準(zhǔn)。不同功能類(lèi)型的標(biāo)準(zhǔn)文獻(xiàn)的核心技術(shù)要素存在描述邏輯和內(nèi)容的不同。例如,術(shù)語(yǔ)標(biāo)準(zhǔn)主要包含術(shù)語(yǔ)條目,試驗(yàn)標(biāo)準(zhǔn)主要包括試驗(yàn)步驟和試驗(yàn)數(shù)據(jù)處理。不同功能類(lèi)型的標(biāo)準(zhǔn)文獻(xiàn)所對(duì)應(yīng)的核心技術(shù)要素部分文本內(nèi)容如表1所示。
表1 標(biāo)準(zhǔn)文獻(xiàn)核心技術(shù)要素
對(duì)于不同功能類(lèi)型的標(biāo)準(zhǔn)文獻(xiàn)核心技術(shù)要素,可以參照其結(jié)構(gòu)內(nèi)容進(jìn)行結(jié)構(gòu)化處理。其中,術(shù)語(yǔ)標(biāo)準(zhǔn)的核心技術(shù)要素主要以術(shù)語(yǔ)條目形式逐條展示,可直接進(jìn)行XML標(biāo)簽標(biāo)記實(shí)現(xiàn)結(jié)構(gòu)化處理;符號(hào)標(biāo)準(zhǔn)和分類(lèi)標(biāo)準(zhǔn)的核心技術(shù)要素多以表格形式和描述性文本形式呈現(xiàn),表格屬于結(jié)構(gòu)化程度較高的內(nèi)容展現(xiàn)形式,便于處理和表示;試驗(yàn)標(biāo)準(zhǔn)、規(guī)范標(biāo)準(zhǔn)、規(guī)程標(biāo)準(zhǔn)和指南標(biāo)準(zhǔn)中的內(nèi)容多以列項(xiàng)、段落等形式展示,其中試驗(yàn)步驟和指標(biāo)類(lèi)內(nèi)容等多以列項(xiàng)展示,便于進(jìn)行結(jié)構(gòu)化處理,但對(duì)于要求、指示等多以段落性文本描述存在的文本,需在保留語(yǔ)言描述的完整性和準(zhǔn)確性的基礎(chǔ)上做進(jìn)一步知識(shí)加工。
構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜就是對(duì)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容進(jìn)行知識(shí)粒度細(xì)加工,深入到標(biāo)準(zhǔn)文獻(xiàn)內(nèi)部的語(yǔ)義知識(shí)單元,挖掘標(biāo)準(zhǔn)文獻(xiàn)知識(shí)單元之間的關(guān)聯(lián)關(guān)系,進(jìn)而對(duì)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容進(jìn)行語(yǔ)義組織,實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容的細(xì)粒度表達(dá)和知識(shí)語(yǔ)義關(guān)聯(lián)。通過(guò)解析標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)特征,選取自頂向下的方式進(jìn)行標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜構(gòu)建,首先應(yīng)進(jìn)行本體知識(shí)建模,主要包括概念集和屬性的確定以及概念間關(guān)系的定義,用于約束數(shù)據(jù)層實(shí)體、關(guān)系和屬性的抽取及語(yǔ)義關(guān)聯(lián)。
在構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)本體層的概念知識(shí)體系時(shí),要充分考慮標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)層級(jí)、知識(shí)單元和用戶(hù)需求,因此,標(biāo)準(zhǔn)文獻(xiàn)本體層的構(gòu)建應(yīng)遵循標(biāo)準(zhǔn)文獻(xiàn)內(nèi)部的結(jié)構(gòu)層次邏輯,將相同或者相近語(yǔ)義的知識(shí)片段歸納概括為具有普適性和通用性的概念,以標(biāo)準(zhǔn)文獻(xiàn)中共性必要要素構(gòu)建模式層的概念體系。另外,概念的定義應(yīng)充分考慮對(duì)應(yīng)實(shí)例知識(shí)單元細(xì)分程度,既要盡可能細(xì)化以保證標(biāo)準(zhǔn)文獻(xiàn)的所有語(yǔ)義可展示,又要恰當(dāng)切分以避免語(yǔ)義關(guān)系缺少和錯(cuò)亂。
從標(biāo)準(zhǔn)文獻(xiàn)的內(nèi)容和結(jié)構(gòu)層次來(lái)看,標(biāo)準(zhǔn)文獻(xiàn)中存在共性的必要元素,這些元素可以定義為概念,如標(biāo)準(zhǔn)中文名稱(chēng)、標(biāo)準(zhǔn)號(hào)、提出單位、歸口單位、起草單位、起草人、章標(biāo)題和條標(biāo)題是標(biāo)準(zhǔn)文獻(xiàn)的共性必備要素,應(yīng)分別設(shè)立為本體層的概念。范圍是標(biāo)準(zhǔn)文獻(xiàn)核心內(nèi)容的提取,用于界定標(biāo)準(zhǔn)文獻(xiàn)的規(guī)定內(nèi)容和適用界限,根據(jù)標(biāo)準(zhǔn)文獻(xiàn)的范圍部分結(jié)構(gòu)內(nèi)容,可將范圍中的“規(guī)定內(nèi)容”和“適用界限”分別設(shè)為兩個(gè)概念。標(biāo)準(zhǔn)文獻(xiàn)中對(duì)于術(shù)語(yǔ)進(jìn)行定義是為了避免引起誤解或?qū)夹g(shù)內(nèi)容的理解產(chǎn)生歧義,術(shù)語(yǔ)對(duì)標(biāo)準(zhǔn)規(guī)范化意義重大,可將“術(shù)語(yǔ)”設(shè)為一個(gè)概念。由于術(shù)語(yǔ)存在一詞多義等現(xiàn)象,如果將術(shù)語(yǔ)定義設(shè)為數(shù)據(jù)屬性則難以挖掘術(shù)語(yǔ)定義的不同來(lái)源情況,因此將“術(shù)語(yǔ)定義”單設(shè)為一個(gè)概念。由此,通過(guò)對(duì)標(biāo)準(zhǔn)文獻(xiàn)進(jìn)行知識(shí)梳理和整合,最終建立包含12個(gè)本體概念的標(biāo)準(zhǔn)文獻(xiàn)概念集,具體如表2所示。
表2 標(biāo)準(zhǔn)文獻(xiàn)概念集
就概念的屬性而言,標(biāo)準(zhǔn)英文名稱(chēng)、ICS分類(lèi)號(hào)、CCS分類(lèi)號(hào)、發(fā)布日期、實(shí)施日期和狀態(tài)可設(shè)置為概念“標(biāo)準(zhǔn)中文名稱(chēng)”的屬性,用于描述標(biāo)準(zhǔn)文獻(xiàn)的基本信息;術(shù)語(yǔ)英文可設(shè)為概念“術(shù)語(yǔ)”的屬性;章標(biāo)題和條標(biāo)題下對(duì)應(yīng)的段落性文本則可分別設(shè)為概念“章標(biāo)題”和“條標(biāo)題”的屬性。
知識(shí)圖譜本體層的概念之間的關(guān)系包含層次關(guān)系和非層次關(guān)系,其中,層次關(guān)系為概念間上下位關(guān)系,非層次關(guān)系主要基于概念所屬范圍和類(lèi)型進(jìn)行定義。標(biāo)準(zhǔn)文獻(xiàn)本體概念間的關(guān)系是根據(jù)標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)和內(nèi)容知識(shí)關(guān)聯(lián)關(guān)系進(jìn)行定義的,概念間關(guān)系以非層次關(guān)系為主。通過(guò)分析不同概念在標(biāo)準(zhǔn)文獻(xiàn)內(nèi)部和標(biāo)準(zhǔn)文獻(xiàn)間的語(yǔ)義關(guān)聯(lián)關(guān)系,可以對(duì)標(biāo)準(zhǔn)文獻(xiàn)本體概念間的關(guān)系進(jìn)行定義。
基于已建立的標(biāo)準(zhǔn)文獻(xiàn)概念集,參照標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)特征,依據(jù)各本體概念在標(biāo)準(zhǔn)文獻(xiàn)文本中的位置,可初步建立標(biāo)準(zhǔn)文獻(xiàn)內(nèi)部本體概念間的關(guān)系。其中,“標(biāo)準(zhǔn)中文名稱(chēng)”與“標(biāo)準(zhǔn)號(hào)”概念之間的關(guān)系為“標(biāo)準(zhǔn)號(hào)”;標(biāo)準(zhǔn)文獻(xiàn)的前言部分包含“提出單位”“歸口單位”“起草單位”和“起草人”四個(gè)概念,“標(biāo)準(zhǔn)中文名稱(chēng)”與其關(guān)系可分別定義為“提出于”“歸口于”“起草于”和“起草人”;標(biāo)準(zhǔn)文獻(xiàn)中術(shù)語(yǔ)與術(shù)語(yǔ)定義部分包含“術(shù)語(yǔ)”和“術(shù)語(yǔ)定義”兩個(gè)概念,“標(biāo)準(zhǔn)中文名稱(chēng)”與“術(shù)語(yǔ)”之間的關(guān)系可定義為“涉及術(shù)語(yǔ)”,“術(shù)語(yǔ)”和“術(shù)語(yǔ)定義”之間關(guān)系為“定義”;標(biāo)準(zhǔn)文獻(xiàn)的核心技術(shù)要素以章、條標(biāo)題及內(nèi)容進(jìn)行展開(kāi),“標(biāo)準(zhǔn)中文名稱(chēng)”與“章標(biāo)題”兩個(gè)概念之間的關(guān)系可定義為“包含”,“章標(biāo)題”與“條標(biāo)題”之間關(guān)系定義為“包含”。
除了上述標(biāo)準(zhǔn)文獻(xiàn)內(nèi)部各本體概念之間的關(guān)系之外,標(biāo)準(zhǔn)文獻(xiàn)間還存在大量的知識(shí)交叉關(guān)聯(lián),需要進(jìn)一步深入挖掘標(biāo)準(zhǔn)文獻(xiàn)間的知識(shí)關(guān)聯(lián)關(guān)系,進(jìn)而補(bǔ)充和豐富標(biāo)準(zhǔn)文獻(xiàn)本體概念之間的關(guān)系。①不同標(biāo)準(zhǔn)文獻(xiàn)間存在引用現(xiàn)象。由于標(biāo)準(zhǔn)文獻(xiàn)的規(guī)范性引用文件也多為標(biāo)準(zhǔn)文獻(xiàn),即標(biāo)準(zhǔn)文獻(xiàn)之間的引用關(guān)系是在概念“標(biāo)準(zhǔn)中文名稱(chēng)”下的實(shí)例之間產(chǎn)生,因此可以在“標(biāo)準(zhǔn)中文名稱(chēng)”與規(guī)范性引用文件的“標(biāo)準(zhǔn)中文名稱(chēng)”之間建立引用關(guān)系。②標(biāo)準(zhǔn)文獻(xiàn)存在不定期的更新修訂。由于標(biāo)準(zhǔn)文獻(xiàn)之間存在對(duì)于已作廢標(biāo)準(zhǔn)文獻(xiàn)的引用,為準(zhǔn)確地追蹤溯源,所建立的標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜中應(yīng)保留部分已作廢但被引用的標(biāo)準(zhǔn)文獻(xiàn)。對(duì)于不同狀態(tài)的標(biāo)準(zhǔn)文獻(xiàn),應(yīng)建立關(guān)系為“更新”。③對(duì)于標(biāo)準(zhǔn)文獻(xiàn)中的術(shù)語(yǔ)與術(shù)語(yǔ)定義部分,既存在由于術(shù)語(yǔ)在不同標(biāo)準(zhǔn)文獻(xiàn)中應(yīng)用場(chǎng)景等的不同而對(duì)術(shù)語(yǔ)定義進(jìn)行改寫(xiě)的現(xiàn)象,也存在不同標(biāo)準(zhǔn)文獻(xiàn)之間同一術(shù)語(yǔ)和定義引用的現(xiàn)象。由于術(shù)語(yǔ)的改寫(xiě)主要是術(shù)語(yǔ)定義發(fā)生改變,即術(shù)語(yǔ)定義的改寫(xiě)關(guān)系是在概念“術(shù)語(yǔ)定義”下的實(shí)例之間產(chǎn)生,因此,部分“術(shù)語(yǔ)定義”實(shí)例間存在“改寫(xiě)”關(guān)系。為了清晰表明相同術(shù)語(yǔ)不同定義的來(lái)源情況,可在“術(shù)語(yǔ)定義”與“標(biāo)準(zhǔn)中文名稱(chēng)”之間建立關(guān)系為“來(lái)源于”。對(duì)于同一術(shù)語(yǔ)不同標(biāo)準(zhǔn)文獻(xiàn)引用的現(xiàn)象,由于在構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜時(shí),會(huì)自動(dòng)將重復(fù)節(jié)點(diǎn)進(jìn)行合并,難以直接展示所引用術(shù)語(yǔ)的初始位置,可通過(guò)“標(biāo)準(zhǔn)中文名稱(chēng)”之間的引用關(guān)系來(lái)表明術(shù)語(yǔ)的來(lái)源。④標(biāo)準(zhǔn)文獻(xiàn)核心技術(shù)要素部分也存在知識(shí)交叉關(guān)聯(lián)現(xiàn)象,由于不同標(biāo)準(zhǔn)文獻(xiàn)之間存在章標(biāo)題或條標(biāo)題相互重復(fù)現(xiàn)象,構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜可以實(shí)現(xiàn)重復(fù)內(nèi)容的共享重用,但需要標(biāo)明標(biāo)題來(lái)源,因此在“條標(biāo)題”與“標(biāo)準(zhǔn)中文名稱(chēng)”之間建立關(guān)系為“來(lái)源于”。通過(guò)分析和挖掘標(biāo)準(zhǔn)文獻(xiàn)內(nèi)部和標(biāo)準(zhǔn)文獻(xiàn)之間的知識(shí)關(guān)聯(lián),得到標(biāo)準(zhǔn)文獻(xiàn)本體概念間的關(guān)系(見(jiàn)表3)。
表3 標(biāo)準(zhǔn)文獻(xiàn)本體概念間關(guān)系
通過(guò)整合標(biāo)準(zhǔn)文獻(xiàn)本體概念、屬性和關(guān)系,得到標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜本體模型(見(jiàn)圖2)。其中,“組織機(jī)構(gòu)”指標(biāo)準(zhǔn)文獻(xiàn)前言部分所包含的“提出單位”“歸口單位”“起草單位”和“起草人”。
圖2 標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜本體模型
該本體模型涵蓋了標(biāo)準(zhǔn)文獻(xiàn)中所有必備要素,但其概念和關(guān)系的定義主要針對(duì)于標(biāo)準(zhǔn)文獻(xiàn)中共性要素。例如,對(duì)于標(biāo)準(zhǔn)文獻(xiàn)核心技術(shù)要素部分內(nèi)容,將各級(jí)標(biāo)題歸納為概念,標(biāo)題下的內(nèi)容歸為各級(jí)標(biāo)題對(duì)應(yīng)的數(shù)據(jù)屬性。此建模方式適用于術(shù)語(yǔ)標(biāo)準(zhǔn);對(duì)于符號(hào)標(biāo)準(zhǔn)和分類(lèi)標(biāo)準(zhǔn),可以通過(guò)進(jìn)一步對(duì)表格進(jìn)行知識(shí)抽取,細(xì)化對(duì)應(yīng)核心技術(shù)要素部分的知識(shí),實(shí)現(xiàn)細(xì)粒度標(biāo)準(zhǔn)知識(shí)組織;對(duì)于試驗(yàn)標(biāo)準(zhǔn)、規(guī)范標(biāo)準(zhǔn)、規(guī)程標(biāo)準(zhǔn)和指南標(biāo)準(zhǔn),此建模方式可以保證語(yǔ)義完整性和準(zhǔn)確性,但進(jìn)一步知識(shí)細(xì)粒度加工需結(jié)合領(lǐng)域知識(shí)搭建知識(shí)層級(jí)關(guān)系進(jìn)行知識(shí)建模。
根據(jù)本體層所定義的概念、屬性和關(guān)系,通過(guò)標(biāo)準(zhǔn)文獻(xiàn)XML格式轉(zhuǎn)化,使得標(biāo)準(zhǔn)文獻(xiàn)的內(nèi)容片斷包含語(yǔ)義標(biāo)簽,將標(biāo)準(zhǔn)文獻(xiàn)的知識(shí)組織方式從文獻(xiàn)粒度的樹(shù)形分類(lèi)結(jié)構(gòu)向知識(shí)粒度的網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)變,同時(shí)便于進(jìn)行文檔解析,獲取相關(guān)實(shí)體、關(guān)系和屬性,從而構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜。
對(duì)于標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)化處理,我國(guó)制定了國(guó)家標(biāo)準(zhǔn)《基于XML的國(guó)家標(biāo)準(zhǔn)結(jié)構(gòu)化置標(biāo)框架》,其中定義了適用于我國(guó)標(biāo)準(zhǔn)格式內(nèi)容的標(biāo)準(zhǔn)標(biāo)簽集,涵蓋標(biāo)準(zhǔn)的封面、前言、引言、術(shù)語(yǔ)和標(biāo)題等內(nèi)容標(biāo)簽,共包含元素56個(gè)、屬性2個(gè)。該標(biāo)準(zhǔn)所定義的標(biāo)準(zhǔn)標(biāo)簽集相對(duì)粗略,僅實(shí)現(xiàn)了對(duì)標(biāo)準(zhǔn)文獻(xiàn)整體結(jié)構(gòu)框架的標(biāo)簽標(biāo)記,不能覆蓋標(biāo)準(zhǔn)文獻(xiàn)本體層所定義的概念、屬性和關(guān)系,需要進(jìn)行標(biāo)準(zhǔn)標(biāo)簽集拓展。
目前,國(guó)際上具有代表性的標(biāo)準(zhǔn)標(biāo)簽集包括ISOSTS和NISOSTS。其中,NISO發(fā)布的對(duì)應(yīng)于美國(guó)標(biāo)準(zhǔn)的標(biāo)準(zhǔn)標(biāo)簽集內(nèi)容較為詳細(xì),除了對(duì)標(biāo)準(zhǔn)結(jié)構(gòu)進(jìn)行標(biāo)簽標(biāo)記外,還包括樣式和表格等具體內(nèi)容的標(biāo)記。因此,在對(duì)我國(guó)標(biāo)準(zhǔn)文獻(xiàn)進(jìn)行結(jié)構(gòu)化處理時(shí),可以在標(biāo)準(zhǔn)《基于XML的國(guó)家標(biāo)準(zhǔn)結(jié)構(gòu)化置標(biāo)框架》所定義的標(biāo)準(zhǔn)標(biāo)簽集基礎(chǔ)上,參照NISO標(biāo)準(zhǔn)標(biāo)簽集,拓展和細(xì)化我國(guó)標(biāo)準(zhǔn)標(biāo)簽集,從而增加標(biāo)準(zhǔn)標(biāo)簽集的語(yǔ)義信息。通過(guò)分析NISO標(biāo)準(zhǔn)標(biāo)簽集,對(duì)我國(guó)標(biāo)準(zhǔn)標(biāo)簽集進(jìn)行拓展,在原有標(biāo)準(zhǔn)標(biāo)簽集的基礎(chǔ)上,針對(duì)標(biāo)準(zhǔn)前言、范圍、規(guī)范性引用文件、核心技術(shù)要素中所包含的標(biāo)準(zhǔn)標(biāo)簽集進(jìn)行拓展和細(xì)化,共拓展了19個(gè)元素,目前標(biāo)準(zhǔn)標(biāo)簽集共包含75個(gè)元素,拓展后的核心標(biāo)準(zhǔn)標(biāo)簽集涵蓋了對(duì)于標(biāo)準(zhǔn)文獻(xiàn)封面信息、前言部分信息、范圍、規(guī)范性引用文件、術(shù)語(yǔ)、章條標(biāo)題和段落文本的標(biāo)簽標(biāo)記,基于拓展后的標(biāo)準(zhǔn)標(biāo)簽集進(jìn)行標(biāo)準(zhǔn)文獻(xiàn)XML轉(zhuǎn)化可以實(shí)現(xiàn)機(jī)器可讀,同時(shí)便于對(duì)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)進(jìn)行細(xì)粒度加工,為標(biāo)準(zhǔn)文獻(xiàn)知識(shí)切片和重組奠定基礎(chǔ)。
根據(jù)拓展后的標(biāo)準(zhǔn)標(biāo)簽集對(duì)標(biāo)準(zhǔn)文獻(xiàn)進(jìn)行XML轉(zhuǎn)化,實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)化處理。首先需要對(duì)拓展后的標(biāo)準(zhǔn)標(biāo)簽集進(jìn)行定義,標(biāo)簽定義方式有DTD和XML Schema兩種,由于XML Schema是基于XML語(yǔ)法,且對(duì)DTD的數(shù)據(jù)類(lèi)型進(jìn)行了擴(kuò)充,可選取XML Schema對(duì)拓展后的標(biāo)準(zhǔn)標(biāo)簽集所包含的元素、屬性和嵌套關(guān)系進(jìn)行定義,同時(shí)對(duì)標(biāo)準(zhǔn)文獻(xiàn)中的必備要素和可選要素進(jìn)行定義。在標(biāo)準(zhǔn)文獻(xiàn)XML轉(zhuǎn)化時(shí)引入所構(gòu)建的XML Schema文件,實(shí)現(xiàn)標(biāo)準(zhǔn)標(biāo)簽集自動(dòng)生成。同時(shí),對(duì)于PDF格式的標(biāo)準(zhǔn)文獻(xiàn),采用OCR文字識(shí)別技術(shù),提取標(biāo)準(zhǔn)文獻(xiàn)文本內(nèi)容,將標(biāo)準(zhǔn)文本內(nèi)容與標(biāo)準(zhǔn)標(biāo)簽進(jìn)行關(guān)聯(lián)匹配,實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)XML轉(zhuǎn)化,完成標(biāo)準(zhǔn)文獻(xiàn)的結(jié)構(gòu)化處理。
對(duì)于轉(zhuǎn)化后的標(biāo)準(zhǔn)文獻(xiàn)XML文件,采用Dom4j和XPath兩種解析方式相結(jié)合編寫(xiě)Java代碼實(shí)現(xiàn)XML文檔解析,批量獲取相關(guān)實(shí)體、關(guān)系和屬性。具體流程如圖3所示。
圖3 實(shí)體、關(guān)系和屬性獲取流程
通過(guò)XML文檔解析,可以獲取標(biāo)準(zhǔn)文獻(xiàn)本體層所對(duì)應(yīng)的實(shí)體、關(guān)系和屬性,并將其以三元組形式導(dǎo)入Neo4j中,完成標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜的構(gòu)建和可視化,實(shí)現(xiàn)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)關(guān)聯(lián),從而更好地服務(wù)于標(biāo)準(zhǔn)文獻(xiàn)的應(yīng)用。
本文選取自然災(zāi)害應(yīng)急國(guó)家標(biāo)準(zhǔn)為實(shí)例,基于上述標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜構(gòu)建方法構(gòu)建自然災(zāi)害應(yīng)急國(guó)家標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜,對(duì)標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜構(gòu)建思路的可行性進(jìn)行驗(yàn)證。
本研究以自然災(zāi)害事件預(yù)防準(zhǔn)備、監(jiān)測(cè)預(yù)警、處置救援和恢復(fù)重建的應(yīng)急管理流程為主線(xiàn),以城市、社區(qū)、企業(yè)、應(yīng)急物資等為主要對(duì)象,梳理自然災(zāi)害應(yīng)急國(guó)家標(biāo)準(zhǔn)文獻(xiàn),其文本主要來(lái)源于國(guó)家標(biāo)準(zhǔn)全文公開(kāi)系統(tǒng)、全國(guó)標(biāo)準(zhǔn)信息公共服務(wù)平臺(tái)、中國(guó)應(yīng)急信息網(wǎng)、中國(guó)地震局官網(wǎng)、中國(guó)氣象局官網(wǎng)等,通過(guò)下載獲取標(biāo)準(zhǔn)文獻(xiàn)PDF格式共106份,其中,自然災(zāi)害基礎(chǔ)通用標(biāo)準(zhǔn)12份、地質(zhì)地震災(zāi)害應(yīng)急標(biāo)準(zhǔn)31份、氣象水文災(zāi)害應(yīng)急標(biāo)準(zhǔn)37份、海洋災(zāi)害應(yīng)急標(biāo)準(zhǔn)7份、生態(tài)環(huán)境災(zāi)害應(yīng)急標(biāo)準(zhǔn)8份、生物災(zāi)害應(yīng)急標(biāo)準(zhǔn)11份。所搜集到的自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)文獻(xiàn)多為術(shù)語(yǔ)標(biāo)準(zhǔn)、分類(lèi)標(biāo)準(zhǔn)、規(guī)范標(biāo)準(zhǔn)、規(guī)程標(biāo)準(zhǔn)和指南標(biāo)準(zhǔn),試驗(yàn)類(lèi)標(biāo)準(zhǔn)較少。
基于拓展的標(biāo)準(zhǔn)標(biāo)簽集,對(duì)自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)進(jìn)行XML格式轉(zhuǎn)換和文檔解析,可以獲取自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)中文名稱(chēng)、標(biāo)準(zhǔn)英文名稱(chēng)、ICS分類(lèi)號(hào)、CCS分類(lèi)號(hào)、發(fā)布時(shí)間、實(shí)施時(shí)間、標(biāo)準(zhǔn)號(hào)、提出單位、歸口單位、起草單位、起草人、范圍、術(shù)語(yǔ)、術(shù)語(yǔ)英文、術(shù)語(yǔ)定義、章標(biāo)題、條標(biāo)題和內(nèi)容等信息。由此,可以完全解析自然災(zāi)害應(yīng)急術(shù)語(yǔ)標(biāo)準(zhǔn);分類(lèi)標(biāo)準(zhǔn)可以通過(guò)進(jìn)一步表格知識(shí)提取實(shí)現(xiàn)完全解析;對(duì)于規(guī)范標(biāo)準(zhǔn)、規(guī)程標(biāo)準(zhǔn)和指南標(biāo)準(zhǔn),通過(guò)提取其各級(jí)標(biāo)題和段落列項(xiàng)信息,可以實(shí)現(xiàn)標(biāo)準(zhǔn)知識(shí)初步解析。最終共獲取實(shí)體5 039個(gè),關(guān)系7 600個(gè),屬性值1 954個(gè),將所得的實(shí)體、關(guān)系和屬性導(dǎo)入Neo4j中進(jìn)行存儲(chǔ)和可視化。
(1)基于標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜構(gòu)建方法得到的自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜可以清晰地展示出標(biāo)準(zhǔn)文獻(xiàn)與各組織機(jī)構(gòu)間的關(guān)系,通過(guò)分析自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)文獻(xiàn)與各組織機(jī)構(gòu)的關(guān)系,可以輔助挖掘領(lǐng)域權(quán)威,為領(lǐng)域相關(guān)研究提供指導(dǎo)。例如,通過(guò)分析地震應(yīng)急領(lǐng)域標(biāo)準(zhǔn)文獻(xiàn)的起草人,挖掘出孫柏濤和張令心共同參與了多個(gè)地震應(yīng)急標(biāo)準(zhǔn)的起草,由此可以得出兩位專(zhuān)家在地震應(yīng)急領(lǐng)域具有一定的權(quán)威性,同時(shí)可以推理出同時(shí)存在兩位起草人的標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容具有相關(guān)性;除此之外,可以進(jìn)一步根據(jù)此類(lèi)標(biāo)準(zhǔn)文獻(xiàn)的引用文件情況,推斷出標(biāo)準(zhǔn)文獻(xiàn)間的相關(guān)性。
(2)通過(guò)分析自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜,可以檢測(cè)不同標(biāo)準(zhǔn)文獻(xiàn)之間是否存在不一致等知識(shí)沖突現(xiàn)象?,F(xiàn)行自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)文獻(xiàn)中存在同一術(shù)語(yǔ)不同定義的現(xiàn)象。例如,共有7份標(biāo)準(zhǔn)文獻(xiàn)中涉及“有害生物”這一術(shù)語(yǔ)(見(jiàn)圖4),但對(duì)于“有害生物”這一術(shù)語(yǔ)的定義有3種,術(shù)語(yǔ)存在定義改寫(xiě)和不同引用現(xiàn)象。當(dāng)挖掘出標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容在不同標(biāo)準(zhǔn)中存在內(nèi)容沖突時(shí),借助知識(shí)圖譜易拓展性的優(yōu)勢(shì),通過(guò)對(duì)單個(gè)節(jié)點(diǎn)進(jìn)行更新修改就可以實(shí)現(xiàn)對(duì)涉及此內(nèi)容的所有標(biāo)準(zhǔn)文獻(xiàn)自動(dòng)更新,從而消除不同標(biāo)準(zhǔn)間存在的知識(shí)沖突,減少標(biāo)準(zhǔn)更新修訂時(shí)的工作量,更好地服務(wù)于標(biāo)準(zhǔn)制定者和標(biāo)準(zhǔn)使用者。
圖4 同一術(shù)語(yǔ)不同定義和引用示例
(3)自然災(zāi)害應(yīng)急標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜實(shí)現(xiàn)了標(biāo)準(zhǔn)共性要素的知識(shí)關(guān)聯(lián),同時(shí)將標(biāo)準(zhǔn)文獻(xiàn)的核心技術(shù)要素部分以標(biāo)題和列項(xiàng)進(jìn)行了細(xì)粒度展示。如圖5所示,展示了《自然災(zāi)害救助應(yīng)急響應(yīng)劃分基本要求》(GB/T 29425—2012)的范圍和核心技術(shù)要素內(nèi)容。標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜可以服務(wù)于標(biāo)準(zhǔn)全生命周期,對(duì)于標(biāo)準(zhǔn)制定者,可以通過(guò)內(nèi)容檢索獲取標(biāo)準(zhǔn)知識(shí)現(xiàn)行分布情況,進(jìn)行知識(shí)共享重用;對(duì)于標(biāo)準(zhǔn)審核者,可以在標(biāo)準(zhǔn)文獻(xiàn)范圍內(nèi)容進(jìn)行對(duì)比的基礎(chǔ)上結(jié)合標(biāo)準(zhǔn)文獻(xiàn)內(nèi)容進(jìn)行相似度審查,為內(nèi)容審核提供參考;對(duì)于標(biāo)準(zhǔn)使用者,可以提高用戶(hù)搜索的深度、廣度和精確度,便于標(biāo)準(zhǔn)文獻(xiàn)知識(shí)的充分應(yīng)用。
圖5 標(biāo)準(zhǔn)文獻(xiàn)范圍和核心技術(shù)要素部分知識(shí)組織示例
本研究提出了標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜的構(gòu)建方法,通過(guò)剖析標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)和文本特征,將標(biāo)準(zhǔn)文獻(xiàn)知識(shí)進(jìn)行“切片”,細(xì)化了標(biāo)準(zhǔn)文獻(xiàn)知識(shí)粒度,建立知識(shí)間語(yǔ)義關(guān)聯(lián)關(guān)系,進(jìn)行標(biāo)準(zhǔn)文獻(xiàn)知識(shí)重組,實(shí)現(xiàn)了標(biāo)準(zhǔn)文獻(xiàn)從文檔單元向知識(shí)單元的轉(zhuǎn)化,借助知識(shí)圖譜從而挖掘出新的知識(shí)關(guān)聯(lián)關(guān)系,并初步探析了所構(gòu)建知識(shí)圖譜的應(yīng)用價(jià)值,為標(biāo)準(zhǔn)文獻(xiàn)知識(shí)組織和數(shù)字化發(fā)展提供了思路?,F(xiàn)階段所提出的標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜構(gòu)建方法實(shí)現(xiàn)了標(biāo)準(zhǔn)文獻(xiàn)通用知識(shí)的細(xì)粒度處理,不過(guò)標(biāo)準(zhǔn)文獻(xiàn)中所包含的段落型長(zhǎng)文本涉及的領(lǐng)域知識(shí)的組織模式需要進(jìn)一步研究。