趙偉 張覽 望俊成
中國科學(xué)技術(shù)信息研究所 北京 100038
目前,隨著大數(shù)據(jù)的迅速發(fā)展,知識圖譜技術(shù)已成為科技文獻資源服務(wù)的重要創(chuàng)新手段。近年來不少機構(gòu)和學(xué)者投入到知識圖譜研究中,借助其強大的語義處理能力將領(lǐng)域知識有序地組織起來,揭示知識的整體關(guān)聯(lián)性,科技文獻知識圖譜得到了越來越多的重視[1]。然而,由于數(shù)據(jù)覆蓋不全、精確度不高、受概念范圍的影響等原因[2],很難規(guī)范科技文獻的實體及其關(guān)系,而且科技文獻還包括了前瞻性預(yù)測和猜想,甚至包括一些由于同行評議把關(guān)不嚴或認識不到位而產(chǎn)生的錯誤理解和闡釋,導(dǎo)致可視化結(jié)果與客觀事實不符,這也是知識圖譜技術(shù)在這些年無法在科技文獻領(lǐng)域獲得令人滿意的應(yīng)用的重要原因之一。
標準文獻作為十大科技文獻資源之一,蘊含著豐富的科技知識,既是標準的重要載體和表現(xiàn)形式,也是科研人員收集標準情報的主要來源[3]。其具有科技文獻的共性特點,還與其他科技文獻存在顯著不同,即標準文獻是基于具有可操作性的最低限制性要求而形成的,是真實可靠的。標準文獻知識圖譜屬于典型的領(lǐng)域知識圖譜,在規(guī)范且豐富的數(shù)據(jù)基礎(chǔ)上,建立起一套通用型規(guī)則抽取體系和可視化模型,實現(xiàn)全覆蓋和高質(zhì)量的標準領(lǐng)域知識圖譜,對于揭示標準知識的整體關(guān)聯(lián)性,為標準研究人員提供有組織的標準文獻知識集合,讓標準數(shù)據(jù)發(fā)揮更大的效用,具有重要的研究意義。
總體上,國外學(xué)者們圍繞標準文獻知識圖譜開展的研究并不多見,我國對標準文獻的相關(guān)研究陸續(xù)有了試驗探索。在早期的科學(xué)知識圖譜研究中,以標準文獻網(wǎng)絡(luò)的結(jié)構(gòu)特征為研究目標,多以引用關(guān)系為核心,以文獻計量學(xué)、社會網(wǎng)絡(luò)分析方法以及聚類等為研究方法進行分析[4-8]。這一階段的研究以建立標準間的鏈接網(wǎng)絡(luò)為主,尚未達到標準內(nèi)容知識元的粒度。隨著數(shù)據(jù)挖掘技術(shù)的運用和數(shù)字化的標準信息獲取手段的加強,學(xué)者們逐漸向標準知識關(guān)聯(lián)的領(lǐng)域深入研究。郭德華[9]指出應(yīng)根據(jù)標準文獻的知識關(guān)聯(lián)關(guān)系開展支持知識關(guān)聯(lián)檢索、動態(tài)跟蹤等功能的標準文獻知識鏈接服務(wù)。甘克勤等[10]基于K均值聚類算法、模糊C均值聚類算法等文本聚類方法應(yīng)用于標準文獻題錄數(shù)據(jù)并進行聚類試驗,結(jié)果表明在核心詞匯抽取的準確性上效果較好,但在分詞和聚類的準確
性上需進一步提升。語義網(wǎng)技術(shù)的推廣促進了知識服務(wù)的發(fā)展[11-12],在此浪潮下,潘薇[13]、甘克勤[14]、梁薇[15]、李抵非等[16]進一步圍繞語義網(wǎng)環(huán)境下的標準知識關(guān)聯(lián)的理論和方法開展了積極探索。然而總體上,標準文獻分析和知識關(guān)聯(lián)等的相關(guān)研究主要體現(xiàn)在基于傳統(tǒng)情報學(xué)、科學(xué)計量學(xué)的應(yīng)用,在內(nèi)容挖掘和知識圖譜的構(gòu)建應(yīng)用方面少有涉足。目前標準文獻的研究還存在一些制約因素,如標準文獻的非結(jié)構(gòu)化數(shù)據(jù)格式處理困難、標準文獻的信息組織模式不清晰和微觀分析方法與宏觀分析方法應(yīng)用不協(xié)調(diào)等。已有標準間關(guān)系的抽取深度和廣度還不夠,并在很大程度上影響著知識圖譜構(gòu)建最終的效果。因此,有待對標準文獻的要素及其知識抽取方面開展更多探索。
在當(dāng)今知識經(jīng)濟時代,標準反映了該國的經(jīng)濟、技術(shù)和生產(chǎn)水平,其重要性日益凸顯。標準文獻作為標準的重要信息載體和表現(xiàn)形式,概念分為狹義和廣義兩種。狹義的標準文獻是指由技術(shù)標準、管理標準、工作標準及其他具有標準性質(zhì)的規(guī)范性文件所組成的一種特定形式的科技文獻體系,簡稱標準;廣義的標準文獻指與標準化活動有關(guān)的所有文獻,除了狹義概念下的各類標準外,還包括標準分類資料、標準檢索工具、標準化期刊、標準化專著、標準化手冊、定制圖冊等其他出版物。
標準文獻作為一種特殊的文獻,除具有一般科技文獻的屬性和作用外,其自身在結(jié)構(gòu)、形式、內(nèi)容、制定及適用范圍等方面均具有獨特而明顯的特點[17],具體表現(xiàn)在:(1)具有法律約束力。標準是參與生產(chǎn)工作、管理、設(shè)計制造的準入門檻和遵守依據(jù),標準化法明確規(guī)定必須執(zhí)行強制性標準,鼓勵自愿采用推薦性標準。(2)具有統(tǒng)一的產(chǎn)生過程和專門的編寫格式。國家設(shè)立了標準制修訂的流程規(guī)范,專門規(guī)定了標準文獻的編排格式,并設(shè)有固定的代號。(3)具有時效性。標準文獻通常情況下代表了底線和門檻,起到準入作用,其目的是確保規(guī)格或安全。隨著經(jīng)濟發(fā)展、標準化對象的變化和科學(xué)技術(shù)水平的提高,標準文獻也要不斷更新?lián)Q代,因而產(chǎn)生了廢止無效的標準文獻。(4)具有明確的適用范圍和用途。標準文獻的“范圍”結(jié)構(gòu)概括了該篇標準的適用范圍和不適用范圍,簡明扼要地說明了標準化對象和要解決的問題。(5)不同種類和級別的標準在不同范圍內(nèi)貫徹執(zhí)行。
標準知識元和知識關(guān)聯(lián)模式是識別、研究和應(yīng)用標準知識的基本出發(fā)點。構(gòu)建標準文獻知識圖譜,需要對標準文獻的組成要素、層次和知識關(guān)聯(lián)邏輯進行分析,進而確定標準文獻文本特征的抽取任務(wù)和模型選擇。因此,標準文獻的結(jié)構(gòu)解析是采用知識圖譜對其進行表達的基礎(chǔ)。
標準要素是組成標準文獻的基本單元,標準文獻的內(nèi)容都是由各種要素構(gòu)成的。根據(jù)GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》,標準要素的劃分有3種方式。依據(jù)要素的性質(zhì),可將標準中的要素劃分為“規(guī)范性要素”和“資料性要素”;依據(jù)要素在標準中所處的位置,標準要素可劃分四類:“規(guī)范性一般要素”“規(guī)范性技術(shù)要素”和“資料性概述要素”“資料性補充要素”[18]如表1所示。
表1 標準的要素
規(guī)范性要素不一定是必備要素,資料性要素也可能是可選要素,這幾個概念間具有交叉關(guān)系。要實現(xiàn)標準文獻知識圖譜,數(shù)據(jù)內(nèi)容必須覆蓋所有必備要素、規(guī)范性技術(shù)要素、部分規(guī)范性一般要素和部分資料性規(guī)范性要素。因此,標準文獻實體應(yīng)在標準封面、前言、范圍、規(guī)范性引用文件等部分進行抽取。
標準的層次劃分和設(shè)置采用部分、章、條、段、列項和附錄的形式[18],如表2所示,對任何一份標準來說,其編排都至少要有章、條、段三個層次,其編排方式為層層嵌套。
表2 標準的層次
知識具有關(guān)聯(lián)屬性,標準文獻之間的知識關(guān)聯(lián)是各標準文獻知識元之間存在的各種關(guān)系的總和。研究標準文獻的關(guān)聯(lián),可以使各知識元形成系統(tǒng)的知識關(guān)聯(lián)網(wǎng)絡(luò),發(fā)現(xiàn)其潛在的邏輯關(guān)系[18],有助于加強對標準文獻的利用,便于使用者快速準確地獲取技術(shù)標準中的技術(shù)知識。
知識按可被直接獲取和理解的程度可劃分為顯性知識及隱性知識。標準文獻的顯性知識又可分為直接關(guān)系和間接關(guān)系,直接關(guān)系指兩份標準之間通過一條通路即可連接的關(guān)系,通常包含引用關(guān)系、采用關(guān)系、修改關(guān)系和代替關(guān)系。其中引用關(guān)系類似于學(xué)術(shù)論文中的引用關(guān)系,可以解釋標準技術(shù)發(fā)展的脈絡(luò);采用關(guān)系是標準文獻特有的關(guān)系,它反映了一國標準在其他國家和地區(qū)標準化領(lǐng)域的影響力。間接關(guān)系則指兩份標準之間通過一個或多個連接點建立的關(guān)系,這個連接點通常表現(xiàn)為歸口單位、提出單位、起草單位和起草人等。
除了諸如相互引用和采用之類的顯性關(guān)聯(lián)外,標準文獻還可以通過主題內(nèi)容關(guān)系鏈接在一起,以形成不易直接發(fā)現(xiàn)的隱性關(guān)聯(lián)。標準中的“范圍”部分可視為專利和論文的“摘要”部分,規(guī)定了該標準的適用范圍和標準化對象,這一篇章結(jié)構(gòu)蘊藏著豐富的標準信息,可視為多個關(guān)鍵詞的集合,同一領(lǐng)域內(nèi)的標準文獻可能共同對同一主題下的某些關(guān)鍵詞進行規(guī)范約束,跨領(lǐng)域之間的標準文獻也可能從該領(lǐng)域所屬的維度分別對某一項標準化對象設(shè)立標準規(guī)范。通過分析和發(fā)現(xiàn)標準文獻之間的隱性關(guān)聯(lián),可以獲得大量潛在的隱藏知識,從而使標準文獻可以創(chuàng)造更大的價值。
標準文獻知識效用的最大化取決于從整體上對相互關(guān)聯(lián)的各類標準知識進行系統(tǒng)、靈活的應(yīng)用。因此首要解決的是獲取多個標準文獻知識之間的關(guān)系,其次將其分解為知識單元并進行知識鏈接,最后用知識圖譜進行表達。
本文從細粒度知識單元視角出發(fā),通過對標準文獻邏輯結(jié)構(gòu)的分析,提出了用于描述標準文獻知識的知識單元五元組(E,A,R,T,H),并結(jié)合科技文獻的資源語義空間的描述[19]提出了標準文獻知識圖譜RDM模型(Resource-Description-Mapping,資源—描述—映射),模型如圖1所示。該模型由文獻資源、知識單元描述和知識單元映射三個層面支撐并連接起整個標準文獻的知識圖譜。正如前文所述,知識圖譜通過三元組(實體—屬性—屬性值)和實體—關(guān)系—實體的形式表達知識。這一方式同樣適用于標準文獻的知識表示,標準文獻的實體可從顯性特征和隱性特征兩方面表示,顯性標準實體即為常規(guī)的易于判別的實體,這些實體的確定依賴于標準文獻嚴格劃一、有規(guī)律的描述風(fēng)格;隱性標準實體指的是通過自然語言處理,將隱性知識顯性化得到的那些實體,而顯性標準實體和隱性標準實體的分布又依賴于標準文獻嚴格的編排體系。
圖1 標準文獻知識圖譜RDM模型
因此,本文提出的標準知識單元五元組與知識圖譜三元組存在重合的要素,但是通過知識單元五元組進行描述是為了更準確、更全面地表示實體關(guān)系,最終的知識表示方式仍然符合知識圖譜的三元組的邏輯。首先,標準文獻的內(nèi)容由多個知識單元組成,多個知識單元之間的不同組配方式又能反過來表示標準文獻要素;其次,利用人工或半人工、自動的抽取方法提取標準知識內(nèi)容中所包含的主題知識;最后,將這些具有實體概念意義的標準知識單元通過知識鏈接的方式映射到知識圖譜的實體關(guān)系表達上,這樣就建立了多層次關(guān)聯(lián)關(guān)系,形成標準文獻知識圖譜。
標準文獻知識圖譜RDM模型由SLR、KuD和KuM三要素構(gòu)成,模型可表示為:
第一層為標準文獻資源層SLR(Standard Literature Resource),表示該模型所組織的標準文獻資源集合。通常按照標準文獻主題內(nèi)容所屬學(xué)科和標準化專業(yè)領(lǐng)域進行組織,本研究依據(jù)國際標準分類法(ICS)和中國標準文獻分類法(CCS)劃分標準文獻資源層級。
第二層為標準文獻知識單元描述層KuD(Description of Knowledge unit),表示從標準文獻資源中抽取出的知識單元Ku(Knowledge unit)經(jīng)過描述與表示后所形成的集合。本研究使用標準文獻知識單元五元組來描述標準文獻的基本屬性:
其中,Ku代表標準文獻知識單元;E為標準知識單元的實體(Entity);A(Attribute)為標準知識單元的屬性集合,包括:標準編號、標準名稱、發(fā)布時間等;R(Relation)為標準知識單元之間的關(guān)系,包括代替關(guān)系、引用關(guān)系以及主題關(guān)聯(lián)關(guān)系等顯性關(guān)系和隱性關(guān)系;T(Topic)為描述標準知識單元主題的主題概念集合;H(Hierarchy)為標準文獻的要素層次結(jié)構(gòu),是不同知識單元在標準文獻內(nèi)的分布位置。
第三層為標準文獻知識單元映射層KuM(Mapping of Knowledge unit),表示若干個知識單元所構(gòu)建的知識圖譜,表示為:
Tc表示標準知識的主題概念集合,每一個節(jié)點代表著一個標準知識單元的主題概念,由多個關(guān)鍵詞組成;Ec表示標準文獻實體集合,每一個節(jié)點代表一個標準知識單元的實體概念;Rtc表示標準知識單元主題概念之間的關(guān)系集合,每一個語義關(guān)系可被描述為一個標準三元組(tci,tcj,rtc),tci和tcj分別為兩個標準主題概念,rtc表示兩個主題之間的關(guān)系;Rec表示標準知識單元主題概念與實體之間的關(guān)系集合,同標準主題概念間關(guān)系一樣,每一個關(guān)系可描述為一個標準三元組(eci,tci,rec),eci為第i個標準實體,tci為第i個標準知識單元的主題概念,rec表示標準實體與主題概念之間的關(guān)系。
本研究設(shè)計的標準文獻知識圖譜RDM模型核心在于知識單元五元組的解構(gòu),將實體E之間的關(guān)聯(lián)關(guān)系進行分解,以層次結(jié)構(gòu)H為骨架,分為顯性關(guān)聯(lián)和隱性關(guān)聯(lián)。其中顯性關(guān)聯(lián)主要,指通過實體屬性A和R建立的知識單元之間的鏈接,隱性關(guān)聯(lián)主要指通過主題T建立的知識單元之間的鏈接。如在“封面”部分,通常包含有屬性,如標準代碼、推薦等級、分類號等;在“前言”部分,通常包含實體,如采用標準、代替標準、提出單位、歸口單位、起草單位以及采用方式屬性;在“范圍”部分,包含由關(guān)鍵詞組成的主題要素;在“規(guī)范性引用”部分,包含引用文件實體及其代碼屬性,因此通過知識單元五元組可以比較充分的揭示標準文獻知識。
在前文所建立的RDM模型中,資源層和描述層可通過知識抽取來實現(xiàn),描述層和映射層可通過知識鏈接的方式來實現(xiàn),即RDM模型的建立過程主要包括標準文獻的知識抽取和知識鏈接兩個步驟,分別作用于不同的章節(jié)結(jié)構(gòu),從而建立起標準文獻的知識圖譜如圖2所示。
圖2 基于RDM模型的知識圖譜構(gòu)建的總體流程圖
(1)標準文獻知識抽取。根據(jù)不同知識單元在標準文獻內(nèi)所處的位置,分別利用規(guī)則抽取和LDA主題抽取方法,對標準的顯性知識和隱性知識單元進行匹配和抽取,形成標準文獻實體。
(2)標準文獻知識鏈接。對標準文獻知識單元之間相互鏈接所依靠的語義關(guān)系進行人工合并去重,再利用Neo4j數(shù)據(jù)庫將標準知識單元的各知識單元轉(zhuǎn)換到標準文獻知識圖譜中。
其中,如前文所述,在知識抽取的過程中,本文基于規(guī)則方法進行標準文獻顯性知識抽取,基于LDA主題模型進行隱性知識抽取。對于顯性知識而言,由于其存在于標準封面和標準前言中,組織方式相對規(guī)范,因此適合用基于規(guī)則的方法進行信息抽取。對于隱性知識而言,其存在于標準文獻正文中,相較于其他知識更加復(fù)雜,無法用規(guī)則抽取的方式得到合適的描述字段。而LDA是一種文檔主題生成模型,可以用來分析一篇文檔的若干主題分布,近幾年在情報學(xué)領(lǐng)域中得到了廣泛應(yīng)用,包括用于科技文獻文本分類、科學(xué)主題演化與科技文獻相似度計算等研究領(lǐng)域。標準文獻的初始文本是PDF格式的,屬于非結(jié)構(gòu)化數(shù)據(jù),需要先對初始文本做格式轉(zhuǎn)換,XML格式的數(shù)據(jù)是半結(jié)構(gòu)化,具有清晰的邏輯結(jié)構(gòu),便于后續(xù)操作,但要實現(xiàn)標準全文的三元組抽取還很困難。因此,可考慮將研究范圍限定在前言部分、范圍部分和規(guī)范性引用文件部分。從非結(jié)構(gòu)化表示的標準文獻中抽取出結(jié)構(gòu)化的實體屬性關(guān)系,并以三元組的形式存放到文件中,其研究成果可有助于標準知識庫構(gòu)建、標準搜索引擎和標準信息檢索的實現(xiàn)。因此,本文提出采用LDA主題模型進行隱性知識的抽取,數(shù)據(jù)范圍限定在“范圍”部分。
通過上述集成方法可實現(xiàn)與RDM模型的良好映射,它適用于標準這一特定領(lǐng)域。規(guī)則抽取技術(shù)成熟,通過人工定義模板可以保證準確性,在垂直領(lǐng)域中表現(xiàn)良好;而LDA技術(shù)不同于專門用于知識抽取的技術(shù),它是關(guān)鍵詞、主題詞抽取的主流技術(shù),LDA抽取的效果對標準主題的揭示更有說服力。因此,本文認為通過規(guī)則和LDA模型的知識抽取集成方法使基于標準文獻挖掘得到的關(guān)系是有用且有效的。
本文在解析標準文獻特征及內(nèi)容特點的基礎(chǔ)上,分解了標準知識結(jié)構(gòu),構(gòu)造了標準知識單元五元組 (E,A,R,T,H),并基于五元組設(shè)計了標準文獻知識圖譜RDM模型,從資源層、描述層和映射層解構(gòu)了標準知識圖譜構(gòu)建的理論模型。針對標準關(guān)聯(lián)關(guān)系的識別與挖掘,補充和拓展標準文獻知識關(guān)聯(lián)的相關(guān)研究。除了一般性的題錄關(guān)系,本研究進一步拓展的關(guān)系體現(xiàn)在兩點,即四種不同程度的相互采用的知識關(guān)聯(lián)關(guān)系和基于主題關(guān)聯(lián)維度的多元關(guān)系。標準文獻中“范圍”部分可視為論文文獻中的“摘要”,其中存在揭示主題內(nèi)容的信息,通過提取主題詞,挖掘標準實體和主題詞匯之間的語義關(guān)聯(lián)可以建立標準主題間的關(guān)系。
在此基礎(chǔ)上,進一步提出構(gòu)建RDM模型的集成方法,即RDM模型的建立過程主要包括標準文獻的知識抽取和知識鏈接兩個步驟,分別作用于不同的章節(jié)結(jié)構(gòu),從而建立起標準文獻的知識圖譜,有助于擴展實體關(guān)系類型。
需要指出的是,上述標準文獻知識圖譜的構(gòu)建研究仍處于初級階段,缺少高質(zhì)量語料庫,未實現(xiàn)基于機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)實現(xiàn)知識抽取。下一步可在現(xiàn)有研究的基礎(chǔ)上結(jié)合機器學(xué)習(xí)方法,選擇更加適合的實體關(guān)系抽取方法。