齊小英 丁子儀 楊海平
南海維權(quán)關(guān)乎國家安全、區(qū)域和平與亞太經(jīng)濟(jì)發(fā)展[1]。目前,南海問題的司法解決備受國際社會(huì)的關(guān)注,不僅關(guān)涉我國的主權(quán)利益,也影響著我國在國際社會(huì)中的國家形象。在“擱置爭議,共同開發(fā)”的原則下,我國也在逐步加強(qiáng)對國際海洋司法領(lǐng)域的參與度,而加快南海信息資源組織與證據(jù)鏈構(gòu)建進(jìn)程,有利于增強(qiáng)我國在南海國際司法上的裁判優(yōu)勢。
此外,隨著南海文獻(xiàn)資料的不斷擴(kuò)充,從法學(xué)、史學(xué)、地理學(xué)、文學(xué)、圖書館學(xué)、文獻(xiàn)學(xué)等學(xué)科視角對南海文獻(xiàn)資料進(jìn)行整理與發(fā)掘的研究越來越多,呈現(xiàn)出多學(xué)科融合的研究趨勢。加快南海文獻(xiàn)資料的信息組織工作是圖書館學(xué)和文獻(xiàn)學(xué)界義不容辭的責(zé)任。例如,1948年杜定友編撰的《東西南沙群島資料目錄》[2],1973年福建省圖書館編撰的《我國南海諸島資料聯(lián)合目錄》[3],1981年許崇灝和鄭資約等人續(xù)編的《瓊崖志略·南海諸島地理志略·東西南沙群島資料目錄·海南文獻(xiàn)目錄·中國南海諸群島文獻(xiàn)資料展覽目錄》合輯[4]以及1988年韓振華編著的《我國南海諸島史料匯編》[5]等都是這一領(lǐng)域較早期的學(xué)術(shù)成果,為后來的文獻(xiàn)整理和利用奠定了基礎(chǔ)。1994年李國強(qiáng)和寇俊敏編撰的《海南及南海諸島史地論著資料索引》[6]和1998年吳士存和沈固朝等人編撰的《南海資料索引》[7]等系統(tǒng)梳理了以往的南海研究文獻(xiàn),為當(dāng)前和今后的南海研究提供了重要的參考。隨著信息技術(shù)在各領(lǐng)域的應(yīng)用日益深化,數(shù)據(jù)庫開發(fā)成為文獻(xiàn)資料整理與發(fā)掘的新熱點(diǎn),數(shù)據(jù)庫也成為今后做南海文獻(xiàn)整理與組織的重要基礎(chǔ)性工具,如2015年廈門大學(xué)圖書館構(gòu)建的“東南海疆研究數(shù)據(jù)庫”[8]。中國南海研究協(xié)同創(chuàng)新中心構(gòu)建的“南海文庫數(shù)字資源庫”[9],則構(gòu)成了南海研究的文獻(xiàn)資源基礎(chǔ)。在大數(shù)據(jù)時(shí)代,隨著知識(shí)組織理論與技術(shù)的不斷發(fā)展,針對文獻(xiàn)的整理與發(fā)掘研究已經(jīng)從最初的書目情報(bào)研究發(fā)展到今天面向知識(shí)服務(wù)的領(lǐng)域知識(shí)體系構(gòu)建。圖情領(lǐng)域包括蔣永福[10]、侯漢清[11]以及蘇新寧[12]等在內(nèi)的許多學(xué)者的研究成果為領(lǐng)域主題詞表和知識(shí)體系的構(gòu)建等提供了借鑒和參考。
然而,由于南海文獻(xiàn)資料數(shù)量龐大且多源異構(gòu),現(xiàn)有南海研究成果以文獻(xiàn)資料的整理工作為主,未形成南海研究中標(biāo)準(zhǔn)且統(tǒng)一的描述邏輯、數(shù)據(jù)基礎(chǔ)與知識(shí)體系,無法實(shí)現(xiàn)南海文獻(xiàn)資料的有序化、結(jié)構(gòu)化與關(guān)聯(lián)化。因此,建立一套嚴(yán)謹(jǐn)準(zhǔn)確的領(lǐng)域主題詞表,是對南海文獻(xiàn)資源進(jìn)行知識(shí)組織與知識(shí)發(fā)現(xiàn)的重要基礎(chǔ)。為了梳理南海研究的底層概念,構(gòu)建其數(shù)據(jù)基礎(chǔ),呈現(xiàn)其知識(shí)脈絡(luò),本文以南海歷史事件、新聞數(shù)據(jù)及文獻(xiàn)資料為語料庫,進(jìn)行概念術(shù)語抽取及其詞間關(guān)系識(shí)別,構(gòu)建南海領(lǐng)域主題詞表。以期為南海文獻(xiàn)資料的智能化自動(dòng)標(biāo)引提供基本的規(guī)范化詞典,為文獻(xiàn)資料目錄的深度揭示和智能推薦提供依據(jù)。
目前,國內(nèi)外尚未有南海領(lǐng)域主題詞表的相關(guān)研究成果,“南?!迸c“南海諸島”等主題詞往往從屬于主題詞表中的地理科學(xué)[13]、海洋文化[14-16]、海洋科學(xué)[17,18]、水產(chǎn)漁業(yè)[19,20]等類目,例如我國《漢語主題詞表》[21]自然科學(xué)卷第4冊中“P722.7南?!睆膶儆凇癙7海洋學(xué)”,“S922.95南海水產(chǎn)資源”從屬于“S9水產(chǎn)、漁業(yè)”。不管是綜合主題詞表還是領(lǐng)域主題詞表,都較少收錄南海領(lǐng)域歷史、法律以及地理空間等主題詞。
詞表體系結(jié)構(gòu)的設(shè)計(jì)方法主要有自上而下、自下而上兩種。前者是根據(jù)詞表編制目的,首先建立頂層宏觀框架,隨后由頂層分類逐步分解出細(xì)分類別,是大粒度向小粒度分解的過程;后者是通過對領(lǐng)域概念與術(shù)語的歸類,梳理底層細(xì)分類別,并逐層聚類獲得更高級(jí)、更抽象的類目。實(shí)踐表明,主題詞表構(gòu)建是一個(gè)不斷迭代修正的過程,既需要頂層框架對詞表設(shè)計(jì)方向進(jìn)行宏觀控制,也需要根據(jù)細(xì)分類別的合理性調(diào)整詞表結(jié)構(gòu)。國內(nèi)學(xué)者編制的敦煌壁畫敘詞表[22]、文物保護(hù)主題詞表[23]、民國抗戰(zhàn)史主題詞表[24]以及電子信息技術(shù)主題詞表[25]等結(jié)構(gòu)設(shè)計(jì)都采用了自上而下和自下而上相結(jié)合的方法。本文在南海領(lǐng)域主題詞表結(jié)構(gòu)設(shè)計(jì)中也采用二者相結(jié)合的方法。
在主題詞和詞間關(guān)系識(shí)別方面,國際標(biāo)準(zhǔn)ISO-25964提供了一個(gè)主題詞表的數(shù)據(jù)模型和XML模式,包括主題詞表概念、主題詞表術(shù)語、主題詞表注釋以及概念之間的關(guān)系[26]。主題詞識(shí)別的主要方法有依存句法分析法[27]、互信息和TF-IDF[28,29]、無監(jiān)督和有監(jiān)督的機(jī)器學(xué)習(xí)[30-33]等。在上下位關(guān)系識(shí)別方面,常用方法有字面成族[34]和共現(xiàn)聚類[35]兩種;在同義關(guān)系識(shí)別方面,有同義詞詞典、模式匹配、字面相似度以及概念關(guān)系識(shí)別模型等方法[36,37]。但是,現(xiàn)有方法對領(lǐng)域的未登錄詞識(shí)別不夠準(zhǔn)確,主題詞和詞間關(guān)系識(shí)別過程中也未考慮主題詞對領(lǐng)域的指示度。
基于此,本文引入分面分類法設(shè)計(jì)詞表結(jié)構(gòu)[38],利用深度學(xué)習(xí)技術(shù)和互信息等方法構(gòu)造候選詞集和未登錄詞以構(gòu)建南海領(lǐng)域主題詞表。
南海領(lǐng)域主題詞表是南海文獻(xiàn)資源組織的規(guī)范受控詞表,能夠?yàn)槟虾N墨I(xiàn)資源的知識(shí)元語義標(biāo)注、抽取、加工、挖掘與集成提供統(tǒng)一的、標(biāo)準(zhǔn)的描述。該詞表面向南海領(lǐng)域,從多角度描述領(lǐng)域內(nèi)細(xì)分概念及其關(guān)系,具有專有性、細(xì)粒度、高維度等特點(diǎn)。根據(jù)南海領(lǐng)域主題詞表的建表需求與特點(diǎn),本文提出南海領(lǐng)域主題詞表設(shè)計(jì)流程如圖1所示。(1)主題詞表中的主題詞是對候選詞進(jìn)行歸類、定義、結(jié)構(gòu)化以及校對的結(jié)果,而語料庫是候選詞的主要來源。通過搜集國內(nèi)外南海相關(guān)歷史事件、文獻(xiàn)摘要與新聞文本,建立專有的、完備的南海語料庫,為詞表的建立提供完整可靠的數(shù)據(jù)基礎(chǔ)。(2)設(shè)計(jì)基于分面分類法的南海領(lǐng)域主題詞表頂層框架,建立南海領(lǐng)域特征的多維概念描述,克服先組式主題詞表結(jié)構(gòu)的缺點(diǎn),形成滿足多元表達(dá)與多維關(guān)聯(lián)需求的主題詞表邏輯結(jié)構(gòu)。(3)以南海歷史事件為樣本,構(gòu)造南海領(lǐng)域的自定義語義詞典,確定詞匯邊界,為實(shí)體抽取提供依據(jù);提出細(xì)粒度候選詞抽取規(guī)則,對文獻(xiàn)摘要及新聞文本進(jìn)行候選詞提取,獲得候選詞集。(4)根據(jù)南海領(lǐng)域特征制定主題詞選詞原則,結(jié)合專家咨詢確定主題詞表候選詞集。(5)采用后組式標(biāo)引代替先組式標(biāo)引,采用共現(xiàn)聚類法識(shí)別候選詞集中的詞間關(guān)系。根據(jù)聚類結(jié)果,確定更深層級(jí)的細(xì)化類目,擴(kuò)展詞表結(jié)構(gòu),獲得南海領(lǐng)域主題詞表。
圖1 南海領(lǐng)域主題詞表的構(gòu)建流程
考慮到南海研究的學(xué)術(shù)性、權(quán)威性、客觀性與嚴(yán)謹(jǐn)性,本文從中國南海網(wǎng)、中國南海研究院、中國南海研究協(xié)同創(chuàng)新中心以及南海文庫(南京大學(xué))爬取了相關(guān)的歷史事件、文獻(xiàn)摘要與新聞文本作為語料來源。歷史事件是已經(jīng)發(fā)生的事實(shí),反映南海歷史主權(quán)的發(fā)展過程,物體、主體、時(shí)間、空間等元素往往依附于特定歷史事件,是串聯(lián)各概念、主題、實(shí)例的重要橋梁。因此,歷史事件中包含了與南海高度相關(guān)的詞匯。利用歷史事件構(gòu)造語義詞典,可以為候選詞的抽取提供訓(xùn)練樣本與參考依據(jù)。文獻(xiàn)資料(僅搜集摘要)是對有歷史價(jià)值與研究價(jià)值的對象與實(shí)體的意義表達(dá)和記錄,是名詞、數(shù)詞、方位詞等實(shí)體詞的重要來源。新聞數(shù)據(jù)是時(shí)事熱點(diǎn)的實(shí)時(shí)記錄,同時(shí)也表達(dá)了官方、機(jī)構(gòu)、團(tuán)體的主流觀點(diǎn),是經(jīng)過提煉、篩選、關(guān)聯(lián)化、結(jié)構(gòu)化的語料。文獻(xiàn)摘要與新聞數(shù)據(jù)是候選詞的來源。本文共搜集語料數(shù)據(jù)5664篇,其中,歷史事件421個(gè)、文獻(xiàn)摘要2843篇、新聞數(shù)據(jù)2400個(gè),基本信息如表1所示。
表1 語料庫
首先采用分詞技術(shù)獲得南海領(lǐng)域的主題詞分布特征,構(gòu)造南海領(lǐng)域詞典。以歷史事件作為樣本,對421個(gè)事件的文本進(jìn)行常規(guī)語義下的詞性標(biāo)注,并根據(jù)分詞結(jié)果對詞典進(jìn)行迭代修正。在此過程中發(fā)現(xiàn),初始分詞結(jié)果的準(zhǔn)確率僅為62%,表明了南海領(lǐng)域的主題詞分類具有自身特殊性。對錯(cuò)誤詞分析發(fā)現(xiàn),分詞算法對島礁名稱、主體、會(huì)議、條約、國家判例、地圖名稱等南海領(lǐng)域?qū)S性~匯識(shí)別效果不佳,應(yīng)在主題詞表框架設(shè)計(jì)中充分考慮這些特殊主題。為了充分識(shí)別特殊主題的專有詞匯,通過在詞典中補(bǔ)充相關(guān)詞匯并定義特殊規(guī)則來識(shí)別文本中的條約、會(huì)議、判例、地圖等名詞,實(shí)現(xiàn)自定義詞典更新。抽取規(guī)則及更新后的自定義詞典分別如表2和圖2所示。各詞典包含詞匯數(shù)量分別為:南海島礁詞310個(gè),主權(quán)行為詞310個(gè),會(huì)議詞81個(gè),條約詞60個(gè),判例詞70個(gè),地圖詞59個(gè)。
表2 抽取規(guī)則
圖2 自定義詞典(部分)
本文采用分面分類法構(gòu)造南海領(lǐng)域主題詞表頂層框架,邏輯關(guān)系結(jié)構(gòu)如圖3所示,其基本思想是將復(fù)雜概念分解為若干個(gè)簡單概念,即組面與類目,通過組配若干個(gè)組面或類目綜合表達(dá)一個(gè)復(fù)雜的主題。
圖3 南海領(lǐng)域主題詞表的邏輯關(guān)系結(jié)構(gòu)
根據(jù)SPO(Subject Prediction Object)三元組理論[38],“主-謂-賓”結(jié)構(gòu)是表示知識(shí)單元和語義關(guān)系的有效方式。然而,南海領(lǐng)域研究具有跨學(xué)科屬性,且南海歷史事件、新聞、文獻(xiàn)研究往往圍繞特定資源、島礁、邊界線展開,基于傳統(tǒng)三元組結(jié)構(gòu)的分類方式粒度較粗,無法反映南海領(lǐng)域的多維概念。因此,本文根據(jù)南海領(lǐng)域研究的需求與特征,進(jìn)一步加入資源維度、主題維度與空間維度,確立主體、行為、物體、資源、主題和空間六個(gè)分面,以架構(gòu)南海領(lǐng)域的知識(shí)語義關(guān)系,其結(jié)構(gòu)如圖4所示。各分面內(nèi)涵具體描述如下:
圖4 南海領(lǐng)域主題詞表的頂層框架結(jié)構(gòu)
(1)主體。南海文獻(xiàn)資料中涉及較多重要的專有名詞,這些名詞在知識(shí)單元中充當(dāng)主語或者賓語的角色。其中,“主體”是歷史事件的發(fā)起者或參與者。除了常見類目“人物”“組織”“國家”以外,對分詞識(shí)別精度較低的主題詞進(jìn)行統(tǒng)計(jì)分析,得到“島嶼”“會(huì)議”“機(jī)艦”“港口”類目。這些類目體現(xiàn)了南海領(lǐng)域區(qū)別于其他領(lǐng)域的特征。
(2)物體。“物體”主要指南海海域內(nèi)的實(shí)體。在南海維權(quán)視角下,特指文物、界碑、建筑以及設(shè)備。這些實(shí)體背后記錄了各國在南?;顒?dòng)的歷史痕跡。
(3)行為。南海領(lǐng)域事件是發(fā)生在某個(gè)特定的時(shí)間點(diǎn)或時(shí)間段、某個(gè)特定的南海地域范圍內(nèi),由一個(gè)或者多個(gè)角色參與的、一個(gè)或者多個(gè)動(dòng)作組成的事情或者狀態(tài)的改變,是南海歷史的重要構(gòu)成。而事件文本中的謂語動(dòng)詞即事件觸發(fā)詞是區(qū)分主體立場、確定事件性質(zhì)的重要依據(jù)。這些觸發(fā)詞代表相應(yīng)的南海領(lǐng)域“行為”,即主體為實(shí)現(xiàn)某種目標(biāo)而組織的各類軍事、政治、經(jīng)濟(jì)、文化領(lǐng)域的活動(dòng)。例如,1933年4月,法國侵占了我南沙群島南威島附近各小島。“侵占”這一事件觸發(fā)詞反映了此事件屬于軍事活動(dòng)。1951年9月18日,周恩來總理兼外交部長代表中國政府鄭重聲明,舊金山對日和約由于沒有中華人民共和國參加、準(zhǔn)備、擬制和簽訂,中國政府認(rèn)為是非法的、無效的,因而是絕對不能承認(rèn)的?!奥暶鳌边@一事件觸發(fā)詞則反映了此事件屬于政治活動(dòng)。
(4)資源?!百Y源”既包括物理層面的人工資源和自然資源,也包括社會(huì)層面的信息資源。人工資源是各國在南海海域開展活動(dòng)的產(chǎn)物,如人工島礁、軍火資源以及貿(mào)易資源等;自然資源則是各國爭奪南海主權(quán)的動(dòng)因之一,主要包括礦產(chǎn)資源、植物資源以及動(dòng)物資源等;信息資源是南?;顒?dòng)積累起來的信息要素,包括條約判例、檔案照會(huì)、法律法規(guī)、圖書報(bào)紙、文獻(xiàn)資料、圖像、地圖以及音頻視頻等。
(5)主題?!爸黝}”分面用于區(qū)分南海相關(guān)概念的學(xué)科歸屬,除了包括與南海直接相關(guān)的歷史學(xué)、政治學(xué)、外交學(xué)、法學(xué)、軍事學(xué)、圖書情報(bào)與檔案管理學(xué)等人文社會(huì)科學(xué)領(lǐng)域外,還包括地理學(xué)、海洋科學(xué)、天文學(xué)、地質(zhì)學(xué)等相關(guān)自然科學(xué)領(lǐng)域。前者主要研究南海領(lǐng)土劃分、主權(quán)歸屬與信息資源管理等主題,后者則側(cè)重南海自然資源環(huán)境等問題。
(6)空間。本文將國界線、九段線(南海斷續(xù)線)、航海線、航空線、貿(mào)易線以及行程線作為獨(dú)立于“主體”分面的“空間”分面,強(qiáng)調(diào)這些分界線與行程線在領(lǐng)土劃分中的參考價(jià)值。
上述邏輯關(guān)系結(jié)構(gòu)區(qū)別于現(xiàn)有基于學(xué)科類別的傳統(tǒng)分類體系,是具有南海領(lǐng)域特色的主題詞表結(jié)構(gòu)。
根據(jù)獲得的語義詞典對文獻(xiàn)資料及新聞文本進(jìn)行候選詞抽取,構(gòu)造候選詞集,隨后根據(jù)南海領(lǐng)域研究需求設(shè)立選詞標(biāo)準(zhǔn),確定主題詞。
4.4.1 候選詞識(shí)別
(1)文獻(xiàn)數(shù)據(jù)的候選詞識(shí)別
考慮到文獻(xiàn)數(shù)據(jù)龐大,為了提高候選詞的識(shí)別精度、平衡全面性與準(zhǔn)確性,本文將文獻(xiàn)數(shù)據(jù)分兩部分進(jìn)行候選詞抽取。第一,由于南海領(lǐng)域的文獻(xiàn)資料具有一定的法律和證據(jù)屬性,本文首先人工篩選793篇權(quán)威法律學(xué)科文獻(xiàn)進(jìn)行知識(shí)單元分解與人工標(biāo)注,獲得較小樣本下候選詞識(shí)別結(jié)果,防止樣本量過大引起的識(shí)別結(jié)果分散性。知識(shí)單元分解時(shí),將文獻(xiàn)全文文本以句號(hào)為切分點(diǎn),利用BERT+BiLSTM+CRF模型對知識(shí)單元進(jìn)行實(shí)體抽取。根據(jù)上述流程,共識(shí)別命名實(shí)體2825個(gè),經(jīng)過去重處理后得到候選詞1269個(gè),其中國家和人物類詞匯369個(gè),事件類詞匯214個(gè),條約和會(huì)議類詞匯307個(gè),時(shí)間類詞匯69個(gè),島礁類詞匯310個(gè)。第二,進(jìn)一步以所有文獻(xiàn)數(shù)據(jù)為對象開展詞頻統(tǒng)計(jì)分析,共獲得5090個(gè)詞匯。其中,詞頻大于150的高頻詞匯共14個(gè),頻次最高的3個(gè)關(guān)鍵詞依次為“南海”(1033)、“主權(quán)”(315)、“爭端”(280);中頻詞(3≤詞頻≤150)與低頻次(詞頻≤3)的數(shù)量分別為1502個(gè)與3574個(gè)。為了實(shí)現(xiàn)候選詞的語用和語義價(jià)值,選擇中頻詞進(jìn)一步豐富候選詞集。
(2)新聞數(shù)據(jù)的未登錄詞識(shí)別
采用基于SNS(Social Network Sites)的文本數(shù)據(jù)挖掘技術(shù)對新聞文本進(jìn)行成詞提取,并通過與候選詞集對比獲得未登錄詞(即沒有被收錄在詞表中但需要發(fā)現(xiàn)出來的詞)?;赟NS的文本數(shù)據(jù)挖掘技術(shù)[39]利用信息熵和互信息判斷某一個(gè)單詞的成詞概率?!靶畔㈧亍焙汀盎バ畔ⅰ倍紒碓从谙戕r(nóng)的信息論,以單詞為例,“信息熵”主要表示一個(gè)單詞成詞的概率,成詞概率越大,它的不確定度就越小,那么它的信息量就小;而“互信息”用于測度兩個(gè)單詞的相關(guān)性,可以理解為某一個(gè)單詞中包含的關(guān)于另一個(gè)單詞的信息量,信息量越小,它的不確定度就越小,那么它們的成詞概率就越大。
本文采用信息熵主要計(jì)算單詞和其左右字搭配的自由度,即左信息熵和右信息熵,其計(jì)算方法[40]如公式(1)和(2)所示。采用互信息計(jì)算單詞的內(nèi)部凝固度,其計(jì)算方法[41]如公式(3)所示。之后,對左右信息熵和互信息值進(jìn)行求和,通過設(shè)置一定的實(shí)驗(yàn)閾值獲得成詞結(jié)果。如果一個(gè)單詞左右信息熵都高(表示其與左右詞匯搭配豐富),并且內(nèi)部凝固度也非常高(表示其單詞內(nèi)部固定),則表明這個(gè)單詞成詞的概率較大。
其中:sl是單詞w的左鄰接字集合;wl是sl中的元素;sr是w的右鄰接字集合;wr是sr中的元素。如果單詞的左右熵都較大,則說明與該單詞搭配的左右相鄰的字集合比較豐富,單詞與相鄰字集合構(gòu)成詞的概率較低。如果單詞的左右熵中有一個(gè)較小,則表示與該單詞搭配的相鄰字集合頻率分布并不均勻,此時(shí),單詞與相鄰頻率較高的字集合組成詞的概率較高。
其中,MI表示互信息值,p(x,y)表示兩個(gè)相鄰單詞x和y共同出現(xiàn)的概率,p(x)和p(y)表示單詞x和單詞y單獨(dú)出現(xiàn)的概率。MI越大,說明單詞x和y的內(nèi)部凝固度越大,單詞x和y構(gòu)成詞的概率越大。
基于上述原理計(jì)算2400個(gè)新聞數(shù)據(jù)的左信息熵、右信息熵以及內(nèi)部凝固度以獲得成詞集合。實(shí)驗(yàn)參數(shù)如表3所示,實(shí)驗(yàn)結(jié)果如表4所示。經(jīng)過與候選詞集的對比、篩選和去重之后,最終獲得的未登錄詞如表5所示。綜合上述,從文獻(xiàn)數(shù)據(jù)及新聞文本中共抽取候選詞2788個(gè)。
表3 基于SNS的文本數(shù)據(jù)挖掘模型參數(shù)
表4 成詞提取結(jié)果
表5 未登錄詞
4.4.2 主題詞確定
根據(jù)宜實(shí)不宜虛、范圍宜小不宜大、構(gòu)成宜短不宜長、時(shí)效宜新不宜舊、交叉組配法、語義、語法、可獲得性、互操作性等原則[42,43],本文從詞義、詞性、詞長、詞用4個(gè)方面對主題詞的重要性與合理性進(jìn)行定量表示,提出南海文獻(xiàn)資料實(shí)體選詞標(biāo)準(zhǔn)如表6所示。其中,詞義、詞用分別反映主題詞的概念明確性與相關(guān)性,詞性及詞長則分別反映特定術(shù)語充當(dāng)主題詞的易用性與代表性。
根據(jù)選詞標(biāo)準(zhǔn)對所獲得的2788個(gè)候選詞進(jìn)行篩選和歸類,當(dāng)候選詞有多重語義關(guān)系時(shí),利用組配規(guī)則進(jìn)行標(biāo)引。隨后,由領(lǐng)域?qū)<覍π略鲂g(shù)語進(jìn)行審核,保留合格詞匯,刪除不合格詞匯,最終確定主題詞2744個(gè)。
4.4.3 “行為”細(xì)分類目確定
正如前述,“行為”細(xì)分類目被劃分為各類軍事、政治、經(jīng)濟(jì)、文化領(lǐng)域的活動(dòng)。本文采用共現(xiàn)聚類法對“行為”主題詞進(jìn)行詞間關(guān)系識(shí)別以確定具體類目,具體流程為:(1)選取特定分面、類目中的主題詞為詞間關(guān)系分析對象,建立共現(xiàn)矩陣;(2)通過聚類分析,獲得主題詞之間的鏈接強(qiáng)度;(3)以鏈接強(qiáng)度作為主題詞之間的關(guān)聯(lián)強(qiáng)度。根據(jù)聚類結(jié)果并輔以人工干預(yù),得到不同領(lǐng)域的7個(gè)細(xì)分類目,如表7所示。其中,政治活動(dòng)分為“管轄”“表態(tài)或說明”“司法”3個(gè)子類目;經(jīng)濟(jì)活動(dòng)分為“開發(fā)”與“貿(mào)易”2個(gè)子類目。詞匯鏈接強(qiáng)度結(jié)果如表8所示,其中,鏈接強(qiáng)度排名前三的“聲明”“舉行”“磋商”均屬于政治活動(dòng),分別歸屬于“表態(tài)或說明”“管轄”“司法”子類目;鏈接強(qiáng)度排名第四的“侵占”則屬于“軍事活動(dòng)”。由此可見,政治活動(dòng)和軍事活動(dòng)數(shù)量較多,這與南?,F(xiàn)狀較為一致,進(jìn)一步反映了本文“行為”細(xì)分類目劃分的合理性。在避免概念碎片化的基本原則下,采用機(jī)器輔助的半自動(dòng)協(xié)同編制策略結(jié)合三輪專家咨詢,完成了南海領(lǐng)域主題詞表的構(gòu)建,其規(guī)模如表9所示。根據(jù)主題詞表的各細(xì)分類目,可以對特定南海詞匯進(jìn)行多維描述,具體標(biāo)引示例如表10所示。
表7 共現(xiàn)聚類結(jié)果
表8 鏈接強(qiáng)度大于30的“行為”主題詞
表9 南海領(lǐng)域主題詞表規(guī)模
表10 南海領(lǐng)域主題詞標(biāo)引示例
根據(jù)南海領(lǐng)域主題詞表進(jìn)一步構(gòu)建本體模型,實(shí)現(xiàn)詞表的可視化,并針對主體、行為、物體、空間等分面定義概念類以及子類,根據(jù)分面下屬類目定義對象屬性和數(shù)據(jù)屬性。流程為:(1)根據(jù)類目主題詞定義屬性值域及關(guān)聯(lián)范圍,生成關(guān)聯(lián)標(biāo)簽;(2)根據(jù)關(guān)聯(lián)標(biāo)簽,進(jìn)行復(fù)合維度標(biāo)簽的語義關(guān)聯(lián),形成本體模型;(3)加載主題詞表本體模型(rdf格式)。根據(jù)這一流程,得到南海領(lǐng)域主題詞表的本體模型(局部)如圖5所示,其命名空間(NameSpace)如圖6所示。
圖5 南海領(lǐng)域主題詞表本體模型(局部)
圖6 命名空間(部分)
在南海局勢司法化與國際化趨勢下,梳理南海領(lǐng)域核心概念與知識(shí)脈絡(luò)是我國南海重大戰(zhàn)略的迫切需求。本文圍繞南海領(lǐng)域主題詞表開展研究,構(gòu)建南海文獻(xiàn)資源組織的底層描述邏輯。所建立的主題詞表涵蓋了南海歷史性主權(quán)、法理維權(quán)、地名考證、地學(xué)分析、資源開發(fā)、歷史考古、多模態(tài)數(shù)據(jù)融合等南海相關(guān)研究視角,可促進(jìn)南海領(lǐng)域細(xì)粒度元數(shù)據(jù)描述、領(lǐng)域知識(shí)圖譜構(gòu)建等研究創(chuàng)新,加快南海信息資源組織以及南海知識(shí)發(fā)現(xiàn)的語義化進(jìn)程,推動(dòng)信息組織方法在國家戰(zhàn)略需求中的應(yīng)用實(shí)踐。未來,將基于該詞表開展南海文獻(xiàn)資料的自動(dòng)目錄生成、多源異構(gòu)數(shù)據(jù)的知識(shí)關(guān)聯(lián)等研究。