国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

檔案領(lǐng)域詞表自動化輔助構(gòu)建及知識組織應(yīng)用探析

2018-07-06 08:19:00張昱于薇
數(shù)字圖書館論壇 2018年6期
關(guān)鍵詞:詞表主題詞表詞條

張昱 于薇

(中國科學(xué)技術(shù)信息研究所,北京 100038)

21世紀(jì)以來,信息資源的知識化管理和服務(wù)已經(jīng)成為社會發(fā)展的一個重要標(biāo)志。隨著知識組織和知識鏈接技術(shù)的不斷創(chuàng)新與突破,信息與信息技術(shù)在國民經(jīng)濟和社會發(fā)展中扮演的角色越來越重要。在國家和社會全面信息化進程不斷提速的大背景下,知識組織與知識服務(wù)已成為現(xiàn)代檔案工作的核心內(nèi)容,而構(gòu)建檔案領(lǐng)域詞表是做好檔案知識組織和知識服務(wù)體系的基礎(chǔ)。

本文針對檔案主題詞表在實際應(yīng)用中存在的詞匯老化、結(jié)構(gòu)陳乏,以及無法適應(yīng)當(dāng)前知識服務(wù)等問題,探討基于知識組織的檔案領(lǐng)域詞表構(gòu)建與應(yīng)用,從而提升電子檔案的公共服務(wù)能力和水平。

1 檔案數(shù)據(jù)知識組織研究現(xiàn)狀

檔案數(shù)據(jù)知識組織研究工作必須緊跟時代步伐,面向應(yīng)用、面向服務(wù)、面向社會,以應(yīng)用需求為導(dǎo)向,不斷升級技術(shù)體系,完善詞表結(jié)構(gòu)與內(nèi)容,從而有效實現(xiàn)檔案的知識組織與精準(zhǔn)服務(wù)。賈玲等[1]提出檔案的知識組織是利用現(xiàn)代信息技術(shù)把檔案知識源組織起來,通過知識組織達到揭示檔案知識資源內(nèi)在聯(lián)系,并開展知識服務(wù)的目標(biāo);呂元智[2]對數(shù)字檔案資源知識組織的必要性和可行性進行深入分析,提出數(shù)字檔案資源知識組織框架,建議加強檔案資源管理領(lǐng)域的本體建設(shè),處理好檔案知識元間的關(guān)聯(lián)問題,設(shè)計科學(xué)合理的知識關(guān)聯(lián)獲取模式;李建忠[3]提出檔案信息資源知識組織方法包括分類主題法、主題地圖法、元數(shù)據(jù)方法等,強調(diào)檔案信息資源的知識組織方法是傳統(tǒng)檔案信息載體知識組織方法的進一步深化,更符合檔案信息資源自身的特點和需要,更有利于檔案信息資源的利用和研究;段榮婷[4]以《中國檔案主題詞表》為例,闡述知識組織與規(guī)范化控制的具體實現(xiàn),以及推進主題詞表、分類法等知識組織系統(tǒng)的語義網(wǎng)絡(luò)化應(yīng)用?;谏鲜龇治?,建議我國應(yīng)盡快加強簡單知識組織系統(tǒng)主題詞表語義網(wǎng)絡(luò)化的研究與應(yīng)用,從根本上實現(xiàn)一般性主題詞表動態(tài)修訂、維護、管理的電子可視化與網(wǎng)絡(luò)化,乃至語義網(wǎng)絡(luò)化的擴展應(yīng)用。

國際上,在檔案詞表領(lǐng)域較有代表性的國家是荷蘭和英國,荷蘭視聽檔案公共敘詞表[5]和英國檔案敘詞表[6]已通過應(yīng)用簡單知識組織系統(tǒng)發(fā)布在語義網(wǎng)上,極大地提高了包括檔案在內(nèi)的文化遺產(chǎn)的標(biāo)引與檢索利用效果。

2 檔案領(lǐng)域詞表構(gòu)建

傳統(tǒng)電子檔案的知識組織主要基于《中國檔案主題詞表》和《中國檔案分類法》。其中,《中國檔案主題詞表》是20世紀(jì)80年代國家檔案局組織建設(shè)的,《中國檔案分類法》于20世紀(jì)90年代由檔案出版社出版。二者都存在建設(shè)時間久,后期沒有及時更新維護的問題。如果采用人工審核方式為主、自動化方式為輔的方法對《中國檔案主題詞表》和《中國檔案分類法》進行更新而形成新型的檔案領(lǐng)域詞表,將在一定程度上提高其應(yīng)用的可行性。檔案領(lǐng)域詞表是在《中國檔案主題詞表》及其他相關(guān)領(lǐng)域詞表基礎(chǔ)上,基于可開放的檔案領(lǐng)域語料,通過詞表合并、新詞發(fā)現(xiàn)、詞間關(guān)系推薦、檔案領(lǐng)域范疇的更新維護、詞表邏輯一致性檢測方法構(gòu)建而成。

2.1 詞表合并

詞表合并旨在保留多個詞表中同時出現(xiàn)的詞及詞間關(guān)系。合并操作需要先識別兩個詞表中詞形相同的詞條,根據(jù)詞條相關(guān)信息(可能包含關(guān)系、屬性等)的計算,給出詞條全部合并的可信度,并進一步計算出兩個詞表合并的可信度,供用戶處理參考。對于所有合并詞條,都在界面上給出確認(rèn)提示,經(jīng)過加工者確認(rèn)后,確定保留的詞表部分。

2.1.1 詞條合并可信度計算

輸入:兩個詞條W1和W2的相關(guān)信息S1和S2。

S1={(P11,V11),(P12,V12)…(P1m,V1m)}

S2={(P21,V21),(P22,V22)…(P2n,V2n)}

輸出:兩個詞條的可信度值如公式(1)。

如“柱狀晶”在有色金屬(W1)、黑色金屬(W2)詞表中均出現(xiàn)。假設(shè)其在有色金屬詞表中有以下相關(guān)信息。

定義(P11):一種晶體形態(tài)(V11)。

屬性-特點(P12):偏析比等軸晶少(V12)。

屬性-特點(P13):結(jié)構(gòu)致密(V13)。

屬性-優(yōu)點(P14):有較好的各向異性性能(V14)。

屬性-特點(P15):具有抗蠕變能力(V15)。

分類-CLC(P16):材料(V16)。

分類-行業(yè)(P17):材料(V17)。

關(guān)系-鑄錠(P18):層次(V18)。

則:

S1={(定義,“一種晶體形態(tài)”),(特點,“偏析比等軸晶少”),(特點,“結(jié)構(gòu)致密”),(優(yōu)點,“有較好的各向異性性能”),(特點,“具有抗蠕變能力”),(CLC,“材料”),(行業(yè),“材料”),(鑄錠,“層次”)}

假設(shè)詞“柱狀晶”在黑色金屬詞表中有以下相關(guān)信息。

定義(P11):一種晶體形態(tài)(V11)。

屬性-特點(P12):偏析比等軸晶少(V12)。

屬性-特點(P13):結(jié)構(gòu)致密(V13)。

屬性-優(yōu)點(P14):有較好的各向異性性能(V14)。

屬性-特點(P15):具有抗疲勞能力(V15)。

分類-CLC(P16):材料(V16)。

分類-行業(yè)(P17):材料(V17)。

則:

S2={(定義,“一種晶體形態(tài)”),(特點,“偏析比等軸晶少”),(特點,“結(jié)構(gòu)致密”),(優(yōu)點,“有較好的各向異性性能”),(特點,“具有抗疲勞能力”),(CLC,“材料”),(行業(yè),“材料”)}

S1∩S2={(定義,“一種晶體形態(tài)”),(特點,“偏析比等軸晶少”),(特點,“結(jié)構(gòu)致密”),(優(yōu)點,“有較好的各向異性性能”),(CLC,“材料”),(行業(yè),“材料”)}

故|S1∩S2|=6

S1∪S2={(定義,“一種晶體形態(tài)”),(特點,“偏析比等軸晶少”),(特點,“結(jié)構(gòu)致密”),(優(yōu)點,“有較好的各向異性性能”),(特點,“具有抗蠕變能力”),(特點,“具有抗疲勞能力”),(CLC,“材料”),(行業(yè),“材料”),(鑄錠,“層次”)}

故|S1∪S2|=9

兩個詞表中的詞條“柱狀晶”的合并可信度值為:

2.1.2 詞表合并可信度計算

假設(shè)兩個詞表分別為Thesaurus1和Thesaurus2,二者有k對相同的詞條,相應(yīng)的相同詞條的集合為W,則這兩個詞表合并的可信度T定義為公式(2)。

這里,即兩個詞表合并的可信度為所有相同的詞條的合并可信度的和除以相同的詞條數(shù)目。

2.2 新詞發(fā)現(xiàn)

采用基于啟發(fā)式規(guī)則的、多測度融合的新詞發(fā)現(xiàn)方法,通過線性加權(quán),將詞頻、左右鄰接熵、互信息結(jié)合進行判斷,根據(jù)一定規(guī)則組合的候選詞串是否可作為相應(yīng)詞表的新詞,最終由領(lǐng)域?qū)<覍徍恕?/p>

(1)詞頻。針對語料庫中的所有候選詞串,通過統(tǒng)計計算其頻次,頻次低于一定閾值的詞串作為候選詞串[7]。

(2)左右鄰接熵。在自然語言處理領(lǐng)域,鄰接熵被研究者廣泛用來判定一個詞串是否能構(gòu)成一個合乎語法規(guī)則的詞。通過信息熵來評測一個候選詞與其左右鄰接字符合并的可能性。

假設(shè)針對詞串t,用字符x和字符y表示t的左鄰接字符和右鄰接字符,則本文采用以下公式來計算t的左鄰接熵HL(t)和右鄰接熵HR(t)。

其中,p(x|t)表示字符x是候選詞t的左鄰接字符的概率,p(y|t)表示字符y是候選詞t的右鄰接字符的概率。

(3)互信息?;バ畔⑹切略~發(fā)現(xiàn)中常用的統(tǒng)計量。假設(shè)對于候選詞語“聯(lián)合全宗”(詞t),如果想確定“聯(lián)合”(詞x)和“全宗”(詞y)這兩個字符在語料中的緊密程度,可按照公式(5)進行計算。

值越大代表兩者間的相關(guān)性越高,兩個字符串連接后形成新詞的可能性越高。通??刹捎煤唵螝w一化頻率形式來估計概率。

其中,nt,nx,ny分別表示t、x、y字符在語料中出現(xiàn)的頻次,N是集合中所有長度滿足閾值(本項目設(shè)定為6)的候選字符串總數(shù)。

根據(jù)上述指標(biāo)發(fā)現(xiàn)的候選新詞,采用成詞閾值篩選方法來確定最終的新詞。具體方法如下。

由于用戶提供的語料沒有標(biāo)注,因此采用無監(jiān)督學(xué)習(xí)方法,即對詞頻、左鄰接熵、右鄰接熵和互信息4個統(tǒng)計量均設(shè)定一個閾值,如果一個候選字符串滿足這4個閾值,就會被判定為一個新詞。

其中,a1、a2、a3、a4分別表示詞頻、互信息、左鄰接熵、右鄰接熵的閾值。

基于以上計算方式,選用有價值的檔案資料導(dǎo)入語料庫,將達到一定閾值的詞作為候選新詞供專家審核,審核成功后列入詞表。

2.3 詞間關(guān)系推薦

在進行詞間關(guān)系構(gòu)建時,一方面根據(jù)漢語的組詞特性,基于組詞成分分析方法輔助構(gòu)建詞間等級、等同關(guān)系;另一方面采用深度學(xué)習(xí)技術(shù)構(gòu)建詞間相關(guān)關(guān)系。

(1)等級關(guān)系。基于字面相似度算法,根據(jù)后方一致性原則進行詞的入族處理并進行上下位類的劃分,即根據(jù)字面相似度的結(jié)果,如果兩個詞包含相同的詞素,且相同的詞素位于詞的后方,那么包含字?jǐn)?shù)少的詞作為包含字?jǐn)?shù)多的詞的上位詞;反之,作為下位詞處理[8]。

(2)等同關(guān)系。通過詞匯間的前方一致、后方一致及兩邊一致3種途徑進行字面匹配,識別同義詞[9]。

(3)相關(guān)關(guān)系。針對給定的語料庫和詞庫,根據(jù)word2vec工具,將詞進行向量化,根據(jù)兩個詞間的動詞向量均值或加權(quán)值等與系統(tǒng)中已有的關(guān)系進行對比,計算給定的詞條與詞庫中的詞條可能存在的關(guān)系。

2.4 檔案領(lǐng)域范疇的更新維護

針對范疇表的更新,本文主要采用人工為主、機器為輔的更新方式。首先,邀請相關(guān)領(lǐng)域?qū)<抑朴喴患墶⒍夘惸?;然后以不涉密的語料為基礎(chǔ),通過關(guān)鍵詞查詢到的文獻覆蓋度、主題挖掘方法確定三級及以下類目;最后,請領(lǐng)域?qū)<疫M行審核,形成最終檔案領(lǐng)域范疇表。主題挖掘主要基于LDA模型[10],首先對文本語料進行分詞、去停用詞處理,然后調(diào)用主題模型(如LDA)挖掘主題,通過多種知識工程方法對LDA挖掘的主題補充標(biāo)簽。

2.5 詞表邏輯一致性檢測

對半自動化形成的檔案領(lǐng)域詞表進行邏輯錯誤檢測,可能出現(xiàn)的邏輯錯誤有:詞間出現(xiàn)空格、全角等;族首詞不能有屬項;非正式主題詞不可有屬、分、代、參;一個詞只能在其用代屬分參項出現(xiàn)一次;詞族中下位詞的屬、分不可跨層;代項不可為用項;兩個詞間如果具有上下位關(guān)系,不能再有參照關(guān)系;屬分鏈中不能有非正式敘詞;參項中不能有非正式敘詞。通過設(shè)置程序可自動完成這部分內(nèi)容的檢測,借鑒論文[11-12]中提到的基于圖的檢查方法,實現(xiàn)相應(yīng)的一致性檢查,發(fā)現(xiàn)錯誤并及時糾正。

3 檔案領(lǐng)域詞表的知識組織應(yīng)用

在檔案領(lǐng)域詞表構(gòu)建的基礎(chǔ)上,本文從實際應(yīng)用角度對檔案知識組織體系的構(gòu)建、可開展的知識服務(wù)形式等角度設(shè)計如圖1所示的整體系統(tǒng)架構(gòu)。

圖1 整體系統(tǒng)架構(gòu)

針對傳統(tǒng)的紙質(zhì)檔案數(shù)據(jù),首先采用圖像掃描及OCR識別技術(shù)進行電子化,然后通過自動校錯和人工審核的方式處理電子化的檔案數(shù)據(jù),保證數(shù)據(jù)的準(zhǔn)確性。在更新后的《檔案領(lǐng)域詞表》支撐下,通過自動標(biāo)引、文本分類、主題圖和文本聚類等技術(shù)構(gòu)建檔案專業(yè)知識庫,從而在檔案專業(yè)知識庫的基礎(chǔ)上提供多種知識服務(wù)方式。

3.1 數(shù)據(jù)資源組織和檢索

利用已構(gòu)建完成的領(lǐng)域詞表對電子檔案數(shù)據(jù)資源進行標(biāo)引,并基于標(biāo)引結(jié)果提供基本檢索服務(wù)。知識組織服務(wù)主要是知識資源的主題標(biāo)引。主題標(biāo)引以特定的領(lǐng)域詞表為來源,精選代表性詞匯進行標(biāo)注,可進一步以標(biāo)注詞匯代替資源進行簡化計算。知識檢索主要利用領(lǐng)域詞表對用戶的檢索需求進行明確交互、對檢索結(jié)果進行擴檢和縮檢,以及分類展示或聚類展示等。

3.2 知識導(dǎo)航

知識導(dǎo)航是利用已有領(lǐng)域詞表的分類體系或上位概念對知識服務(wù)提供的科技文獻、科學(xué)數(shù)據(jù)等資源,以及百科、圖片等片段化條目知識進行組織,并在知識服務(wù)中按照分類體系進行樹形關(guān)聯(lián)導(dǎo)引,幫助用戶逐步定位到所需資源和知識。

3.3 智能檢索服務(wù)

(1)針對知識問答提供知識的精準(zhǔn)匹配。將重要問答知識與查詢詞條一一對應(yīng),針對查詢內(nèi)容給出標(biāo)準(zhǔn)的問答結(jié)果。

(2)針對深度搜索提供檢索結(jié)果的篩選與重新組織?;谕ㄓ脵z索策略得到的檢索結(jié)果,利用已有領(lǐng)域詞表對查詢結(jié)果進行再次甄別,識別出不符合檢索領(lǐng)域的結(jié)果,使檢索結(jié)果更加精準(zhǔn),以便進一步用于情報分析。

(3)針對知識地圖提供領(lǐng)域知識概貌。利用領(lǐng)域詞表的主要層次結(jié)構(gòu),提供對領(lǐng)域知識概覽的支持;利用網(wǎng)狀結(jié)構(gòu),提供對領(lǐng)域知識脈絡(luò)展示的支持。

(4)針對科技評價提供評價對象,界定評價范圍。提供主要體現(xiàn)檔案資料中關(guān)鍵事件、人物、機構(gòu)的評價對象,便于確定科技評價中趨勢分析等處理的對象范圍,做好科技評價工作。

(5)針對熱點發(fā)現(xiàn)提供概念關(guān)聯(lián)支撐。提供詞匯間的關(guān)聯(lián),使得表現(xiàn)不同的詞匯間能夠通過概念層面建立聯(lián)系,可以進一步提高熱點分析的準(zhǔn)確度。

4 結(jié)論

本文深度探討檔案領(lǐng)域詞表的自動化輔助構(gòu)建方法、相應(yīng)的知識服務(wù)架構(gòu)、關(guān)鍵技術(shù)及可能的知識服務(wù)形式。構(gòu)建的電子檔案領(lǐng)域詞表具有復(fù)用性和擴展性,可用于不同層次的電子檔案數(shù)據(jù)挖掘的建設(shè),基于領(lǐng)域詞表提供電子檔案的智能化分析、個性化服務(wù)將大幅提高公眾獲取檔案的效率和能力,充分發(fā)揮電子檔案的社會價值。

[1]賈玲,劉要文,呂燕. 論檔案知識組織的方法[J]. 蘭臺世界,2012(14):31-32.

[2]呂元智. 基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字檔案資源知識組織研究[C]. “新趨勢、新思維、新途徑”第六屆“‘3+1’檔案論壇”論文集,上海:上海世界圖書出版公司,2012:17-25.

[3]李建忠. 試論檔案信息資源的知識組織與服務(wù)模式[J]. 檔案管理,2013(1):49-50.

[4]段榮婷. 基于簡約知識組織系統(tǒng)的主題詞表語義網(wǎng)絡(luò)化研究——以《中國檔案主題詞表》為例[J]. 中國圖書館學(xué)報,2011,37(3):54-65.

[5]VANASSEM M,MALAISé V,MILES A,et al. A method to convert thesauri to SKOS,2006[R/OL].[2017-07-06]. https://link.springer.com/chapter/10.1007%2F11762256_10.

[6]MILES A.UKAT(UK Archival Thesaurm)SKOS/RDF Data[EB/OL].[2017-07-06]. http://isegserv.itd.rl.ac.uk/skoa/ukat/.

[7]楊陽,劉龍飛,魏現(xiàn)輝,等. 基于詞向量的情感新詞發(fā)現(xiàn)方法[J].山東大學(xué)學(xué)報(理學(xué)版),2014,49(11):51-58.

[8]仲云云,侯漢清,杜慧平. 電子政務(wù)主題詞表自動構(gòu)建研究[J].中國圖書館學(xué)報,2008,34(3):97-102.

[9]仲云云. 電子政務(wù)主題詞表的構(gòu)建及應(yīng)用研究[D]. 南京:南京農(nóng)業(yè)大學(xué),2007.

[10]唐曉波,房小可. 基于文本聚類與LDA相融合的微博主題檢索模型研究[J]. 情報理論與實踐,2013,36(8):85-90.

[11]熊霞,常春,吳雯娜. 敘詞表相關(guān)關(guān)系邏輯檢查方法的設(shè)計與實現(xiàn)[J]. 情報雜志,2010,29(11):154-158.

[12]徐碩,喬曉東,朱禮軍. 幾種敘詞表復(fù)雜邏輯錯誤檢查算法研究[J]. 數(shù)字圖書館論壇,2010(8):55-58.

猜你喜歡
詞表主題詞表詞條
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
大數(shù)據(jù)相關(guān)詞條
饶河县| 泌阳县| 高清| 鹿泉市| 东方市| 大埔区| 大冶市| 前郭尔| 尉氏县| 玉溪市| 石台县| 大悟县| 左贡县| 柳林县| 达拉特旗| 定安县| 建始县| 宾川县| 灵寿县| 合作市| 阿克陶县| 泽州县| 手游| 清新县| 高密市| 朔州市| 武陟县| 宁武县| 中山市| 应用必备| 习水县| 永和县| 松滋市| 都江堰市| 桓仁| 晋江市| 桓台县| 隆回县| 濮阳市| 余姚市| 法库县|