国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于英文超級(jí)科技詞表的文獻(xiàn)主題標(biāo)引系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)*

2014-07-12 17:10:33李軍蓮夏光輝王序文李曉瑛冀玉靜李贊梅
數(shù)字圖書館論壇 2014年12期
關(guān)鍵詞:詞表標(biāo)引術(shù)語

李軍蓮,夏光輝,王序文,李曉瑛,冀玉靜,李贊梅

(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)

基于英文超級(jí)科技詞表的文獻(xiàn)主題標(biāo)引系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)*

李軍蓮,夏光輝,王序文,李曉瑛,冀玉靜,李贊梅

(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)

針對(duì)海量英文文獻(xiàn)信息自動(dòng)化處理問題,構(gòu)建了一個(gè)基于英文超級(jí)科技詞表的文獻(xiàn)主題概念自動(dòng)標(biāo)引系統(tǒng),采用詞典與規(guī)則方法相結(jié)合的術(shù)語提取機(jī)制,實(shí)現(xiàn)了英文文獻(xiàn)術(shù)語提取、規(guī)范概念映射以及優(yōu)選概念標(biāo)引等功能,取得了較好的標(biāo)引效果。

術(shù)語提?。恍g(shù)語匹配;主題標(biāo)引

1 引言

日漸增長的科技文獻(xiàn)數(shù)據(jù)為廣大用戶提供了豐富的知識(shí)資源,同時(shí)也帶來了信息過載的壓力。為了有效挖掘海量文獻(xiàn)中存在的科技知識(shí),促進(jìn)文獻(xiàn)信息內(nèi)容的知識(shí)組織、關(guān)聯(lián)及利用,進(jìn)而支持用戶日益膨脹的知識(shí)獲取需求,國家科技文獻(xiàn)信息中心組織實(shí)施了“面向外文科技文獻(xiàn)信息的知識(shí)組織體系建設(shè)和示范應(yīng)用”國家“十二五”科技支撐計(jì)劃項(xiàng)目[1]??萍贾R(shí)組織體系(Science and Technology Knowledge Organization System,簡稱STKOS)覆蓋了理工農(nóng)醫(yī)領(lǐng)域大量專業(yè)術(shù)語、概念(超級(jí)詞表)以及基于概念所形成的本體網(wǎng)絡(luò)和科研本體知識(shí)庫。這一領(lǐng)域全面、內(nèi)容豐富的英文超級(jí)科技詞表,也為面向海量文獻(xiàn)的自動(dòng)化信息處理任務(wù)提供了有力支撐[2]。

概念(Concept)是人類在認(rèn)知過程中對(duì)特定事物的本質(zhì)屬性的抽象描述,其語言表達(dá)形式包括詞語和詞組。其中,領(lǐng)域概念是特定領(lǐng)域中具有特定語義的詞匯集合,是領(lǐng)域知識(shí)的一種重要表現(xiàn)形式[3]。在各個(gè)學(xué)科領(lǐng)域知識(shí)不斷推陳出新的背景下,利用計(jì)算機(jī)自動(dòng)或者半自動(dòng)地從文獻(xiàn)中發(fā)現(xiàn)并標(biāo)引領(lǐng)域概念的過程,是將非結(jié)構(gòu)化的文本信息快速轉(zhuǎn)變?yōu)橹R(shí)單元的關(guān)鍵環(huán)節(jié)[4-6]。目前,概念標(biāo)引的成果也已在信息檢索、文本分類、機(jī)器翻譯、本體構(gòu)建[7]等研究領(lǐng)域得到了廣泛的應(yīng)用[8-9]。

本文基于STKOS超級(jí)詞表,結(jié)合語言學(xué)規(guī)則以及文本統(tǒng)計(jì)信息,構(gòu)建了面向海量外文科技文獻(xiàn)的主題概念自動(dòng)標(biāo)引系統(tǒng)。這一工作既是STKOS超級(jí)詞表的一個(gè)直接應(yīng)用,也為進(jìn)一步的知識(shí)對(duì)象關(guān)系計(jì)算以及知識(shí)網(wǎng)絡(luò)構(gòu)建打下了良好基礎(chǔ)。

2 系統(tǒng)描述

2.1 系統(tǒng)結(jié)構(gòu)與功能設(shè)計(jì)

本文面向海量數(shù)據(jù)加工任務(wù),設(shè)計(jì)并實(shí)現(xiàn)了基于STKOS超級(jí)詞表的交互式主題概念自動(dòng)標(biāo)引系統(tǒng),系統(tǒng)的主要功能包括詞典(知識(shí)庫)管理、文獻(xiàn)預(yù)處理、候選術(shù)語提取、規(guī)范概念映射以及概念標(biāo)引等模塊。系統(tǒng)的基本結(jié)構(gòu)設(shè)計(jì)如圖1所示。

圖1 主題概念自動(dòng)標(biāo)引系統(tǒng)結(jié)構(gòu)

(1)詞典(知識(shí)庫)動(dòng)態(tài)管理

STKOS超級(jí)詞表主要由基礎(chǔ)詞庫、規(guī)范概念集合以及范疇體系構(gòu)成,它是概念標(biāo)引系統(tǒng)的重要知識(shí)基礎(chǔ),為自動(dòng)標(biāo)引過程中術(shù)語的匹配、概念的映射以及概念遴選提供了語言學(xué)依據(jù)。

為了便于對(duì)知識(shí)庫進(jìn)行動(dòng)態(tài)維護(hù)、更新與擴(kuò)展,將系統(tǒng)所使用的基于STKOS超級(jí)詞表的切分詞典、標(biāo)引詞典、停用詞典、通用詞典等內(nèi)容映射到不同的類,通過增加類來實(shí)現(xiàn)詞典的自動(dòng)添加;通過增加或刪除每個(gè)類下的實(shí)例,實(shí)現(xiàn)對(duì)詞典下實(shí)例的修改操作。這一管理機(jī)制也有助于保證系統(tǒng)詞表內(nèi)容與持續(xù)更新版本的STKOS超級(jí)科技詞表保持一致。

(2)文獻(xiàn)預(yù)處理

科技文獻(xiàn)的標(biāo)題、作者關(guān)鍵詞及摘要等內(nèi)容是文獻(xiàn)術(shù)語高頻出現(xiàn)的區(qū)域,能夠直接反映文章的主題內(nèi)容,也是用戶重點(diǎn)關(guān)注的“興趣區(qū)域”。為了提高文獻(xiàn)分析效率,分別提取每篇文獻(xiàn)的標(biāo)題、作者關(guān)鍵詞以及摘要內(nèi)容作為概念標(biāo)引系統(tǒng)的分析對(duì)象。

從文本中提取概念之前,首先針對(duì)待分析的文本內(nèi)容進(jìn)行預(yù)處理。預(yù)處理過程主要包括:依據(jù)標(biāo)點(diǎn)符號(hào)對(duì)標(biāo)題和摘要進(jìn)行句子劃分;基于空格、標(biāo)點(diǎn)符號(hào)、換行符等啟發(fā)式規(guī)則將句子切分為獨(dú)立的詞語;對(duì)切分后的語言單元進(jìn)行詞性標(biāo)注和位置標(biāo)記,其中詞性標(biāo)注過程采用MetaMap的PhraseX工具實(shí)現(xiàn),MetaMap已在美國國立醫(yī)學(xué)圖書館(NLM)的相關(guān)工程化實(shí)踐中取得了較好的應(yīng)用效果[10];進(jìn)一步將詞性標(biāo)注結(jié)果轉(zhuǎn)換成語法詞性,以便基于語言學(xué)規(guī)則進(jìn)行短語提取。

(3)候選短語提取

這里所謂的“短語”,指名詞性短語,即語法功能上相當(dāng)于名詞的短語,是反映文本內(nèi)容的領(lǐng)域術(shù)語的主要來源。與通用術(shù)語不同,領(lǐng)域術(shù)語與某個(gè)特定領(lǐng)域具有較強(qiáng)的相關(guān)性,即在特定領(lǐng)域中出現(xiàn)頻率較高,而在不相關(guān)領(lǐng)域中出現(xiàn)頻率相對(duì)較低[11]。本文基于特定的語言學(xué)規(guī)則以及統(tǒng)計(jì)信息,從文本內(nèi)容中提取候選短語,并將候選短語集合作為概念標(biāo)引的基礎(chǔ)。

對(duì)于關(guān)鍵詞文本,依據(jù)指定分隔符直接提取關(guān)鍵詞字段內(nèi)容作為候選短語。對(duì)于標(biāo)題或摘要文本中經(jīng)過詞性標(biāo)注的內(nèi)容,采取詞典與規(guī)則相結(jié)合的提取策略,利用切分符號(hào)以及構(gòu)詞規(guī)則分別提取其中的簡單短語以及復(fù)合短語。去除短語集合中的停用詞,并執(zhí)行短語原型化,統(tǒng)計(jì)標(biāo)記每個(gè)短語的頻次、位置及長度,合并去重后計(jì)算術(shù)語權(quán)重,從而獲得候選術(shù)語集合。

(4)規(guī)范概念映射

首先將候選術(shù)語原型與超級(jí)詞表詞表中的規(guī)范術(shù)語原型進(jìn)行匹配,獲得規(guī)范術(shù)語,術(shù)語匹配方式包括基于字符串的精確匹配以及模糊匹配。其中同形異義的術(shù)語需要借助超級(jí)詞表的語義類型進(jìn)行區(qū)分。根據(jù)不同的映射方式計(jì)算候選術(shù)語與規(guī)范術(shù)語之間的匹配度,依匹配度排序,將匹配度最大的術(shù)語保存至規(guī)范術(shù)語列表。

其次根據(jù)STKOS詞表中已建立的術(shù)語與概念的對(duì)應(yīng)關(guān)系,進(jìn)一步將術(shù)語映射到規(guī)范概念。當(dāng)一個(gè)術(shù)語對(duì)應(yīng)多個(gè)概念時(shí),按照文獻(xiàn)的學(xué)科屬性映射對(duì)應(yīng)概念。根據(jù)術(shù)語對(duì)應(yīng)的概念I(lǐng)D合并去重,并統(tǒng)計(jì)每個(gè)概念對(duì)應(yīng)的術(shù)語集合。綜合考慮概念詞在文獻(xiàn)中出現(xiàn)的頻次、位置等統(tǒng)計(jì)信息,結(jié)合術(shù)語權(quán)重以及規(guī)范術(shù)語的匹配度,計(jì)算對(duì)應(yīng)概念的權(quán)重,當(dāng)多個(gè)術(shù)語對(duì)應(yīng)同一個(gè)概念時(shí),概念的權(quán)重為多個(gè)術(shù)語的權(quán)重累加,由此可以生成概念列表。

(5)主題概念標(biāo)引

基于STKOS超級(jí)詞表中的術(shù)語-概念對(duì)應(yīng)關(guān)系,可以直接獲取每個(gè)規(guī)范術(shù)語所繼承的概念。然而并非文獻(xiàn)中出現(xiàn)的所有概念詞都值得向用戶推薦,因此,將文獻(xiàn)中的術(shù)語映射為規(guī)范概念之后,需要進(jìn)一步從文獻(xiàn)概念列表中遴選與文獻(xiàn)主題相關(guān)性較高的優(yōu)選概念詞[12-13]。

首先對(duì)概念詞的相關(guān)性進(jìn)行評(píng)估,根據(jù)權(quán)重大小對(duì)概念詞進(jìn)行排序。通過設(shè)置權(quán)重閾值和標(biāo)引深度閾值篩選概念詞,同時(shí)利用通用詞表過濾掉領(lǐng)域相關(guān)性不高的概念詞,從而降低通用概念對(duì)標(biāo)引效果的影響,保留下來的概念詞則作為能夠表達(dá)每篇文獻(xiàn)主題的優(yōu)選概念,最終推薦給用戶。

(6)用戶界面

為更好地滿足用戶的知識(shí)獲取及研究需求,系統(tǒng)通過交互式用戶界面向用戶提供了標(biāo)引方式管理、標(biāo)引結(jié)果展示以及文獻(xiàn)瀏覽等服務(wù)。

2.2 系統(tǒng)流程

綜合上述功能設(shè)計(jì),系統(tǒng)進(jìn)行概念標(biāo)引的具體流程如下:

Step1:從數(shù)據(jù)采集層中自動(dòng)導(dǎo)入并存儲(chǔ)外文文獻(xiàn)資源,文獻(xiàn)類型包括期刊、會(huì)議、標(biāo)準(zhǔn)、專利等內(nèi)容,并將不同來源的數(shù)據(jù)轉(zhuǎn)換為系統(tǒng)支持的標(biāo)準(zhǔn)格式。

Step2:自動(dòng)提取每篇文獻(xiàn)的題名、作者關(guān)鍵詞、摘要等字段內(nèi)容,并逐一進(jìn)行句子劃分、詞語切分、詞性標(biāo)注以及位置標(biāo)記等預(yù)處理操作。

Step3:基于STKOS超級(jí)詞表及構(gòu)詞規(guī)則,從待分析文本中自動(dòng)提取短語,過濾其中的停用詞,并對(duì)候選術(shù)語進(jìn)行原型化,加入候選術(shù)語集合。

Step4:按術(shù)語原型進(jìn)行合并去重,根據(jù)術(shù)語位置、頻次以及詞長計(jì)算權(quán)重。為每個(gè)術(shù)語詞條保存的信息包括源術(shù)語、術(shù)語原型、術(shù)語詞頻、術(shù)語長度、位置以及術(shù)語權(quán)重等。

Step5:將候選術(shù)語原型與STKOS規(guī)范術(shù)語原型進(jìn)行匹配,對(duì)匹配成功的術(shù)語匹配度進(jìn)行評(píng)估。

Step6:基于STKOS超級(jí)詞表中術(shù)語與概念的對(duì)應(yīng)關(guān)系實(shí)現(xiàn)術(shù)語到規(guī)范概念的映射,獲得文獻(xiàn)概念列表。

Step7:結(jié)合術(shù)語權(quán)重以及概念映射匹配度,計(jì)算概念權(quán)重。為每個(gè)概念保存的信息包括文獻(xiàn)ID、規(guī)范概念I(lǐng)D、規(guī)范概念名稱以及概念權(quán)重評(píng)分等。

Step8:根據(jù)權(quán)重對(duì)概念進(jìn)行排序,設(shè)置權(quán)重閾值及詞數(shù)閾值,篩選概念詞。

Step9:輸出概念標(biāo)引結(jié)果至用戶界面。

3 關(guān)鍵技術(shù)

文本中術(shù)語的識(shí)別提取以及概念映射遴選是本系統(tǒng)的重要環(huán)節(jié)。

經(jīng)過反復(fù)測(cè)試,課題最終制定先識(shí)別提取后映射過濾的實(shí)現(xiàn)思路,首先廣泛獲取文本內(nèi)容中潛在的短語;基于短語在文獻(xiàn)中的相關(guān)統(tǒng)計(jì)信息計(jì)算其權(quán)重;評(píng)估候選術(shù)語與規(guī)范術(shù)語的匹配度;結(jié)合術(shù)語權(quán)重及其規(guī)范匹配度計(jì)算概念的權(quán)重,并據(jù)此對(duì)概念進(jìn)行遴選。

在本系統(tǒng)實(shí)現(xiàn)過程中,重點(diǎn)在短語識(shí)別提取、術(shù)語匹配、概念權(quán)重計(jì)算三個(gè)環(huán)節(jié)開展研究和算法優(yōu)化,現(xiàn)簡要介紹如下。

3.1 短語識(shí)別提取

短語提取是對(duì)文本中的名詞性短語進(jìn)行自動(dòng)化的識(shí)別和提取。已有的研究方法主要包括基于規(guī)則的方法、基于統(tǒng)計(jì)的方法以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法[14]。

為了靈活高效地應(yīng)對(duì)增量式大規(guī)模文獻(xiàn)數(shù)據(jù)的標(biāo)引任務(wù),本系統(tǒng)分別采用基于詞典和基于語言學(xué)規(guī)則的短語提取方法,對(duì)經(jīng)過預(yù)處理后的文本內(nèi)容(標(biāo)題、摘要、關(guān)鍵詞)進(jìn)行短語提取。

其中詞典匹配方法是基于STKOS超級(jí)詞表,依據(jù)正向最大匹配原則對(duì)每個(gè)句子中的短語進(jìn)行提取。該方法簡單直觀,對(duì)詞典中長度較長的短語匹配效果較好,而對(duì)單詞性術(shù)語或未登錄新術(shù)語的發(fā)現(xiàn)能力相對(duì)有限。

基于規(guī)則的匹配方法則利用短語的語言學(xué)特征(詞性標(biāo)注信息),分別對(duì)簡單短語以及復(fù)合短語進(jìn)行識(shí)別,識(shí)別規(guī)則如下:

(1)簡單短語提取規(guī)則:首先過濾停用詞,再按照切分符號(hào)直接提取切分符號(hào)之間的片段作為名詞短語。切分符號(hào)由兩種類型組成:一是非名詞短語組成成分的單詞,如“conj”(連詞)、“prep”(介詞)、“verb”(動(dòng)詞)等;二是能正確切分名詞短語的標(biāo)點(diǎn)符號(hào),如“,”(逗號(hào))、“.”(句號(hào))、“?”(問號(hào))等。

(2)基于構(gòu)詞規(guī)則的復(fù)合短語提取規(guī)則:首先統(tǒng)計(jì)STKOS規(guī)范術(shù)語的構(gòu)詞形式,從中遴選出常見的構(gòu)詞形式作為提取復(fù)合短語的構(gòu)詞規(guī)則(見表1)。按照表1中的四種復(fù)合短語構(gòu)詞規(guī)則,提取復(fù)合短語,不需過濾停用詞。其中noun代表名詞,prep代表介詞,adj代表形容詞,det代表定冠詞。

表1 復(fù)合短語構(gòu)詞規(guī)則

3.2 術(shù)語匹配

本系統(tǒng)采用如下原則進(jìn)行候選短語與STKOS詞表術(shù)語進(jìn)行匹配:所有匹配均基于原型進(jìn)行;當(dāng)組成術(shù)語的單詞數(shù)小于等于2時(shí),執(zhí)行精確匹配;當(dāng)術(shù)語中所包含的單詞數(shù)大于2時(shí),先執(zhí)行精確匹配,匹配不成功時(shí),則執(zhí)行模糊匹配。

模糊匹配過程只在術(shù)語單詞數(shù)[-1,+1]的范圍內(nèi)進(jìn)行,即術(shù)語在增加一個(gè)單詞、減少一個(gè)單詞或者替換一個(gè)單詞的情況下進(jìn)行匹配。模糊匹配時(shí),從匹配結(jié)果中選取評(píng)估值最高的短語為最終匹配結(jié)果,當(dāng)多個(gè)短語的評(píng)估值一樣時(shí),選取多個(gè)結(jié)果。

計(jì)算規(guī)范術(shù)語匹配度的評(píng)估值參數(shù)包括向心度、覆蓋度和內(nèi)聚度:

(1)向心度(CEN):考察待匹配詞串是否包含原短語的核心詞,若包含核心詞,取CEN=1,否則CEN=0。

(2)覆蓋度(COV):考察短語與STKOS詞串在匹配過程中被覆蓋或包含的程度,見公式1。其中,MML代表超級(jí)敘詞表匹配字串長度,ML代表超級(jí)敘詞表字串長度;PML代表短語匹配字符串長度;PL代表短語字串長度。

(3)內(nèi)聚度(COH):考察短語與STKOS詞串在匹配過程中的連續(xù)字串匹配的程度,見公式2。其中,MCL代表超級(jí)敘詞表匹配連續(xù)字串長度,PCL代表短語匹配連續(xù)字串長度。

(4)術(shù)語匹配度的評(píng)估函數(shù)見公式3,其中精確匹配的術(shù)語評(píng)估值為1。將每個(gè)候選術(shù)語對(duì)應(yīng)的規(guī)范術(shù)語詞條按匹配度評(píng)估值排序,取評(píng)估值最大的術(shù)語加入文獻(xiàn)規(guī)范術(shù)語集合。

3.3 概念權(quán)重計(jì)算

已有研究表明,術(shù)語在文獻(xiàn)中出現(xiàn)的頻次是評(píng)估其重要性的一個(gè)依據(jù)。此外,在文獻(xiàn)中不同位置出現(xiàn)的詞語對(duì)文章內(nèi)容的反映程度也不同,例如出現(xiàn)在科技文獻(xiàn)的標(biāo)題、摘要、關(guān)鍵詞等位置的短語成為術(shù)語的可能性較大;又如大部分醫(yī)學(xué)領(lǐng)域文獻(xiàn)中,出現(xiàn)在摘要首末句中的短語與出現(xiàn)在中間句子中的短語相比,前者與文獻(xiàn)主題相關(guān)的可能性更大。

有鑒于此,本文對(duì)傳統(tǒng)的TF.IDF算法(見公式4)加以改進(jìn),設(shè)計(jì)了短語權(quán)重計(jì)算函數(shù),見公式5,綜合考慮了短語的頻次、出現(xiàn)位置、詞長等因素,對(duì)于處于不同位置的特征詞分別賦予不同的權(quán)值,即關(guān)鍵詞權(quán)值>標(biāo)題權(quán)值>摘要首末句權(quán)值>摘要中間句權(quán)值。

其中,fi,j分別表示特征詞Wi在文檔集合中的標(biāo)題(j=1)、關(guān)鍵詞(j=2)、摘要首句(j=3)、摘要中間句(j=4)、摘要末句(j=5)等位置出現(xiàn)的頻數(shù),λi,j分別表示特征詞Wi出現(xiàn)在上述位n置時(shí)的權(quán)重系數(shù),L為詞長取值,λl為詞長權(quán)重系數(shù),i為特征詞Wi出現(xiàn)的文檔頻數(shù);N為文檔集合中的文檔數(shù)量;m為全部特征詞數(shù)。

結(jié)合上述術(shù)語的權(quán)重以及規(guī)范術(shù)語匹配度,可以計(jì)算每個(gè)概念Ci的權(quán)重Ti,見公式7。

4 用戶界面設(shè)計(jì)

本文構(gòu)建的是一個(gè)交互式文獻(xiàn)概念自動(dòng)標(biāo)引系統(tǒng),其用戶界面如圖2所示。用戶可以通過該界面選擇標(biāo)引方式(單篇或批量標(biāo)引)、設(shè)置相關(guān)參數(shù)、進(jìn)行標(biāo)引處理、瀏覽待標(biāo)文獻(xiàn)和標(biāo)引結(jié)果,并進(jìn)行詞典管理等。

圖2 文獻(xiàn)概念自動(dòng)標(biāo)引系統(tǒng)界面

批量標(biāo)注能夠支持常見的文獻(xiàn)數(shù)據(jù)格式,包括XML、Excel等文本格式以及Access、DBF、MySQL、SQL Server等數(shù)據(jù)庫格式,系統(tǒng)能夠自動(dòng)將不同格式的輸入數(shù)據(jù)轉(zhuǎn)變成系統(tǒng)支持的固定格式,并且針對(duì)不同的數(shù)據(jù)源可以選擇不同的標(biāo)引方案。詞典管理可以支持用戶針對(duì)特定任務(wù)選擇指定的詞典進(jìn)行短語提取和概念映射。參數(shù)配置可以為標(biāo)題、關(guān)鍵詞、摘要首末句、摘要中間句等設(shè)置不同的位置權(quán)重,還可以設(shè)置詞長閾值以及詞長權(quán)重。此外在概念遴選時(shí),還支持通過詞數(shù)和權(quán)重閾值兩個(gè)參數(shù)的布爾邏輯組配進(jìn)行。

5 系統(tǒng)測(cè)試

5.1 實(shí)驗(yàn)設(shè)計(jì)

本文基于NSTL英文文獻(xiàn)資源,以醫(yī)學(xué)領(lǐng)域?yàn)槔?,?duì)概念自動(dòng)標(biāo)引系統(tǒng)的標(biāo)引效果進(jìn)行了初步評(píng)測(cè)。

首先以“aids”作為檢索詞在PubMed數(shù)據(jù)庫中進(jìn)行檢索,從檢索結(jié)果中隨機(jī)選取標(biāo)題、關(guān)鍵詞、摘要信息都完備的50篇發(fā)表于2014年的英文文獻(xiàn)作為實(shí)驗(yàn)數(shù)據(jù),并請(qǐng)3位領(lǐng)域?qū)<覍?duì)其進(jìn)行人工概念標(biāo)引,按照概念與文獻(xiàn)的相關(guān)程度,將概念詞劃分為密切相關(guān)和比較相關(guān)兩個(gè)等級(jí)。同時(shí),通過主題概念自動(dòng)標(biāo)引系統(tǒng)處理相同的50篇文獻(xiàn),將自動(dòng)標(biāo)引結(jié)果與專家人工標(biāo)引的結(jié)果進(jìn)行對(duì)比,按照密切相關(guān)、比較相關(guān)以及弱相關(guān)劃分自動(dòng)標(biāo)引結(jié)果。

評(píng)估方式:將系統(tǒng)標(biāo)引出的概念與專家標(biāo)引概念進(jìn)行對(duì)比,采用準(zhǔn)確率(Precision)、召回率(Recall)以及綜合評(píng)分F值作為概念標(biāo)引結(jié)果的主要評(píng)價(jià)指標(biāo)。

實(shí)驗(yàn)分別考察了基于不同短語提取方法的標(biāo)引方案,包括詞典提取標(biāo)引法(DictMatch,詞典法)、基規(guī)則提取標(biāo)引法(RuleMatch,規(guī)則法)以及詞典與規(guī)則相結(jié)合標(biāo)引法(Merge,綜合法),并對(duì)三種標(biāo)引效果進(jìn)行了對(duì)比和分析。

5.2 實(shí)驗(yàn)結(jié)果

首先,以某篇醫(yī)學(xué)文獻(xiàn)的概念標(biāo)引結(jié)果作為展示實(shí)例,具體標(biāo)引內(nèi)容見表2。表3則展示了應(yīng)用不同標(biāo)引方案從測(cè)試文獻(xiàn)中遴選相關(guān)主題概念的情況。

從上述表格中可以看出,基于詞典匹配方案所遴選的相關(guān)主題概念詞數(shù)量最多,但同時(shí)也誤標(biāo)引了很多弱相關(guān)或者不重要的概念,因此,詞典方法適合于注重查全率的標(biāo)引需求,如果能夠結(jié)合人工審查修正結(jié)果將會(huì)取得比較好的效果。

基于規(guī)則匹配的標(biāo)引方案主要是為了彌補(bǔ)領(lǐng)域詞典的不足,以發(fā)現(xiàn)詞典中的未登錄術(shù)語。在本文的測(cè)試中,通過規(guī)則的方法在短語提取階段也能夠自動(dòng)發(fā)現(xiàn)大量的候選短語,然而經(jīng)過與STKOS詞表進(jìn)行術(shù)語匹配及概念映射后,該方案在概念標(biāo)引環(huán)節(jié)最終遴選出來的相關(guān)概念詞數(shù)相對(duì)較少,但是其誤標(biāo)引的弱相關(guān)或者不重要的概念也比較少。因此,本文將詞典方法和規(guī)則方法結(jié)合起來,以規(guī)則方法修正詞典方法。最終實(shí)際結(jié)果表明,將詞典與規(guī)則相結(jié)合的標(biāo)引方案既保留了較為重要的相關(guān)概念,也能夠適度減少弱相關(guān)或不相關(guān)概念的數(shù)量。

表4 標(biāo)引方案綜合效果評(píng)價(jià)

表2 概念標(biāo)引實(shí)例

表3 測(cè)試文獻(xiàn)自動(dòng)標(biāo)引概念遴選統(tǒng)計(jì)結(jié)果

表4展示了對(duì)所有標(biāo)引方案的綜合結(jié)果對(duì)比,其中詞典與規(guī)則結(jié)合的標(biāo)引方案準(zhǔn)確率最高,達(dá)到65.3%,其綜合評(píng)分F值也比較顯著,說明該方法能夠取得較好的標(biāo)引效果,應(yīng)該作為自動(dòng)標(biāo)引后續(xù)優(yōu)化研究的主要方法。此外,如果標(biāo)引任務(wù)對(duì)數(shù)據(jù)處理的時(shí)間復(fù)雜度有著比較嚴(yán)格的要求,而且比較注重標(biāo)引結(jié)果的全面性,則可以采取單一的詞典方法。

6 結(jié)論與展望

本文以STKOS超級(jí)詞表作為知識(shí)源,構(gòu)建了一個(gè)交互式文獻(xiàn)概念自動(dòng)標(biāo)引系統(tǒng),實(shí)現(xiàn)了面向多個(gè)領(lǐng)域的大規(guī)模英文文獻(xiàn)主題概念的自動(dòng)標(biāo)引。一方面,本系統(tǒng)是STKOS知識(shí)組織體系的直接應(yīng)用,另一方面,本系統(tǒng)的工程化實(shí)踐又為NSTL數(shù)據(jù)加工服務(wù)提供了有力支撐,為進(jìn)一步的深層知識(shí)關(guān)系計(jì)算奠定了基礎(chǔ)。

本文以醫(yī)學(xué)領(lǐng)域?yàn)槔?,檢驗(yàn)了英文文獻(xiàn)主題概念標(biāo)引的效果。在后續(xù)的研究及工程化實(shí)踐中,還將對(duì)該系統(tǒng)繼續(xù)進(jìn)行完善。例如,面向更多領(lǐng)域、更大規(guī)模文獻(xiàn)開展標(biāo)引實(shí)踐,在保證系統(tǒng)運(yùn)行效率的基礎(chǔ)上,對(duì)概念的遴選策略進(jìn)行優(yōu)化,進(jìn)一步降低不相關(guān)概念(噪聲)的影響,提高概念標(biāo)引結(jié)果的文獻(xiàn)相關(guān)性。此外,針對(duì)低頻概念以及STKOS超級(jí)詞表未登錄術(shù)語的獲取問題也將是提升概念標(biāo)引系統(tǒng)性能的一個(gè)重要因素,值得深入探索和研究。

[1]孫坦,劉崢.面向外文科技文獻(xiàn)信息的知識(shí)組織體系建設(shè)思路[J].圖書與情報(bào),2013(1):2-7.

[2]王波.面向STKOS的概念映射與關(guān)聯(lián)算法研究及其實(shí)現(xiàn)[D].杭州電子科技大學(xué),2012.

[3]姚賢明.領(lǐng)域概念自動(dòng)抽取研究[D].昆明理工大學(xué),2010.

[4]SHAMSFARD M, BARFOROUSH A. Learning ontologies from natural language texts [J]. International Journal Human-computer Studies, 2004, 60(1): 17-63.

[5]MOLDOVAN D, GIRJU R, RUS V. Domain-specific knowledge acquisition from text [C]// Proc. of the Sixth Conference on Applied Natural Language Processing, 2000: 268-275.

[6]MICHAEL B, MIRIAM E, DONALD E, et al. Concept annotation in the CRAFT corpus [J]. BMC Bioinformatics, 2012(13): 161.

[7]陳珂,姚天昉.構(gòu)造領(lǐng)域本體概念關(guān)系的自動(dòng)抽取[M].上海交通大學(xué)出版社,2008.

[8]余蕾,曹存根.基于Web語料的概念獲取系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2007,34(2):161-165.

[9]錢慶,洪娜,李勇,等.中文非相關(guān)知識(shí)發(fā)現(xiàn)系統(tǒng)CmedLBKD構(gòu)建[J].情報(bào)理論與實(shí)踐,2012,35(4):109-113.

[10]MetaMap. MetaMap - A Tool For Recognizing UMLS Concepts in Text [EB/OL]. [2014-11-20]. http://mmtx.nlm.nih.gov.

[11]李麗雙.領(lǐng)域本體學(xué)習(xí)中術(shù)語及關(guān)系抽取方法的研究[D].大連理工大學(xué),2012.

[12]鄧本洋.電子病歷中的概念抽取研究[D].哈爾濱工業(yè)大學(xué),2013.

[13]黃利強(qiáng).面向文本的領(lǐng)域概念篩選算法研究[D].重慶大學(xué),2013.

[14]祝清松,冷伏海.自動(dòng)術(shù)語識(shí)別存在的問題及發(fā)展趨勢(shì)綜述[J].圖書情報(bào)工作,2012,56(18):104-109.

Research and Design of a Subject Indexing System Based on STKOS Super-thesaurus

LI JunLian, XIA GuangHui, WANG XuWen, LI XiaoYing, JI YuJing, LI ZanMei
(Institute of Medical Information & Library, Chinese Academy of Medical Sciences, Beijing 100020, China)

This paper describes the STKOS super-thesaurus-based automatic subject indexing system for processing large-scale English literature. A dictionary-based method combined with linguistic rules was used for term matching. The system has implemented automatic term extraction, standard concept mapping, and concept indexing, and has achieved a good performance in English concept indexing tasks.

Term extraction; Term matching; Subject indexing

G254

10.3772/j.issn.1673—2286.2014.12.001

2014-12-04)

* 本研究得到十二五國家科技支撐計(jì)劃項(xiàng)目課題“信息資源自動(dòng)處理、智能檢索與STKOS應(yīng)用服務(wù)集成”(編號(hào):2011BAH10B01)資助。

李軍蓮,女,1972年生,中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所副研究館員,研究方向:信息組織與系統(tǒng),E-mail:li.junlian@imicams.ac.cn。

猜你喜歡
詞表標(biāo)引術(shù)語
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
英語世界(2021年13期)2021-01-12 05:47:51
檔案主題標(biāo)引與分類標(biāo)引的比較分析
本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
國外敘詞表的應(yīng)用與發(fā)展趨勢(shì)探討*
有感于幾個(gè)術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢(shì)
常用聯(lián)綿詞表
文登市| 高清| 普格县| 扎鲁特旗| 泗水县| 清河县| 福泉市| 康平县| 晋宁县| 密山市| 河池市| 沙田区| 蕲春县| 德清县| 班戈县| 尚义县| 无为县| 丰城市| 枣阳市| 洪湖市| 炉霍县| 云安县| 临清市| 原阳县| 平邑县| 辽阳县| 高雄县| 工布江达县| 赞皇县| 昆明市| 百色市| 太谷县| 油尖旺区| 湘阴县| 玛沁县| 泉州市| 美姑县| 沧源| 平阳县| 赣州市| 内黄县|