国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

敘詞表多表聯(lián)合標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)*

2013-03-15 03:56李鵬朱禮軍劉亞潔中國(guó)科學(xué)技術(shù)信息研究所北京100038
數(shù)字圖書館論壇 2013年11期
關(guān)鍵詞:詞表標(biāo)引文檔

□ 李鵬 朱禮軍 劉亞潔 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038

辛之海 / 開源旗幟軟件(北京)有限公司 北京 100125

敘詞表多表聯(lián)合標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)*

□ 李鵬 朱禮軍 劉亞潔 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038

辛之海 / 開源旗幟軟件(北京)有限公司 北京 100125

通用敘詞表提供了普遍意義的概念,具有普適性、協(xié)調(diào)性與兼容性的特點(diǎn),而不同的專業(yè)敘詞表提供了領(lǐng)域內(nèi)關(guān)注的不同側(cè)重點(diǎn)。敘詞表多表聯(lián)合標(biāo)注能夠從多視角下揭示文檔的語(yǔ)義。文章提出了敘詞表多表聯(lián)合標(biāo)注系統(tǒng)的設(shè)計(jì)方案,介紹了敘詞表文本標(biāo)注等功能模塊以及設(shè)計(jì)中應(yīng)該注意的問(wèn)題,并以皮膚病領(lǐng)域下文檔標(biāo)注為例進(jìn)行了研討,總結(jié)了多表聯(lián)合標(biāo)注可能的應(yīng)用場(chǎng)景。多表聯(lián)合標(biāo)注系統(tǒng)為挖掘不同視角下文檔的意義提供了參考,并為文檔的語(yǔ)義檢索奠定了基礎(chǔ)。

敘詞表,標(biāo)注,語(yǔ)義

1 引言

標(biāo)引是對(duì)文獻(xiàn)的內(nèi)容及其他有檢索意義的特征進(jìn)行分析、描述并用檢索標(biāo)識(shí)記錄下來(lái),作為存取依據(jù)的文獻(xiàn)處理過(guò)程,它又分為分類標(biāo)引和主題標(biāo)引。標(biāo)引不僅是信息過(guò)濾的必要組成部分,也是對(duì)原信息的精煉與提升,可以使檢索更有效率,更為精準(zhǔn)。曾經(jīng)一度,因?yàn)槿乃饕饾u被人采用,對(duì)于標(biāo)引的需求下降,導(dǎo)致研究減少。但隨著研究的深入,尤其是面對(duì)海量信息的檢索與挖掘,如自動(dòng)摘要、文本分析、主題檢索等的需要,標(biāo)引顯得愈發(fā)重要[1]。

通用敘詞表提供了普遍意義的概念,具有普適性、協(xié)調(diào)性與兼容性的特點(diǎn),而不同的專業(yè)敘詞表提供了領(lǐng)域內(nèi)關(guān)注的不同側(cè)重點(diǎn)。單表標(biāo)引相對(duì)作用有限,但是敘詞表多表聯(lián)合標(biāo)注能夠從多視角下揭示文檔的語(yǔ)義。例如,將一個(gè)表示事物的敘詞和另一個(gè)表示該事物某個(gè)屬性或某個(gè)方面的敘詞所進(jìn)行的聯(lián)合標(biāo)引,其結(jié)果可以形成一個(gè)專指概念。例如:“信號(hào)模擬器穩(wěn)定性”可用“信號(hào)模擬器”與“穩(wěn)定性”組配,即用事物及其性質(zhì)來(lái)表達(dá)專指概念。

在自動(dòng)標(biāo)引方面,李素建等[2]利用最大熵模型進(jìn)行自動(dòng)標(biāo)引的研究,通過(guò)建立最大熵模型的特征集合,提出分類試驗(yàn)、正例試驗(yàn)、打分試驗(yàn)三種試驗(yàn),總結(jié)了最大熵模型的優(yōu)點(diǎn)在于可以靈活地選擇各種特征,結(jié)合大量的特征到模型中去。章成志[3]為了有效利用標(biāo)引對(duì)象的特征,并考慮到抽詞標(biāo)引可以轉(zhuǎn)換為序列標(biāo)注問(wèn)題,提出基于條件隨機(jī)場(chǎng)的自動(dòng)抽詞標(biāo)引模型,認(rèn)為是到目前為止解決序列標(biāo)注問(wèn)題的最好方法。程傳鵬[4]針對(duì)微博文本的特點(diǎn),根據(jù)微博文本中的名詞或動(dòng)詞之間語(yǔ)義相似度構(gòu)造圖的鄰接矩陣,再利用Pagerank算法思想來(lái)計(jì)算詞語(yǔ)的重要度,作為標(biāo)引詞選擇依據(jù)。利用敘詞表進(jìn)行機(jī)輔標(biāo)注方面,楊賀[5]等基于海量文獻(xiàn)人工標(biāo)引,運(yùn)用計(jì)量分析法對(duì)多年來(lái)積累的人工標(biāo)引詞從詞頻、詞長(zhǎng)、詞類型、詞共現(xiàn)等多方面進(jìn)行分析,運(yùn)用字面相似度計(jì)算詞間關(guān)系來(lái)建立適用于機(jī)標(biāo)和后控詞表的自然語(yǔ)言詞表的過(guò)程。朱嘉賢等[6]為支持Web資源內(nèi)部信息的檢索,研究多粒度語(yǔ)義標(biāo)注,即按樹根結(jié)點(diǎn)、分支結(jié)點(diǎn)、葉子結(jié)點(diǎn)及資源信息元為粒度單位對(duì)Web資源進(jìn)行組織管理,并在此基礎(chǔ)上探討基于本體的搜索技術(shù)。

從以上關(guān)注標(biāo)注方面的研究和設(shè)計(jì)可知,標(biāo)注是一個(gè)相對(duì)主觀和靈活的行為。本文主要著重相關(guān)實(shí)現(xiàn),包括自動(dòng)標(biāo)注與手工標(biāo)注,提出了敘詞表多表聯(lián)合標(biāo)注系統(tǒng)的設(shè)計(jì)方案。

2 多表聯(lián)合標(biāo)注系統(tǒng)整體設(shè)計(jì)

本系統(tǒng)采用的自動(dòng)標(biāo)注是詞表切分標(biāo)引法,即根據(jù)各種算法,在文獻(xiàn)中去標(biāo)注在敘詞表中出現(xiàn)的概念。人工標(biāo)注是一項(xiàng)繁重的腦力勞動(dòng)[7],它需要對(duì)標(biāo)注的文獻(xiàn)內(nèi)容進(jìn)行分析,再依據(jù)敘詞表選擇詞匯對(duì)此文獻(xiàn)的內(nèi)容進(jìn)行標(biāo)注。但是,考慮到自動(dòng)標(biāo)注的有限性,目前尚不能完全代替人工標(biāo)注。因此,本系統(tǒng)也增加了機(jī)器輔助標(biāo)注,允許系統(tǒng)用戶使用人工去標(biāo)注。

圖1 系統(tǒng)功能結(jié)構(gòu)圖

2.1 多表聯(lián)合標(biāo)注系統(tǒng)整體設(shè)計(jì)

多表聯(lián)合標(biāo)注系統(tǒng),有管理員、注冊(cè)用戶以及互聯(lián)網(wǎng)用戶等三類用戶。管理員負(fù)責(zé)用戶管理、系統(tǒng)詞表管理,以及系統(tǒng)設(shè)置。注冊(cè)用戶主要有文檔管理以及用戶詞表管理等功能?;ヂ?lián)網(wǎng)用戶相關(guān)功能有文本標(biāo)注、注冊(cè)登錄,以及業(yè)界新聞瀏覽等。系統(tǒng)公共模塊還包括日志管理模塊及API接口等。多表聯(lián)合標(biāo)注系統(tǒng)詳細(xì)功能結(jié)構(gòu)如圖1所示。

2.2 多表聯(lián)合標(biāo)注的流程

多表聯(lián)合標(biāo)注流程,主要有文檔打開、詞表設(shè)置、文本標(biāo)注以及結(jié)果處理四個(gè)步驟。詳細(xì)流程如圖2所示。文檔打開,是指用戶可通過(guò)打開本地文檔,或者粘貼來(lái)新建待標(biāo)注文檔。詞表設(shè)置,是指添加或者移除用來(lái)標(biāo)注的敘詞表,并允許用戶導(dǎo)入、編輯自己的詞表,允許用戶選擇用來(lái)標(biāo)注的詞表、專業(yè)領(lǐng)域詞表(如皮膚病、新能源汽車之類),以及通用的詞表(如人員表、機(jī)構(gòu)表)。文本標(biāo)注,是指利用自動(dòng)標(biāo)注算法或者手工標(biāo)注方式對(duì)原文進(jìn)行標(biāo)注。結(jié)果處理,包括標(biāo)注效果預(yù)覽、保存至本地以及標(biāo)注結(jié)果復(fù)制和清空等功能。

圖2 多表聯(lián)合標(biāo)注流程

以下將重點(diǎn)介紹文本標(biāo)注。

文本標(biāo)注包括自動(dòng)標(biāo)注與手工標(biāo)注。其中,自動(dòng)標(biāo)注是指利用自動(dòng)標(biāo)注算法,對(duì)待標(biāo)注文檔利用包括的多部詞表進(jìn)行自動(dòng)標(biāo)注。如果文檔原來(lái)標(biāo)注過(guò),則須先將原來(lái)的標(biāo)注信息刪除后,才能進(jìn)行再次自動(dòng)標(biāo)注。手工標(biāo)注,是指用戶選擇敘詞表以及相應(yīng)的類型屬性,然后使用鼠標(biāo)選擇相關(guān)的待標(biāo)注文本內(nèi)容進(jìn)行標(biāo)簽的創(chuàng)建、修改和刪除。文本標(biāo)注詳細(xì)流程如圖3所述。

標(biāo)注后系統(tǒng)采用通過(guò)不同顏色顯示來(lái)自不同詞表的標(biāo)簽。待標(biāo)注的文本內(nèi)容通過(guò)嵌套標(biāo)簽來(lái)實(shí)現(xiàn),這樣,用戶既能夠保證不改變?cè)娘@示位置,又能讓用戶看到標(biāo)注后的效果。例如,使用皮膚病詞表,在待標(biāo)注文檔中標(biāo)注“潰瘍”。按照該詞表,潰瘍是一種“病癥描述(PBD)”,其類型簡(jiǎn)稱為PBD。這樣,系統(tǒng)會(huì)標(biāo)注如下:<stkos:c: PBD>潰瘍</stkos:c:PBD>。其中,stkos是指原文采用本系統(tǒng)創(chuàng)建的詞表進(jìn)行標(biāo)注,c是指該用來(lái)標(biāo)注的詞表簡(jiǎn)稱,PBD是指病癥描述的代碼。同時(shí),系統(tǒng)還會(huì)在按照該詞表規(guī)定的顏色等樣式,顯示標(biāo)注后的效果,讓用戶所見(jiàn)即所得。

圖3 標(biāo)注詳細(xì)流程圖

2.3 設(shè)計(jì)中應(yīng)該注意的問(wèn)題

多表聯(lián)合標(biāo)注系統(tǒng)涉及多部詞表,同時(shí),標(biāo)注的標(biāo)簽較多,修改比較頻繁。因此,在多表聯(lián)合標(biāo)注系統(tǒng)設(shè)計(jì)中,下列問(wèn)題宜重點(diǎn)注意。

1) 文檔管理

針對(duì)多用戶平臺(tái),每個(gè)用戶可能上傳各自的文檔,因此文檔管理必不可少。系統(tǒng)在設(shè)計(jì)時(shí),應(yīng)該考慮到保持各個(gè)用戶文檔的相對(duì)獨(dú)立性,同時(shí)支持通用的文檔管理框架。針對(duì)此問(wèn)題,系統(tǒng)應(yīng)該編制相關(guān)的文檔導(dǎo)入、導(dǎo)出規(guī)范。

2) 標(biāo)注的形式

標(biāo)注的形式主要兩種,一是在原文中標(biāo)注直接修改原文,二是將原文與標(biāo)注分離。

直接修改原文,適合文本操作,標(biāo)注位置容易確定,實(shí)現(xiàn)方案比較簡(jiǎn)單。但不足在于,由于文檔額外空間不多,不好解決用戶輸入信息的填寫位置。而且,一旦修改,所有位置都會(huì)出現(xiàn)偏移,會(huì)影響系統(tǒng)效率。

原文與標(biāo)注分離,是指標(biāo)注獨(dú)立于原文存儲(chǔ),對(duì)同一原文可以顯示不同人的標(biāo)注。其優(yōu)點(diǎn)是系統(tǒng)設(shè)計(jì)相對(duì)靈活,允許不同的用戶對(duì)同一文檔進(jìn)行標(biāo)注。同時(shí),還方便對(duì)標(biāo)注的管理,如增、刪、改、查等。難點(diǎn)是記錄標(biāo)注位置,當(dāng)原文變動(dòng)時(shí)標(biāo)注不容易精確指向。多數(shù)標(biāo)注應(yīng)用都把標(biāo)注與原文分離,很多數(shù)Web應(yīng)用使用原文與標(biāo)注分離存儲(chǔ)。

標(biāo)注系統(tǒng)設(shè)計(jì)時(shí),應(yīng)該根據(jù)以上兩種標(biāo)注形式的情況決定,最終選擇哪種標(biāo)注方式,是選擇在文中直接標(biāo)注,還是原文與標(biāo)注分離的形式。

3) 標(biāo)注管理的靈活性

多表聯(lián)合標(biāo)注時(shí),由于存在添加或者刪除標(biāo)注詞表,因此標(biāo)注的管理宜靈活。在靈活性方面,下文主要從增量標(biāo)注和多視角展示標(biāo)簽兩個(gè)方面進(jìn)行分析。

增量標(biāo)注。當(dāng)用戶增加一個(gè)新詞表來(lái)標(biāo)注已經(jīng)標(biāo)注過(guò)的文章,此時(shí)應(yīng)該支持增量標(biāo)注。實(shí)現(xiàn)增量標(biāo)注,當(dāng)用戶新添加一個(gè)詞表進(jìn)行自動(dòng)標(biāo)注時(shí),原來(lái)標(biāo)注內(nèi)容和標(biāo)簽不需變動(dòng),采用增量的方式進(jìn)行自動(dòng)標(biāo)注(這樣能夠保證性能)。同樣,刪除已經(jīng)標(biāo)注的詞表時(shí),應(yīng)該能夠直接刪除原標(biāo)注詞表的標(biāo)簽。

多視角展示標(biāo)簽。多表聯(lián)合標(biāo)注的目的是增加標(biāo)注的維度,從而能夠揭示原文的語(yǔ)義。因此,標(biāo)注使用的標(biāo)簽,應(yīng)該盡能夠多視角展示。例如,能夠通過(guò)詞表分組的方式顯示標(biāo)簽及內(nèi)容,能夠?qū)⒛巢吭~表的標(biāo)注標(biāo)簽統(tǒng)計(jì)匯總等。

3 多表聯(lián)合標(biāo)注系統(tǒng)實(shí)現(xiàn)

多表聯(lián)合標(biāo)注系統(tǒng)采用B/S架構(gòu)的軟件平臺(tái),采用MyEclipse 9.0 + Tomcat 6為開發(fā)平臺(tái),采用SSH框架,JDK版本為1.6;數(shù)據(jù)庫(kù)為MySQL 5.0。

以下以皮膚病領(lǐng)域下的文檔標(biāo)注為例,介紹其實(shí)現(xiàn)。多表聯(lián)合標(biāo)注系統(tǒng)標(biāo)注頁(yè)面如圖4所示。頁(yè)面上部是詞表的管理區(qū),中間為詞表標(biāo)簽展示區(qū),正中間是文檔顯示及標(biāo)注區(qū)域,右側(cè)是已標(biāo)注標(biāo)簽的集中展示。

多表聯(lián)合標(biāo)注系統(tǒng)采用標(biāo)注與原文分離的標(biāo)注形式,在不改變?cè)牡那闆r下,通過(guò)記錄位置并將標(biāo)簽等信息存入數(shù)據(jù)庫(kù)中。標(biāo)注后的預(yù)覽效果如圖5所示。

在數(shù)據(jù)庫(kù)中記錄每個(gè)標(biāo)注文本在原文中的開始位置和結(jié)束位置。系統(tǒng)導(dǎo)出按照相關(guān)規(guī)范進(jìn)行導(dǎo)出。系統(tǒng)導(dǎo)出時(shí)可選擇采用HTML還是XML格式,并定義了系統(tǒng)的標(biāo)簽以及固定格式。例如,為了與原文保存一致,系統(tǒng)導(dǎo)出時(shí)增加了原文的導(dǎo)出,其使用的標(biāo)簽名為“originalText”。HTML方式實(shí)際導(dǎo)出效果類似于圖5所示,XML方式實(shí)際導(dǎo)出效果如圖6所示(為節(jié)省篇章,原文部分只保留了部分內(nèi)容)。

圖4 多表聯(lián)合標(biāo)注界面

圖5 標(biāo)注后的預(yù)覽效果

圖6 標(biāo)注后的文檔導(dǎo)出

4 多表聯(lián)合標(biāo)注系統(tǒng)應(yīng)用場(chǎng)景分析

4.1 深度檢索系統(tǒng)

標(biāo)注系統(tǒng)檢索能夠支持深度檢索系統(tǒng),其目的是實(shí)現(xiàn)專業(yè)化檢索,以提供精確的檢索結(jié)果。在現(xiàn)在信息泛濫的前提下,檢索并不是缺少結(jié)果,而是缺少用戶真正想要的結(jié)果。本標(biāo)注系統(tǒng)檢索提供精確的結(jié)果,應(yīng)用于類似于QA這樣的檢索或者問(wèn)答系統(tǒng)。

不同角色的人員針對(duì)相同的系統(tǒng)有不同的要求,不同的場(chǎng)景有不同的輸入方式和習(xí)慣。針對(duì)醫(yī)學(xué)信息方面的檢索,角色可能包括患者和醫(yī)務(wù)工作者兩類。

(1)患者

患者在感覺(jué)身體不舒服后,登入系統(tǒng),輸入或選擇不舒服的部位,輸入或選擇癥狀進(jìn)行查詢。頁(yè)面示意如圖7a所示?;颊咻斎牒笙到y(tǒng)自動(dòng)聯(lián)想,由用戶選擇后限定相關(guān)概念出現(xiàn)的詞表。這樣能夠過(guò)濾一些并非該詞表標(biāo)注的內(nèi)容,從而達(dá)到精確檢索的目的。一般模式僅提供用戶一個(gè)文本框,用戶僅需輸入關(guān)鍵字進(jìn)行檢索即可。用戶在輸入關(guān)鍵字時(shí),如果關(guān)鍵字在多個(gè)類型中出現(xiàn),那么提示用戶檢索哪個(gè)類型的數(shù)據(jù)。

(2)醫(yī)務(wù)專家

醫(yī)務(wù)專家主要使用本系統(tǒng)進(jìn)行資料檢索。專家在檢索時(shí),檢索信息比較具體、細(xì)致。醫(yī)務(wù)專家除了輸入部位+癥狀,還有可能輸入詞表中其他類型的數(shù)據(jù)。

專家模式提供用戶選擇詞表、類型、概念進(jìn)行檢索,并可輸入多組條件進(jìn)行檢索,在選擇一個(gè)類型,不選擇概念時(shí),默認(rèn)檢索下屬所有的類型,或者也可單獨(dú)指定概念。這樣能夠支持“頭”+“癥狀”、“部位”+“癥狀”方式的檢索。檢索示意如圖7b所示。

當(dāng)用戶輸入未確定概念,選擇類型時(shí),系統(tǒng)應(yīng)根據(jù)已經(jīng)標(biāo)注的文檔,檢索類型相關(guān)的關(guān)鍵詞,進(jìn)行提示。例如用戶輸入了“部位”+“癥狀”,那么需要從已經(jīng)標(biāo)注的文檔中檢索部位和癥狀的所有匹配組合,顯示出來(lái),供用戶選擇。用戶點(diǎn)擊一個(gè)提示的組合,即可按點(diǎn)擊的關(guān)鍵字進(jìn)行檢索,界面示意如圖7b所示。

圖7a 深度檢索示意圖(一)

圖7b 深度檢索示意圖(二)

4.2 自定義標(biāo)注引擎分析

用戶自定義標(biāo)注引擎,是指利用各個(gè)敘詞表的特點(diǎn),在原文上進(jìn)行聯(lián)合標(biāo)注,形成組合的標(biāo)注方案。用戶自定義標(biāo)注,并非標(biāo)注詞表全部類型屬性,而是只標(biāo)注用戶感興趣的某些特性,并且通過(guò)多部詞表組合后形成綜合方案。與自動(dòng)標(biāo)注不同的是,該標(biāo)注引擎只標(biāo)注用戶感興趣的內(nèi)容,而自動(dòng)標(biāo)注使用的標(biāo)簽是某部詞表的全部標(biāo)簽。例如:使用《藥品》詞表中的“副作用”標(biāo)簽可以標(biāo)注所有藥品相關(guān)的副作用。使用《皮膚病》詞表中的“藥品”名稱可以標(biāo)注治療某皮膚病的所有藥品。用戶自定義“皮膚病藥品可能帶來(lái)的副作用”標(biāo)注標(biāo)簽,則可以將兩者結(jié)合起來(lái),標(biāo)注文檔中出現(xiàn)的所有的皮膚病有關(guān)的藥品名稱及可能帶來(lái)的副作用的內(nèi)容。

自定義標(biāo)注引擎還可以對(duì)標(biāo)注的匹配規(guī)則、標(biāo)注的算法等進(jìn)行配置。匹配規(guī)則指定用戶定制匹配的算法是最大匹配優(yōu)先還是最小匹配優(yōu)先。最大匹配是一次性盡可能標(biāo)注多的內(nèi)容,而最小匹配是盡可能標(biāo)注細(xì)的內(nèi)容。如“頭痛”,針對(duì)最小匹配可能是<部位>頭</部位><癥狀>痛</癥狀>。而最大匹配可能是<疾?。绢^痛</疾?。?。

4.3 API功能

標(biāo)注后導(dǎo)出的文檔,還可以實(shí)現(xiàn)一些其他場(chǎng)景。例如:(1)提取標(biāo)注的內(nèi)容信息。利用API功能,可以把詞表所有類型的全部?jī)?nèi)容或者部分內(nèi)容依次取出來(lái),從標(biāo)注的文檔中提取標(biāo)注的內(nèi)容信息。(2)提供詞表服務(wù)信息。從標(biāo)注的文檔中,提供標(biāo)簽的解析服務(wù),比如詞表信息、標(biāo)注的類型等信息。(3)標(biāo)注后的統(tǒng)計(jì)信息。統(tǒng)計(jì)信息可能包括使用了幾部詞表、每部詞表的類型數(shù)等。(4)操作信息。幾部詞表相聯(lián)系的詞條的聯(lián)合操作,能夠挖掘一些領(lǐng)域成果。

5 結(jié)語(yǔ)

本文介紹了敘詞表多表聯(lián)合標(biāo)注系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn),主要講述了多表聯(lián)合標(biāo)注系統(tǒng)的整體設(shè)計(jì)、標(biāo)注流程,以及設(shè)計(jì)中應(yīng)該注意的問(wèn)題。最后,探討了多表聯(lián)合標(biāo)注系統(tǒng)可能存在的應(yīng)用場(chǎng)景。文中對(duì)多表聯(lián)合標(biāo)注進(jìn)行了一定程度的介紹。但是,多表聯(lián)合標(biāo)注是一個(gè)復(fù)雜的問(wèn)題,例如各種標(biāo)注算法的對(duì)比、標(biāo)注指標(biāo)的建立、標(biāo)注效果的對(duì)比等都是實(shí)際系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)中要考慮的問(wèn)題。

[1] 周雪虹.制定文獻(xiàn)編目著錄細(xì)則若干問(wèn)題的探討[J].高校圖書館工作,2003,23(6) :42-43.

[2] 李素建,王厚峰.關(guān)鍵詞自動(dòng)標(biāo)引的最大熵模型應(yīng)用研究[J].計(jì)算機(jī)學(xué)報(bào),2004,27(9):1192-1197.

[3] 章成志.基于條件隨機(jī)場(chǎng)的自動(dòng)標(biāo)引模型研究[J].中國(guó)圖書館學(xué)報(bào),2008(5):89-94.

[4] 程傳鵬.微博自動(dòng)標(biāo)引關(guān)鍵技術(shù)的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(34):137-140.

[5] 楊賀,楊奕虹,喬曉東,等.用于計(jì)算機(jī)輔助文獻(xiàn)標(biāo)引加工系統(tǒng)的自然語(yǔ)言詞表構(gòu)建[J].現(xiàn)代圖書情報(bào)技術(shù),2010(6):17-24.

[6] 朱嘉賢,白偉華,李吉桂.Web資源的多粒度語(yǔ)義標(biāo)注及其應(yīng)用技術(shù)研究[J].計(jì)算機(jī)科學(xué),2011,38(8):83-87.

[7] 黃慶紅.自動(dòng)標(biāo)引與機(jī)輔標(biāo)引[J].現(xiàn)代圖書情報(bào)技術(shù),2002(S1):63,75.

Design and Implementation of Multi-Thesaurus Joint Tagging System

Li Peng, Zhu Lijun, Liu Yajie / Institute of Scientiflc and Technical Information of China, Beijing, 100038
Xin Zhihai / Open Sources Qizhi (Beijing) Software Co., Ltd., Beijing, 100125

Universal thesaurus provides universal concept set while it has universality, coordination and compatibility features. And professional thesaurus with domain concepts focuses on professional areas. Document semantics can be revealed by tagging with concepts of multiple thesauri. This paper provided the design scheme of tagging system model with multiple thesauri, and introduced the function of text tagging module, as well as attention issues in system design. By discussing the documents' tagging in the skin disease fleld, the paper also summed up possible application scenarios about Multi-Thesaurus joint tagging. The system provides reference for mining document's meaning in the different perspective, and has laid the foundation for semantic retrieval.

Thesaurus, Tagging, Semantics

10.3772/j.issn.1673—2286.2013.11.005

李鵬(1979- ),碩士,助理研究員。研究方向:智能信息處理。E-mail: lipeng_cn@istic.ac.cn

朱禮軍(1973- ),博士,研究員。研究方向:智能信息處理。E-mail: zhulj@istic.ac.cn

辛之海(1975- ),本科,工程師。研究方向:項(xiàng)目管理。E-mail: xinzhihai@outlook.com

劉亞潔(1988- ),本科,工程師。研究方向:信息系統(tǒng)和軟件工程。E-mail: liuyajie@istic.ac.cn

2013-10-09)

*本文系國(guó)家“十二五”科技支撐計(jì)劃項(xiàng)目“科技知識(shí)組織體系的協(xié)同工作系統(tǒng)和輔助工具開發(fā)”(編號(hào):2011BAH10B02)和“面向外文科技知識(shí)組織體系的大規(guī)模語(yǔ)義計(jì)算關(guān)鍵技術(shù)研究”(編號(hào):2011BAH10B04)的研究成果之一。

猜你喜歡
詞表標(biāo)引文檔
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
檔案主題標(biāo)引與分類標(biāo)引的比較分析
本刊對(duì)來(lái)稿中關(guān)鍵詞標(biāo)引的要求
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
本刊對(duì)來(lái)稿中關(guān)鍵詞標(biāo)引的要求
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
本刊對(duì)來(lái)稿中關(guān)鍵詞標(biāo)引的要求