国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識(shí)組織系統(tǒng)構(gòu)建中對(duì)既有資源的利用方式分析*

2013-03-15 03:56:32張運(yùn)良張兆鋒閆瑩瑩許德山中國(guó)科學(xué)技術(shù)信息研究所北京100038
數(shù)字圖書館論壇 2013年11期
關(guān)鍵詞:詞表選詞詞條

□ 張運(yùn)良 張兆鋒 閆瑩瑩 許德山 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038

知識(shí)組織系統(tǒng)構(gòu)建中對(duì)既有資源的利用方式分析*

□ 張運(yùn)良 張兆鋒 閆瑩瑩 許德山 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038

知識(shí)組織系統(tǒng)的構(gòu)建是一項(xiàng)艱巨而復(fù)雜的工作,而利用既有資源,尤其是詞表和語料,則在一定程度上能夠減少這一任務(wù)的工作量。文章?lián)搜芯苛藢?duì)既有資源利用方式的四個(gè)相關(guān)問題。首先是從既有知識(shí)組織系統(tǒng)中提取出所需局部的方式及注意事項(xiàng)。其次是跨語言利用外文知識(shí)組織系統(tǒng),生成當(dāng)?shù)卣Z言知識(shí)組織系統(tǒng)雛形。再次是從選詞、相關(guān)詞推薦和詞間關(guān)系驗(yàn)證等角度分析語料庫(kù)在知識(shí)組織系統(tǒng)構(gòu)建過程中的應(yīng)用。最后探索了建設(shè)中的知識(shí)組織系統(tǒng)的利用方式,并提出了兩個(gè)循環(huán)模型。了解和掌握對(duì)既有資源的利用方式,能夠促進(jìn)更好更快地構(gòu)建知識(shí)組織系統(tǒng)。

知識(shí)組織系統(tǒng),既有資源,語料庫(kù),利用方式,循環(huán)模型

引言

知識(shí)組織系統(tǒng)包括敘詞表、詞系統(tǒng)、本體等不同的類型。根據(jù)其領(lǐng)域和知識(shí)結(jié)構(gòu)的不同,可以用于文獻(xiàn)標(biāo)引、專利分析、科技監(jiān)測(cè)、情報(bào)分析等信息和知識(shí)服務(wù),在面對(duì)海量信息資源的條件下,對(duì)知識(shí)組織系統(tǒng)的需求也在不斷增加[1]。但是,構(gòu)建知識(shí)組織系統(tǒng)是一項(xiàng)艱巨而復(fù)雜的工作,需要大量具體領(lǐng)域和知識(shí)組織系統(tǒng)方面專業(yè)人士的參與。在這種情況下,如何能夠以較低的成本,更快更好地建設(shè)知識(shí)組織系統(tǒng)則變得尤為重要。一方面,既有的不同類型的知識(shí)組織系統(tǒng)或多或少能夠提供一部分在待建知識(shí)組織系統(tǒng)仍然適用的知識(shí)。另一方面,與待建知識(shí)組織系統(tǒng)相關(guān)的語料資源,能夠保證知識(shí)的準(zhǔn)確性。不同類型的知識(shí)組織系統(tǒng)內(nèi)容不盡相同,對(duì)于知識(shí)組織系統(tǒng)構(gòu)建最為重要的幾類知識(shí)包括詞條、詞條定義、翻譯、屬性以及詞條之間的關(guān)系。在對(duì)既有資源利用方面,本文結(jié)合工作實(shí)踐,重點(diǎn)分析了對(duì)既有同語言知識(shí)組織系統(tǒng)、既有跨語言知識(shí)組織系統(tǒng)以及語料庫(kù)系統(tǒng)的利用方式。同時(shí),本文提出知識(shí)組織系統(tǒng)建設(shè)中對(duì)已經(jīng)建成部分的利用,并提出兩種循環(huán)利用模式。

1 利用既有同語言知識(shí)組織系統(tǒng)

知識(shí)組織系統(tǒng)是來自現(xiàn)實(shí)世界的知識(shí)體系,而知識(shí)體系是一脈相承的,所以總能找到一些相關(guān)的知識(shí)組織系統(tǒng)。從既有知識(shí)組織系統(tǒng)的數(shù)量上看,可能存在一部或者多部,一部的情況多對(duì)應(yīng)相對(duì)比較局限的狹小領(lǐng)域,如頂級(jí)機(jī)構(gòu)[2];多部的情況對(duì)應(yīng)建立知識(shí)組織系統(tǒng)是綜合性的領(lǐng)域,如工程技術(shù),或者交叉性新興領(lǐng)域,如新能源汽車領(lǐng)域[1]。

對(duì)于只有一個(gè)知識(shí)組織系統(tǒng)來源的情況,處理相對(duì)比較簡(jiǎn)單,僅僅從中抽取出需要的內(nèi)容即可。主要有三種抽取方式:1)按照詞族抽??;2)按照范疇抽?。?)按照子網(wǎng)絡(luò)抽取。

如圖1中(A)為一個(gè)敘詞表的局部的示意。其中圓圈表示詞條,雙圈特別表示族首詞。而單箭頭表示層級(jí)關(guān)系,從上位詞指向下位詞,不同顏色的單箭頭聯(lián)系起不同的詞族,在這一敘詞表局部中包含三個(gè)詞族。紫色的雙箭頭表示在局部范圍內(nèi)的相關(guān)關(guān)系,而黑色的虛線表示詞條對(duì)應(yīng)的其他相關(guān)關(guān)系和用代關(guān)系。按照詞族抽取,可以僅僅抽取詞條以及詞族范圍內(nèi)的上下位關(guān)系,也可以此為基礎(chǔ),進(jìn)一步擴(kuò)展抽取出一定范圍內(nèi)的關(guān)系和關(guān)系詞,通常擴(kuò)展一兩層即可。因?yàn)閿U(kuò)展必然涉及外部詞族,如果不停擴(kuò)展下去,就有可能把原有的知識(shí)組織系統(tǒng)的全部或者大部涵蓋,失去了抽取的意義。如圖1中(B)表示自左上方的族首詞開始逐層擴(kuò)展的結(jié)果,可以發(fā)現(xiàn)只要擴(kuò)展4層即可以包含圖1(A)中全部詞條。如果從右上方的族首詞開始,擴(kuò)展6層,也能包含局部的全部詞條,如圖1(C)所示。

范疇也是對(duì)于詞條的另外一種劃分依據(jù),如對(duì)于圖1中(A)所示的敘詞表片段,可以根據(jù)范疇分為圖2(D)的方式,在圖中以不同顏色表示不同范疇。對(duì)于這種情況,也可以按照類似詞族的方式進(jìn)行擴(kuò)展。第三種方式,是目前相對(duì)理想的方式,但是劃分更加復(fù)雜,需要將原有的知識(shí)組織系統(tǒng)抽象為一個(gè)復(fù)雜的圖,然后利用復(fù)雜網(wǎng)絡(luò)相關(guān)理論,將其劃分為若干的不交叉的子網(wǎng)或者社區(qū),如圖2中(E)所示,根據(jù)初始的種子詞,找到一個(gè)劃分,從中抽取若干的子網(wǎng)能夠包含種子詞(也可以限定一定比例的閾值),從而把需要的子網(wǎng)切割出來。對(duì)于這種方式,無需作逐層的網(wǎng)絡(luò)擴(kuò)展。雖然當(dāng)前沒有將社區(qū)檢測(cè)技術(shù)應(yīng)用于知識(shí)組織系統(tǒng)的子網(wǎng)劃分,但是相關(guān)的研究和方法可以借鑒[3,4]。

對(duì)于單一來源的詞條和知識(shí),還需要逐條審核,以去掉不合理和明顯已經(jīng)過時(shí)的局部知識(shí)。對(duì)于多個(gè)來源的情況,第一步的抽取是類似的,但是還有集成融合的處理,這種處理,也可以有不同的處理方式。一是全部吸收,然后檢驗(yàn)排查邏輯錯(cuò)誤,在這方面已經(jīng)有較為成熟的研究[5,6]。另外一種辦法是先吸收全部詞條,然后重新建設(shè)關(guān)系知識(shí)。

圖1 從既有同語言知識(shí)組織系統(tǒng)中提取詞族并逐層擴(kuò)展示意圖

圖2 對(duì)于敘詞表局部進(jìn)行范疇劃分和社區(qū)子網(wǎng)劃分的結(jié)果示意圖

此外,也有一些領(lǐng)域沒有相對(duì)完善的知識(shí)組織系統(tǒng)。如百科全書,可以將條目及其英文翻譯作為詞條的基本信息,條目對(duì)應(yīng)的目錄范疇作為初步的分類,條目的解釋作為詞條的定義,相關(guān)的實(shí)踐嘗試證明上述方法是可行的。

2 利用既有跨語言知識(shí)組織系統(tǒng)

由于相當(dāng)數(shù)量的知識(shí)組織系統(tǒng)存在詞條的雙語或多語對(duì)應(yīng),因此可以用某種語言的知識(shí)組織系統(tǒng)來生成第二種語言的知識(shí)組織系統(tǒng)的雛形。對(duì)于僅僅是單語的情況,也可以先邀請(qǐng)專家或者結(jié)合語料進(jìn)行翻譯的過程,相對(duì)重新建設(shè),其成本較低。

相應(yīng)的構(gòu)建流程如圖3所示,針對(duì)來源詞表V1切割為概念表(concept)和關(guān)系表(relation),目的是將兩表轉(zhuǎn)化為另外一種語言的詞表V2,對(duì)于其余的如定義、分類和屬性等知識(shí),轉(zhuǎn)化方法和規(guī)則暫時(shí)還不成熟,將在后續(xù)工作中進(jìn)一步研究。V1概念表包含CL1(當(dāng)前知識(shí)組織系統(tǒng)的語言L1的詞條)和CL2(待建設(shè)知識(shí)組織系統(tǒng)語言L2的詞條)兩個(gè)字段。關(guān)系表包含CL1A、REL和CL1B三個(gè)字段,分別表示以L1語言表示的兩個(gè)詞條及它們之間的關(guān)系,自左向右來解釋。一般敘詞表中包含用代關(guān)系、層級(jí)關(guān)系和相關(guān)關(guān)系三類,更為復(fù)雜的關(guān)系,往往也可以歸納為以上三種。對(duì)于每個(gè)CL1對(duì)應(yīng)的CL2可能是多條,也可能局部是缺失的。對(duì)于缺失的需要先進(jìn)行完善補(bǔ)充,再將1對(duì)多的拆分為1對(duì)1的形式。最后對(duì)于沒有對(duì)應(yīng)翻譯的詞條和對(duì)應(yīng)的關(guān)系進(jìn)行刪除,以此為基礎(chǔ)進(jìn)行V2的構(gòu)建。

首先構(gòu)建V2的概念表,以CL2為主鍵進(jìn)行合并,將多條CL1作為其翻譯,然后進(jìn)一步將對(duì)應(yīng)同一個(gè)CL1的多條CL2詞之間建立用代關(guān)系,需要確定一個(gè)為優(yōu)選詞。目前采用從同義詞集合中選取關(guān)系數(shù)量最多的一個(gè)作為優(yōu)選詞,其余的作為可替代的詞條,并將關(guān)系命名為alterLabel。然后將所有附加在非優(yōu)選詞上的其他關(guān)系都轉(zhuǎn)移到優(yōu)選詞上,剩余的關(guān)系類型包括related(相關(guān))、narrower(下位)和broader(上位)三類,形成V2的關(guān)系表。下一步需要在關(guān)系表中查重去掉重復(fù)的關(guān)系,然后查找CL2A和CL2B都相同,但是REL不同的數(shù)據(jù),并根據(jù)以下原則進(jìn)行處理:1)narrower/broader之一如果出現(xiàn),則優(yōu)先選用這個(gè)關(guān)系,否則就選用related關(guān)系;2)如果narrower和broader的關(guān)系同時(shí)出現(xiàn),則選用related關(guān)系。在這一過程中,希望盡量減少人工的判斷,主要是由于原來的詞系統(tǒng)都是領(lǐng)域?qū)<液椭R(shí)組織系統(tǒng)專家共同建設(shè)和審定而成,如果完全依賴一兩個(gè)人進(jìn)行人工判斷,很難保證準(zhǔn)確性。而按照以上的原則,則可以相對(duì)保證其一致性,同時(shí),其速度也較快。

圖3 跨語言利用知識(shí)組織系統(tǒng)構(gòu)建知識(shí)組織系統(tǒng)流程圖

3 對(duì)既有語料資源的利用

語料資源往往結(jié)合語料庫(kù)平臺(tái)使用,在本文以中信所綜合語料庫(kù)輔助漢語科技詞系統(tǒng)建設(shè)為例進(jìn)行介紹。該平臺(tái)開發(fā)的核心思想是利用領(lǐng)域相關(guān)的期刊論文、會(huì)議論文、學(xué)位論文和專利等科技文獻(xiàn)進(jìn)行計(jì)算分析,提供對(duì)選詞和關(guān)聯(lián)關(guān)系構(gòu)建的統(tǒng)計(jì)支持。當(dāng)然,本語料庫(kù)平臺(tái)也可以基于企事業(yè)單位自有資源進(jìn)行針對(duì)性分析,此過程可能需要對(duì)相關(guān)資源的元數(shù)據(jù)作一定的轉(zhuǎn)換處理。

該平臺(tái)包括三項(xiàng)前臺(tái)功能和四項(xiàng)后臺(tái)功能。前臺(tái)功能是關(guān)鍵詞詞頻統(tǒng)計(jì)、關(guān)鍵詞共現(xiàn)和語料全文檢索。關(guān)鍵詞詞頻統(tǒng)計(jì),主要從文獻(xiàn)中提取關(guān)鍵詞,并對(duì)詞頻作分析,分析可以從所屬領(lǐng)域、語料類型、出現(xiàn)位置、時(shí)間范圍、出現(xiàn)頻率等幾個(gè)角度進(jìn)行分析,從而實(shí)現(xiàn)初步的選詞功能,如圖4所示。關(guān)鍵詞共現(xiàn)則是在選定的詞條基礎(chǔ)上(包括機(jī)器篩選的和人工修訂完善的)進(jìn)行兩兩共現(xiàn)分析,從而支持關(guān)系構(gòu)建。共現(xiàn)類型區(qū)分為關(guān)鍵詞共現(xiàn)、句內(nèi)共現(xiàn)和文獻(xiàn)內(nèi)共現(xiàn),可以根據(jù)需要為不同的共現(xiàn)類型賦予不同的權(quán)重。全文檢索基于Lucence構(gòu)建,主要用于構(gòu)建過程中臨時(shí)的共現(xiàn)分析,這是因?yàn)橹R(shí)工程師在知識(shí)構(gòu)建過程中,總會(huì)引入一些已經(jīng)篩選好的詞條列表中沒有的詞,這些詞與既有的詞的共現(xiàn)信息并沒有預(yù)先計(jì)算,需要以全文檢索來補(bǔ)充。后臺(tái)功能是領(lǐng)域范圍管理、語料管理、專業(yè)詞典維護(hù)和數(shù)據(jù)計(jì)算。領(lǐng)域范圍管理用于管理語料庫(kù)平臺(tái)中多個(gè)領(lǐng)域的增加、刪除和修改。語料管理主要用于瀏覽、增加和刪除各領(lǐng)域的語料。專業(yè)詞典維護(hù)可以將人工修訂的篩選詞導(dǎo)入系統(tǒng),使得系統(tǒng)能夠在這一基礎(chǔ)上進(jìn)行共現(xiàn)計(jì)算。數(shù)據(jù)計(jì)算主要分為三個(gè)子功能,分別是索引建立、詞頻統(tǒng)計(jì)和共現(xiàn)計(jì)算,此外,還有一些計(jì)算輔助功能。

在整個(gè)建設(shè)過程中,語料庫(kù)平臺(tái)得到廣泛的使用。

首先是選詞階段,目前在實(shí)踐中文獻(xiàn)來源主要是來自萬方數(shù)據(jù)的期刊論文、學(xué)位論文、會(huì)議論文和專利數(shù)據(jù)。根據(jù)實(shí)際情況,可以補(bǔ)充應(yīng)用中可能用到的用戶的數(shù)據(jù),這樣的效果會(huì)更好。目前選詞主要有5個(gè)原則:

1)高頻詞優(yōu)先,低頻詞盡量不選用。根據(jù)不同領(lǐng)域的情況以及選詞要求,也可能會(huì)保留部分低頻詞。雖然理論上來說高頻詞也有一些實(shí)際上接近通用詞且不宜選用,但是在初始處理上已經(jīng)做到盡量選用作者關(guān)鍵詞或者既有詞表詞庫(kù)作為選詞基礎(chǔ),所以一定程度上可以避免這個(gè)問題。此外,這只是一個(gè)初選集,后續(xù)還有人工審核互動(dòng)過程,可以進(jìn)一步排檢。

2)關(guān)鍵位置上的詞優(yōu)先。針對(duì)目前涉及的文獻(xiàn),關(guān)鍵位置一般包括標(biāo)題和關(guān)鍵詞部分,在這些位置上的詞相對(duì)更重要。

3)時(shí)間靠后優(yōu)先。也就是同等情況下,近期出現(xiàn)頻次較高的,相對(duì)來說較為重要,并且有逐步變得更加重要的趨勢(shì)。

4)用戶自有資料優(yōu)先。一般來講在用戶自有資料中的頻次比在通用文獻(xiàn)中的頻次更重要,因?yàn)橐院罂赡艽罅刻幚眍愃频淖杂匈Y料。

5)選詞參考數(shù)值。具體的頻次數(shù)值、年代數(shù)值沒有統(tǒng)一參考數(shù)值,主要由于不同領(lǐng)域所能得到的基礎(chǔ)文獻(xiàn)和資料的數(shù)據(jù)差異較大,所以無法給出統(tǒng)一的參考數(shù)值。但有一個(gè)參考標(biāo)準(zhǔn),可以按照希望選擇出來的詞按照1.5-2倍選取,這一過程,可以通過反復(fù)嘗試和在檢索結(jié)果中進(jìn)行再檢索得以實(shí)現(xiàn)。

核心詞實(shí)際上有三個(gè)來源:一是語料庫(kù)中的統(tǒng)計(jì)數(shù)據(jù)(當(dāng)然領(lǐng)域?qū)<疫€會(huì)刪除一些詞條,所以這部分是專家審定后保留的),二是領(lǐng)域?qū)<覍彾ㄟ^程中補(bǔ)充添加的詞條,三是知識(shí)工程師在加工過程中補(bǔ)充的詞條。

語料庫(kù)平臺(tái)在建設(shè)過程中的作用,主要是共現(xiàn)分析,分析經(jīng)過專家審定后的所有詞條,計(jì)算共現(xiàn)頻次,以適當(dāng)?shù)男问秸宫F(xiàn)給知識(shí)工程師參考。此外,還利用了全文檢索功能,為知識(shí)工程師新增詞條,構(gòu)建相關(guān)關(guān)系提供部分語料支撐。保證新增的知識(shí)也有依據(jù),如果試圖在兩個(gè)詞條間建立了關(guān)聯(lián),在資料或者文獻(xiàn)中沒有共現(xiàn)過,則需要重新重點(diǎn)評(píng)估其準(zhǔn)確性。

圖4 中信所綜合語料庫(kù)平臺(tái)關(guān)鍵詞詞頻統(tǒng)計(jì)功能截圖

4 利用知識(shí)組織系統(tǒng)已建成部分的循環(huán)模型

知識(shí)組織系統(tǒng)的建設(shè)是一個(gè)循序漸進(jìn)的過程,建設(shè)過程中包含一定的順序流程。這個(gè)順序是循環(huán)的,每一類型知識(shí)的改變,都可能改變知識(shí)組織系統(tǒng)其他類型的知識(shí)。一般知識(shí)組織系統(tǒng)包含的內(nèi)容都可以歸納為五個(gè)要素,分別是詞條、定義、翻譯、關(guān)系和屬性。首先根據(jù)詞條,人工添加對(duì)應(yīng)的定義、翻譯、關(guān)系和屬性知識(shí),通過這些知識(shí)反過來能夠進(jìn)一步豐富詞表,增加詞條或者修訂詞條。而利用翻譯[7]和定義[8],一方面可以發(fā)現(xiàn)新的關(guān)系和屬性,也可以發(fā)現(xiàn)既有關(guān)系和屬性中矛盾沖突之處,從而有可能對(duì)存在錯(cuò)誤的關(guān)系、屬性作修訂,或者對(duì)翻譯和定義作修訂。所以在五個(gè)要素之間存在添加知識(shí)、詞條豐富、知識(shí)發(fā)現(xiàn)和檢驗(yàn)校對(duì)等四種類型的關(guān)系。具體的循環(huán)模型如圖5所示。此外,還可以進(jìn)一步引入外部語料,從而在上述循環(huán)模型基礎(chǔ)上得到更大的循環(huán)模型,即引入領(lǐng)域語料庫(kù),從詞條、定義、翻譯、關(guān)系和屬性等的建設(shè),都能得到語料的印證,同時(shí)建設(shè)好的知識(shí)組織系統(tǒng)可以反過來作用于語料庫(kù),用于篩選確認(rèn)選擇語料的合理性,可以直接計(jì)算知識(shí)組織系統(tǒng)在每篇語料上的覆蓋程度,也可以對(duì)每篇語料進(jìn)行標(biāo)引,再以標(biāo)引詞進(jìn)行計(jì)算。經(jīng)過如此反復(fù)循環(huán),最后將實(shí)現(xiàn)語料庫(kù)和知識(shí)組織系統(tǒng)的全面融合,見圖6。兩個(gè)循環(huán)模型分別稱為內(nèi)部循環(huán)模型和內(nèi)外循環(huán)模型。

5 結(jié)語

本文結(jié)合工作實(shí)踐,探索了知識(shí)組織系統(tǒng)構(gòu)建中對(duì)既有資源的利用方式問題,先后分析了同語言知識(shí)組織系統(tǒng)資源、跨語言知識(shí)組織系統(tǒng)和語料庫(kù)等外部既有知識(shí)資源的利用方式。同時(shí),本文提出了在知識(shí)組織系統(tǒng)內(nèi)部,利用既有知識(shí)組織系統(tǒng)建成部分進(jìn)行知識(shí)組織系統(tǒng)建設(shè)的循環(huán)模型,并將語料庫(kù)融合其中,形成了內(nèi)外循環(huán)模型。集成既有的平臺(tái),并針對(duì)知識(shí)組織系統(tǒng)構(gòu)建的循環(huán)模型完善有關(guān)環(huán)節(jié),將是下一步工作中的研究重點(diǎn)。

圖5 知識(shí)組織系統(tǒng)構(gòu)建的內(nèi)部循環(huán)模型

圖6 知識(shí)組織系統(tǒng)構(gòu)建的內(nèi)外循環(huán)模型

參考文獻(xiàn)

[1] 賀德方,喬曉東,朱禮軍,等.漢語科技詞系統(tǒng)(新能源汽車卷)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2012.

[2] 楊奕虹,李雅萍,張立麗,等.機(jī)構(gòu)多層級(jí)詞表的編制及在文獻(xiàn)計(jì)量評(píng)價(jià)與科研績(jī)效管理中的應(yīng)用[J].數(shù)字圖書館論壇,2013(6):57-63.

[3] LANCICHINETTI A, FORTUNATO S. Community detection algorithms: a comparative analysis [J]. Physical review E, 2009, 80(5): 056117.

[4] JIA GUANBO, CAI ZIXING, MUSOLESI M, et al. Community Detection in Social and Biological Networks Using Differential Evolution [A]. Learning and Intelligent Optimization,Lecture Notes in Computer Science, 2012: 71-85.

[5] 徐碩,喬曉東,朱禮軍,等.機(jī)構(gòu)多層級(jí)詞表的編制及在文獻(xiàn)計(jì)量評(píng)價(jià)與科研績(jī)效管理中的應(yīng)用[J].數(shù)字圖書館論壇,2010(8):55-58.

[6] 吳雯娜,王星.敘詞表融合方法研究[J].中國(guó)圖書館學(xué)報(bào),2012(4):110-118.

[7] 張運(yùn)良,喬曉東,朱禮軍,等.基于術(shù)語翻譯信息的同義關(guān)系快速構(gòu)建方法研究[J].圖書情報(bào)工作,2013,57(8):109-113.

[8] 張運(yùn)良,梁健,朱禮軍,等.基于術(shù)語定義的科技知識(shí)組織系統(tǒng)自動(dòng)豐富關(guān)鍵技術(shù)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2010(7/8):66-71.

The Utilization Pattern of Existing Resources in the Construction of Knowledge Organization Systems

Zhang Yunliang, Zhang Zhaofeng, Yan Yingying, Xu Deshan /Institute of Scientiflc and Technical Information of China, Beijing, 100038

It is complicated and difflcult to construct a knowledge organization system nowadays. To utilize the existing resources, especially vocabularies and corpus, will decrease the work to some extent. Four problems about the utilization pattern of existing resources in the construction of knowledge organization systems are studied. The flrst is the patterns and attentions of extracting the useful parts from existing knowledge organization systems. The second is the patterns of constructing a prototype of a knowledge organization system in some language by use another one in foreign language. The third is the three patterns of term selection, related terms recommendation and veriflcation of relation between terms with a domain corpus. At last, the patterns of using already constructed parts of knowledge organization system itself, and two circulation models are proposed. It will lead to better and more rapid construction of knowledge organization systems to know and master the utilization patterns of existing resources.

Knowledge organization systems, Existing resources, Corpus, Utilizationpattern, Circulation model

10.3772/j.issn.1673—2286.2013.11.006

張運(yùn)良(1979- ),男,博士,副研究員。研究方向:為知識(shí)組織、知識(shí)工程、自然語言處理、文本自動(dòng)分類。E-mail:zhangyl@istic.ac.cn

張兆鋒(1979- ),男,在讀博士,助理研究員。研究方向:專利分析、數(shù)據(jù)挖掘、信息可視化。

閆瑩瑩(1981- ),女,中國(guó)科學(xué)技術(shù)信息研究所,碩士。研究方向:知識(shí)組織,自動(dòng)標(biāo)引。

許德山(1979- ),男,博士,中國(guó)科學(xué)技術(shù)信息研究所信息技術(shù)支持中心助理研究員,研究方向:知識(shí)組織、文本挖掘、語義Web。

2013-10-09)

*本文系國(guó)家自然科學(xué)基金項(xiàng)目“面向特定情報(bào)分析應(yīng)用的知識(shí)組織系統(tǒng)快速構(gòu)建關(guān)鍵問題研究”(編號(hào):71203208)、國(guó)家“十二五”科技支撐計(jì)劃課題“面向外文科技文獻(xiàn)信息的超級(jí)科技詞表和本體建設(shè)”(編號(hào):2011BAH10B01)、中國(guó)科學(xué)技術(shù)信息研究所重點(diǎn)工作項(xiàng)目“漢語科技詞系統(tǒng)建設(shè)與應(yīng)用工程”(編號(hào):ZD2012-3-2)的研究成果之一。

猜你喜歡
詞表選詞詞條
選詞寫故事
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
英語世界(2021年13期)2021-01-12 05:47:51
選詞填空好方法
讀一讀,選詞填空
2016年4月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
2016年3月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
選詞填空
2016年9月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
大數(shù)據(jù)相關(guān)詞條
嘉定区| 探索| 江永县| 红河县| 资中县| 苏尼特右旗| 淳安县| 丁青县| 五常市| 毕节市| 绍兴市| 苍南县| 弋阳县| 东方市| 榆中县| 南郑县| 镇巴县| 大英县| 峡江县| 依兰县| 乌审旗| 日土县| 南丰县| 张家口市| 永靖县| 封开县| 乾安县| 时尚| 清流县| 隆德县| 潍坊市| 大渡口区| 通州市| 松潘县| 左云县| 保靖县| 疏附县| 房山区| 旬邑县| 湘潭市| 无棣县|