国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

化工領(lǐng)域本體的構(gòu)建與應(yīng)用

2017-10-19 09:32張安超韓娜
出版科學(xué) 2017年5期
關(guān)鍵詞:知識服務(wù)數(shù)字出版知識庫

張安超 韓娜

[摘 要] 闡述化學(xué)工業(yè)出版社基于化工領(lǐng)域詞表和出版資源構(gòu)建化工領(lǐng)域本體的方案,以及基于化工領(lǐng)域本體為用戶提供的語義檢索、知識地圖、知識關(guān)聯(lián)與推薦等應(yīng)用服務(wù)。實踐表明,領(lǐng)域本體可創(chuàng)新數(shù)字內(nèi)容產(chǎn)品形式,提升產(chǎn)品服務(wù)功能,實現(xiàn)專業(yè)出版機構(gòu)由信息服務(wù)向知識服務(wù)的升級。

[關(guān)鍵詞] 領(lǐng)域本體 知識組織系統(tǒng) 知識服務(wù) 知識庫 數(shù)字出版

[中圖分類號] G237 [文獻標(biāo)識碼] A [文章編號] 1009-5853 (2017) 05-0088-04

Construction and Application of Chemical Domain Ontology

Zhang Anchao Han Na

(Chemical Industry Press, Beijing, 100011)

[Abstract] Base on professional domain-specific thesaurus and publishing resource, this paper mainly expounds the construction scheme of chemical ontology in Chemical Industry Press, and further expatiats the services provided on account of Chemical ontology, including semantic retrieve, knowledge map, knowledge connection and knowledge recommendation and so on. With domain ontology, it is feasible to innovate the forms of digital content products, to improve the capability of product service, and finally to upgrade information service to knowledge service.

[Key words] Domain ontology Knowledge organization system Knowledge service Knowledge base Digital publishing

網(wǎng)絡(luò)與信息技術(shù)的進步提高了信息生產(chǎn)、傳播的效率,但在豐富信息供給的同時也使用戶獲取有價值信息的難度增加,產(chǎn)生信息過剩與知識匱乏的矛盾。在這樣的背景下,專業(yè)出版機構(gòu)紛紛采取措施,面向垂直細(xì)分領(lǐng)域,積極探索由信息服務(wù)向知識服務(wù)轉(zhuǎn)型升級?;瘜W(xué)工業(yè)出版社面向化工領(lǐng)域,以化工領(lǐng)域本體為基礎(chǔ)構(gòu)建化工專業(yè)知識庫[1],為用戶提供知識服務(wù)。

1 知識組織系統(tǒng)與本體

知識組織系統(tǒng)(Knowledge Organization Systems,KOS)是各種對人類知識結(jié)構(gòu)進行表達(dá)和有組織闡述的語義工具的統(tǒng)稱,包括分類法、敘詞表、本體等 [2]。知識組織系統(tǒng)是開展知識服務(wù)的基礎(chǔ)。

在海量、異構(gòu)資源環(huán)境下,分類法及敘詞表已經(jīng)不能完全滿足知識組織尤其是語義分析和挖掘的需要。但是,已有分類法和敘詞表中所包含的語義特征和信息仍然是其他知識組織系統(tǒng)的重要基礎(chǔ)。

本體是共享概念模型的明確的形式化規(guī)范說明。它具有明確、形式化、共享、概念化四大特征 [3]。本體一般分為頂層本體、領(lǐng)域本體、任務(wù)本體、應(yīng)用本體4種。領(lǐng)域本體(domain ontology)作為其中的一種,主要用于表示某一特定領(lǐng)域相關(guān)詞匯或術(shù)語及其相互關(guān)系,與特定領(lǐng)域直接相關(guān)[4]。

本體兼有分類法和主題詞表的功能,同時又具有規(guī)范化、形式化等特點。它既可以作為領(lǐng)域知識框架構(gòu)建知識網(wǎng)絡(luò),實現(xiàn)對海量、異構(gòu)資源的組織,本身又可以作為知識對象,可以以此為基礎(chǔ)填充知識內(nèi)容生成知識庫。

2 化工領(lǐng)域本體構(gòu)建

針對化工領(lǐng)域?qū)I(yè)知識服務(wù)的需要,化學(xué)工業(yè)出版社需要構(gòu)建化工領(lǐng)域本體,以實現(xiàn)對化工專業(yè)圖書、期刊、標(biāo)準(zhǔn)、專利、視頻、動畫等異構(gòu)資源的組織與關(guān)聯(lián),并在此基礎(chǔ)上構(gòu)建化工領(lǐng)域知識庫,為用戶提供語義檢索、知識地圖、知識關(guān)聯(lián)與推薦等服務(wù)。

2.1 化工領(lǐng)域本體構(gòu)建方法

目前學(xué)術(shù)界對于本體構(gòu)建的研究比較深入,方法主要包括本體論工程法和敘詞表法兩種。

本體論工程法采用工程化思路,路線清晰,不用局限于特定領(lǐng)域,構(gòu)建效率較高,在本體迭代方面優(yōu)勢明顯。但是,它在領(lǐng)域概念的整理與關(guān)系構(gòu)建方面工作量較大。常用的本體論工程法有七步法[5]。

敘詞表具有本身概念精練規(guī)范、層次結(jié)構(gòu)清晰、語義關(guān)系明確等特點,符合本體結(jié)構(gòu)特征,可以轉(zhuǎn)換為本體[6]。敘詞表法根據(jù)敘詞表轉(zhuǎn)換為本體的方式分為手工轉(zhuǎn)換、半自動/自動轉(zhuǎn)換兩種。敘詞表法基于專業(yè)敘詞表,能夠有效復(fù)用專業(yè)敘詞表的概念及基本關(guān)系,可以減少一部分工作量。但是敘詞表法需要專業(yè)敘詞表作為基礎(chǔ),因此只能限于部分已構(gòu)建了專業(yè)敘詞表的領(lǐng)域。另外,由于專業(yè)敘詞表的“用代屬分參族”等語義關(guān)系的局限性,敘詞表法并不能完整反映專業(yè)領(lǐng)域自身的特點,仍然需要進行大量的語義關(guān)系重構(gòu)。

針對上述方法的特點,我們在領(lǐng)域本體構(gòu)建過程中采用了本體論工程法加敘詞表法的混合構(gòu)建方法:使用本體論工程法中的七步法流程,在領(lǐng)域知識復(fù)用過程中充分吸取專業(yè)敘詞表的概念及其基本關(guān)系,同時根據(jù)化工專業(yè)特點對語義關(guān)系進行全面重構(gòu)。在工具方面,采用定制開發(fā)的“化工類語義資源加工系統(tǒng)”。該系統(tǒng)包括詞表轉(zhuǎn)換、屬性獲取、本體學(xué)習(xí)、本體進化和可視化等功能。描述語言則采用資源描述框架(Resource Description Framework,RDF)。endprint

2.2 化工領(lǐng)域本體構(gòu)建流程

本體構(gòu)建流程在充分吸取七步法流程的基礎(chǔ)上,結(jié)合現(xiàn)有資源擴充為十步法。具體流程如圖1所示。

定義需求?;瘜W(xué)工業(yè)出版社構(gòu)建化工領(lǐng)域本體,針對的是信息爆炸背景下,化工專業(yè)用戶精準(zhǔn)獲取領(lǐng)域知識的需求。具體需求包括:以化工領(lǐng)域本體為基礎(chǔ)構(gòu)建化工領(lǐng)域知識庫,提供語義檢索、知識地圖、知識關(guān)聯(lián)與推薦等服務(wù)。

確定領(lǐng)域。本體領(lǐng)域的確定,首先取決于需求,即為化工專業(yè)領(lǐng)域服務(wù)。其次,構(gòu)建者還需在目標(biāo)領(lǐng)域具有一定的知識資源基礎(chǔ)。據(jù)不完全統(tǒng)計,化學(xué)工業(yè)出版社自建社以來,出版了化工相關(guān)圖書近3000種(套),工具書200余種(套)。根據(jù)開卷2014年以來的統(tǒng)計數(shù)據(jù),化學(xué)工業(yè)出版社在化工分類市場實體店市場占有率保持在50%以上,穩(wěn)居市場占有率第一名,具有良好的資源基礎(chǔ)。本項目中,本體領(lǐng)域明確為化工知識領(lǐng)域。

劃分知識范疇?;な腔瘜W(xué)工業(yè)、化學(xué)工程和化學(xué)工藝三者的總稱或某一部分的簡稱。隨著科學(xué)和國民經(jīng)濟的發(fā)展,“化工”的范圍也在不斷擴大,例如環(huán)境問題、生產(chǎn)安全等 [7]。我們提取其中較為成熟、穩(wěn)定,容易達(dá)成共識的部分,將化工領(lǐng)域劃分成化工物質(zhì)、過程與工藝、化工行業(yè)、分析檢測項目、分析檢測方法、化工裝備、化工安全、化工環(huán)保、化學(xué)工程基礎(chǔ)9個大類。

確定領(lǐng)域知識模型。領(lǐng)域本體中概念的設(shè)計應(yīng)遵循專業(yè)領(lǐng)域中客觀對象和對象間的關(guān)系法則。我們根據(jù)化工領(lǐng)域知識特點和知識結(jié)構(gòu)構(gòu)建化工領(lǐng)域本體概念模型。首先建立化工物質(zhì)的層次結(jié)構(gòu)體系,以此建立知識的縱向關(guān)聯(lián)。然后,以其他類(化工裝備、過程與工藝等)作為對“化工物質(zhì)”知識元的屬性描述,以此建立化工物質(zhì)的橫向知識關(guān)聯(lián)。

領(lǐng)域知識復(fù)用。可復(fù)用的領(lǐng)域知識包括本體、敘詞表、分類法、工具書、教材等。化工領(lǐng)域的本體除了少量學(xué)術(shù)研究成果外[8],可直接復(fù)用的較少。復(fù)用價值較高的文獻包括《化工漢語敘詞表》《漢語主題詞表》《化工百科全書》《化工辭典》及《化工產(chǎn)品大全》等。此類文獻有著較為規(guī)范的體系結(jié)構(gòu)、權(quán)威專業(yè)的詞匯,適合用于領(lǐng)域本體的構(gòu)建。

確定核心概念。核心概念的確定包括兩部分:一是直接從相關(guān)文獻中抽取,二是由相關(guān)專家提供。無論哪種方式,都需要經(jīng)過嚴(yán)格審校,以保證概念的準(zhǔn)確和唯一。通過這種方式,共確定23000余個核心概念作為化工領(lǐng)域本體。

確定概念屬性。不同于《漢語主題詞表》中對于每個概念通過統(tǒng)一的概念描述模型進行規(guī)范化描述的方式[9],化工領(lǐng)域本體建立了概述屬性、專業(yè)屬性和自然語言屬性3種屬性類型。概述屬性主要包括名稱、英文名、釋義、代碼與約束。其中名稱、英文名、代碼等由敘詞表所含信息自動生成。釋義主要來源于化工專業(yè)辭典。專業(yè)屬性包括安全性、制備、分析檢測、應(yīng)用、生產(chǎn)廠家等。自然語言屬性則包括同義詞、相關(guān)詞等。

構(gòu)建語義關(guān)系。語義關(guān)系是概念和屬性之間的關(guān)系,其本質(zhì)是概念模型的實例化。例如化工物質(zhì)的制備方法屬于概念模型,而硫酸的制備方法則屬于具體的語義關(guān)系實例。概念模型由領(lǐng)域?qū)<邑?fù)責(zé)構(gòu)建與管理,語義關(guān)系則需借助系統(tǒng)進行自動構(gòu)建和管理。本項目中,構(gòu)建的語義關(guān)系超過1500萬個,平均每個概念約有800個語義關(guān)系。

領(lǐng)域?qū)<覍徍?。領(lǐng)域?qū)<覍徍素灤┯谡麄€化工領(lǐng)域本體構(gòu)建過程中。領(lǐng)域?qū)<覍徍说膬?nèi)容包括概念、屬性、概念屬性關(guān)系模型以及語義關(guān)系。審核工作需要借助專門開發(fā)的工具軟件。

生成本體。本體是概念、關(guān)系、屬性所組成的三元組。領(lǐng)域本體是某特定領(lǐng)域中所有三元組的集合。化工領(lǐng)域本體片段如圖2所示。

3 化工領(lǐng)域本體應(yīng)用

本體作為一種高度抽象化、形式化的知識組織系統(tǒng),已廣泛應(yīng)用于醫(yī)藥、農(nóng)業(yè)、石油、交通等領(lǐng)域,在產(chǎn)品形態(tài)上則包括知識庫、語義檢索、知識管理、知識發(fā)現(xiàn)、專家系統(tǒng)、在線教育等。與企業(yè)管理界和圖書情報界對知識庫的定位[10]不同,出版社所建設(shè)的專業(yè)知識庫是知識服務(wù)產(chǎn)品的一種形式?;瘜W(xué)工業(yè)出版社根據(jù)化工領(lǐng)域用戶的需求,將本體用于構(gòu)建化工專業(yè)知識庫,為用戶提供知識服務(wù)。引入本體以后,化工專業(yè)知識庫可以在數(shù)字圖書館、數(shù)據(jù)庫、資源庫等傳統(tǒng)信息服務(wù)的基礎(chǔ)上提供語義檢索、知識地圖、知識發(fā)現(xiàn)等知識服務(wù)功能。

3.1 語義檢索

基于本體的語義檢索體現(xiàn)在語料語義標(biāo)注與索引、檢索詞語義預(yù)處理、檢索結(jié)果語義相關(guān)性排序3個方面,涵蓋了檢索的前、中、后3個階段。語義標(biāo)注與索引是在傳統(tǒng)全文索引的基礎(chǔ)上,通過語義標(biāo)注,將語義信息添加到索引中,能夠極大提高查準(zhǔn)率與查全率。例如,對于熔點、沸點等詞匯,會根據(jù)本體的結(jié)構(gòu),將其標(biāo)注為“理化性質(zhì)”,從而可以通過檢索“理化性質(zhì)”而定位到相關(guān)內(nèi)容,提高查準(zhǔn)率。檢索詞語義預(yù)處理,是基于同義詞表、相關(guān)詞表等將用戶自由檢索詞進行語義處理后轉(zhuǎn)換為規(guī)范敘詞進行檢索。例如,本體中的“燒堿”一詞,還有“火堿”“苛性鈉”等同義詞,當(dāng)用戶檢索“火堿”或“苛性鈉”時,將自動轉(zhuǎn)義為“燒堿”進行檢索,從而提高查準(zhǔn)率。檢索結(jié)果語義相關(guān)性則根據(jù)本體概念模型,對檢索結(jié)果的語義距離進行計算,根據(jù)語義距離的遠(yuǎn)近進行排序,提高檢索結(jié)果排序的合理性。

3.2 知識地圖

知識地圖是一種可視化的知識導(dǎo)航方式。基于本體的知識地圖是以本體語義關(guān)系為數(shù)據(jù)框架,以可視化技術(shù)為展現(xiàn)手段而形成的一種立體交叉網(wǎng)狀結(jié)構(gòu)。本體的“概念—屬性—概念”之間的三元組關(guān)系,在知識地圖中以“點—線—點”的方式予以呈現(xiàn),從理論上講,知識地圖的任何一個節(jié)點均可以無限延展。知識地圖能夠較為完整地展示知識點及其相互關(guān)系,能夠幫助用戶了解知識脈絡(luò),挖掘隱性知識,擴展知識領(lǐng)域。圖3展示了“氧化—反應(yīng)物—1,2,3三氯丙烷”的知識脈絡(luò)和相關(guān)知識關(guān)系。

3.3 知識關(guān)聯(lián)與推薦

本體是一種立體交叉的網(wǎng)絡(luò)結(jié)構(gòu)。概念、屬性都是知識網(wǎng)絡(luò)的節(jié)點,并與其他節(jié)點相關(guān)聯(lián)。在“知識—知識”關(guān)聯(lián)的基礎(chǔ)上,利用語義標(biāo)注和索引可以實現(xiàn) “知識—資源”關(guān)聯(lián)以及“資源—資源”關(guān)聯(lián),進而實現(xiàn)知識與資源之間的多重關(guān)聯(lián)?;诒倔w的知識關(guān)聯(lián)包括概念關(guān)聯(lián)及屬性關(guān)聯(lián)兩種基本形式,概念關(guān)聯(lián)又包括上下位概念間的關(guān)聯(lián)、同位概念間的關(guān)聯(lián),如硫酸與其他硫化合物的關(guān)聯(lián);屬性關(guān)聯(lián)又包括同屬性類型關(guān)聯(lián)、同屬性值關(guān)聯(lián),如擁有相同制造工藝的化工物質(zhì)之間的關(guān)聯(lián)。知識推薦則是在知識關(guān)聯(lián)關(guān)系的基礎(chǔ)上,基于一定的用戶興趣、專業(yè)相關(guān)性等規(guī)則,向用戶展示特定的知識元、知識單元或資源。知識關(guān)聯(lián)與推薦能夠為用戶發(fā)現(xiàn)知識、挖掘知識提供幫助。endprint

4 結(jié) 語

化工領(lǐng)域本體構(gòu)建的應(yīng)用實踐表明,結(jié)合工程法和敘詞表法,基于出版資源構(gòu)建領(lǐng)域本體的方法,能夠充分復(fù)用出版資源中的領(lǐng)域知識,縮短領(lǐng)域本體構(gòu)建時間,提高領(lǐng)域本體質(zhì)量,是一種適合專業(yè)出版機構(gòu)的領(lǐng)域本體構(gòu)建方法。

從化工領(lǐng)域本體的應(yīng)用情況來看,本體作為一種高度形式化的知識組織系統(tǒng),能夠應(yīng)用于數(shù)字出版產(chǎn)品,創(chuàng)新數(shù)字內(nèi)容產(chǎn)品形式,提升產(chǎn)品服務(wù)功能,實現(xiàn)由信息服務(wù)向知識服務(wù)的升級。

但是,從本體特點來看,其僅適用于高度形式化、規(guī)范化的知識領(lǐng)域,尤其是專業(yè)細(xì)分領(lǐng)域,對于自由度較高的知識領(lǐng)域的描述則存在很大局限性。本體的自動構(gòu)建、質(zhì)量評價及進化仍然有許多待解決的問題。

注 釋

[1]張安超.專業(yè)知識庫建設(shè)的探索與實踐:以化工知識庫為例[J].科技與出版,2016(12):89-91

[2]曾蕾.網(wǎng)絡(luò)世界與知識組織系統(tǒng)/結(jié)構(gòu)(KOS)[R]. 中國科學(xué)院國家科學(xué)圖書館總館,2013:2-4

[3]Studer B,Benjamins V R,F(xiàn)ensel D.Knowledge Engineering:Principles and Methods[J].Data and Knowledge

Engineering,1998,25(1/2) : 161-197

[4]孫麗. 基于本體的數(shù)字圖書館知識服務(wù)模式研究[D].長春:吉林大學(xué),2013:20-21

[5]岳麗欣,劉文云.國內(nèi)外領(lǐng)域本體構(gòu)建方法的比較研究[J].情報理論與實踐,2016(8):119-125

[6]高凡,李景.Ontology及其與分類法、主題法的關(guān)系[J].圖書館理論與實踐,2005(2):44-46

[7]李淑芬,王成揚,張毅民.現(xiàn)代化工導(dǎo)論[M].北京:化學(xué)工業(yè)出版社,2013:1-4

[8]劉卓燕.化學(xué)化工文獻本體的構(gòu)建與實現(xiàn)研究[D].上海:上海交通大學(xué),2008:2-5

[9]曾建勛,常春,吳雯娜,宋培彥.網(wǎng)絡(luò)環(huán)境下新型《漢語主題詞表》的構(gòu)建[J]. 中國圖書館學(xué)報,2011(4):43-49

[10]王曉光.專業(yè)知識庫是專業(yè)出版商向服務(wù)提供商轉(zhuǎn)型的發(fā)力點[EB/OL]. [2016-07-21].http://www.bookdao.com/article/72123

(收稿日期:2017-02-06)endprint

猜你喜歡
知識服務(wù)數(shù)字出版知識庫
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
構(gòu)建圖書館知識服務(wù)理論體系的思考
嵌入心理契約的館員知識服務(wù)能力建設(shè)研究
從西方國家保護消費者權(quán)益政策看用戶信息消費的安全管理
學(xué)術(shù)期刊數(shù)字出版的運行模式與市場結(jié)構(gòu)
淺談新媒體在美術(shù)類圖書出版中的應(yīng)用
做一個全民閱讀時代的“悅”讀人
國際圖書出版市場現(xiàn)狀及趨勢分析
高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
德昌县| 镇远县| 封开县| 建水县| 建阳市| 临洮县| 浦县| 彭泽县| 昔阳县| 泗水县| 都昌县| 漯河市| 民乐县| 霞浦县| 岑溪市| 云阳县| 贵德县| 天水市| 五家渠市| 布尔津县| 犍为县| 谢通门县| 双流县| 民县| 安福县| 京山县| 漳浦县| 勃利县| 阿拉善左旗| 南皮县| 陕西省| 淳安县| 平塘县| 阳曲县| 安乡县| 平遥县| 长春市| 苏尼特右旗| 定安县| 元朗区| 廉江市|