国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于本體的單元信息知識庫構(gòu)建研究

2018-01-02 00:39付苓
現(xiàn)代情報 2017年12期
關(guān)鍵詞:知識庫本體

〔摘 要〕構(gòu)建單元信息知識庫,可以實現(xiàn)對單元信息的有效揭示、組織與利用,為實現(xiàn)精粹服務(wù)的需求提供知識保障。本文引入本體提出了單元信息知識庫的構(gòu)建方法,設(shè)計了知識庫的總體結(jié)構(gòu),構(gòu)建了單元信息本體,闡述了數(shù)據(jù)建設(shè)的過程,并以“養(yǎng)生領(lǐng)域”為例實現(xiàn)了知識庫的構(gòu)建。本文所構(gòu)建的基于本體的單元信息知識庫能夠較好地組織、存儲和利用單元信息,提供知識檢索和知識發(fā)現(xiàn)服務(wù),實現(xiàn)從海量數(shù)據(jù)中有效獲取有價值信息的需求。

〔關(guān)鍵詞〕本體;單元信息;知識庫;單元信息本體

DOI:10.3969/j.issn.1008-0821.2017.12.013

〔中圖分類號〕G250 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2017)12-0074-05

〔Abstract〕The construction of the unit information knowledge base is helpful for the representation,organizing and using of knowledge.It provided a high-quality services for users.[Method/Process]This paper introduced a method of building the the unit information knowledge based on ontology,designed the overall architecture of the knowledge base and the unit information ontology,put forward the process of data construction.And it took the“Yangsheng”as an example to realize the construction of the repository.[Results/Conclusion]The unit information knowledge base could better organize,storage and use related unit information knowledge,provided knowledge retrieval and knowledge discovery services to achieve effective access to valuable information from mass data.

〔Key words〕ontology;unit Information;knowledge base;unit information ontology

單元信息知識組織體系建設(shè),為單元信息的組織和利用提供了支撐,滿足了用戶從海量異源異構(gòu)數(shù)據(jù)中快速有效地獲取有價值的信息的需求[1]。知識庫(Knowledge Base)是某一(或某些)領(lǐng)域知識的集合,采用某種知識表示方式實現(xiàn)知識的存儲、組織和管理。單元信息知識庫作為規(guī)范描述、組織和存儲領(lǐng)域文獻(xiàn)中單元信息的存儲庫,通過對領(lǐng)域文獻(xiàn)中單元信息資源深層知識內(nèi)容的揭示,能夠支持知識檢索和知識發(fā)現(xiàn)。國內(nèi)外相關(guān)學(xué)者不斷深入研究知識庫構(gòu)建的理論與技術(shù),取得了一定的成果,其中最主要構(gòu)建方法是基于本體的知識庫構(gòu)建方法。本文深入探討以本體為知識表示模型構(gòu)建單元信息知識庫,將單元信息知識進(jìn)行組織,滿足用戶從海量數(shù)據(jù)中獲取有價值信息的需求。

某些研究文獻(xiàn)中知識元、知識單元與本文中單元信息的概念一致,所以在引用其他文獻(xiàn)時統(tǒng)一用單元信息表示。

1 單元信息知識庫總體結(jié)構(gòu)設(shè)計

構(gòu)建單元信息知識庫的目標(biāo)就是要捕獲相關(guān)領(lǐng)域的單元信息,利用本體對單元信息進(jìn)行組織,提供對該領(lǐng)域單元信息知識的共同理解。從而使用戶在大數(shù)據(jù)環(huán)境中可以快速獲取自己感興趣的單元信息,而避免其他海量信息的干擾。

構(gòu)建單元信息知識庫首先明確知識庫的構(gòu)建目標(biāo)、構(gòu)建原則、面向的目標(biāo)用戶及其對知識庫的需求,明確知識庫中需要的知識內(nèi)容和知識類型。在知識庫總體需求分析的基礎(chǔ)上,設(shè)計知識庫總體結(jié)構(gòu)。最后進(jìn)行單元信息知識庫的建設(shè)。單元信息知識庫的建設(shè)內(nèi)容可分為兩部分:單元信息本體建設(shè)和數(shù)據(jù)建設(shè)。

1.1 構(gòu)建目標(biāo)

本文構(gòu)建基于本體的單元信息知識庫的主要目標(biāo),是為了采用語義Web技術(shù),尤其是OWL,提供關(guān)于某一領(lǐng)域內(nèi)單元信息的相關(guān)內(nèi)容,為某一領(lǐng)域單元信息資源提供一致的理解,實現(xiàn)單元信息的揭示、組織和利用,滿足用戶快速獲取自己感興趣的單元信息的需求。

本文歸并具有相同意義的單元信息類型[2-5],將單元信息類型分為概念型、方法型、數(shù)值型、事實型和陳述型。單元信息的類型有利于對單元信息進(jìn)行分類和聚類。

1)概念型:概念型單元信息是對事物性質(zhì)和變化規(guī)律的認(rèn)識,大致包含定義、原理(理論)、名詞解釋、術(shù)語、公理、定律等類型的知識。

2)方法型:方法型單元信息是解決問題的方式,大致包含步驟、方法、經(jīng)驗、技巧、過程等類型的知識。

3)數(shù)值型:數(shù)值型單元信息,是以數(shù)值形式存在的單元信息,是表達(dá)客觀實體數(shù)值屬性方面的最小獨立單元。

4)事實型:事實型單元信息,是描述實體真實情況(如發(fā)展過程、涉及領(lǐng)域、最終結(jié)果等)的知識,包含歷史事件、(地理、社會等)現(xiàn)象、人物、信息、符號等類型的知識。

5)陳述型:陳述型單元信息是表述(或引用)某種觀點或兩者之間關(guān)系的知識,大致包含觀點、結(jié)論、引用等類型的知識。

1.2 單元信息知識庫結(jié)構(gòu)設(shè)計

單元信息知識庫的總體結(jié)構(gòu)包括單元信息本體庫和數(shù)據(jù)庫兩個部分,總體框架如圖1所示。endprint

單元信息本體庫存儲的是單元信息的主題、來源、類型和描述內(nèi)容的信息。數(shù)據(jù)庫存儲的圖書、期刊和報紙等相關(guān)文獻(xiàn)資源,以及相關(guān)的單元信息資源。

2 單元信息本體庫構(gòu)建

2.1 本體范圍

單元信息是文獻(xiàn)中隱含的有價值的表征概念、觀點、原理、方法、數(shù)據(jù)、論述、結(jié)論等的原文片段信息。文獻(xiàn)資源的外在屬性特征(如題名、作者等),是數(shù)字文獻(xiàn)資源組織中必然會使用的。作為文獻(xiàn)的原文片段信息,單元信息也具有所在文獻(xiàn)所承載的元數(shù)據(jù)屬性,有必要挖掘出單元信息的基本來源信息。

單元信息的內(nèi)在語義特征(主題詞)是單元信息內(nèi)部語義信息的集中概括,是表征單元信息知識內(nèi)容的屬性,單元信息主題概念及關(guān)系的表示影響了單元信息知識揭示、知識組織和知識服務(wù)的水平。盡可能地重用已有知識資源,建立單元信息所屬領(lǐng)域的領(lǐng)域本體。領(lǐng)域本體提供領(lǐng)域內(nèi)共同接受認(rèn)可的概念及概念之間的語義關(guān)系,對各類單元信息進(jìn)行主題概念的語義標(biāo)注。

本體庫還應(yīng)包含單元信息的原文描述,可以直觀地展示單元信息,利于單元信息的標(biāo)注、檢索和了解。

2.2 本體建模和形式化

單元信息知識庫的本體設(shè)計,主要包括單元信息本體設(shè)計、領(lǐng)域本體設(shè)計、元數(shù)據(jù)本體設(shè)計。通過對單元信息本身、單元信息來源和單元信息所屬領(lǐng)域主題三者實體關(guān)系進(jìn)行語義層次上的描述和關(guān)聯(lián)表示,復(fù)用已有本體和其他知識資源,構(gòu)建單元信息知識庫本體。

單元信息知識庫的本體模型如圖2所示:

本體通常使用Web本體語言(OWL)來表示。OWL使用形式語義,并使用基于RDF/XML的模式表示。萬維網(wǎng)聯(lián)盟(W3C)支持OWL,是本體發(fā)布的標(biāo)準(zhǔn)[6]。因此,本體形式化產(chǎn)生機(jī)器可讀的文本文件;此外,語義以這樣的方式表示,也可以由計算機(jī)讀取。本文使用本體語言(OWL)組織單元信息。

依據(jù)上文所確定的本體范圍,確定從來源類、主題類、描述類、類型類這4個主要方面構(gòu)建單元信息本體。然后對每一組概念自頂向下進(jìn)行分層。單元信息本體中的來源類的屬性是標(biāo)題,通過標(biāo)題與元數(shù)據(jù)本體進(jìn)行連接。主題類的屬性值是概念,通過概念與領(lǐng)域本體進(jìn)行連接。

采用模塊化本體設(shè)計方法,重用已有本體或非本體知識資源構(gòu)建領(lǐng)域本體(如圖3所示),例如構(gòu)建養(yǎng)生領(lǐng)域本體時重用①標(biāo)題表[7-10]和養(yǎng)生學(xué)辭典[11]構(gòu)建養(yǎng)生領(lǐng)域本體框架及②《Mesh主題詞表》、《中國中醫(yī)藥學(xué)主題詞表》、《中醫(yī)藥語言系統(tǒng)》和《中文一體化醫(yī)學(xué)語言系統(tǒng)》用于豐富領(lǐng)域本體的概念和個體。養(yǎng)生領(lǐng)域本體的主要概念及關(guān)系如圖4所示。

元數(shù)據(jù)本體是基于都柏林核心元數(shù)據(jù)(Dublin Core)[12],Dublin Core主要包含15個核心元素:標(biāo)題、主題、描述、來源、語言、關(guān)聯(lián)、覆蓋范圍、作者、出版者、貢獻(xiàn)者、權(quán)利、日期、資源類型、格式和標(biāo)識符。本文用到的元數(shù)據(jù)元素主要是標(biāo)題、主題、出版者、作者、日期、頁碼,其中描述圖書的元數(shù)據(jù)主要是書名、作者、出版社、出版時間、頁碼、主題;描述期刊的元數(shù)據(jù)主要是:題名、作者、期刊名、出版時間、卷(期)(可選元數(shù)據(jù))、主題、頁碼;描述報紙的元數(shù)據(jù)主要是:題名、作者、報紙名稱、出版日期、版次(可選元數(shù)據(jù))、主題。

3 單元信息知識庫數(shù)據(jù)建設(shè)

首先遴選不同類型的文獻(xiàn)資源,采集得到結(jié)構(gòu)化的原始單元信息,然后對原始單元信息進(jìn)行語義查重和映射,最終轉(zhuǎn)換為OWL/RDF數(shù)據(jù)導(dǎo)入單元信息本體知識庫系統(tǒng),提供導(dǎo)航和檢索等知識服務(wù)。

單元信息知識庫數(shù)據(jù)建設(shè)流程如圖5所示。

3.1 單元信息采集

單元信息采集策略是:遴選圖書、期刊和報紙等不同類型的文獻(xiàn),然后根據(jù)單元信息提取原則人工判讀單元信息。

單元信息本體知識庫的文獻(xiàn)來源主要有:來自權(quán)威出版社和核心期刊的文獻(xiàn)。文獻(xiàn)遴選策略有以下幾點:

1)遴選圖書:人工采集權(quán)威出版社的領(lǐng)域文獻(xiàn),例如《中國高被引圖書年報》(2016版)養(yǎng)生領(lǐng)域(涵蓋從醫(yī)藥衛(wèi)生一般性問題到藥學(xué)學(xué)科的各個出版社)的核心出版社:人民出版社、人民軍醫(yī)出版社、科學(xué)出版社、上??茖W(xué)技術(shù)出版社等;

2)遴選期刊:人工采集核心期刊(例如中文核心期刊、CSSCI來源期刊等)發(fā)表的領(lǐng)域文獻(xiàn),例如養(yǎng)生領(lǐng)域的中文核心期刊中的R-R9類期刊(例如中華醫(yī)學(xué)雜志、中華中醫(yī)藥雜志等)及CNKI收錄其他非學(xué)術(shù)期刊(例如科學(xué)養(yǎng)生、養(yǎng)生大世界、中華養(yǎng)生保健、現(xiàn)代養(yǎng)生等)。

為了保證從文獻(xiàn)中提取單元信息的準(zhǔn)確性、實用性、客觀性、新穎性、完整性和系統(tǒng)性[13],采用人工方式從文獻(xiàn)中提取單元信息。單元信息主要分為概念型、方法型、數(shù)值型、事實型和陳述型。根據(jù)前面論述可知,各類型的單元信息的內(nèi)容主要涉及定義、原理(理論)、步驟、方法、數(shù)值、事件事實、現(xiàn)象、觀點、結(jié)論、引用、綜述等方面。以上方面的選取原則具體如下:

1)定義:有特定的語法結(jié)構(gòu),如:×××是××××;所謂……;×××是……;也稱為×××。具有新穎性,闡述簡練和完整。

2)原理(理論):科學(xué)、明確地描述理論;具有創(chuàng)新性。

3)方法:對解決問題具有突破性改進(jìn);具有新穎性、獨創(chuàng)性及可操作性。

4)數(shù)值:有價值、重大意義和潛在意義;具有真實性(包括時間、對象及確切數(shù)值等)。

5)事實:具有真實性、準(zhǔn)確性和代表性。

6)觀點:具有新穎性;論述準(zhǔn)確、清晰、全面。

7)結(jié)論:簡潔高度概括;具有邏輯性和普遍指導(dǎo)意義。

為了將不同類型文獻(xiàn)的單元信息類和屬性準(zhǔn)確映射到單元信息本體知識庫中的類和屬性,根據(jù)不同來源的單元信息的規(guī)范制定了不同來源的單元信息Excel表格模板,人工將采集的不同來源的單元信息最終存儲在Excel文件中。

3.2 單元信息查重和映射endprint

在數(shù)據(jù)處理過程中,首先將待錄入單元信息與知識庫中已有信息進(jìn)行查重。對于重復(fù)單元信息(即重復(fù)單元信息本體中各個類的實例)在導(dǎo)入系統(tǒng)時進(jìn)行合并處理,以保證知識庫中實例的唯一性和完整性。

單元信息查重后將待錄入單元信息與單元信息本體庫實現(xiàn)映射,每一條具體的單元信息都可以與單元信息本體庫中的類、屬性互相聯(lián)系。數(shù)據(jù)轉(zhuǎn)換時,根據(jù)單元信息本體進(jìn)行不同分類處理,生成對應(yīng)的實例和相關(guān)屬性的屬性值。例如:單元信息數(shù)據(jù)庫中的每一條具體的單元信息內(nèi)容,都是單元信息本體中描述這個類的實例;單元信息的來源信息是單元信息本體中的來源這個類的實例,也是元數(shù)據(jù)本體中某個類的實例;單元信息的主題,既是單元信息本體中的主題這個類的實例,也是領(lǐng)域本體中某個概念的實例,或某個子類本身。單元信息知識庫數(shù)據(jù)頁面如圖6所示。

4 結(jié) 語

在當(dāng)今大數(shù)據(jù)環(huán)境下,構(gòu)建知識庫來管理單元信息資源,對單元信息知識進(jìn)行有效的搜集、揭示、組織、存儲和利用,這是實現(xiàn)從海量數(shù)據(jù)中有效獲取有價值信息的需求所必須解決的一個問題。不同領(lǐng)域?qū)卧畔⑿枨髠?cè)重點不同,因此構(gòu)建特定領(lǐng)域的單元信息知識庫很有必要。本文詳細(xì)闡述了單元信息知識庫中的本體庫和數(shù)據(jù)庫構(gòu)建,以“養(yǎng)生領(lǐng)域”為例實現(xiàn)了單元信息知識庫的構(gòu)建,以期為不同領(lǐng)域的單元信息知識庫構(gòu)建提供參考,希望在后續(xù)的研究中加以改進(jìn)和完善。

參考文獻(xiàn)

[1]付苓.面向大數(shù)據(jù)的單元信息知識組織體系建設(shè)框架[J].情報理論與實踐,2016,(6):96-98.

[2]溫有奎,焦玉英.基于知識元的知識發(fā)現(xiàn)[M].西安:西安電子科技大學(xué)出版社,2010.

[3]廖開際,熊會會,葉東海.基于知識元理論的應(yīng)急文檔結(jié)構(gòu)化建模[J].計算機(jī)應(yīng)用研究,2011,28(1):175-178.

[4]張靜,劉延申,衛(wèi)金磊.論中小學(xué)多媒體知識元庫的建設(shè)[J].現(xiàn)代教育技術(shù),2005,15(5):68-71.

[5]畢崇武,王忠義,宋紅文.基于知識元的數(shù)字圖書館多粒度集成知識服務(wù)研究[J].圖書情報工作,2017,61(4):115-122.

[6]McGuinness D L,Harmelen F V.OWL Web Ontology Language Overview,W3C Recommendation 10 February 2004[EB/OL].https://www.w3.org/TR/owl-features/,2017-05-11.

[7]劉占文.中醫(yī)養(yǎng)生學(xué)[M].北京:中國中醫(yī)藥出版社,2012.

[8]馬烈光.中醫(yī)養(yǎng)生學(xué)[M].北京:中國中醫(yī)藥出版社,2012.

[9]楊世忠.中醫(yī)養(yǎng)生學(xué)概論[M].北京:中醫(yī)古籍出版社,2009.

[10]張民生.現(xiàn)代養(yǎng)生學(xué)[M].西安:陜西科學(xué)技術(shù)出版社,2014.

[11]卡志強(qiáng).養(yǎng)生學(xué)辭典[M].福州:福建人民出版社,1981.

[12]Dublin Core Metadata Element Set,Version 1.1[EB/OL].http://dublincore.org/documents/dces/,2017-05-11.

[13]倪曉建.基于新信息環(huán)境下的精粹信息鑒選研究[J].深圖通訊,2008,(2):6-9.

(本文責(zé)任編輯:馬 卓)endprint

猜你喜歡
知識庫本體
Abstracts and Key Words
漢語近義詞辨析知識庫構(gòu)建研究
對姜夔自度曲音樂本體的現(xiàn)代解讀
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
美國高校機(jī)構(gòu)知識庫開放獲取政策調(diào)查
基于本體的機(jī)械產(chǎn)品工藝知識表示
高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
專題
福鼎市| 定襄县| 建瓯市| 南康市| 石林| 罗定市| 宣武区| 大冶市| 青海省| 鄢陵县| 中西区| 贵溪市| 兴国县| 柘城县| 武汉市| 耒阳市| 平远县| 吉首市| 四会市| 汉寿县| 普宁市| 邻水| 崇阳县| 永清县| 凭祥市| 体育| 江川县| 沾化县| 平乡县| 郧西县| 甘泉县| 临沭县| 巧家县| 沁水县| 拜城县| 霍山县| 璧山县| 特克斯县| 邵武市| 隆化县| 临沧市|