郭維威,褚洪波,李曉艷,劉 鋒,田鐵剛,尹衍林
(黑龍江工業(yè)學(xué)院,黑龍江雞西 158100)
?
領(lǐng)域本體模型構(gòu)建與信息檢索方法研究
郭維威,褚洪波,李曉艷,劉鋒,田鐵剛,尹衍林
(黑龍江工業(yè)學(xué)院,黑龍江雞西158100)
摘要:傳統(tǒng)的信息檢索主要是利用關(guān)鍵詞進(jìn)行匹配檢測(cè)的,在信息檢索過(guò)程中時(shí)常出現(xiàn)檢索結(jié)果不全等問(wèn)題。通過(guò)引入了本體論、構(gòu)建本體框架,利用概念相似度的信息檢索方法,從而提高信息檢索的查全率和查準(zhǔn)率。
關(guān)鍵詞:信息檢索;領(lǐng)域本體;概念相似度;語(yǔ)義距離
(1)傳統(tǒng)信息檢索方法的缺陷。傳統(tǒng)的信息檢索主要是利用關(guān)鍵詞進(jìn)行匹配檢測(cè)的,也就是將待檢測(cè)的信息分解成若干個(gè)關(guān)鍵詞進(jìn)行檢索。在檢索過(guò)程中這些關(guān)鍵詞字符只能從字面上來(lái)理解其含義,而詞匯的內(nèi)在概念無(wú)法表示出來(lái),所以在信息檢索過(guò)程中時(shí)常會(huì)出現(xiàn)檢索結(jié)果不全、檢索結(jié)果還會(huì)出現(xiàn)一些用戶不需要的信息;同時(shí)檢索結(jié)果也很難檢索到關(guān)鍵詞背后潛藏的信息。產(chǎn)生上述問(wèn)題的主要原因是傳統(tǒng)的檢索方法很少具有關(guān)鍵詞語(yǔ)義的邏輯推理能力,而且大部分網(wǎng)頁(yè)信息都是采用無(wú)結(jié)構(gòu)或半結(jié)構(gòu)的HTML和XML語(yǔ)言開(kāi)發(fā)設(shè)計(jì)的,檢索中計(jì)算機(jī)只能按照其結(jié)構(gòu)類(lèi)型進(jìn)行解析,而不能準(zhǔn)確理解它們的內(nèi)在含義。
(2)基于本體語(yǔ)義Web技術(shù)。為了解決傳統(tǒng)檢索方法中存在的這種問(wèn)題,學(xué)者正在研究新技術(shù)和新方法,其中比較成功的是基于本體語(yǔ)義Web的技術(shù)?;诒倔w語(yǔ)義web技術(shù)是在萬(wàn)維網(wǎng)的基礎(chǔ)上進(jìn)行了擴(kuò)展,在檢索信息中引入語(yǔ)義內(nèi)容。該語(yǔ)義內(nèi)容和關(guān)鍵詞很相近,或可以代替關(guān)鍵詞,通過(guò)語(yǔ)義內(nèi)容檢索時(shí)可以對(duì)頁(yè)面信息分類(lèi)理解,這樣就可以有效的協(xié)助用戶完成各項(xiàng)檢索操作?;诒倔w語(yǔ)義Web的檢索技術(shù)從根本上能夠克服傳統(tǒng)檢索模型僅提供基于關(guān)鍵詞檢索存在的缺點(diǎn),能夠充分表示檢索信息的內(nèi)在意義,并檢索出與輸入信息的同義詞與近義詞、上位與下位等信息,從而提高了對(duì)信息檢索的查全率和查準(zhǔn)率,也提高了用戶滿意度。
(1)本體定義及領(lǐng)域本體。本體(Ontology)是“世界上客觀存事物的系統(tǒng)地描述,即本體可以理解為存在論”,對(duì)本體的定義有很多種,其中對(duì)其普遍的定義為“本體是具有明確的共享概念化的一種形式說(shuō)明”。領(lǐng)域本體的定義過(guò)程具有樹(shù)狀結(jié)構(gòu),我們通過(guò)已經(jīng)定義好樹(shù)狀層次結(jié)構(gòu),用來(lái)描述概念與概念之間以及領(lǐng)域本體中的各種關(guān)系,從而進(jìn)一步實(shí)現(xiàn)各種應(yīng)用之間的資源共享。領(lǐng)域本體具有很好的層次結(jié)構(gòu),該結(jié)構(gòu)呈樹(shù)狀結(jié)構(gòu)顯示,這種結(jié)構(gòu)能夠有效的支持概念之間的邏輯推理,所以領(lǐng)域本體在信息檢索方面具有較好的應(yīng)用價(jià)值。創(chuàng)建本體模型的工具可以選擇由斯坦福大學(xué)利用Java編寫(xiě)開(kāi)發(fā)的開(kāi)放源碼本體編輯器Protege,它不僅可以建立本體的模型,還可以將已經(jīng)建立的模型轉(zhuǎn)換為相應(yīng)的文件并存儲(chǔ)在數(shù)據(jù)庫(kù)中,為以后檢索操作奠定基礎(chǔ)。
(2)研究的相關(guān)工作?;诒倔w語(yǔ)義的信息檢索過(guò)程中主要考慮到文檔的內(nèi)部結(jié)構(gòu),可以利用集成化的、非形式化的和形式化的方法進(jìn)行信息檢索。使用非形式化方法進(jìn)行信息檢索時(shí),主要是借助于語(yǔ)義空間模型,利用統(tǒng)計(jì)與概率分析方法為進(jìn)行本體語(yǔ)義檢索,在語(yǔ)義空間模型的表示下,可以通過(guò)空間向量之間的相互乘積來(lái)計(jì)算索引項(xiàng)和文檔之間的語(yǔ)義關(guān)聯(lián)程度,進(jìn)而完成信息檢索,使檢索結(jié)果更全面。按照自然語(yǔ)言的理解領(lǐng)域也可以完成信息檢索,其過(guò)程是首先通過(guò)深入的分析自然語(yǔ)言文本,然后通過(guò)分析來(lái)獲取完整的、復(fù)雜的語(yǔ)義信息。采用這種方法描述,可以在一個(gè)領(lǐng)域本體的支持下,利用概念層次結(jié)構(gòu)表示的語(yǔ)義,這種方法得到的結(jié)果的查全率和查準(zhǔn)率都比較低。在信息檢索中引入本體,將數(shù)據(jù)實(shí)現(xiàn)了語(yǔ)義描述,采用領(lǐng)域本體語(yǔ)義的信息檢索能取得較好的檢索效果。
領(lǐng)域本體模型構(gòu)建時(shí),首先要考慮到本體的組成部分。通常情況下,一個(gè)領(lǐng)域本體由以下幾個(gè)方面組成,即該領(lǐng)域本體的層次體系、對(duì)應(yīng)屬性及屬性的取值范圍、本體層次間的語(yǔ)義關(guān)系、層次之間的推理規(guī)則。利用領(lǐng)域本體中類(lèi)、關(guān)系、函數(shù)、推理規(guī)則和實(shí)例五個(gè)基礎(chǔ)說(shuō)明來(lái)描述本體結(jié)構(gòu)模型。其次在建立領(lǐng)域本體模型時(shí)要有相應(yīng)的領(lǐng)域?qū)<遗c知識(shí)專(zhuān)家的共同參與,其構(gòu)建過(guò)程是一個(gè)繁瑣的手工過(guò)程;本體構(gòu)建可以利用概念節(jié)點(diǎn)的有向圖來(lái)表示,每個(gè)概念由對(duì)象、事件和屬性三個(gè)部分組成,概念之間的關(guān)聯(lián)可以利用有向圖節(jié)點(diǎn)之間的連線來(lái)表示。構(gòu)建本體時(shí)要明確本體包含的范圍,還要考慮到本體以后的重用,本體建構(gòu)的具體過(guò)程有5個(gè)步驟。
(1)確定領(lǐng)域本體覆蓋范圍。明確需要建立本體的目的和任務(wù),因?yàn)檠芯康念I(lǐng)域越大,所需要建立的本體就越大,因此要根據(jù)需要來(lái)限定本體的研究。
(2)對(duì)待要建立的本體進(jìn)行分析。定義本體中需要的專(zhuān)業(yè)術(shù)語(yǔ),同時(shí)確定術(shù)語(yǔ)的含義以及術(shù)語(yǔ)之間存在的相互關(guān)系,在此過(guò)程中要求有領(lǐng)域?qū)<液椭R(shí)專(zhuān)家的參與,如果對(duì)該領(lǐng)域了解非常全面、詳細(xì),那么所建立的領(lǐng)域本體也就越完善,檢索時(shí)更加準(zhǔn)確。
(3)領(lǐng)域本體的表示。通常情況下采用語(yǔ)義模型表示本體,如概念及其屬性模型。
(4)領(lǐng)域本體建立的標(biāo)準(zhǔn)驗(yàn)證。本體的建立要遵循清晰性、一致性、完整性和可擴(kuò)展性四個(gè)標(biāo)準(zhǔn)。清晰性是指本體中采用的術(shù)語(yǔ)要專(zhuān)業(yè),同時(shí)沒(méi)有二義性;一致性是采用的邏輯關(guān)系要一致;完整性是指領(lǐng)域本體中的概念及其屬性的描述要完整,要包含所建立領(lǐng)域本體內(nèi)所有概念,雖然有一定的難度,但要不斷的維護(hù)和完善;可擴(kuò)展性是指隨著領(lǐng)域的不斷發(fā)展可以隨時(shí)引入新的本體。
(5)領(lǐng)域本體的建立。對(duì)符合上述標(biāo)準(zhǔn)的予以建立,否則跳轉(zhuǎn)到第二步。
概念相似度的計(jì)算主要有3種方法。
(1)基于距離的相似度計(jì)算。該方法的思想是利用概念之間層次結(jié)構(gòu)中的幾何距離來(lái)量化的,這種計(jì)算方法依賴領(lǐng)域本體的基本結(jié)構(gòu),本體建構(gòu)的是否嚴(yán)密將導(dǎo)致計(jì)算結(jié)果的精準(zhǔn)度。
(2)基于信息內(nèi)容的語(yǔ)義相似度計(jì)算。這種方法引入多個(gè)概念之間的公共信息,如果公共信息多,則說(shuō)明這幾個(gè)概念具有高相似性,那么其語(yǔ)義相似度也就越大,相反則越小。如果某個(gè)概念出現(xiàn)的頻率很小,則認(rèn)為概念的信息量就很大。
(3)基于屬性的相似度計(jì)算。通常情況下判斷事物之間是否具有聯(lián)系時(shí),可以利用他們之間的特征來(lái)判斷,也就是利用他們具有的屬性來(lái)判斷其相似性。比如判斷兩部手機(jī)是否相似或相同,我們就可以利用其的品牌、屏幕的大小、相關(guān)配置和顏色等屬性來(lái)判斷,如果屬性都相同,則說(shuō)明兩個(gè)事物相同,如果公共屬性很多,則說(shuō)明兩者具有相似性。
參考文獻(xiàn)
[1]王兵.本體概念的語(yǔ)義相似度研究[J].世界科技研究與發(fā)展,2013,(1).
[2]劉鋒.一種優(yōu)化的基于領(lǐng)域本體語(yǔ)義距離的概念相似度計(jì)算模型研究[J].曲阜師范大學(xué)學(xué)報(bào),2015,(10).
[3]丁政建.一種改進(jìn)的相似度計(jì)算方法[J].計(jì)算機(jī)工程,2010,(12).
The Resear
ch on the Construction of Domain Ontology Model and Information Retrieval Methods
GUO Wei-wei,CHU Hong-bo,LI Xiao-yan,LIU Feng,TIAN Tie-gang,YIN Yan-lin
(Heilongjiang University of Technology,Jixi,Heilongjiang 158100,China)
Abstract:Traditional information retrieval depends on keywords to do matching detection.Therefore,problems such as incomplete retrieval results occur a lot during the retrieval process.Through introducing the ontology,constructing ontology framework,and using the concept of similarity information retrieval methods to improve the recall ratio and precision of information retrieval.
Key words:information retrieval;domain ontology;concept similarity;semantic distance
作者簡(jiǎn)介:郭維威(1978-),女,黑龍江雞西人,碩士研究生,副教授,主要研究方向:數(shù)據(jù)庫(kù)、軟件開(kāi)發(fā)。
基金項(xiàng)目:本文系2014年黑龍江省教育廳科學(xué)技術(shù)研究項(xiàng)目“基于領(lǐng)域本體的語(yǔ)義web智能搜索模型的研究”的階段成果,項(xiàng)目編號(hào):12543050。
收稿日期:2015-12-11
中圖分類(lèi)號(hào):TP391.3
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-980X(2016)01-0093-02