陳葉旺,李海波,余金山
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門 361021)
一種基于農(nóng)業(yè)領(lǐng)域本體的語(yǔ)義檢索模型
陳葉旺,李海波,余金山
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門 361021)
基于農(nóng)業(yè)領(lǐng)域本體和詞匯,給出一個(gè)針對(duì)農(nóng)業(yè)領(lǐng)域的語(yǔ)義檢索改進(jìn)模型.該模型接受用戶自然語(yǔ)言輸入,通過(guò)計(jì)算詞語(yǔ)與本體知識(shí)之間的相關(guān)度和相似度,來(lái)實(shí)現(xiàn)詞匯到知識(shí)的映射.針對(duì)農(nóng)業(yè)領(lǐng)域本體特點(diǎn),給出相應(yīng)的語(yǔ)義擴(kuò)展規(guī)則,把檢索結(jié)果從本體知識(shí)擴(kuò)展到與之相關(guān)的資源文檔,并對(duì)檢索結(jié)果進(jìn)行排序.
本體;語(yǔ)義擴(kuò)展;語(yǔ)義檢索模型;農(nóng)業(yè)領(lǐng)域
語(yǔ)義檢索是提供信息服務(wù)的重要組成部分,是當(dāng)前的一個(gè)研究熱點(diǎn)[1-9].然而,目前大部分的基于本體的語(yǔ)檢索方法只是用本體來(lái)提供一些表達(dá)能力較淺的信息空間,或者只是在本體表達(dá)的知識(shí)中做是非判斷,存在著很大的局限性.在過(guò)去的一段時(shí)期內(nèi),在語(yǔ)義檢索這個(gè)方面上取得的成果,僅僅是在基于本體的知識(shí)系統(tǒng)中使用部分本體的表達(dá)能力[10],或是采用基于布爾檢索模型[9].這使得被檢索的對(duì)象要么符合條件,要么不符合條件.對(duì)于第1種模型而言,它使用部分本體的表達(dá)能力,而本體只是用來(lái)提供一些表達(dá)能力較淺的信息空間,本質(zhì)上等同于詞匯分類和詞匯表.對(duì)于第2種模型而言,它存在一個(gè)很大的局限性,即很難把目前存在的海量非結(jié)構(gòu)化知識(shí)完全用本體形式化地表示[8].在自然語(yǔ)言詞匯到本體知識(shí)映射方面,這兩種模型多是以字符串匹配方式簡(jiǎn)單而直接地完成映射,使得映射成功率相對(duì)較低.另外,這兩個(gè)模型都沒(méi)有提供一個(gè)有效的檢索結(jié)果排序,使得最終用戶很難區(qū)分結(jié)果好壞.對(duì)于用戶來(lái)說(shuō),能否方便地實(shí)現(xiàn)檢索語(yǔ)句的構(gòu)造,準(zhǔn)確地表達(dá)出自己的檢索需求,關(guān)系到能否檢索到相關(guān)的結(jié)果.采用自然語(yǔ)言問(wèn)句的形式,是目前表達(dá)檢索意圖的最好形式.本文給出一個(gè)基于農(nóng)業(yè)領(lǐng)域本體與詞匯的改進(jìn)檢索模型,并進(jìn)行相應(yīng)的實(shí)驗(yàn).
系統(tǒng)的自然語(yǔ)言處理,包括用戶查詢預(yù)處理、問(wèn)題分類、去除無(wú)意義字和詞、中文分詞等主要功能.
1)預(yù)處理.去除需求文本中不能被識(shí)別的成分,包括空白字符、空格、TAB和特殊字符.
2)問(wèn)題分類.系統(tǒng)對(duì)每個(gè)領(lǐng)域知識(shí)的查詢都定義了一系列查詢關(guān)鍵詞,根據(jù)這些關(guān)鍵詞,可以從用戶的輸入中辨別出查詢領(lǐng)域.
3)去除無(wú)意義字和詞.屬于經(jīng)驗(yàn)處理,主要是去除平凡詞,如“是”、“應(yīng)該”、“可以”,以及“的”、“地”、“得”等.平凡詞所在的語(yǔ)義表達(dá)的正確性和重要性較小,可以去除.平凡詞列表是根據(jù)經(jīng)驗(yàn)知識(shí)得到的,可以不斷提煉修改.
4)中文分詞.這一步主要基于兩個(gè)詞庫(kù),一個(gè)是中文基本詞庫(kù),其詞匯數(shù)量有119 850個(gè);另一個(gè)是聯(lián)合國(guó)糧食及農(nóng)業(yè)組織(Food and Agriculture Organization,簡(jiǎn)稱FAO)提供的中文農(nóng)業(yè)詞庫(kù),其詞匯數(shù)量有37 060個(gè).在分詞過(guò)程中,F(xiàn)AO提供中文農(nóng)業(yè)詞庫(kù)優(yōu)先級(jí)比中文基本詞庫(kù)高,即先以FAO中文農(nóng)業(yè)詞庫(kù)為準(zhǔn).
在經(jīng)過(guò)自然語(yǔ)言分詞之后,得到的是詞匯集合,須把這些詞匯轉(zhuǎn)化為本體知識(shí)庫(kù)中對(duì)應(yīng)的知識(shí)點(diǎn)上,這就需要所謂的映射工作.映射結(jié)果通常有如下3種情況:1)所有關(guān)鍵詞是領(lǐng)域本體知識(shí)庫(kù)中的元素;2)部分關(guān)鍵詞是領(lǐng)域本體知識(shí)庫(kù)中的元素;3)沒(méi)有關(guān)鍵詞是領(lǐng)域本體知識(shí)庫(kù)中的元素.
對(duì)于本體知識(shí)庫(kù)中不存在的詞匯,可以通過(guò)詞匯的相似度計(jì)算,匹配相關(guān)的詞匯形成映射關(guān)系.文中采用的映射方法,是從兩個(gè)角度來(lái)考查自然詞匯-本體知識(shí)之間映射的關(guān)系,即一方面從詞匯-標(biāo)注文檔-本體知識(shí)相關(guān)程度來(lái)看詞匯-本體知識(shí)的聯(lián)系緊密程度;另一方面基于知識(shí)關(guān)系詞典考查詞匯-本體知識(shí)兩者之間的相似程度.
在詞匯-標(biāo)注文檔-本體知識(shí)的相關(guān)關(guān)系中,一個(gè)詞匯可能被包含在多個(gè)文檔中,而每個(gè)文檔又可被一個(gè)或多個(gè)本體知識(shí)標(biāo)注.通過(guò)統(tǒng)計(jì)包含詞匯的文檔所屬的本體知識(shí),可以統(tǒng)計(jì)出這個(gè)詞匯對(duì)不同本體知識(shí)的相關(guān)程度.這種相關(guān)程度說(shuō)明了詞語(yǔ)-本體知識(shí)間的聯(lián)系緊密程度.為計(jì)算這種相關(guān)關(guān)系,通過(guò)以下幾個(gè)假設(shè)來(lái)說(shuō)明一個(gè)自然語(yǔ)言詞匯對(duì)一個(gè)本體知識(shí)的相關(guān)關(guān)系.
假設(shè)1 一個(gè)詞匯w通過(guò)文檔映射到的本體知識(shí)個(gè)數(shù)越多,它對(duì)單個(gè)本體知識(shí)的相關(guān)度越低.
假設(shè)2 一個(gè)詞匯w在一個(gè)受本體知識(shí)e標(biāo)注過(guò)的文檔中的詞頻越高,w與e的相關(guān)程度越高.
假設(shè)3 若一個(gè)詞匯w與文檔d相關(guān),則標(biāo)注文檔d的本體知識(shí)e與文檔d的相關(guān)度越高,w與e之間的相關(guān)程度也就越高.
假設(shè)4 一個(gè)詞匯w在越多的受本體知識(shí)e標(biāo)注過(guò)的文檔中存在,w與e之間的相關(guān)程度越高.
假設(shè)5 出現(xiàn)過(guò)詞匯w的文檔與受本體知識(shí)e標(biāo)注過(guò)的文檔交集越大,w與e的相關(guān)程度越高.
假設(shè)1從詞匯在知識(shí)空間的分布情況來(lái)分析,一個(gè)詞語(yǔ)與越多的知識(shí)關(guān)聯(lián),它對(duì)概念的區(qū)分性就越不明顯,與單個(gè)知識(shí)的相關(guān)程度也就越低.假設(shè)2在與某個(gè)本體知識(shí)相關(guān)的文檔空間中,對(duì)詞匯進(jìn)行詞頻統(tǒng)計(jì).這樣統(tǒng)計(jì)粒度細(xì),區(qū)分性強(qiáng),則可以更準(zhǔn)確地刻畫(huà)這個(gè)詞對(duì)概念的所屬程度.假設(shè)5與假設(shè)2的細(xì)粒度角度不同,假設(shè)3與假設(shè)4考慮的角度是粗粒度的相關(guān)文檔數(shù)目.這樣從粗細(xì)不同的角度能更全面地考查詞匯與本體知識(shí)之間的相關(guān)度.據(jù)以上假設(shè)給出詞匯w和本體知識(shí)e的相關(guān)程度計(jì)算方法.
設(shè)DS={d1,d2,…,dm}表示一個(gè)文檔庫(kù);?ed表示知識(shí)e標(biāo)注了文檔d,NPRO(e,d)表示知識(shí)e標(biāo)注文檔d的相關(guān)度,則有
算法1的詞匯-文檔-本體知識(shí)相關(guān)度計(jì)算偽代碼,如表1所示.
在語(yǔ)義信息缺乏的情況下,知識(shí)詞典只能實(shí)現(xiàn)詞匯到本體知識(shí)的多對(duì)一映射,從而解決自然語(yǔ)言中的多詞同義現(xiàn)象.例如,將電腦和計(jì)算機(jī)都映射到本體概念“computer”上,再比如“葉子”和“葉片”都映射到本體知識(shí)的“l(fā)eaf”上.然而,自然語(yǔ)義的一詞多義問(wèn)題就比較難解決了,如蘋(píng)果一詞可以同時(shí)表示蘋(píng)果計(jì)算機(jī)和一種植物.概念映射的另一個(gè)困難是概念詞典常常無(wú)法覆蓋所有的用戶詞匯,用戶可能會(huì)使用生僻的詞匯來(lái)表示心目中的概念,由此可能產(chǎn)生無(wú)法被概念詞典識(shí)別的“孤兒詞匯”.
因此,基于知識(shí)關(guān)系詞典的映射應(yīng)該取決于如下兩點(diǎn):1)字符串匹配,若詞匯與領(lǐng)域本體中的某個(gè)實(shí)體的標(biāo)簽及擴(kuò)展表示字符串相似,則將這個(gè)本體實(shí)體作為候選映射元素;2)自然語(yǔ)言上下文與本體語(yǔ)義上下文之間的關(guān)系.如果候選映射元素集合之間存在著領(lǐng)域本體中所定義的語(yǔ)義關(guān)系,那么可以認(rèn)為映射成功可信度高;而如果它們之間相互孤立,則認(rèn)為成功可信度低.
定義1 知識(shí)關(guān)系詞典.一個(gè)本體實(shí)體e的知識(shí)關(guān)系詞典Le是由一個(gè)詞匯集合Te和一個(gè)語(yǔ)義環(huán)境Contexte組成,即Le=Te∪Contexte.一個(gè)詞匯t出現(xiàn)Contexte中,則記為t∠Contexte.
定義2 詞匯-知識(shí)相似度.詞匯-知識(shí)相似度函數(shù)SIM∶w→e,計(jì)算詞匯集合Γ中一個(gè)詞匯w∈Γ與本體實(shí)體e相似度,有
其中:MAXSTRSIM(w,e)=Max(SrtSim(w,w′1),SrtSim(w,w′2),…,SrtSim(w,w′|Te|));w′,…,w′|Te|∈Te;λ=|Φ|/|Γ|,而Φ={w′|w′∠Contexte,w′≠w}.
依據(jù)以上工作,得出算法2的詞匯-本體知識(shí)相似度計(jì)算偽代碼,如表1所示.
表1 算法的詞匯-文檔-本體知識(shí)相關(guān)度計(jì)算偽代碼Tab.1 Pseudocode of algorithm of calculating word-document-ontoloy relation
詞匯-標(biāo)注文檔-本體知識(shí)相關(guān)關(guān)系體現(xiàn)的是詞匯與本體知識(shí)之間的聯(lián)系緊密程度,而基于知識(shí)關(guān)系詞典的詞匯-本體知識(shí)相似度體現(xiàn)的是兩者之間的相似程度.二者分別從不同的角度考查兩者之間的關(guān)系.在這里,可以認(rèn)為兩者對(duì)詞語(yǔ)-本體知識(shí)映射相關(guān)度具有相同的影響力,兩種因素相互作用的結(jié)果更能有效說(shuō)明詞匯映射相關(guān)度的強(qiáng)弱.因此,采用兩種因素直接相乘的方式來(lái)定義詞語(yǔ)-本體知識(shí)映射相關(guān)度,即
根據(jù)疑問(wèn)對(duì)象和疑問(wèn)焦點(diǎn)在本體知識(shí)庫(kù)中映射的距離,可分為直接關(guān)系檢索和間接關(guān)系檢索.在檢索處理中,兩種關(guān)系檢索方式的難度和實(shí)現(xiàn)策略不同.直接檢索的實(shí)現(xiàn)較為簡(jiǎn)單,可通過(guò)相似度計(jì)算將疑問(wèn)對(duì)象和疑問(wèn)焦點(diǎn)映射為三元組的主體和謂詞結(jié)構(gòu)進(jìn)而生成檢索表達(dá)式.有時(shí)直接檢索結(jié)果不能滿足用戶需求,就需要根據(jù)領(lǐng)域本體中知識(shí)關(guān)系進(jìn)行語(yǔ)義擴(kuò)展,然后提交給檢索表達(dá)式生成模塊,組成SPARQL表達(dá)式進(jìn)行檢索,即擴(kuò)展檢索.文中的工作是把兩者合并在一塊,通過(guò)相關(guān)度體現(xiàn)出不同.
本體實(shí)體分為類、屬性、實(shí)例3種,其擴(kuò)展方式和擴(kuò)展假設(shè)有所不同.
1)類(概念)擴(kuò)展.對(duì)一個(gè)概念實(shí)體e,可以從知識(shí)庫(kù)中選取與之相關(guān)的概念作為e的擴(kuò)展,如上下位概念、等同概念(包括owl:sameAs和owl:equivalentTo)、參照概念(owl:seeAlso)等.
2)屬性擴(kuò)展.與類的擴(kuò)展類似,對(duì)一個(gè)屬性實(shí)體e,可以從知識(shí)庫(kù)中選取與之相關(guān)的屬性作為e的擴(kuò)展,如上下位屬性、等同屬性(包括owl:sameAs和owl:equivalentTo)、參照屬性(owl:seeAlso)等.
3)實(shí)例擴(kuò)展.除了可以通過(guò)等同關(guān)系、參照關(guān)系實(shí)現(xiàn)擴(kuò)展外,還可以通過(guò)一些特殊屬性關(guān)系推導(dǎo)出與其有等同關(guān)系的實(shí)體.
在農(nóng)業(yè)領(lǐng)域本體中常用到這些特殊屬性,主要有FunctionalObjectProperty,SymmetricObject-Property和Transtivity Property.
1)FunctionalObjectProperty(功能性屬性):對(duì)于一個(gè)owl:FunctionalObjectProperty P而言,如果P(X,Y)與P(X,Z)都成立,Y=Z.那么,根據(jù)這種邏輯關(guān)系,可以把使用owl:FunctionalObjecproperty關(guān)系可以推導(dǎo)出與實(shí)體e等同的其他實(shí)體作為e的擴(kuò)展集.
2)SymmetricObjectProperty(對(duì)稱性屬性):與FunctionalObjectProperty類似,可以把使用owl:SymmetricObjectProperty關(guān)系可以推導(dǎo)出與實(shí)體e等同的其他實(shí)體作為e的擴(kuò)展集.
3)Transtivity Property(傳播性屬性):對(duì)于一個(gè)owl:TranstivityProperty ObjectProperty P而言,如果P(X,Y)與P(Y,Z)都成立,則P(Y,Z)成立.根據(jù)這種邏輯關(guān)系,可以把使用owl:TranstivityProperty關(guān)系可以推導(dǎo)出與實(shí)體e相關(guān)的其他實(shí)體作為e的擴(kuò)展集.
SPARQL現(xiàn)在已成為W3C的推薦標(biāo)準(zhǔn),文中方法的查詢最終都轉(zhuǎn)化成SPARQL.因?yàn)橛脩舻奶釂?wèn)方式多種多樣,不同的問(wèn)題也會(huì)有不同的檢索策略.問(wèn)句中的關(guān)鍵詞可能是本體中類、屬性、實(shí)例中任何一種.問(wèn)句(關(guān)鍵詞)提交后,將啟動(dòng)問(wèn)句解析模塊分析問(wèn)句,過(guò)濾無(wú)意義詞匯,分解成詞匯集合,進(jìn)行詞匯-本體知識(shí)映射,確定知識(shí)關(guān)系;然后,根據(jù)問(wèn)句的疑問(wèn)詞及句法和語(yǔ)法特征對(duì)問(wèn)題進(jìn)行分類,確定問(wèn)題檢索策略和答案的組織方式.最后,系統(tǒng)訪問(wèn)領(lǐng)域本體庫(kù),判定哪些關(guān)鍵詞是本體庫(kù)中包含的類、屬性、個(gè)體,進(jìn)而對(duì)用戶提問(wèn)概念進(jìn)行規(guī)范化.
標(biāo)準(zhǔn)的中文問(wèn)句結(jié)構(gòu)有一定的規(guī)則,而本體中三元組〈Subject,Predicate,Object〉的形式化表示正好符合問(wèn)句的表達(dá)順序.這就為問(wèn)句成分映射成本體知識(shí)庫(kù)的詞匯提供了條件.在SPARQL的檢索表達(dá)式中,三元組處在后方順次排列,其中的未知變量就是問(wèn)題所在的位置.
疑問(wèn)對(duì)象是問(wèn)題的主體,一般問(wèn)句的提問(wèn)針對(duì)的是主體的某個(gè)屬性.盡管用戶提問(wèn)的方式多種多樣,但歸納起來(lái)主要有兩種排列句型:一種是疑問(wèn)對(duì)象位于句子的前部,疑問(wèn)焦點(diǎn)排列在疑問(wèn)對(duì)象的后面,句子的尾部是疑問(wèn)詞,問(wèn)題的答案就是疑問(wèn)詞所指代的信息,如白斑病怎么治;另外一種問(wèn)句的提問(wèn)方式與此相反,疑問(wèn)詞位于句子的前部充當(dāng)疑問(wèn)對(duì)象,疑問(wèn)焦點(diǎn)位于疑問(wèn)詞的后方,句子的尾部為疑問(wèn)對(duì)象的相關(guān)信息,如什么藥能治白斑病.雖然兩種句型的排列順序不同,但其疑問(wèn)的意向是相同的,句中的疑問(wèn)成分也一致,經(jīng)過(guò)問(wèn)句解析后形成的結(jié)果,如表2所示.
表2 解析示例Tab.2 Examples
在進(jìn)行三元組元素的映射時(shí),疑問(wèn)對(duì)象放置在三元組主體的位置,中間的謂詞由疑問(wèn)焦點(diǎn)充當(dāng),客體的位置是未知變量,也就是問(wèn)題的所在之處.當(dāng)用戶從接口輸入檢索關(guān)鍵詞時(shí),可以直接將輸入的關(guān)鍵詞與本體中的詞匯進(jìn)行相似度計(jì)算.
如果依據(jù)用戶輸入的內(nèi)容找不到結(jié)果,則按前述的方式進(jìn)行語(yǔ)義擴(kuò)展,對(duì)每一個(gè)實(shí)體擴(kuò)展的集合取笛卡爾乘積,即M1×M2×…×Mn.其中Mi為第i個(gè)實(shí)體的擴(kuò)展集合.對(duì)乘積結(jié)果中的每組元素,重新按上述方法創(chuàng)建查詢語(yǔ)句,并根據(jù)擴(kuò)展實(shí)體與原實(shí)體的相似度計(jì)算新生成的查詢語(yǔ)句與原始查詢語(yǔ)句相似度.
如前所述,過(guò)去的一段時(shí)期內(nèi)語(yǔ)義檢索方法的檢索結(jié)果缺乏合適的排序,不存在那種可以用百分比來(lái)表示檢索結(jié)果可信度的答案.文中的檢索模型與布爾語(yǔ)義檢索系統(tǒng)不同之處在于,返回排序的結(jié)果不僅僅是知識(shí)庫(kù)中用本體所描述的相關(guān)知識(shí),還有與知識(shí)相關(guān)信息資源,排序過(guò)程以每條結(jié)果項(xiàng)的綜合相關(guān)度為基準(zhǔn).每個(gè)結(jié)果項(xiàng)的綜合相關(guān)度包含兩部分,即
式(4)中:resultind,d表示結(jié)果項(xiàng),包含知識(shí)ind與文檔d;SIMSPARQLind為生成的SPARQL的查詢語(yǔ)句與原始查詢的相似度,該查詢語(yǔ)句的執(zhí)行結(jié)果中包含實(shí)例ind;NPROR(ind,d)為文檔d與實(shí)例ind之間的相關(guān)度;W 為權(quán)重.
根據(jù)前面的工作,實(shí)現(xiàn)一個(gè)現(xiàn)向農(nóng)業(yè)領(lǐng)域的語(yǔ)義檢索系統(tǒng).開(kāi)發(fā)工具是MyEclipse 6.0,本體知識(shí)用OWL表達(dá),資源標(biāo)結(jié)果存儲(chǔ)于MySQL數(shù)據(jù)庫(kù)中.目前,在語(yǔ)義搜索領(lǐng)域還沒(méi)有一個(gè)公認(rèn)的測(cè)設(shè)數(shù)據(jù)集和評(píng)價(jià)方法,而文中的工作也只是針對(duì)特定的農(nóng)業(yè)領(lǐng)域.因而,測(cè)試時(shí)使用的數(shù)據(jù)都是自己建立的農(nóng)業(yè)相關(guān)領(lǐng)域本體知識(shí)及農(nóng)業(yè)相關(guān)的資源,而這些資源都經(jīng)過(guò)語(yǔ)義標(biāo)注工具或手工方式標(biāo)注過(guò).
本體知識(shí)使用的農(nóng)業(yè)病蟲(chóng)害本體,#Concept和#Individual的數(shù)量分別為274,3 730;而資源是相對(duì)應(yīng)的農(nóng)作物病蟲(chóng)害知識(shí)文檔,其數(shù)量為1 119.使用Precision@(n,k)和Recall@(n,t)作為主要的評(píng)價(jià)方法和指標(biāo),其計(jì)算式為
其中:Precision@(n,k)表示前n個(gè)結(jié)果中相似度大于k的查準(zhǔn)率,Recall@(n,t)表示前n個(gè)結(jié)果中相似度大于k的查全率;α為語(yǔ)義檢索的前n個(gè)結(jié)果中相似度大于k的集合;β為人工判斷的檢索結(jié)果中前n個(gè)結(jié)果.
表3為查詢實(shí)驗(yàn)數(shù)據(jù).由表3可以看出,檢索方法取得了一定的效果,當(dāng)查詢語(yǔ)句比較簡(jiǎn)單且能按查詢示例結(jié)構(gòu)輸入時(shí),查詢結(jié)果比較準(zhǔn)確.
表3 查詢實(shí)驗(yàn)數(shù)據(jù)Tab.3 Query data
目前,大部分的基于本體的語(yǔ)檢索方法很難把存在的海量非結(jié)構(gòu)化知識(shí)完全用本體形式化地表示.同時(shí),在自然語(yǔ)言詞匯到本體知識(shí)映射方面,現(xiàn)有的方法多是以字符串匹配方式簡(jiǎn)單而直接地完成映射,使得映射成功率相對(duì)較低.此外,對(duì)于檢索結(jié)果也都沒(méi)有提供一個(gè)有效的排序,使得最終用戶很難區(qū)分結(jié)果好壞.針對(duì)這些問(wèn)題,文中給出一個(gè)基于農(nóng)業(yè)領(lǐng)域本體和詞匯的改進(jìn)檢索模型.
該模型接受用戶自然語(yǔ)言輸入,通過(guò)計(jì)算詞語(yǔ)與本體知識(shí)之間的相關(guān)度和相似度,來(lái)實(shí)現(xiàn)詞匯到知識(shí)的映射;針對(duì)農(nóng)業(yè)領(lǐng)域本體特點(diǎn),給出相應(yīng)的語(yǔ)義擴(kuò)展規(guī)則;把檢索結(jié)果從本體知識(shí)擴(kuò)展到與之相關(guān)的資源文檔,并對(duì)檢索結(jié)果進(jìn)行了排序.基于這個(gè)模型,實(shí)現(xiàn)一個(gè)針對(duì)農(nóng)業(yè)領(lǐng)域的檢索系統(tǒng),并進(jìn)行一些小規(guī)模的實(shí)驗(yàn),取得了良好的效果.
[1]HEFLIN J,HENDLER J.Searching the web with SHOE[C]∥Proc of AAAI 2000Workshop on AI for Web Search.Austin:AAAI Press,2000:35-40.
[2]SHAH U,F(xiàn)ININ T,JOSHI A,et al.Information retrievalon the semantic web[C]∥Proc of the 11th International Conference on Information and Knowledge Management.New York:ACM Press,2000:461-468.
[3]GUHA R,Mc COOL R,MILLER E.Semantic search[C]∥Proc of the 12th international conference on World Wide Web.New York:ACM Press,2003:700-709.
[4]PICARD J,SAVOY J.Enhancing retrieval with hyperlinks:A general model based on propositional argumentation systems[J].Journal of the American Society for Information Science and Technology,2003,54(4):347-355.
[5]LOSADA D E,BARREIRO A.A logical model for information retrieval based on propositional logic and belief revision[J].The Computer Journal,2001,44(5):410-424.
[6]POPOV B,KIRYAKOV A,OGNYANOFF D,et al.KIM:A semantic platform for information extaction and retrieval[J].Journal of Natural Language Engineering,2004,10(3/4):375-392.
[7]BERNERS-LEE T,HENDLER J,LASSILA O.The semantic web[J].Scientific American,2001,284(5):34-43.
[8]VALLET D,F(xiàn)ERNáNDEZ M,CASTELLS P.An ontology-based in-formation retrieval model[J].ESWC,2005,3532:455-470.
[9]DAVIES J,F(xiàn)ENSEL D,BUSSLER C,et al.The semantic web:Research and applications[M].Berlin:Springer-Verlag,2004:473-487.
[10]CHRISTOPHIDES V,KARVOUNARAKIS G,PLEXOUSAKIS D,et al.Optimizing taxonomic semantic web queries using labeling schemes[J].Journal of Web Sematics,2004,1(2):207-228.
A Semantic Retrieval Model Based on Agricultural Field Ontology
CHEN Ye-wang,LI Hai-bo,YU Jin-shan
(College of Computer Science and Technology,Huaqiao University,Xiamen 361021,China)
A semantic retrieval model is proposed based on the ontology and vocabulary of agriculture domain.This model provides an interface for user to input natural language,then it maps identified keywords to ontology entities by calculating the correlation and similarity between them;furthermore,we give a set of rules for semantic extension based on the features of agricultural ontology;and we extend and order the result got from the ontology to the annotated documents.
ontology;semantic extension;semantic retrieval model;agricultural domain
陳志賢 英文審校:吳逢鐵)
TP 391.3
A
1000-5013(2012)01-0027-06
2011-07-03
陳葉旺(1978-),男,講師,主要從事語(yǔ)義檢索與數(shù)據(jù)挖掘的研究.E-mail:ywchen@hqu.edu.cn.
福建省自然科學(xué)基金資助項(xiàng)目(A0810013);福建省農(nóng)業(yè)科技重大項(xiàng)目(2010N5008);華僑大學(xué)高層次人才科研啟動(dòng)項(xiàng)目(09BS619)