宋 博
(煙臺大學(xué)圖書館,山東煙臺264005)
以計(jì)算機(jī)為代表的現(xiàn)代信息技術(shù)的迅速發(fā)展促進(jìn)了信息社會(huì)的形成,專家學(xué)者們更為關(guān)注如何有效地獲取信息,研究不同的信息檢索方式,其中與人工智能相結(jié)合,提出了智能信息檢索這個(gè)概念,在如何實(shí)現(xiàn)智能信息檢索方面,人們做了很大努力,從信息用戶提問的理解、檢索策略的制定、搜索引擎的使用、數(shù)據(jù)資源的檢索、機(jī)器學(xué)習(xí)的研究到結(jié)果的給出,每一步都在不斷地發(fā)展和完善。下面本文主要研究在智能信息檢索的發(fā)展中,本體論所做出的貢獻(xiàn)。
知識的表示與利用是智能信息檢索所面臨的問題之一。人類的智能活動(dòng)主要是一個(gè)獲得并運(yùn)用知識的過程,知識是智能的基礎(chǔ)。為了讓計(jì)算機(jī)具有智能,就必須使它具有知識。[1]為了解決知識表示的這一難題,通過研究和認(rèn)識知識,專家學(xué)者們提出了本體知識表示方式。而本體論主要的研究和應(yīng)用方面也是智能信息檢索。
智能信息檢索其實(shí)質(zhì)就是使信息檢索過程具有智能性。從字面上來說,智能信息檢索應(yīng)該包含“智能”和“信息檢索”(本處不細(xì)分信息檢索)兩個(gè)方面,智能是人所特有的能力,將其冠名于信息檢索上,可以簡單地理解為即在進(jìn)行信息檢索時(shí)達(dá)到“智能”的效果,形象地說就是在進(jìn)行信息檢索時(shí)像是由檢索要求的提出者自己遍歷于數(shù)據(jù)庫之中,來選擇他自己所需的信息。事實(shí)是我們不可能程序化一個(gè)人,他的知識、經(jīng)驗(yàn)、習(xí)慣、偏愛、性情等,也不能讓他去數(shù)據(jù)庫這個(gè)虛擬的環(huán)境中,所以智能信息檢索的研究任重而道遠(yuǎn)。從其演化過程來看,智能信息檢索是由兩條線發(fā)展而來的:第一條是,對人的心智的理解與表達(dá),人工智能的部分實(shí)現(xiàn),應(yīng)用到信息檢索中實(shí)現(xiàn)智能信息檢索;第二條,傳統(tǒng)的手工信息檢索,隨時(shí)代發(fā)展而來的機(jī)械信息檢索和現(xiàn)代廣泛應(yīng)用的計(jì)算機(jī)信息檢索(傳統(tǒng)的批處理檢索方式,聯(lián)機(jī)信息檢索,網(wǎng)絡(luò)信息檢索),[2]其檢索從古至今都是根據(jù)兩個(gè)思想來進(jìn)行的,那就是分類檢索和主題檢索,其中主題檢索,尤其是基于關(guān)鍵詞的檢索由于更適應(yīng)網(wǎng)絡(luò)信息的分布及其檢索方式而發(fā)展起來。可是基于關(guān)鍵詞的檢索誤檢率也是很高,隨著信息檢索的深入而顯得力不從心。目前,人工智能技術(shù)迅速發(fā)展,信息的自動(dòng)標(biāo)引技術(shù)研究有所突破,自然語言理解研究的深入,搜索引擎技術(shù)的提高,智能代理技術(shù)和機(jī)器學(xué)習(xí)的應(yīng)用,和本體論概念的引入和研究的深化,給智能信息檢索以強(qiáng)大的知識保障和技術(shù)支持,也正是智能信息檢索研究及其發(fā)展的好時(shí)機(jī)。
智能信息檢索是信息檢索的高級階段,實(shí)現(xiàn)起來非常的復(fù)雜和困難,可專家學(xué)者們?yōu)槭裁慈匀徊恍概Φ卦谧非笮畔z索的“智能性”呢?正是由于信息檢索環(huán)境隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的迅速發(fā)展而變得越來越龐大、復(fù)雜、隱晦,而信息檢索結(jié)果要求更加的準(zhǔn)確、專業(yè)、及時(shí),關(guān)鍵詞的檢索又被人們發(fā)現(xiàn)了很多不盡人意的地方,所以,強(qiáng)烈要求新的適應(yīng)現(xiàn)代發(fā)展的信息檢索方式,而這正是智能信息檢索。
上世紀(jì)70、80年代,在人工智能領(lǐng)域,為了解決通用問題求解方法研究的困境,研究者們引入了哲學(xué)領(lǐng)域的一個(gè)概念即本體論,來解決這一瓶頸問題。
哲學(xué)領(lǐng)域中的本體論就是關(guān)于存在及其本質(zhì)的學(xué)說,它所揭示的是世界存在的始基、基本等,是用來“解釋世界”,提供世界圖景。正是這種本體論哲學(xué)含義的精髓與研究者們在知識獲取、知識表達(dá),進(jìn)而在知識的復(fù)用和共享、數(shù)據(jù)庫的集成、程序的重用、系統(tǒng)的互操作等方面都提出的一個(gè)共同的問題,即一個(gè)或多個(gè)領(lǐng)域內(nèi)通用概念給予一致的理解,有異曲同工之處。因而將本體論研究納入了新的領(lǐng)域,也賦予了新的內(nèi)涵。在信息科學(xué)領(lǐng)域中,本體論最為廣泛的定義是由Gruber于1993年提出的“An ontology is a formal,explicit specification of a shared conceptualization.”[3]即本體論是概念模型的明確規(guī)范說明。它有四大特征:明確,概念所屬的上位類與概念的限制條件應(yīng)得到明確的定義和說明;形式化,即機(jī)器的可理解性;概念化,又稱概念模型,世界上某些現(xiàn)象的抽象模式,該模式是通過定義這些現(xiàn)象的相關(guān)概念形成的;共享,本體體現(xiàn)的是共同認(rèn)可的知識,相關(guān)領(lǐng)域中公認(rèn)的概念集,即不是限定到單個(gè)的人,而是一組人共同接受的知識。[4]
人工智能的關(guān)鍵是知識表示,其強(qiáng)調(diào):一個(gè)領(lǐng)域的表示方式,在很大程度上,決定了那個(gè)領(lǐng)域是怎樣被“理解”的。[5]本體論知識表示方式作為一種新興的知識組織體系,正是對一個(gè)或多個(gè)領(lǐng)域內(nèi)知識的共同理解,提供了該領(lǐng)域內(nèi)共同認(rèn)同的概念。將本體論應(yīng)用到智能信息檢索中,使信息檢索能夠“擁有知識”,實(shí)現(xiàn)智能化,其主要影響可以從宏觀和微觀兩個(gè)方面來說。
以計(jì)算機(jī)為代表的現(xiàn)代信息技術(shù)的發(fā)展極大地改變了信息檢索的環(huán)境,信息檢索的主體——人,對檢索結(jié)果的要求更加精確、快速、專業(yè),而信息檢索的客體(對象)——信息資源,有一個(gè)人人皆知的名詞,信息大爆炸。為了更好地滿足檢索者的檢索需求,專家學(xué)者引入了本體論這一概念來完善提高信息檢索的效率,更是為實(shí)現(xiàn)信息檢索的智能性。
作為起源自哲學(xué)的本體論更多地是引其思想來指引人,本體論是與實(shí)踐論相對的唯心主義的哲學(xué)理論,西方的哲學(xué)是以本體論為核心的理論,相信世界是有一個(gè)先于人的終極存在,是“純粹的理性主義”。應(yīng)用于信息檢索系統(tǒng)的本體論,由于哲學(xué)本身思想的影響和信息檢索的要求是有著嚴(yán)格規(guī)范說明的知識表示體系,這種嚴(yán)謹(jǐn)、明確和復(fù)雜明顯或潛在地影響人們在信息檢索過程中的態(tài)度。
作為一種新興的知識組織體系的本體論,對信息資源的處理作用是巨大的。信息檢索方式很大程度上取決于信息的組織方式,因此本體論的知識組織作用對于智能信息檢索的實(shí)現(xiàn)是不可替代的。本體論應(yīng)用到各個(gè)領(lǐng)域其最初和最主要的目的就是對領(lǐng)域內(nèi)知識的“共同理解”,規(guī)范領(lǐng)域內(nèi)知識的表示與組織,應(yīng)用本體論構(gòu)建的各個(gè)信息系統(tǒng),其知識可以實(shí)現(xiàn)共建共享,系統(tǒng)內(nèi)容也很容易實(shí)現(xiàn)理解,互操作或信息集成。在進(jìn)行信息檢索時(shí),這樣相互理解的信息系統(tǒng)可無障礙地進(jìn)行信息交流,甚至可以看作是統(tǒng)一的信息源,降低信息的誤檢率,加快信息處理的速度,減少后續(xù)檢索結(jié)果處理的不少麻煩。
本體論對智能信息系統(tǒng)的微觀作用相對宏觀環(huán)境而言是在具體的信息檢索進(jìn)程中對信息檢索策略的影響。信息檢索策略是在分析信息需求實(shí)質(zhì)的基礎(chǔ)上,確定檢索途徑與檢索用詞,并明確各詞之間的邏輯關(guān)系與查找步驟的科學(xué)安排。[6]如果檢索策略有誤,無論檢索工具、結(jié)果算法等多么的好,結(jié)果都不能盡善盡美。在基于本體論的智能信息檢索時(shí),一般本體論在智能信息系統(tǒng)中是有一層管理層的,我們叫做本體管理層或本體庫管理。在一次信息檢索進(jìn)程中,當(dāng)讀者用戶提出信息檢索請求后,其請求要經(jīng)過自然語言的理解、分析出有檢索意義的關(guān)鍵詞,這些關(guān)鍵詞到達(dá)本體管理層進(jìn)一步地處理。
第一步,進(jìn)行概念的精確匹配。傳統(tǒng)信息檢索的檢索詞一般是用戶給定的檢索詞或進(jìn)行簡單擴(kuò)展的相似詞,這些檢索詞并不是很規(guī)范,表達(dá)的概念也是模糊不清,一詞多義的現(xiàn)象很多,并且很難表達(dá)用戶所要檢索的全面信息范圍和用戶潛在的檢索需求,由這些檢索詞來制定信息檢索策略,檢索的結(jié)果存在著大量的無用信息,這些信息對我們無疑是一種干擾,同時(shí)還有一些未被檢出的有用的信息。因些,我們引入本體論來解決這一問題。本體論是以概念為基石,[7]概念是本體論的核心,概念與詞是有區(qū)別和聯(lián)系的,概念可以以詞為表示形式,但不是所有的詞都是概念。本體論中概念要求有:①一個(gè)概念只有一個(gè)含義,不存在一個(gè)概念有多個(gè)含義或者多個(gè)概念對應(yīng)一個(gè)含義的現(xiàn)象;②概念的類型、屬性及屬性的值是明確的;③概念之間的關(guān)系是明確的,而且它們之間的隱性關(guān)系被顯性化;④這些概念是一個(gè)領(lǐng)域或多領(lǐng)域內(nèi)得到大家共同認(rèn)可的公共知識。[8]應(yīng)用本體論進(jìn)行信息檢索,用戶的檢索要求都將會(huì)更加準(zhǔn)確地表示,精確匹配用戶的信息檢索請求,大大提高信息檢索的檢準(zhǔn)率。
第二步,語義擴(kuò)展。本體論不僅僅揭示領(lǐng)域內(nèi)的共同認(rèn)可的知識,也注重揭示概念間的關(guān)系,尤其是概念間的隱含的關(guān)系,同時(shí)本體論提供了語義推理所必需的規(guī)則與條件。[9]本體論的語義推理能力是本體論有別于其他一些知識組織體系的關(guān)鍵特征,也是本體論使信息檢索具有“智能性”的關(guān)鍵。在智能信息系統(tǒng)中,本體層上的推理機(jī)能推理挖掘出與信息檢索要求相關(guān)的概念且加入到檢索策略,本體論能夠詳細(xì)地表述這些概念及概念間顯性和隱性的關(guān)系,因此,用戶的信息檢索要求不僅能夠準(zhǔn)確地表達(dá),用戶潛在的檢索需求也能夠被挖掘出,這大大提高信息檢索的檢全率。
經(jīng)本體管理層精確匹配和語義推理挖掘出的概念及概念間的關(guān)系共同構(gòu)建出一個(gè)信息檢索策略,這個(gè)檢索策略可以說是在目前信息技術(shù)下最大程度地提高信息檢索的檢準(zhǔn)率和檢全率。
本體論目前還不是一個(gè)完善的理論,有其理論缺陷,對本體論要有一個(gè)客觀的認(rèn)識和理解,將這樣的本體論應(yīng)用到智能信息檢索中也是有限制作用的。首先是要應(yīng)用本體論就要有一個(gè)高質(zhì)量的本體論系統(tǒng),而這個(gè)系統(tǒng)的構(gòu)建就是面臨的一個(gè)難題;其次,將本體論實(shí)現(xiàn)于智能信息系統(tǒng)中,對其能夠起到作用的能力也要有一個(gè)很好的認(rèn)識,最后,就是應(yīng)用本體論是要有一個(gè)應(yīng)用的檢索環(huán)境問題,環(huán)境的好壞對本體論能力的實(shí)現(xiàn)也是有著很大的影響的。
本體論是智能信息檢索的基本組成部分,所以構(gòu)建高質(zhì)量的本體論是實(shí)現(xiàn)智能信息檢索的基礎(chǔ)。由于構(gòu)建本體論是要付出昂貴的代價(jià),所以構(gòu)建全球性的本體論是不可以實(shí)現(xiàn)的,這樣就只能建立領(lǐng)域本體,但是即使是僅僅構(gòu)建基于一個(gè)領(lǐng)域的本體也是十分困難的。因?yàn)闆]有統(tǒng)一的標(biāo)準(zhǔn),所以本體論構(gòu)建中存在著一定的混亂,現(xiàn)在以技術(shù)為基礎(chǔ)的工作還是比較粗放,本體建模主要由人工來完成。本體自動(dòng)構(gòu)建技術(shù),減少本體論建模風(fēng)險(xiǎn)的技術(shù)等很多技術(shù)還有待突破;本體系統(tǒng)后期維護(hù)是比開發(fā)更復(fù)雜、長期和困難的工作,費(fèi)用也往往占總費(fèi)用的60%,所以,構(gòu)建本體系統(tǒng)之初就要設(shè)想好前期開發(fā)與后期維護(hù)是否能承擔(dān)這一現(xiàn)實(shí)問題。
雖然應(yīng)用本體論可使信息檢索具有“智能性”,同時(shí)我們也應(yīng)該看到,本體論本身是有其理論缺陷的,所以本體論對智能信息檢索有推動(dòng)作用的同時(shí)也是有其限制作用的。本體論最大的理論問題是來自其哲學(xué)本質(zhì)問題,對于信任實(shí)踐論的我們來說,哲學(xué)本體論是唯心主義的,是純粹理性主義的,是脫離了人和人本身的。因此,我們追求這樣一個(gè)能夠脫離實(shí)踐、對知識完全“解釋”和組織的知識組織體系本身就存在著問題,所以我們是不能創(chuàng)建一個(gè)終極的知識組織體系的,因此,在智能信息檢索過程中,本體管理層對于用戶檢索請求的精確匹配或者潛在檢索要求的推理和擴(kuò)展都不能夠做到“完美”,其“智能性”的實(shí)現(xiàn)也是不能夠盡善盡美的,這使得所建的智能信息檢索并不能完全滿足用戶信息檢索的深度。
另一方面,本體論普遍認(rèn)同是只能構(gòu)建領(lǐng)域本體論,這就限制了智能信息檢索的范圍是針對一個(gè)領(lǐng)域內(nèi)的,即智能信息檢索是偏于專業(yè)性的,跨領(lǐng)域、跨專業(yè)的信息檢索就顯得力不從心。其次是本體論更適合于處理能夠以分類方式來組織知識的領(lǐng)域,對于那些非結(jié)構(gòu)化方式處理知識組織的領(lǐng)域如自然科學(xué)其應(yīng)用反而會(huì)使問題更加復(fù)雜,這也限定了對智能信息檢索的范圍,這些使得所建的智能信息檢索系統(tǒng)不能夠滿足人們對于信息檢索廣度的需求。
這是很現(xiàn)實(shí)的一個(gè)問題,如果要進(jìn)行信息檢索,就要有信息源,如果這些信息源不是用語義來標(biāo)注,也就不存在著應(yīng)用本體論的智能信息檢索,這就像我們有了汽車,卻沒有公路,汽車不僅沒用,反而變得麻煩。但是由于自動(dòng)的語義標(biāo)注還沒有很好實(shí)現(xiàn),信息社會(huì)是信息爆炸的社會(huì),人工來標(biāo)注信息源是不可能做到了,可能大多數(shù)信息源還沒有被標(biāo)注就已經(jīng)被淘汰了。因此自動(dòng)化語義標(biāo)注的研究迫在眉睫。
現(xiàn)代信息技術(shù)的迅速發(fā)展改變了信息檢索的環(huán)境,促進(jìn)和支持了智能信息檢索的形成與發(fā)展,促成一種新興的知識組織方式——本體論的出現(xiàn)并推展其應(yīng)用到智能信息檢索系統(tǒng)中。本體論對智能信息檢索系統(tǒng)實(shí)現(xiàn)其“智能性”有重要的推動(dòng)作用,同時(shí)也有其限制作用。在智能信息檢索系統(tǒng)中,本體論主要是對知識進(jìn)行處理,使智能信息檢索系統(tǒng)“擁有知識”。本體論有其自身對領(lǐng)域的理解和知識的組織方式,影響著信息資源的組織進(jìn)而影響到信息檢索的環(huán)境。本體論在智能信息檢索過程中主要的表現(xiàn)還是在微觀、具體的檢索過程中,通過對用戶信息檢索請求的精確匹配及其語義推理擴(kuò)展來影響信息檢索的策略。為了更好地實(shí)現(xiàn)本體論的功能,需要積極構(gòu)建高質(zhì)量的本體論,因此,標(biāo)準(zhǔn)的制定、領(lǐng)域內(nèi)廣泛的交流等是必不可少的,這是概念精確匹配和語義推理的基礎(chǔ)。同時(shí),客觀地分析和理解應(yīng)用本體論也是重要的,不可夸大本體論精確匹配中精確的程度和語義擴(kuò)展的深度,了解本體論構(gòu)建對領(lǐng)域的選擇限制了智能信息檢索的范圍??傊?,應(yīng)用本體論的智能信息檢索系統(tǒng)其檢索的深度和廣度都有不如意的地方。智能信息檢索是非常復(fù)雜和困難的,其“智能性”的實(shí)現(xiàn)需要很多方面的知識和技術(shù)共同支撐,本體論在其中起到重要、基礎(chǔ)但不唯一的作用,這些知識和技術(shù)與本體論的共同發(fā)展和完善也是智能信息檢索的發(fā)展和完善,任重而道遠(yuǎn)。
〔1〕 陳遠(yuǎn)等.小議人工智能技術(shù)在信息檢索系統(tǒng)中的應(yīng)用[J].情報(bào)探索,2002(12):38-40
〔2〕 盧小賓,李景峰主編.信息檢索[M].北京:科學(xué)出版,2003.1:1-2
〔3〕 Gruber T.A translation approach to portable ontology specification[J].Knowledge Acpuisition,1993(5):199-220
〔4〕 王英林,張申生.基于本體影射規(guī)則的軟件集成重構(gòu)研究[J].計(jì)算機(jī)學(xué)報(bào),2001,24(7):776-783
〔5〕 侯世達(dá).哥德爾、艾舍爾、巴赫——集異璧之大成[M].北京:商務(wù)印書館,2010.8:810-811
〔6〕 盧小賓,李景峰主編.信息檢索[M].北京:科學(xué)出版,2003.1:105
〔7〕 Christopher B,Kieron H.Knowledge representation with ontologies:Present challenges—Future possibilities[J].Int.J.Human-Computer Studies 2007,65:563-568
〔8〕 宋博.論本體論與傳統(tǒng)整序方法的關(guān)系研究[D].碩士學(xué)位論文.東北師范大學(xué),2010.5
〔9〕 鄒景華.語義萬維網(wǎng)在智能信息檢索中的應(yīng)用研究[D].碩士學(xué)位論文.重慶大學(xué),2005