宋文賓 錢(qián)興華 劉 鵬
(中國(guó)艦船研究院 北京 100192)
?
智能信息檢索應(yīng)用技術(shù)研究
宋文賓 錢(qián)興華 劉 鵬
(中國(guó)艦船研究院 北京 100192)
智能信息檢索是在傳統(tǒng)信息檢索技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的一種信息檢索技術(shù),是人工智能與信息檢索等多個(gè)領(lǐng)域的結(jié)合。論文首先介紹智能信息檢索技術(shù)和應(yīng)用,然后以基于本體的智能信息檢索系統(tǒng)進(jìn)行體系結(jié)構(gòu)設(shè)計(jì),并描述其關(guān)鍵技術(shù)和檢索流程。
智能信息檢索; 本體; 語(yǔ)義網(wǎng)
Class Number TP393
在網(wǎng)絡(luò)和電子等技術(shù)的發(fā)展影響下,每天網(wǎng)絡(luò)中產(chǎn)生大量的數(shù)據(jù),圖靈獎(jiǎng)獲得者Jim Gray提出了一個(gè)關(guān)于網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)量的定律:網(wǎng)絡(luò)環(huán)境下每18個(gè)月產(chǎn)生的數(shù)據(jù)量等于有史以來(lái)數(shù)據(jù)量之和[1]。如此海量的數(shù)據(jù)中蘊(yùn)含著大量有用的信息[2],檢索正是實(shí)現(xiàn)信息發(fā)現(xiàn)的有效方法。信息檢索是指將信息按照一定的方式組織存儲(chǔ)起來(lái),并根據(jù)用戶(hù)的需求檢索出有關(guān)信息的過(guò)程[3]。信息檢索經(jīng)歷了手工檢索、計(jì)算機(jī)檢索到網(wǎng)絡(luò)化、智能化檢索等多個(gè)發(fā)展階段,檢索的內(nèi)容也從最初的獨(dú)立的、穩(wěn)定的、相對(duì)封閉的內(nèi)容變?yōu)樾问蕉鄻?、?dòng)態(tài)、更新快、分布廣泛、管理松散的數(shù)據(jù)信息。隨著信息多樣化和信息檢索能力的要求,基于關(guān)鍵詞匹配算法的傳統(tǒng)檢索檢索方法雖然快捷、簡(jiǎn)單,但檢準(zhǔn)率低,已無(wú)法有效實(shí)現(xiàn)檢索,不能滿足檢索要求和結(jié)果的個(gè)性化呈現(xiàn)[3]。適應(yīng)網(wǎng)絡(luò)化、智能化以及個(gè)性化的需要是信息檢索技術(shù)發(fā)展的必然趨勢(shì)[4],由此智能檢索技術(shù)應(yīng)運(yùn)而生。
2.1 智能信息檢索技術(shù)
智能信息檢索是在傳統(tǒng)信息檢索方法的基礎(chǔ)上,運(yùn)用人工智能技術(shù),對(duì)所檢索的內(nèi)容分析、理解、推理、決策等,并以良好的形式展現(xiàn)給用戶(hù)。它除了提供傳統(tǒng)的快速檢索,相關(guān)度排序等功能,還提供用戶(hù)角色登記、用戶(hù)興趣自動(dòng)識(shí)別、內(nèi)容的語(yǔ)義理解、智能化信息過(guò)濾和推送等功能。智能信息檢索將信息檢索從基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面。理想的智能信息檢索系統(tǒng)應(yīng)具有的主要功能:提供多種樣式的檢索能力;語(yǔ)義推理能力;基于自然語(yǔ)言或其他語(yǔ)言;信息的及時(shí)更新;能力擴(kuò)充;個(gè)性化結(jié)果呈現(xiàn)等。
根據(jù)信息檢索技術(shù)的不同,智能信息檢索系統(tǒng)的特點(diǎn)和應(yīng)用領(lǐng)域存在較大差異。其中典型的智能信息檢索技術(shù)有:基于垂直搜索的信息檢索技術(shù)、基于語(yǔ)料庫(kù)的信息檢索技術(shù)和基于語(yǔ)義網(wǎng)的信息檢索技術(shù)等。
2.2 基于垂直搜索的信息檢索技術(shù)及應(yīng)用
垂直搜索是專(zhuān)業(yè)領(lǐng)域檢索的典型技術(shù),通過(guò)針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù),其具專(zhuān)、精、深的特點(diǎn),且具有行業(yè)色彩。
文獻(xiàn)[5]以12580餐飲垂直檢索為例,提出針對(duì)垂直檢索的策略,對(duì)垂直檢索的查詢(xún)效率、查準(zhǔn)率、信息抽取等方面進(jìn)行改進(jìn)。垂直檢索相比一般的檢索,其檢索內(nèi)容的范圍具體,更容易獲取需要的信息。例如搜狗購(gòu)物、360團(tuán)購(gòu)等都是典型購(gòu)物檢索引擎。
2.3 基于語(yǔ)料庫(kù)的信息檢索技術(shù)及應(yīng)用
基于語(yǔ)料庫(kù)的信息檢索是以語(yǔ)料庫(kù)為基礎(chǔ),通過(guò)在語(yǔ)料庫(kù)中對(duì)查詢(xún)信息的語(yǔ)義匹配分析,查找相關(guān)語(yǔ)義的信息內(nèi)容?;谡Z(yǔ)料庫(kù)的信息檢索技術(shù)廣泛應(yīng)用于不同形式的自然語(yǔ)言之間的信息檢索,例如中英文平行檢索、文言文檢索等。
文獻(xiàn)[6]提出一種基于語(yǔ)料庫(kù)的跨語(yǔ)言信息檢索方法。通過(guò)語(yǔ)料庫(kù)將一種語(yǔ)言形式的檢索語(yǔ)句轉(zhuǎn)變?yōu)槠渌Z(yǔ)言形式,實(shí)現(xiàn)跨語(yǔ)言的信息檢索。
2.4 基于語(yǔ)義網(wǎng)的信息檢索技術(shù)及應(yīng)用
基于語(yǔ)義網(wǎng)的信息檢索技術(shù)是在對(duì)信息進(jìn)行由下而上組織表示的基礎(chǔ)上,對(duì)信息和信息之間關(guān)系的發(fā)現(xiàn)和檢索。基于語(yǔ)義網(wǎng)的信息檢索技術(shù)已經(jīng)廣泛應(yīng)用于數(shù)字圖書(shū)館、電子商務(wù)、電子政務(wù)等多個(gè)領(lǐng)域。
在數(shù)字圖書(shū)信息檢索領(lǐng)域,文獻(xiàn)[7]提出基于智能引擎的智能信息檢索方法,采用語(yǔ)義網(wǎng)技術(shù)體系中的本體方法,在知識(shí)層面對(duì)數(shù)字圖書(shū)館中的信息進(jìn)行表示,從檢索意圖的分析與判斷能力、知識(shí)庫(kù)動(dòng)態(tài)監(jiān)視和更新反應(yīng)功能、各種形式的信息廣泛整合支持、靈活檢索機(jī)制、專(zhuān)業(yè)層面的強(qiáng)大索引功能等方面改進(jìn)數(shù)據(jù)圖書(shū)館的檢索效率。
在電子商務(wù)領(lǐng)域,文獻(xiàn)[8]智能信息檢索為解決網(wǎng)絡(luò)時(shí)代企業(yè)信息膨脹而提出面向電子商務(wù)領(lǐng)域,專(zhuān)門(mén)設(shè)計(jì)改進(jìn)搜索引擎,提出使用基于語(yǔ)義Web的電子商務(wù)核心語(yǔ)言,實(shí)現(xiàn)在電子商務(wù)領(lǐng)域智能信息檢索的高效檢索和高檢準(zhǔn)率。基于代理和機(jī)器學(xué)習(xí)的智能信息檢索技術(shù)在電子商務(wù)領(lǐng)域中的應(yīng)用為系統(tǒng)使用者提供更加個(gè)性化的信息推送和檢索結(jié)果排序,根據(jù)對(duì)使用者購(gòu)買(mǎi)記錄、關(guān)注點(diǎn)、操作習(xí)慣等方面的分析,電子商務(wù)中的智能信息檢索為每個(gè)使用者提供了“量身定制”的個(gè)性化檢索引擎。例如淘寶網(wǎng),京東商城等電子商務(wù)網(wǎng)站都開(kāi)始將這種個(gè)性化的服務(wù)提供給用戶(hù)。
以上三種典型的智能信息檢索技術(shù)在技術(shù)、適用范圍、應(yīng)用情況、各自?xún)?yōu)缺點(diǎn)等方面的對(duì)比如表1所示?;谡Z(yǔ)義網(wǎng)的信息檢索技術(shù)實(shí)現(xiàn)了知識(shí)層面的信息檢索,尤其在查全率、個(gè)性化、隱含知識(shí)發(fā)現(xiàn)等方面優(yōu)勢(shì)突出,成為智能信息檢索技術(shù)中的主流技術(shù)之一。本文以基于語(yǔ)義網(wǎng)的智能信息檢索技術(shù)為例,對(duì)采用該技術(shù)系統(tǒng)的體系架構(gòu)進(jìn)行設(shè)計(jì)、對(duì)關(guān)鍵技術(shù)進(jìn)行介紹。
表1 三種檢索技術(shù)的比較
基于語(yǔ)義網(wǎng)的智能信息檢索技術(shù)是數(shù)據(jù)資源采用語(yǔ)義網(wǎng)技術(shù)體系統(tǒng)一描述的基礎(chǔ)上,引入自然語(yǔ)言識(shí)別,采用自然語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行檢索。它是語(yǔ)義網(wǎng)技術(shù),檢索技術(shù),人機(jī)交互技術(shù),自然語(yǔ)言識(shí)別技術(shù)等多種技術(shù)的綜合,本文構(gòu)建的體系結(jié)構(gòu)由數(shù)據(jù)獲取、數(shù)據(jù)語(yǔ)義處理、語(yǔ)言轉(zhuǎn)換和應(yīng)用共四層組成,為在應(yīng)用層面保障交互環(huán)境的可信,在四層結(jié)構(gòu)中引入安全和可信技術(shù),其體系結(jié)構(gòu)如圖1所示。
圖1 基于語(yǔ)義網(wǎng)的智能信息檢索體系結(jié)構(gòu)
數(shù)據(jù)獲取層主要實(shí)現(xiàn)對(duì)獲取的數(shù)據(jù)進(jìn)行處理,為上一層的語(yǔ)義處理提供該領(lǐng)域內(nèi)數(shù)據(jù)的來(lái)源。根據(jù)數(shù)據(jù)的組織形式,領(lǐng)域中的數(shù)據(jù)主要分為兩類(lèi):結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)采用標(biāo)準(zhǔn)的、統(tǒng)一的格式,對(duì)數(shù)據(jù)進(jìn)行組織。非結(jié)構(gòu)化數(shù)據(jù)是指結(jié)構(gòu)未經(jīng)標(biāo)準(zhǔn)化的文檔、語(yǔ)音資料、視頻資料等。非結(jié)構(gòu)化數(shù)據(jù)經(jīng)過(guò)識(shí)別、提取和轉(zhuǎn)換等手段對(duì)其中的有用信息進(jìn)行抽取,采用結(jié)構(gòu)化形式進(jìn)行數(shù)據(jù)描述。其他領(lǐng)域相關(guān)數(shù)據(jù)和抽取后的結(jié)構(gòu)化數(shù)據(jù)匯集起來(lái)成為領(lǐng)域數(shù)據(jù)。
數(shù)據(jù)語(yǔ)義處理層的實(shí)現(xiàn)是在對(duì)領(lǐng)域內(nèi)數(shù)據(jù)采用統(tǒng)一編碼描述的基礎(chǔ)上,運(yùn)用資源描述框架、本體、邏輯、證明和數(shù)字證書(shū)等技術(shù),形成領(lǐng)域內(nèi)本體數(shù)據(jù)庫(kù),在語(yǔ)義層實(shí)現(xiàn)對(duì)數(shù)據(jù)和數(shù)據(jù)關(guān)系的檢索。索引的建立有利于對(duì)領(lǐng)域內(nèi)整體情況的理解,也有利于對(duì)知識(shí)進(jìn)行針對(duì)性檢索。
語(yǔ)言轉(zhuǎn)換層主要實(shí)現(xiàn)非規(guī)范檢索語(yǔ)言到規(guī)范檢索語(yǔ)言的映射轉(zhuǎn)換。若輸入為自然語(yǔ)言,系統(tǒng)通過(guò)自然語(yǔ)言識(shí)別,對(duì)自然語(yǔ)言進(jìn)行詞法分析、語(yǔ)法分析,并按照規(guī)范語(yǔ)法,對(duì)自然語(yǔ)言中的元素進(jìn)行重新組織,形成規(guī)范化的查詢(xún)語(yǔ)句,例如SPARQL查詢(xún)語(yǔ)句等。
應(yīng)用層是系統(tǒng)對(duì)用戶(hù)所提供的應(yīng)用接口。用戶(hù)既可以是人也可以是其他系統(tǒng)。安全和可信技術(shù)在各層中的具體功能不同,在數(shù)據(jù)獲取層,安全和可信技術(shù)主要確保獲取數(shù)據(jù)的可信和數(shù)據(jù)存儲(chǔ)的安全等;在數(shù)據(jù)語(yǔ)義處理層,它主要控制對(duì)數(shù)據(jù)的非法訪問(wèn);在語(yǔ)言轉(zhuǎn)換層,可信技術(shù)要確保轉(zhuǎn)換規(guī)則的正確,保證語(yǔ)言轉(zhuǎn)換前后語(yǔ)義的正確;在應(yīng)用層采用的安全和可信技術(shù)更為豐富,從應(yīng)用的角度確保系統(tǒng)整體數(shù)據(jù)環(huán)境和對(duì)外接口等方面的安全和可信。
4.1 領(lǐng)域本體建立
智能信息檢索系統(tǒng)的構(gòu)建是由智能信息檢索所面對(duì)的信息、使用者、系統(tǒng)的功能性要求、非功能性要求、系統(tǒng)的軟硬件環(huán)境、安全環(huán)境等共同影響的。這些共同的影響因素共同形成了領(lǐng)域特點(diǎn),針對(duì)不同的領(lǐng)域,需要進(jìn)行領(lǐng)域信息的表示。由于本體具有對(duì)信息組織表示和描述信息之間的內(nèi)在聯(lián)系的能力。所以本體論成為知識(shí)獲取和表示、規(guī)劃、進(jìn)程管理、數(shù)據(jù)庫(kù)框架集成、自然語(yǔ)言處理和企業(yè)模擬等研究領(lǐng)域的核心?;诒倔w論的知識(shí)庫(kù)的建立將提供一個(gè)內(nèi)容豐富和現(xiàn)代的框架以實(shí)現(xiàn)術(shù)語(yǔ)的規(guī)范、服務(wù)和管理[9]。
為實(shí)現(xiàn)對(duì)數(shù)據(jù)的語(yǔ)義檢索,采用本體技術(shù)對(duì)結(jié)構(gòu)化數(shù)據(jù)或從非結(jié)構(gòu)化數(shù)據(jù)中提取的結(jié)構(gòu)化信息進(jìn)行描述,描述的基礎(chǔ)是領(lǐng)域本體庫(kù)的建立。領(lǐng)域本體庫(kù)建立的步驟[10]通常為
1) 明確業(yè)務(wù)領(lǐng)域。一般從領(lǐng)域的具體業(yè)務(wù)流程出發(fā),重點(diǎn)關(guān)注領(lǐng)域所涉及的業(yè)務(wù)對(duì)象、關(guān)系、規(guī)則、限制、與其他領(lǐng)域關(guān)系等;
2) 屬性建立。根據(jù)對(duì)業(yè)務(wù)領(lǐng)域的理解,抽象出領(lǐng)域內(nèi)的實(shí)體成為本體,并對(duì)其屬性進(jìn)行描述;
3) 明確屬性約束;
4) 明確本體關(guān)系;
5) 明確函數(shù)、限制、規(guī)則和公理等。
4.2 實(shí)例抽取技術(shù)
實(shí)例抽取采用自動(dòng)方式,主要實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變和結(jié)構(gòu)化數(shù)據(jù)抽取為實(shí)例兩個(gè)過(guò)程。
非結(jié)構(gòu)數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換常采用基于特征提取的方法。非結(jié)構(gòu)化數(shù)據(jù)雖然形式多樣,種類(lèi)很多,但是擁有兩個(gè)特點(diǎn)是: 1) 存在大量的冗余的信息; 2) 信息通過(guò)各種特征表現(xiàn)出來(lái)。通過(guò)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行合理的分類(lèi),對(duì)每類(lèi)數(shù)據(jù)進(jìn)行特征抽取,這些特征來(lái)源于特征庫(kù)中定義的特征類(lèi)型。通過(guò)對(duì)提取的特征進(jìn)行值域分析,進(jìn)行信息轉(zhuǎn)換和去除無(wú)用信息[11]。通過(guò)特征提取,將非結(jié)構(gòu)化數(shù)據(jù)中信息轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),如圖2所示。
圖2 非結(jié)構(gòu)數(shù)據(jù)特征提取
格式化數(shù)據(jù)由于采用固定的格式,所以可以直接通過(guò)程序自動(dòng)抽取為信息的本體描述。
針對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化提取后的結(jié)構(gòu)化數(shù)據(jù),按照領(lǐng)域本體庫(kù)中建立的本體框架,對(duì)結(jié)構(gòu)數(shù)據(jù)中的信息進(jìn)行抽取,形成實(shí)例,并存儲(chǔ)到數(shù)據(jù)庫(kù)中。
例如非結(jié)構(gòu)化數(shù)據(jù)的輸入為“2014年9月1日11:00,衛(wèi)星拍攝到某艦船的畫(huà)面(附照片),并通過(guò)定位確定其經(jīng)緯度為120.20-29.51,高度為0”。圖片信息中通過(guò)圖像處理算法獲取到該艦船為航空母艦,數(shù)量為1。通過(guò)該數(shù)據(jù)信息中文字信息和圖片信息的特征提取,獲得信息見(jiàn)表2。
表2 某艦船 特征值信息
對(duì)獲取的特征信息中的部分信息抽取,獲得信息實(shí)例的描述,用RDF描述如下。
〈目標(biāo)〉
〈時(shí)間〉2014-09-01 11:00.000〈/時(shí)間〉
WK〈類(lèi)型〉水面〈/類(lèi)型〉
〈型號(hào)〉航空母艦〈/型號(hào)〉
〈數(shù)量〉1〈/數(shù)量〉〈高深度〉0〈/高深度〉
〈經(jīng)度〉120.20〈/經(jīng)度〉
〈緯度〉29.51〈/緯度〉
〈/目標(biāo)〉
非結(jié)構(gòu)化數(shù)據(jù)具有數(shù)據(jù)量大、信息組織松散等特點(diǎn),計(jì)算機(jī)難以直接處理。將非結(jié)構(gòu)化數(shù)據(jù)的特征進(jìn)行提取形成結(jié)構(gòu)化數(shù)據(jù),使得非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成為計(jì)算機(jī)可理解的本體實(shí)例。實(shí)例抽取技術(shù)為智能信息檢索提供了數(shù)據(jù)基礎(chǔ)。
4.3 語(yǔ)言轉(zhuǎn)換技術(shù)
語(yǔ)言轉(zhuǎn)換實(shí)現(xiàn)非規(guī)范檢索語(yǔ)言與語(yǔ)義網(wǎng)檢索語(yǔ)言之間的轉(zhuǎn)換。非規(guī)范檢索語(yǔ)言可以是自然語(yǔ)言、其他系統(tǒng)檢索語(yǔ)言等。自然語(yǔ)言的處理方法主要有基于關(guān)鍵詞匹配的方法、基于模式匹配的方法、以句法-語(yǔ)義分析為主的方法、基于大規(guī)模語(yǔ)料庫(kù)的自然語(yǔ)言處理等。
本文所介紹的體系結(jié)構(gòu)中,使用以句法-語(yǔ)義分析為主的方法作為自然語(yǔ)言處理技術(shù),借助對(duì)查詢(xún)語(yǔ)句的語(yǔ)義理解,按照語(yǔ)義網(wǎng)檢索語(yǔ)言的格式和規(guī)則,進(jìn)行轉(zhuǎn)換。例如要將以漢語(yǔ)形式表述的查詢(xún)語(yǔ)句“我想查找關(guān)于智能檢索領(lǐng)域的最新論文”轉(zhuǎn)換為語(yǔ)義網(wǎng)查詢(xún)語(yǔ)言SPARQL。首先對(duì)查詢(xún)語(yǔ)句采用分詞技術(shù)(通常采用最大匹配度算法)對(duì)查詢(xún)語(yǔ)句分詞,得到的結(jié)果是“我、想、查找、關(guān)于、智能檢索、領(lǐng)域、的、最新、論文”。通過(guò)對(duì)分詞以后的查詢(xún)語(yǔ)句進(jìn)行語(yǔ)義分析,分析得出檢索的結(jié)果為論文,屬性中類(lèi)別為智能檢索領(lǐng)域,并且按照時(shí)間倒序排列,最終返回結(jié)果為下載地址。轉(zhuǎn)化為SPARQL語(yǔ)言如下。
PREFIX foaf:〈http://xmlns.com/foaf/1.0〉
SELECT ?題目 ?摘要 ?時(shí)間 ?網(wǎng)址
WHERE {?論文 foaf:class “智能檢索”.
?論文 foaf:title ?題目.
?論文 foaf:abstract ?摘要.
?論文 foaf:time ?時(shí)間.
?論文 foaf:url ?網(wǎng)址.
}ORDER BY DESC[?時(shí)間]
由于自然語(yǔ)言在使用中具有語(yǔ)義上下文相關(guān)、模糊、語(yǔ)法不準(zhǔn)確等特點(diǎn),這導(dǎo)致計(jì)算機(jī)對(duì)自然語(yǔ)言理解困難。但強(qiáng)制使用者學(xué)習(xí)使用語(yǔ)義檢索語(yǔ)言(例如SPARQL等)進(jìn)行檢索,會(huì)很大程度降低系統(tǒng)的易用性。在具體領(lǐng)域應(yīng)用中,一方面通過(guò)培訓(xùn)和鍛煉可以提高使用者的表達(dá)能力,另一方面使用自然語(yǔ)言識(shí)別技術(shù)提高計(jì)算機(jī)對(duì)自然語(yǔ)言的理解能力。
4.4 基于自然語(yǔ)言的智能信息檢索流程
本文設(shè)計(jì)基于語(yǔ)義網(wǎng)的智能信息檢索系統(tǒng)的流程,如圖3所示。由于自然語(yǔ)言識(shí)別技術(shù)不能做到100%的準(zhǔn)確識(shí)別,為防止自然語(yǔ)言理解的歧義,將檢索語(yǔ)句轉(zhuǎn)換為SPARQL語(yǔ)句后,再次逆向生成自然語(yǔ)言,并與查詢(xún)結(jié)果一起返回給用戶(hù)作為參考。
4.5 檢索應(yīng)用技術(shù)
智能信息檢索系統(tǒng)為上層的應(yīng)用提供信息的組織、表示和檢索功能,為應(yīng)用提供信息保障。本文體系結(jié)構(gòu)中的應(yīng)用層為基本應(yīng)用,為更高層的應(yīng)用提供基本的接口模塊。其中典型的應(yīng)用為搜索引擎、訂閱、信息呈現(xiàn)等。
圖3 基于自然語(yǔ)言的語(yǔ)義檢索流程
搜索引擎是使用自然語(yǔ)言進(jìn)行信息檢索的接口。根據(jù)搜索引擎的檢索方式和范圍可以分為全文檢索引擎和目錄式搜索引擎。全文檢索引擎通過(guò)對(duì)整個(gè)知識(shí)庫(kù)的檢索來(lái)實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)。目錄式搜索引擎是針對(duì)專(zhuān)門(mén)的領(lǐng)域或主題,采用樹(shù)狀結(jié)構(gòu)建立索引,檢索時(shí)實(shí)際是對(duì)已建立好的索引的分層式瀏覽。兩種檢索方式都是基于知識(shí)庫(kù)中已形成的信息,相比目錄式搜索引擎,全文檢索引擎的檢索范圍廣,信息更新快,但是檢索效率和準(zhǔn)確度低。
訂閱主要是針對(duì)領(lǐng)域內(nèi)一些基于訂制或者主動(dòng)推動(dòng)的業(yè)務(wù)。互聯(lián)網(wǎng)中的訂閱應(yīng)用往往基于SOAP協(xié)議實(shí)現(xiàn)。典型的應(yīng)用有RSS訂閱,信息實(shí)時(shí)訂閱反饋等。基于語(yǔ)義網(wǎng)的智能體系結(jié)構(gòu)為支持模糊訂閱和基于用戶(hù)特性的訂閱提供支撐,通過(guò)機(jī)器學(xué)習(xí)和智能代理等技術(shù)的引入,實(shí)現(xiàn)訂閱內(nèi)容的智能化組織、訂閱條件自動(dòng)生成、信息及時(shí)更新等。訂閱服務(wù)為用戶(hù)查看信息提供了個(gè)性化的選擇。
根據(jù)體系結(jié)構(gòu)的不同,信息呈現(xiàn)主要分為B/S結(jié)構(gòu)和C/S結(jié)構(gòu)。特別是Web 2.0等技術(shù)的引入,使得B/S結(jié)構(gòu)的展現(xiàn)形式更豐富多樣化,文檔、多媒體等多種信息的顯示都提供了很好的支持。B/S雖然廣泛支持信息的呈現(xiàn),但對(duì)于具體應(yīng)用的信息呈現(xiàn)缺少針對(duì)性,具體業(yè)務(wù)領(lǐng)域的理解無(wú)法深入。C/S結(jié)構(gòu)解決了B/S的這個(gè)問(wèn)題,它面向具體的業(yè)務(wù)應(yīng)用,信息呈現(xiàn)的專(zhuān)業(yè)化程度更高,更符合用戶(hù)使用習(xí)慣等。
基于語(yǔ)義網(wǎng)的智能信息檢索技術(shù)為解決信息的表示、組織和檢索提供了一種解決方案。在未來(lái)應(yīng)用中,智能信息檢索技術(shù)將結(jié)合其他智能技術(shù)共同在智能判斷、輔助決策、綜合分析等多個(gè)應(yīng)用領(lǐng)域發(fā)揮重要作用。智能信息檢索系統(tǒng)將推動(dòng)數(shù)據(jù)中心向知識(shí)中心的轉(zhuǎn)變。
[1] 曹強(qiáng),黃建忠,萬(wàn)繼光,等.海量網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)原理與設(shè)計(jì)[M].武漢:華中科技大學(xué)出版社,2014:1-5.
[2] W3C. Linked Open Data[EB/OL]. [2014-6-20]. http://www.w3c.it/events/2014/lod2014/.
[3] 陳沈焰,吳軍華.基于本體的智能信息檢索系統(tǒng)研究[J].微處理機(jī),2009,5:89-91.
[4] 陳曉金,王兵.信息檢索技術(shù)研究與實(shí)踐[J].情報(bào)資料工作,2008,3:33-35.
[5] 許鑫,黃仲清.垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J].知識(shí)組織與知識(shí)管理,2009,175(2):62-70.
[6] 張玥杰,連理,吳立德.一種新型的跨語(yǔ)言信息檢索技術(shù)[J].計(jì)算機(jī)科學(xué),2002,29(8):66-72.
[7] 賈宏.基于搜索引擎的數(shù)字圖書(shū)館智能信息檢索[J].圖書(shū)館學(xué)研究,2006,3:28-31.
[8] 謝圣獻(xiàn),謝光.語(yǔ)義檢索在電子商務(wù)中的應(yīng)用研究[J].微計(jì)算機(jī)信息,2008,12:135-136.
[9] 韓嬌紅.我國(guó)智能化信息檢索發(fā)展及研究現(xiàn)狀[J].圖書(shū)館學(xué)刊,2012,1:49-51.
[10] Grigoris Antonios, Frankvan Harmelen: A Sematic Web Primer(Cooperative Information Systems)[M]. Cambridge: The MIT Press,2008:204-218.
[11] 田萬(wàn)鵬,王建民.一種基于特征的非結(jié)構(gòu)數(shù)據(jù)演變管理建??蚣躘J].計(jì)算機(jī)研究與發(fā)展,2010,47(suppl):394-399.
A Study of Intelligent Information Retrieval Technology
SONG Wenbin QIAN Xinghua LIU Peng
(China Ship Research and Development Academy, Beijing 100192)
Intelligent information retrieval is a composite retrieval technology which is an advance stage of information retrieval technology. Firstly, the technology and the application are introduced. Secondly, the architecture of intelligent information retrieval based on ontology is designed. Finally, the key technologies and the flow are given.
intelligent information retrieval, ontology, semantic web
2015年1月4日,
2015年2月28日 作者簡(jiǎn)介:宋文賓,男,碩士研究生,研究方向:艦船電子工程技術(shù)。錢(qián)興華,女,博士生導(dǎo)師,研究方向:系統(tǒng)總體設(shè)計(jì)。劉鵬,男,高級(jí)工程師,研究方向:系統(tǒng)體系結(jié)構(gòu)。
TP393
10.3969/j.issn1672-9730.2015.07.036