方 正
(大慶師范學(xué)院,黑龍江 大慶 163712)
Internet是一個(gè)龐大而又雜亂的網(wǎng)絡(luò)。一方面,它為信息的發(fā)布者提供了廣闊的空間;另一方面,這種快速、無(wú)序的信息增長(zhǎng)對(duì)于信息的使用者來(lái)講卻意味著信息繁雜。目前Internet上已經(jīng)擁有數(shù)百億的網(wǎng)頁(yè),并且仍以極快的速度增長(zhǎng)。在這些眾多的網(wǎng)頁(yè)中,包含著巨量的信息和知識(shí)。如何利用這些信息和知識(shí),成為最熱門的研究領(lǐng)域。雖然人們投入巨大的熱情和精力研究信息檢索問(wèn)題,但是到目前為止,如何從大量信息中篩選出用戶需要的信息,或?qū)τ脩粲杏玫男畔?,一直沒(méi)有得到很好的解決。據(jù)英國(guó)莫里(MORI)調(diào)查公司的民意調(diào)查結(jié)果顯示,只有18%的用戶表示總能在網(wǎng)上搜索到需要的信息;68%的用戶說(shuō)他們對(duì)搜索引擎很失望;28%的用戶表示還可以;其余5%為不知道??梢娔壳靶畔⑺阉饕娴母倪M(jìn)完善的空間還很大,信息檢索技術(shù)仍然需要進(jìn)一步的研究和發(fā)展[1]。
信息檢索涉及數(shù)據(jù)庫(kù)技術(shù)、圖書和情報(bào)科學(xué)、人工智能、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等眾多知識(shí)和學(xué)科領(lǐng)域。信息檢索的主要目的是對(duì)信息表示、存儲(chǔ)與組織,使用戶更容易得到所需要或者感興趣的信息。信息檢索的過(guò)程可以簡(jiǎn)單地描述為:用戶提交查詢條件,信息檢索系統(tǒng)根據(jù)該查詢條件在文檔集中檢索出與其相關(guān)的文檔子集,對(duì)這些相關(guān)文檔子集中的文檔按照與查詢條件相關(guān)性的值進(jìn)行排序,最后返回給用戶有序的文檔子集[2]。
信息檢索從19世紀(jì)下半葉開始出現(xiàn),從最初的手工檢索,到20世紀(jì)50年代的計(jì)算機(jī)檢索,再到目前的網(wǎng)絡(luò)化、智能化檢索,經(jīng)歷了多個(gè)發(fā)展階段[3]。信息檢索技術(shù)起源于圖書館的參考咨詢和文摘索引工作,隨著計(jì)算機(jī)和網(wǎng)絡(luò)的出現(xiàn),它的用戶也由最初的情報(bào)專業(yè)人員發(fā)展到包括商務(wù)人員、管理人員、教師學(xué)生、各專業(yè)人士等在內(nèi)的普通大眾。信息檢索服務(wù)己成為信息時(shí)代一項(xiàng)必不可少的服務(wù)。隨著網(wǎng)絡(luò)的出現(xiàn),從事信息檢索研究和服務(wù)的人數(shù)也越來(lái)越多,將計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和信息技術(shù)相結(jié)合而成的現(xiàn)代信息檢索技術(shù)已成為計(jì)算機(jī)科學(xué)研究領(lǐng)域的一個(gè)熱點(diǎn)。信息檢索的目的是從大量紛繁復(fù)雜的信息中篩選出符合用戶需要的信息。構(gòu)造檢索模型是信息檢索的核心技術(shù),它主要包括三個(gè)方面的內(nèi)容:文檔與用戶查詢的表示,查詢匹配策略,匹配結(jié)果的相關(guān)度表示。
布爾模型是基于集合理論和布爾代數(shù)的一種簡(jiǎn)單的檢索模型。它定義了一個(gè)二值變量集合來(lái)表示文檔。這些變量對(duì)應(yīng)文檔中的特征項(xiàng),一般是由訓(xùn)練文檔集中的詞語(yǔ)或詞組組成,如果詞語(yǔ)對(duì)文檔內(nèi)容有貢獻(xiàn)則賦予True,否則為False。檢索過(guò)程中,查詢被表示成有確切語(yǔ)義的布爾表達(dá)式,根據(jù)用戶提交的檢索條件是否滿足文檔表示中的邏輯關(guān)系將檢索文檔分為兩個(gè)集合:匹配集和非匹配集。
向量模型是當(dāng)前使用較多且效果較好的一種信息檢索模型。該模型認(rèn)為使用二值權(quán)值來(lái)表示文檔與查詢的相關(guān)性存在著太多的局限,因此提出了一種框架以便能夠進(jìn)行部分匹配,即通過(guò)給查詢和文檔中的標(biāo)引詞分配非二值權(quán)值來(lái)實(shí)現(xiàn)這個(gè)目標(biāo)。這些詞語(yǔ)的權(quán)值用于計(jì)算存儲(chǔ)在系統(tǒng)中的文檔和用戶查詢之間的相似度。向量模型利用檢出文檔相似度降序排列的方式來(lái)實(shí)現(xiàn)文檔與查詢的部分匹配。這樣做最明顯的效果就是結(jié)果集內(nèi)的文檔排列順序比通過(guò)布爾模型得到的結(jié)果集要合理得多,能更好的匹配用戶信息需求,獲得較好的檢索效果。向量模型的主要優(yōu)點(diǎn)在于:
(1)標(biāo)引詞加權(quán)改進(jìn)了檢索效果;
(2)其部分匹配策略允許檢出與查詢條件相接近的文檔;
(3)余弦公式根據(jù)文檔與查詢之間的相似度對(duì)文檔進(jìn)行排序。
向量模型也存在著不足:標(biāo)引詞被認(rèn)為彼此之間相互獨(dú)立。然而在實(shí)際檢索中,考慮詞語(yǔ)的獨(dú)立性對(duì)于檢索過(guò)程來(lái)說(shuō)是一個(gè)不利的條件。由于許多標(biāo)引詞之間的相關(guān)性具有局部性,對(duì)它們不加分析的應(yīng)用到集合中的所有文檔中可能會(huì)影響到整體的效果。盡管向量模型結(jié)構(gòu)簡(jiǎn)單,但對(duì)于一般集合來(lái)說(shuō)它仍然是一個(gè)適應(yīng)性強(qiáng)的排序策略。在向量模型的框圖中,通過(guò)查詢擴(kuò)展和相關(guān)反饋,可以改善其所產(chǎn)生的排序結(jié)果集合[4-5]。
在信息檢索系統(tǒng)中,通過(guò)對(duì)文檔向量與查詢向量的比較來(lái)計(jì)算排序。文檔與查詢的標(biāo)引詞必須進(jìn)行匹配和加權(quán)才能計(jì)算排序。由于神經(jīng)網(wǎng)絡(luò)具有很好的匹配模式,人們很自然地想到把它作為信息檢索的一種可供選擇的模型。人類的大腦由幾十億個(gè)神經(jīng)元所組成,每個(gè)神經(jīng)元都可以看成是一個(gè)理想單元,當(dāng)受到輸入信號(hào)的刺激時(shí),就會(huì)生成輸出信號(hào)作為反饋。一個(gè)輸出的信號(hào)通過(guò)鏈接反饋到其他神經(jīng)元中,這些神經(jīng)元自身又能發(fā)出新信號(hào)。這一過(guò)程可以在神經(jīng)元的若干層之間來(lái)回反復(fù),通常將其稱為傳遞程。對(duì)輸入信號(hào)的處理(如分析、解釋)可能導(dǎo)致大腦作出物理反應(yīng)(如效應(yīng))來(lái)回應(yīng)。為了模擬突觸鏈接在大腦中不斷變化的強(qiáng)度,為神經(jīng)網(wǎng)絡(luò)的每一條邊分配一定的權(quán)值,神經(jīng)網(wǎng)絡(luò)在信號(hào)傳遞的第一個(gè)階段之后并沒(méi)有停頓下來(lái),文檔結(jié)點(diǎn)依次直接向文檔詞語(yǔ)結(jié)點(diǎn)返回新的信號(hào),接到信號(hào)后,文檔詞語(yǔ)結(jié)點(diǎn)再次直接向文檔結(jié)點(diǎn)發(fā)出新的信號(hào)并重復(fù)這一過(guò)程。信號(hào)在每一次反復(fù)中會(huì)逐漸衰減,傳遞激活過(guò)程最終會(huì)停頓下來(lái)。即使文檔不包含任何的查詢?cè)~語(yǔ),也有可能在這一過(guò)程中被激活。這一過(guò)程可以解釋為內(nèi)置詞典的激活。為了改進(jìn)檢索效果,在第一個(gè)傳播階段之后,神經(jīng)網(wǎng)絡(luò)繼續(xù)傳遞激活過(guò)程。在這一過(guò)程中,更改了初始的向量排序,這有點(diǎn)類似于用戶相關(guān)反饋循環(huán)。為了使這種處理更加有效,可以定義一個(gè)最小激活閾值,處于該閾值之下的文檔結(jié)點(diǎn)不發(fā)出信號(hào)[6-7]。
當(dāng)前的搜索引擎主要以用戶輸入的查詢關(guān)鍵詞進(jìn)行信息的檢索。搜索引擎將與用戶輸入的查詢相關(guān)的文檔反饋給用戶。但是用戶輸入的查詢關(guān)鍵詞往往不能完全準(zhǔn)確地表達(dá)用戶所要查詢的意圖。當(dāng)搜索引擎以這樣的關(guān)鍵詞檢索時(shí),往往反饋給用戶的信息不能使用戶滿意,當(dāng)有些關(guān)鍵詞有歧義時(shí),搜索引擎反饋給用戶的信息可能有很大的偏移。根據(jù)調(diào)查人們使用搜索引擎進(jìn)行信息查找時(shí),平均輸入的查詢關(guān)鍵詞少于2個(gè)詞。關(guān)鍵詞太少很難將用戶的查詢意圖表述清楚,因而搜索引擎在信息檢索時(shí)都會(huì)采用關(guān)鍵詞的擴(kuò)展技術(shù),增加意思相近的關(guān)鍵詞到查詢中,以改善檢索效果。事實(shí)上,從對(duì)Web搜索引擎的觀察來(lái)看,用戶需要花費(fèi)大量的時(shí)間來(lái)重構(gòu)他們的查詢來(lái)完成有效的檢索。也就是說(shuō),第一個(gè)查詢表達(dá)式應(yīng)當(dāng)作為檢索相關(guān)息的一個(gè)初步嘗試;然后,用戶對(duì)初步檢出的文檔進(jìn)行相關(guān)性檢查,構(gòu)建新的更為完善的查詢表達(dá)式,以期檢索到新的相關(guān)文檔。這種查詢重構(gòu)包含兩個(gè)基本的步驟:①利用新的詞語(yǔ)來(lái)擴(kuò)展初始的查詢;②在擴(kuò)展的查詢中給詞語(yǔ)重新加權(quán)。
針對(duì)查詢擴(kuò)展中局部分析方法查準(zhǔn)率不高的缺點(diǎn),提出一種新的方法。該方法通過(guò)分析與用戶查詢密切相關(guān)的文檔,從而得到與其相關(guān)的文檔類別,進(jìn)而根據(jù)相關(guān)類別中的文檔用詞與用戶查詢用詞的共現(xiàn)關(guān)系對(duì)查詢進(jìn)行擴(kuò)展。通過(guò)與傳統(tǒng)的局部分析方法、全局分析方法的實(shí)驗(yàn)對(duì)比,結(jié)果表明這種方法具有更快的檢索速度和更高的查準(zhǔn)率。
傳統(tǒng)的基于關(guān)鍵詞匹配的信息檢索只是將用戶的查詢用詞與數(shù)據(jù)庫(kù)中的文檔用詞進(jìn)行簡(jiǎn)單的匹配,由于普遍存在詞語(yǔ)的不匹配和用戶表達(dá)不完整的問(wèn)題,因而這種檢索的效果很差?;诓樵償U(kuò)展的信息檢索正是用于解決上述問(wèn)題的一種重要方法。查詢擴(kuò)展方法可以分成人工查詢擴(kuò)展和自動(dòng)查詢擴(kuò)展兩類。自動(dòng)查詢擴(kuò)展和人工查詢擴(kuò)展相比,最大的優(yōu)點(diǎn)在于避免了用戶的直接參與。自動(dòng)查詢擴(kuò)展方法又可以分為全局分析和局部分析兩類。全局分析方法通常基于一種關(guān)聯(lián)假設(shè),即在文檔集中,相互關(guān)聯(lián)的詞語(yǔ)會(huì)在該文檔集的文檔中共同出現(xiàn),所以它利用整個(gè)文檔集合中的詞語(yǔ)共現(xiàn)信息進(jìn)行查詢擴(kuò)展。局部分析方法假設(shè)查詢檢索出的排序前列的文檔是與查詢密切相關(guān)的,然后對(duì)這些文檔進(jìn)行分析以獲得相關(guān)信息進(jìn)行查詢擴(kuò)展。全局技術(shù)的計(jì)算代價(jià)非常高,主要是因?yàn)樾枰?jì)算整個(gè)文檔集合中所有文檔用詞之間的關(guān)系;局部技術(shù)的查準(zhǔn)率得不到保證,主要是因?yàn)樗粚?duì)初始查詢檢出的排序前列的文檔進(jìn)行分析,當(dāng)這些文檔中包含較多無(wú)關(guān)文檔時(shí),查詢擴(kuò)展將會(huì)加入大量無(wú)關(guān)的詞,導(dǎo)致查準(zhǔn)率的嚴(yán)重降低。
在信息檢索系統(tǒng)中引入查詢擴(kuò)展,容易產(chǎn)生與原查詢主題偏離的問(wèn)題,嚴(yán)重影響系統(tǒng)的檢索性能。通過(guò)研究提出一種基于局部類別分析的查詢擴(kuò)展算法,分析與用戶查詢相關(guān)的文檔類別,并利用相關(guān)類別中詞語(yǔ)的共現(xiàn)關(guān)系來(lái)選取擴(kuò)展詞,避免加入與原查詢不相關(guān)的詞,以緩解主題偏離的問(wèn)題,提高檢索系統(tǒng)的查準(zhǔn)率。實(shí)驗(yàn)表明這種方法取得了較好的效果。
針對(duì)傳統(tǒng)的信息檢索模型只能進(jìn)行精確匹配的問(wèn)題,提出一種基于混沌神經(jīng)網(wǎng)絡(luò)模型的查詢擴(kuò)展方法。該方法利用混沌神經(jīng)網(wǎng)絡(luò)模型自身的記憶性、學(xué)習(xí)性和聯(lián)想性,對(duì)用戶的查詢信息進(jìn)行聚類分析和學(xué)習(xí),跟蹤用戶的興趣變化,從而推測(cè)用戶的查詢傾向,以用于擴(kuò)展和重構(gòu)用戶的初始查詢。通過(guò)與傳統(tǒng)的向量模型的實(shí)驗(yàn)對(duì)比,結(jié)果表明新方法具有更高的查全率和查準(zhǔn)率。
混沌是“無(wú)序中的有序”,有序是指其確定性,而無(wú)序則是其最終結(jié)果的不可預(yù)測(cè)性。非線性、非平衡性、確定性、動(dòng)態(tài)性、內(nèi)秉隨機(jī)性、初值敏感性、時(shí)間序列的不規(guī)則性和有奇異吸引子是混沌的必然條件。1990年,Ikenguchi,Adachi,Aihara等人在前人推導(dǎo)和實(shí)驗(yàn)的基礎(chǔ)上,提出了一個(gè)混沌神經(jīng)元模型,該模型已成為一種經(jīng)典的混沌神經(jīng)網(wǎng)絡(luò)模型,可得到比其他模型更好的結(jié)果。該模型考慮了神經(jīng)元本身的線性動(dòng)力學(xué)的混沌行為,可用于聯(lián)想記憶。
傳統(tǒng)的信息檢索模型只能進(jìn)行關(guān)鍵詞的精確匹配,而且不能有效利用用戶在查詢時(shí)的行為信息。提出這種新的查詢擴(kuò)展方法,通過(guò)利用混沌神經(jīng)網(wǎng)絡(luò)的特性,對(duì)用戶的查詢和點(diǎn)擊瀏覽的信息進(jìn)行聚類學(xué)習(xí)和聯(lián)想,推測(cè)用戶的興趣以實(shí)現(xiàn)對(duì)用戶查詢的擴(kuò)展和重構(gòu)。與傳統(tǒng)的向量模型的對(duì)比實(shí)驗(yàn)表明,新方法具有更高的查全率和查準(zhǔn)率,獲得了較好的檢索性能。
隨著Web的迅速發(fā)展和日益普及,Internet成為人們搜尋各方面信息的主要來(lái)源,搜索引擎也在人們的日常學(xué)習(xí)、工作和生活中發(fā)揮著無(wú)法替代的重要作用。然而,用戶在向搜索引擎提交查詢時(shí)不一定符合規(guī)范,而且語(yǔ)言中存在著大量同義詞和多義詞現(xiàn)象,導(dǎo)致用戶的查詢用詞與數(shù)據(jù)庫(kù)中的文檔用詞有很大差別,這就給傳統(tǒng)的基于關(guān)鍵詞匹配的查詢系統(tǒng)帶來(lái)了巨大的困難;另一方面,由于當(dāng)前的搜索引擎面向的主要是網(wǎng)絡(luò)用戶,不同用戶輸入相同查詢檢索到的結(jié)果相同,對(duì)于背景不同、專業(yè)知識(shí)不同的特定用戶來(lái)說(shuō),這樣的檢索結(jié)果總是不能令人滿意,這也成為困擾信息檢索領(lǐng)域的又一問(wèn)題。為了查找到更符合用戶真實(shí)需求的信息,需要對(duì)用戶的初始查詢進(jìn)行擴(kuò)展和重構(gòu),使檢索結(jié)果更接近于用戶的真實(shí)需求。未來(lái)的工作將主要圍繞以下四個(gè)方面展開:
1)繼續(xù)研究查詢擴(kuò)展中的用戶相關(guān)反饋、自動(dòng)局部分析和自動(dòng)全局分析這三類方法,將它們的優(yōu)點(diǎn)結(jié)合在一起,以進(jìn)一步提高信息檢索系統(tǒng)的查全率、查準(zhǔn)率和查詢速度。
2)研究聚類算法在文本分類中的應(yīng)用,選擇合適的聚類算法與自動(dòng)查詢擴(kuò)展相結(jié)合,在自動(dòng)完成文本聚類工作的同時(shí),對(duì)用戶的查詢進(jìn)行擴(kuò)展,以提高檢出文檔與用戶查詢的相關(guān)性。
3)繼續(xù)研究人工智能方法在查詢擴(kuò)展方法中的應(yīng)用,研究如何有效利用用戶反饋和查詢?nèi)罩镜刃畔?lái)學(xué)習(xí)用戶的查詢行為,以進(jìn)一步提高檢索性能。
4)研究自動(dòng)查詢擴(kuò)展技術(shù)在Web中的應(yīng)用,把系統(tǒng)的數(shù)據(jù)庫(kù)擴(kuò)充到整個(gè)Internet。研究信息檢索系統(tǒng)的可視化顯示和交互性界面,允許用戶可視化的開發(fā)和利用文檔空間,提供幫助用戶處理查詢表達(dá)式的線索。
[參考文獻(xiàn)]
[1]賀宏朝.一種基于上下文的中文信息檢索查詢擴(kuò)展[M].中文信息學(xué)報(bào),2002,16(6):32-37.
[2]張敏.基于語(yǔ)義關(guān)系查詢擴(kuò)展的文檔重構(gòu)方法[J].計(jì)算機(jī)學(xué)報(bào),2004,27(10):13-14.
[3]岳文.基于查詢擴(kuò)展和分類的信息檢索算法[J].系統(tǒng)仿真學(xué)報(bào),2006,18(7): 26-29.
[4]呂碧波.基于相關(guān)文檔建模的查詢擴(kuò)展[J].中文信息學(xué)報(bào),2006,20(3):78-83.
[5]張選平.基于概念的信息檢索查詢擴(kuò)展[J].微電子學(xué)與計(jì)算機(jī),2006,23(4):110-114.
[6]王耀南.混沌神經(jīng)網(wǎng)絡(luò)模型及其應(yīng)用研究綜述[J].浙江大學(xué)學(xué)報(bào),2006,21(2):121-128.
[7]何國(guó)光.混沌神經(jīng)網(wǎng)絡(luò)的信息搜索[M].北京:教育出版社,2002.