謝安裕
(廣東省梅州市工業(yè)學(xué)校,廣東 梅州 514000)
搜索引擎是對(duì)www站點(diǎn)資源和其他網(wǎng)絡(luò)資源進(jìn)行組織和檢索的一類檢索機(jī)制。其機(jī)制一般包括數(shù)據(jù)采集和標(biāo)引機(jī)制、數(shù)據(jù)組織機(jī)制、用戶檢索機(jī)制。其中,數(shù)據(jù)采集機(jī)制按照一定規(guī)律和方式對(duì)網(wǎng)絡(luò)上www站點(diǎn)進(jìn)行搜索。并將搜索到的www頁(yè)面信息存入搜索引擎的臨時(shí)數(shù)據(jù)庫(kù);搜索引擎的數(shù)據(jù)組織機(jī)制對(duì)www頁(yè)面信息進(jìn)行整理以形成規(guī)范的頁(yè)面所以,并建立相應(yīng)的索引數(shù)據(jù)庫(kù),搜索引擎的用戶檢索機(jī)制幫助用戶以一定方式檢索引擎的索引數(shù)據(jù)庫(kù),以獲得符合用戶需要的www站點(diǎn)或頁(yè)面。
2.1 目錄式搜索引擎:是一種網(wǎng)站級(jí)搜索引擎。目錄式搜索引擎由分類專家將網(wǎng)絡(luò)信息按照主題分成若干個(gè)大類,每個(gè)大類再分為若干個(gè)小類,依次細(xì)分,一般的搜索引擎分類體系有五六層,有的甚至十幾層。先由程序自動(dòng)搜集信息,然后由編輯員查看信息,人工形成信息摘要,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的準(zhǔn)確度是相當(dāng)高的,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不夠及時(shí)。Yahoo就是這類搜索引擎的代表。
2.2 機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。但是該類引擎返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選
2.3 元搜索引擎:這類搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)預(yù)先選定的獨(dú)立搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。元搜索引擎的搜索效果始終不理想,所以沒(méi)有哪個(gè)元搜索引擎有過(guò)強(qiáng)勢(shì)地位。
因特網(wǎng)搜索引擎的結(jié)構(gòu)及工作方式的缺陷,沒(méi)有一個(gè)搜索引擎包含的WWW頁(yè)超過(guò)了全球總WWW頁(yè)面的16%,而對(duì)因特網(wǎng)資源的覆蓋面還明顯下降,也受限于數(shù)據(jù)庫(kù)更新的速度,可能導(dǎo)致搜索引擎有價(jià)值的信息。
搜索引擎自動(dòng)巡視軟件在搜集因特網(wǎng)信息時(shí),通常要將網(wǎng)頁(yè)內(nèi)容全部或部分下載到本地,然后才能進(jìn)行索引處理,下載的頁(yè)面中有許多無(wú)用或暫時(shí)的信息,影響索引速度,也浪費(fèi)系統(tǒng)通信資源。各種搜索引擎使用的檢索符號(hào)和對(duì)檢索式的要求不一樣,給用戶檢索帶來(lái)了困難。搜索引擎的局限性還主要表現(xiàn)在信息丟失、返回過(guò)多無(wú)用信息及信息無(wú)關(guān)等方面。造成現(xiàn)狀的原因在于傳統(tǒng)搜索引擎隊(duì)要檢索的信息僅采用機(jī)械的關(guān)鍵詞匹配,缺乏知識(shí)處理能力和理解能力,即使搜索引擎無(wú)法處理用戶看來(lái)非常普通的常識(shí)性知識(shí),更不能處理個(gè)性化知識(shí),因地區(qū)不同的區(qū)域性知識(shí),因領(lǐng)域不同的專業(yè)性知識(shí)。
還有原因在于整個(gè)檢索過(guò)程中,客戶端的計(jì)算機(jī)知識(shí)起著一個(gè)終端的作用,強(qiáng)大的運(yùn)算能力和存儲(chǔ)空間無(wú)法發(fā)揮作用,就造成以下的問(wèn)題:搜索結(jié)果很難精確匹配;無(wú)法對(duì)檢索結(jié)果進(jìn)行提煉;無(wú)法對(duì)不同的搜索引擎的結(jié)果進(jìn)行綜合比較與提煉;搜索引擎使用方法不同造成用戶理解和使用困難;搜索結(jié)果手工下載效率低下;增加用戶的網(wǎng)絡(luò)通信費(fèi);搜索結(jié)果中的匹配文檔不可能快捷地下載。
智能搜索引擎:智能搜索引擎是結(jié)合了人工智能技術(shù)的新一代搜索引擎,它使因特網(wǎng)信息檢索從基于關(guān)鍵詞提高到基于知識(shí)或概念,并對(duì)知識(shí)有一定的理解和處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別及機(jī)器翻譯技術(shù)等。比如在表單中輸入的問(wèn)題,返回的答案,這樣就要把所有的問(wèn)題全部添加到數(shù)據(jù)庫(kù)中,每當(dāng)用戶提問(wèn)的時(shí)候,數(shù)據(jù)庫(kù)將會(huì)在數(shù)據(jù)庫(kù)中檢測(cè)查詢結(jié)果,百度知道就是把用戶的問(wèn)題和正確答案添加到數(shù)據(jù)庫(kù)中了,當(dāng)你在知道中查詢答案,那么將會(huì)檢測(cè)到相關(guān)的詞匯。智能搜索引擎實(shí)現(xiàn)數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、智能代理等。智能搜索在研究機(jī)器翻譯(MT)的領(lǐng)域中,使用戶可以用母語(yǔ)搜索非母語(yǔ)的網(wǎng)頁(yè),并以母語(yǔ)瀏覽搜索結(jié)果。檢索機(jī)制:垂直化專業(yè)領(lǐng)域搜索、關(guān)聯(lián)式的綜合搜索、檢索結(jié)果自動(dòng)聚類。垂直搜索是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。垂直搜索引擎和普通的網(wǎng)頁(yè)搜索引擎的最大區(qū)別是對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁(yè)的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁(yè)搜索是以網(wǎng)頁(yè)為最小單位,基于視覺(jué)的網(wǎng)頁(yè)塊分析是以網(wǎng)頁(yè)塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),進(jìn)行進(jìn)一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。整個(gè)過(guò)程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過(guò)深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫(kù)搜索、供求信息搜索引擎、購(gòu)物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的垂直搜索引擎關(guān)聯(lián)式的綜合搜索。關(guān)聯(lián)式綜合搜索,就是這樣一種一站式的搜索服務(wù),它使得網(wǎng)民在搜索時(shí)只需輸入一次查詢目標(biāo),即可在同一界面得到各種有關(guān)聯(lián)的查詢結(jié)果。這項(xiàng)服務(wù)的關(guān)鍵在于有一架構(gòu)在XML基礎(chǔ)上的整合資訊平臺(tái)自動(dòng)聚類可對(duì)檢索結(jié)果進(jìn)行自動(dòng)聚類并構(gòu)建樹(shù)狀結(jié)構(gòu),以構(gòu)建企業(yè)知識(shí)地圖、檢索者快速定位所需信息。應(yīng)用中可實(shí)現(xiàn)對(duì)新聞稿件或大數(shù)據(jù)量文檔的自動(dòng)聚類,實(shí)現(xiàn)輔助專題制作等。類似方正智思知識(shí)管理平臺(tái)軟件那樣特色搜索引擎:(包括可視化檢索和多媒體信息檢索的綜合運(yùn)用)檢索結(jié)構(gòu)可視化方法實(shí)現(xiàn)檢索結(jié)果可視化。搜索結(jié)果的呈現(xiàn)方式,結(jié)果可視化,可以先看到每個(gè)網(wǎng)頁(yè)長(zhǎng)什么摸樣,再?zèng)Q定是否訪問(wèn)它。多途徑的多媒體檢索、多種媒體信息庫(kù)的結(jié)合、多特征的綜合檢索、采用相關(guān)反饋和自動(dòng)標(biāo)注技術(shù)、高維索引技術(shù)、用戶查詢接口實(shí)現(xiàn)多媒體信息綜合檢索在網(wǎng)絡(luò)信息多樣化和網(wǎng)絡(luò)用戶多樣化的呼喚下,人們希望在網(wǎng)絡(luò)上找到更豐富更實(shí)用的資源,不再漫無(wú)目的地查找,特色搜索引擎便應(yīng)運(yùn)而生了。
(1)圖像搜索引擎。圖像搜索引擎雖然還沒(méi)有成熟的產(chǎn)品,但是這項(xiàng)研究工作卻緊鑼密鼓的進(jìn)行著。據(jù)稱,美國(guó)Purdue大學(xué)的研究人員已經(jīng)開(kāi)發(fā)出了一種新的搜索引擎,這種搜索引擎不再使用關(guān)鍵詞文本進(jìn)行搜索,而是使用圖像或者草圖進(jìn)行搜索。不就的將來(lái),用戶自己畫(huà)一幅草圖,搜索引擎就可以對(duì)數(shù)據(jù)庫(kù)進(jìn)行搜索,并找到所有與草圖類似的圖像。不過(guò),這要求圖像搜索引擎能夠快速處理超大容量數(shù)據(jù)庫(kù)。這種技術(shù)不僅為網(wǎng)民提供了方便,在生物、化學(xué)、醫(yī)學(xué)等領(lǐng)域都可能發(fā)揮極大的作用。
(2)多媒體搜索引擎。FAST是國(guó)外著名的多媒體搜索引擎,很多同類搜索引擎都會(huì)引用此引擎的內(nèi)容。在FAST搜索多媒體文件,可以同時(shí)搜索圖像、音頻、視頻等多種格式的多媒體文件,圖像支持JPEG、GIF、BMP三種格式,音頻支持MP3、Wave、AIFF、RealAudio、MIDI五種格式,視頻支持AVI、DivX、QuickTime、MPEG 四種。FAST為每一個(gè)搜索結(jié)果提供預(yù)覽和說(shuō)明,同時(shí)還有下載的直接鏈接,以及該文件所在網(wǎng)站的地址。
(3)搜索在線攝像頭監(jiān)視畫(huà)面:眾所周知,如果要與對(duì)方通過(guò)攝像頭進(jìn)行連接的話,必須對(duì)方同意才可以。但是利用Google卻可以突破這個(gè)限制,因?yàn)樗梢运阉骶W(wǎng)絡(luò)上未經(jīng)加密的網(wǎng)絡(luò)攝像頭(機(jī))監(jiān)視到的畫(huà)面。
(4)房產(chǎn)地圖搜索引擎。房產(chǎn)地圖搜索引擎是結(jié)合地理信息系統(tǒng)(GIS)、數(shù)據(jù)庫(kù)系統(tǒng)(DBMS)和動(dòng)態(tài)Web軟件技術(shù)開(kāi)發(fā)研制,可以通過(guò)智能化地理信息分析查找特定范圍內(nèi)的特定目標(biāo)。例如用戶可以選擇購(gòu)房愿望:價(jià)格、面積、戶型、房屋布局、地理位置、周邊商業(yè)、交通、自然環(huán)境、小區(qū)狀況等,在互聯(lián)網(wǎng)上進(jìn)行查詢。引擎立即會(huì)將所有滿足條件的房源顯示出來(lái),并可以任意放大、縮小、移動(dòng)房源地圖。
總之 ,隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展 ,網(wǎng)絡(luò)檢索將逐步朝著簡(jiǎn)單化、人性化方向發(fā)展 ,檢索界面會(huì)越來(lái)越簡(jiǎn)潔友好。用戶可以很容易地進(jìn)行網(wǎng)上自動(dòng)標(biāo)引、自動(dòng)文摘、自動(dòng)跟蹤、自動(dòng)漫游、機(jī)器翻譯、多媒體檢索、動(dòng)態(tài)連接、數(shù)據(jù)挖掘等操作 ,方便、及時(shí)、準(zhǔn)確地獲得所需信息。
[1].徐謙.網(wǎng)絡(luò)信息檢索的智能化趨勢(shì)[J]圖書(shū)館理論與實(shí)踐2006,2:63-65
[2]柳群英.網(wǎng)絡(luò)信息檢索技術(shù)現(xiàn)狀及發(fā)展趨勢(shì)[J]情報(bào)探索 2005,4:66-68
[3]張興華.搜索引擎技術(shù)及研究 [J].現(xiàn)代情報(bào),2004,(4)