淺談搜索引擎的體系結(jié)構(gòu)與索引技術(shù)

2010-07-27 06:40徐舒

中國新技術(shù)新產(chǎn)品 2010年1期

徐舒

（杭州師范大學(xué)錢江學(xué)院電氣機(jī)械工程系計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)，浙江杭州 310012）

1 搜索引擎的分類

1.1 目錄式搜索引擎

目錄式搜索引擎(也稱分類式搜索引擎)主要通過人工發(fā)現(xiàn)信息，由編輯人員根據(jù)信息資源的內(nèi)容按一定的主題進(jìn)行分類組織，并形成信息摘要，將信息置于事先確定的分類框架中，組織成一層一層的分類目錄，目錄下面有更具體的子目錄。信息的類別也由大到小、由粗到細(xì)，整個(gè)搜索引擎形成了一個(gè)層次型的類別目錄。用戶可以逐層瀏覽，選擇不同的主題對網(wǎng)絡(luò)信息進(jìn)行過濾，所選擇的主題類別越小，信息的相關(guān)性就越高，用戶就越有可能找到自己所需要的信息。這類搜索引擎的性能主要取決于對所獲取網(wǎng)頁的人工歸類或自動分類算法的精確度如何。其代表有：Yahoo,LookSmart,Open,Directory,GoGuide等。例如，中文雅虎(Yahoo)有14個(gè)一級目錄，最深有6級子目錄，其使用的是手工錄入方式得到Web頁面摘要信息，而非全頁面內(nèi)容信息。其形成的具體方式是：首先維護(hù)人員對新Web站點(diǎn)進(jìn)行瀏覽，然后對瀏覽內(nèi)容進(jìn)行內(nèi)容提取，并形成摘要信息和關(guān)鍵字，最后將這些信息分類進(jìn)行存儲。由于Yahoo的普及程度非常高，因此現(xiàn)在Yahoo系統(tǒng)的維護(hù)人員不再需要到Internet上去尋找新Web站點(diǎn)，而是由新Web站點(diǎn)的發(fā)布者主動通過頁面提交本站點(diǎn)的有關(guān)信息，系統(tǒng)的維護(hù)人員只需要對這些提交的信息進(jìn)行歸類存儲，然后對外發(fā)布公開。

Yahoo給用戶提供了兩種查詢方式：漫游查詢和關(guān)鍵詞自動搜索。漫游查詢即用戶利用瀏覽器在Yahoo的Web頁面上按主題目錄進(jìn)行逐層深入地查找所需要的內(nèi)容信息。關(guān)鍵詞自動搜索方式是系統(tǒng)根據(jù)用戶提交的查詢關(guān)鍵詞，自動對目錄樹結(jié)構(gòu)進(jìn)行搜索查找，返回符合條件的結(jié)果集。目錄式搜索引擎的突出特點(diǎn)是具有比較好的信息質(zhì)量，但由于采用手工進(jìn)行Web頁面信息的獲取和維護(hù)，所以存在以下不足：信息覆蓋率低，信息實(shí)時(shí)更新不夠及時(shí)，目錄維護(hù)耗費(fèi)的人力資源大；基于關(guān)鍵詞而非全文進(jìn)行查詢，可能在查詢時(shí)造成某些相關(guān)信息的遺漏；采用漫游查詢方式的效率不高，并且由于目錄查詢樹結(jié)構(gòu)的不斷增大，查詢某一特定主題的代價(jià)和時(shí)間開銷會越來越大。

為了解決目錄式搜索引擎存在的問題，人們引入了人工智能技術(shù)，用機(jī)器人(也稱之為Robot,Spider,Wanderer,Worm)代替手工去發(fā)現(xiàn)、加工、整理信息，這樣就出現(xiàn)了機(jī)器人搜索引擎。

1.2 機(jī)器人搜索引擎

為了解決目錄式搜索引擎存在的問題人們引入了人工智能技術(shù)用機(jī)器人代替手工去發(fā)現(xiàn)加工整理信息這樣就出現(xiàn)了機(jī)器人搜索引擎，機(jī)器人搜索引擎不需要人工收集信息而是由一個(gè)被稱作"機(jī)器人"的計(jì)算機(jī)程序在網(wǎng)絡(luò)上不停地爬行和搜索，依據(jù)一定的網(wǎng)絡(luò)協(xié)議在Internet中自動獲取網(wǎng)頁信息并通過對網(wǎng)頁內(nèi)容和特征的分析采用一定的策略組織信息并建立自己的索引數(shù)據(jù)庫為用戶提供查詢務(wù)。HotBot,InfoSeek,Google,Excite、天網(wǎng)等就是這類檢索系統(tǒng)的典型代表。

1.3 元搜索引擎

由于單個(gè)搜索引擎的覆蓋范圍往往不會太廣，為了找到自己所需要的信息，用戶常常需要使用多個(gè)搜索引擎，以期望找到更多、更全、更準(zhǔn)確的信息。但由于不同的搜索引擎在其查詢語法以及接口界面上往往不同，需要用戶重新學(xué)習(xí)和適應(yīng)不同的檢索方法，這給用戶使用多個(gè)搜索引擎帶來了極大的不便。為了解決這個(gè)問題，研究人員開發(fā)了元搜索引擎。元搜索引擎統(tǒng)一了不同搜索引擎的查詢接口，由統(tǒng)一的元搜索引擎接口對用戶提交的查詢請求進(jìn)行處理，分別將其轉(zhuǎn)換為符合底層搜索引擎查詢語法要求的子查詢，同時(shí)向多個(gè)搜索引擎提交查詢的結(jié)果，由底層搜索引擎在各自的索引數(shù)據(jù)庫中進(jìn)行查詢。在各個(gè)搜索引擎返回檢索結(jié)果后，元搜索引擎將子查詢結(jié)果進(jìn)行匯總、去重、重新排序等處理，最后向用戶返回最終的檢索結(jié)果。元搜索引擎系統(tǒng)一般都沒有自己的索引數(shù)據(jù)庫，而是以一個(gè)代理的角色，利用其它搜索引擎的數(shù)據(jù)庫來進(jìn)行服務(wù)。在層次上，元搜索引擎要比機(jī)器人搜索引擎和目錄式搜索引擎要高。元搜索引擎系統(tǒng)的底層搜索引擎可以是機(jī)器人搜索引擎，也可以是目錄式搜索引擎。元搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全，其查全率較高，解決了單個(gè)搜索引擎覆蓋范圍相對狹窄的局限，缺點(diǎn)是不能夠充分利用下層搜索引擎的排序功能，用戶需要做更多的篩選。這類搜索引擎的代表是MetaCrawler，SawyScarch，InfoMarket等。

2 搜索引擎的工作原理和體系結(jié)構(gòu)

2.1 搜索引擎的工作原理

以機(jī)器人搜索引擎為例。機(jī)器人搜索引擎的工作過程分為三大步：一是在網(wǎng)上發(fā)現(xiàn)信息，如www網(wǎng)頁、Newsgroup文章、FTP文件等等；二是把發(fā)現(xiàn)的信息收集到本地，經(jīng)過信息分類和索引等加工處理把信息存儲在本地?cái)?shù)據(jù)庫；三是提供服務(wù)，即通過相應(yīng)的算法和接口在本地?cái)?shù)據(jù)庫中查找到信息，并以一定的形式返回給用戶。搜索引攀主要由三個(gè)模塊組成，分別為搜集模塊，預(yù)處理模塊和服務(wù)模塊。搜索引擎三段式工作流程如圖1所示：

圖1 搜索引擎三段式工作流程

其中搜集模塊即為網(wǎng)頁搜集，由網(wǎng)絡(luò)爬取器自動完成。預(yù)處理是對抓取到的原始網(wǎng)頁數(shù)據(jù)進(jìn)行索引處理，獲得索引數(shù)據(jù)庫。服務(wù)指的就是檢索系統(tǒng)，為用戶提供查詢服務(wù)。

2.2 搜索引擎的體系結(jié)構(gòu)

由圖2可知，搜索引擎主要由搜集器，索引器，檢索器，日志分析器組成。搜索引擎先由搜集器到網(wǎng)上搜集網(wǎng)頁原始數(shù)據(jù)，然后由索引器對原始數(shù)據(jù)進(jìn)行處理，建立索引數(shù)據(jù)庫，最后由檢索系統(tǒng)向用戶提供查詢服務(wù)。這其中還有日志分析器對過程進(jìn)行記錄，便于日后對用戶行為進(jìn)行分析，獲得有用信息，有助于改進(jìn)系統(tǒng)。

圖2 搜索引擎體系結(jié)構(gòu)

3 搜索引擎索引技術(shù)

信息索引就是從已發(fā)現(xiàn)的網(wǎng)頁中提取一些特征，以便用戶很容易地檢索到所需的信息。即通過一定的方法產(chǎn)生一個(gè)索引項(xiàng)集合來作為一篇文檔或查詢請求的內(nèi)部表示。

索引的方法主要分為兩種：一種基于關(guān)鍵詞的索引；另一種是基于概念的索引。第一種是大多數(shù)搜索引擎使用的方法，是從文檔中提取重要的詞作索引。在文檔中頂部出現(xiàn)的詞以及在整個(gè)文檔中出現(xiàn)多次的詞可以認(rèn)為是比較重要的。第二種方法與前種不同之處在于試著了解語義，用一個(gè)詞能代表許多意義相近的詞，這樣既節(jié)省了索引空間，也為檢索時(shí)可返回有關(guān)主題的所有文檔，甚至這些文檔中的詞與檢索詞并不精確匹配。Excite是當(dāng)前網(wǎng)絡(luò)中比較著名的基于概念檢索的搜索引擎。本文中僅介紹基于關(guān)鍵詞的全文索引，也就是對每篇文檔全文提取關(guān)鍵詞進(jìn)行索引。建立索引需要進(jìn)行兩方面的技術(shù)處理：關(guān)鍵詞的提取，建立倒排文檔索引。

分詞就是從每個(gè)頁面文檔中提取一定數(shù)量的關(guān)鍵詞或者知識。為了提取關(guān)鍵詞或知識，必須分割出單個(gè)詞或句子?？梢酝ㄟ^對英文文章或句子的語法和語義分析來提取出該文章的主要意思。但這些方法都是基于英文本身就有明顯的詞間分割這個(gè)事實(shí)上的，因而英文根本不存在分詞問題。但對于漢語等無明顯詞間隔的語言來說，必須要先對原文進(jìn)行分詞，然后再提取它。

中文分詞技術(shù)屬于自然語言處理技術(shù)范疇，對于一句話，人可以通過自己的知識來明白哪些是詞，哪些不是詞，但如何讓計(jì)算機(jī)也能理解，其處理過程就是分詞算法。現(xiàn)有的分詞算法可分為三大類：基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。

[1]劉琨，鄭有才.搜索引擎剖析[J].微機(jī)發(fā)展，2005.

[2]化柏林.Google搜索引擎技術(shù)實(shí)現(xiàn)探究[J].現(xiàn)代圖書情報(bào)技術(shù)，2004.

[3]郭少友.元搜索引擎的原理和設(shè)計(jì)[J].情報(bào)科學(xué)，2005.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺談搜索引擎的體系結(jié)構(gòu)與索引技術(shù)

1 搜索引擎的分類

2 搜索引擎的工作原理和體系結(jié)構(gòu)

3 搜索引擎索引技術(shù)