国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談搜索引擎的體系結(jié)構(gòu)與索引技術(shù)

2010-07-27 06:40徐舒
中國新技術(shù)新產(chǎn)品 2010年1期
關(guān)鍵詞:分詞搜索引擎文檔

徐舒

(杭州師范大學(xué)錢江學(xué)院 電氣機(jī)械工程系 計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),浙江 杭州 310012)

1 搜索引擎的分類

1.1 目錄式搜索引擎

目錄式搜索引擎(也稱分類式搜索引擎)主要通過人工發(fā)現(xiàn)信息,由編輯人員根據(jù)信息資源的內(nèi)容按一定的主題進(jìn)行分類組織,并形成信息摘要,將信息置于事先確定的分類框架中,組織成一層一層的分類目錄,目錄下面有更具體的子目錄。信息的類別也由大到小、由粗到細(xì),整個(gè)搜索引擎形成了一個(gè)層次型的類別目錄。用戶可以逐層瀏覽,選擇不同的主題對網(wǎng)絡(luò)信息進(jìn)行過濾,所選擇的主題類別越小,信息的相關(guān)性就越高,用戶就越有可能找到自己所需要的信息。這類搜索引擎的性能主要取決于對所獲取網(wǎng)頁的人工歸類或自動分類算法的精確度如何。其代表有:Yahoo,LookSmart,Open,Directory,GoGuide等。例如,中文雅虎(Yahoo)有14個(gè)一級目錄,最深有6級子目錄,其使用的是手工錄入方式得到Web頁面摘要信息,而非全頁面內(nèi)容信息。其形成的具體方式是:首先維護(hù)人員對新Web站點(diǎn)進(jìn)行瀏覽,然后對瀏覽內(nèi)容進(jìn)行內(nèi)容提取,并形成摘要信息和關(guān)鍵字,最后將這些信息分類進(jìn)行存儲。由于Yahoo的普及程度非常高,因此現(xiàn)在Yahoo系統(tǒng)的維護(hù)人員不再需要到Internet上去尋找新Web站點(diǎn),而是由新Web站點(diǎn)的發(fā)布者主動通過頁面提交本站點(diǎn)的有關(guān)信息,系統(tǒng)的維護(hù)人員只需要對這些提交的信息進(jìn)行歸類存儲,然后對外發(fā)布公開。

Yahoo給用戶提供了兩種查詢方式:漫游查詢和關(guān)鍵詞自動搜索。漫游查詢即用戶利用瀏覽器在Yahoo的Web頁面上按主題目錄進(jìn)行逐層深入地查找所需要的內(nèi)容信息。關(guān)鍵詞自動搜索方式是系統(tǒng)根據(jù)用戶提交的查詢關(guān)鍵詞,自動對目錄樹結(jié)構(gòu)進(jìn)行搜索查找,返回符合條件的結(jié)果集。目錄式搜索引擎的突出特點(diǎn)是具有比較好的信息質(zhì)量,但由于采用手工進(jìn)行Web頁面信息的獲取和維護(hù),所以存在以下不足:信息覆蓋率低,信息實(shí)時(shí)更新不夠及時(shí),目錄維護(hù)耗費(fèi)的人力資源大;基于關(guān)鍵詞而非全文進(jìn)行查詢,可能在查詢時(shí)造成某些相關(guān)信息的遺漏;采用漫游查詢方式的效率不高,并且由于目錄查詢樹結(jié)構(gòu)的不斷增大,查詢某一特定主題的代價(jià)和時(shí)間開銷會越來越大。

為了解決目錄式搜索引擎存在的問題,人們引入了人工智能技術(shù),用機(jī)器人(也稱之為Robot,Spider,Wanderer,Worm)代替手工去發(fā)現(xiàn)、加工、整理信息,這樣就出現(xiàn)了機(jī)器人搜索引擎。

1.2 機(jī)器人搜索引擎

為了解決目錄式搜索引擎存在的問題人們引入了人工智能技術(shù)用機(jī)器人代替手工去發(fā)現(xiàn)加工整理信息這樣就出現(xiàn)了機(jī)器人搜索引擎,機(jī)器人搜索引擎不需要人工收集信息而是由一個(gè)被稱作"機(jī)器人"的計(jì)算機(jī)程序在網(wǎng)絡(luò)上不停地爬行和搜索,依據(jù)一定的網(wǎng)絡(luò)協(xié)議在Internet中自動獲取網(wǎng)頁信息并通過對網(wǎng)頁內(nèi)容和特征的分析采用一定的策略組織信息并建立自己的索引數(shù)據(jù)庫為用戶提供查詢務(wù)。HotBot,InfoSeek,Google,Excite、天網(wǎng)等就是這類檢索系統(tǒng)的典型代表。

1.3 元搜索引擎

由于單個(gè)搜索引擎的覆蓋范圍往往不會太廣,為了找到自己所需要的信息,用戶常常需要使用多個(gè)搜索引擎,以期望找到更多、更全、更準(zhǔn)確的信息。但由于不同的搜索引擎在其查詢語法以及接口界面上往往不同,需要用戶重新學(xué)習(xí)和適應(yīng)不同的檢索方法,這給用戶使用多個(gè)搜索引擎帶來了極大的不便。為了解決這個(gè)問題,研究人員開發(fā)了元搜索引擎。元搜索引擎統(tǒng)一了不同搜索引擎的查詢接口,由統(tǒng)一的元搜索引擎接口對用戶提交的查詢請求進(jìn)行處理,分別將其轉(zhuǎn)換為符合底層搜索引擎查詢語法要求的子查詢,同時(shí)向多個(gè)搜索引擎提交查詢的結(jié)果,由底層搜索引擎在各自的索引數(shù)據(jù)庫中進(jìn)行查詢。在各個(gè)搜索引擎返回檢索結(jié)果后,元搜索引擎將子查詢結(jié)果進(jìn)行匯總、去重、重新排序等處理,最后向用戶返回最終的檢索結(jié)果。元搜索引擎系統(tǒng)一般都沒有自己的索引數(shù)據(jù)庫,而是以一個(gè)代理的角色,利用其它搜索引擎的數(shù)據(jù)庫來進(jìn)行服務(wù)。在層次上,元搜索引擎要比機(jī)器人搜索引擎和目錄式搜索引擎要高。元搜索引擎系統(tǒng)的底層搜索引擎可以是機(jī)器人搜索引擎,也可以是目錄式搜索引擎。元搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,其查全率較高,解決了單個(gè)搜索引擎覆蓋范圍相對狹窄的局限,缺點(diǎn)是不能夠充分利用下層搜索引擎的排序功能,用戶需要做更多的篩選。這類搜索引擎的代表是MetaCrawler,SawyScarch,InfoMarket等。

2 搜索引擎的工作原理和體系結(jié)構(gòu)

2.1 搜索引擎的工作原理

以機(jī)器人搜索引擎為例。機(jī)器人搜索引擎的工作過程分為三大步:一是在網(wǎng)上發(fā)現(xiàn)信息,如www網(wǎng)頁、Newsgroup文章、FTP文件等等;二是把發(fā)現(xiàn)的信息收集到本地,經(jīng)過信息分類和索引等加工處理把信息存儲在本地?cái)?shù)據(jù)庫;三是提供服務(wù),即通過相應(yīng)的算法和接口在本地?cái)?shù)據(jù)庫中查找到信息,并以一定的形式返回給用戶。搜索引攀主要由三個(gè)模塊組成,分別為搜集模塊,預(yù)處理模塊和服務(wù)模塊。搜索引擎三段式工作流程如圖1所示:

圖1 搜索引擎三段式工作流程

其中搜集模塊即為網(wǎng)頁搜集,由網(wǎng)絡(luò)爬取器自動完成。預(yù)處理是對抓取到的原始網(wǎng)頁數(shù)據(jù)進(jìn)行索引處理,獲得索引數(shù)據(jù)庫。服務(wù)指的就是檢索系統(tǒng),為用戶提供查詢服務(wù)。

2.2 搜索引擎的體系結(jié)構(gòu)

由圖2可知,搜索引擎主要由搜集器,索引器,檢索器,日志分析器組成。搜索引擎先由搜集器到網(wǎng)上搜集網(wǎng)頁原始數(shù)據(jù),然后由索引器對原始數(shù)據(jù)進(jìn)行處理,建立索引數(shù)據(jù)庫,最后由檢索系統(tǒng)向用戶提供查詢服務(wù)。這其中還有日志分析器對過程進(jìn)行記錄,便于日后對用戶行為進(jìn)行分析,獲得有用信息,有助于改進(jìn)系統(tǒng)。

圖2 搜索引擎體系結(jié)構(gòu)

3 搜索引擎索引技術(shù)

信息索引就是從已發(fā)現(xiàn)的網(wǎng)頁中提取一些特征,以便用戶很容易地檢索到所需的信息。即通過一定的方法產(chǎn)生一個(gè)索引項(xiàng)集合來作為一篇文檔或查詢請求的內(nèi)部表示。

索引的方法主要分為兩種:一種基于關(guān)鍵詞的索引;另一種是基于概念的索引。第一種是大多數(shù)搜索引擎使用的方法,是從文檔中提取重要的詞作索引。在文檔中頂部出現(xiàn)的詞以及在整個(gè)文檔中出現(xiàn)多次的詞可以認(rèn)為是比較重要的。第二種方法與前種不同之處在于試著了解語義,用一個(gè)詞能代表許多意義相近的詞,這樣既節(jié)省了索引空間,也為檢索時(shí)可返回有關(guān)主題的所有文檔,甚至這些文檔中的詞與檢索詞并不精確匹配。Excite是當(dāng)前網(wǎng)絡(luò)中比較著名的基于概念檢索的搜索引擎。本文中僅介紹基于關(guān)鍵詞的全文索引,也就是對每篇文檔全文提取關(guān)鍵詞進(jìn)行索引。建立索引需要進(jìn)行兩方面的技術(shù)處理:關(guān)鍵詞的提取,建立倒排文檔索引。

分詞就是從每個(gè)頁面文檔中提取一定數(shù)量的關(guān)鍵詞或者知識。為了提取關(guān)鍵詞或知識,必須分割出單個(gè)詞或句子??梢酝ㄟ^對英文文章或句子的語法和語義分析來提取出該文章的主要意思。但這些方法都是基于英文本身就有明顯的詞間分割這個(gè)事實(shí)上的,因而英文根本不存在分詞問題。但對于漢語等無明顯詞間隔的語言來說,必須要先對原文進(jìn)行分詞,然后再提取它。

中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解,其處理過程就是分詞算法。現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。

[1]劉琨,鄭有才.搜索引擎剖析[J].微機(jī)發(fā)展,2005.

[2]化柏林.Google搜索引擎技術(shù)實(shí)現(xiàn)探究[J].現(xiàn)代圖書情報(bào)技術(shù),2004.

[3]郭少友.元搜索引擎的原理和設(shè)計(jì)[J].情報(bào)科學(xué),2005.

猜你喜歡
分詞搜索引擎文檔
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
分詞在英語教學(xué)中的妙用
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
論英語不定式和-ing分詞的語義傳承