尹振鶴
摘 要:搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。它主要是用于檢索網(wǎng)站、網(wǎng)址、文獻(xiàn)信息等內(nèi)容。本文將從搜索引擎的工作方法和使用技巧等方面進(jìn)行闡述。
關(guān)鍵詞:搜索引擎;元搜索引擎;關(guān)鍵詞
1 搜索引擎的工作方法
1.1 目錄式搜索引擎
這是一種網(wǎng)站級(jí)搜索引擎。目錄式搜索引擎由分類專家將網(wǎng)絡(luò)信息按照主題分成若干個(gè)大類,每個(gè)大類再分為若干個(gè)小類,依次細(xì)分,一般的搜索引擎分類體系有五六層,有的甚至十幾層。先由程序自動(dòng)搜集信息,然后由編輯員查看信息,人工形成信息摘要,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的準(zhǔn)確度是相當(dāng)高的,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不夠及時(shí)。Yahoo就是這類搜索引擎的代表。
1.2 全文搜索引擎
根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。
1.3 元搜索引擎
這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)預(yù)先選定的獨(dú)立搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是用戶需要做更多的篩選。第一個(gè)元搜索引擎,是美國華盛頓大學(xué)碩士生Eric Selberg和 Oren Etzioni開發(fā)的Metacrawler。元搜索引擎的搜索效果始終不理想,所以沒有哪個(gè)元搜索引擎有過強(qiáng)勢地位。
2 搜索引擎的使用方法與技巧
2.1 科學(xué)選擇關(guān)鍵詞
搜索引擎不具備智能識(shí)別能力,往往不能很好地把握用戶到底想要什么,它只能在現(xiàn)存的數(shù)據(jù)庫中查找匹配的關(guān)鍵詞,這種匹配相對(duì)比較盲目。因此,選擇合適的關(guān)鍵詞是成功檢索的第一步。關(guān)鍵詞的選擇雖然沒有什么定式,不過也有一些規(guī)律可循,在提取關(guān)鍵詞時(shí)力求做到規(guī)范,避免口語化,便能達(dá)到事半功倍的效果。
2.2 使用雙引號(hào)進(jìn)行精確查詢
如果查找的是一個(gè)詞組或多個(gè)漢字,最好的辦法就是將它們用雙引號(hào)括起來,這樣得到的結(jié)果最少、最精確。例如,欲搜索某些學(xué)校的電子信箱,一般策略是在搜索框內(nèi)輸入“xxx學(xué)?!?,也可以嘗試如下兩種方法提高搜索效率:(1)同時(shí)輸入兩個(gè)關(guān)鍵詞,縮小檢索范圍,即“xxx學(xué)校email”或“xxx學(xué)校電子信箱”;(2)關(guān)鍵詞中加入電子信箱關(guān)鍵信息,即“xxx學(xué)校@”。因?yàn)槿魏坞娮有畔渲芯小癅”,“@”成了查找電子信箱的關(guān)鍵符號(hào)。通過這兩種方法,很容易就能將學(xué)校的電子信箱搜到。
2.3 使用加號(hào)(+)、減號(hào)(-)限定查找
很多搜索引擎都支持在搜索詞前冠以加號(hào)(+)限定搜索結(jié)果中必須包含的詞匯,用減號(hào)(-)限定搜索結(jié)果不能包含的詞匯。
2.4 靈活運(yùn)用使用通配符
很多搜索引擎支持通配符號(hào),如“*”代表1連串字符,“?”代表單個(gè)字符。
2.5 使用邏輯詞輔助查找
比較大的搜索引擎都支持使用邏輯詞進(jìn)行更復(fù)雜的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(兩個(gè)單詞的靠近程度),恰當(dāng)應(yīng)用它們可以使搜索結(jié)果非常精確。
2.6 按文件類型查找
如需要查找簡歷模版時(shí)可以構(gòu)建如下檢索式:“簡歷模版filetype:doc”,此時(shí)能搜到word格式的簡歷模版。此處的filetype:doc是限定檢索文件的類型,該字段必須在英文狀態(tài)下錄入,而“簡歷模版”是檢索的關(guān)鍵詞。兩個(gè)字段之間必須用空格隔開。同理,如果需要檢索市場營銷的教案也可以構(gòu)造“市場營銷教案filetype:ppt”的檢索式,檢索結(jié)果為ppt格式的市場營銷教案。該檢索式支持txt,ppt,xls,pdf,mp3,swf等常見文件類型。
2.7 巧用快照
有時(shí)會(huì)搜到訪問不了的“死鏈網(wǎng)頁”和過期文件,而看其內(nèi)容摘要很符合需要。此時(shí)可利用搜索引擎提供的網(wǎng)頁快照功能查閱此類文獻(xiàn)。
2.8 使用不同的搜索引擎
不同的搜索引擎,其信息覆蓋范圍有差異,我們平時(shí)搜索信息時(shí)僅集中于某一家搜索引擎是不明智的,因?yàn)樵俸玫乃阉饕嬉灿芯窒扌?,而使用?yōu)秀的搜索引擎可以達(dá)到事半功倍的效果。
2.9 留意搜索引擎返回的結(jié)果
由于競價(jià)排名業(yè)務(wù)的推廣,搜索引擎返回的Web站點(diǎn)順序會(huì)影響人們的訪問。所以,為了增加Web站點(diǎn)的點(diǎn)擊率,一些Web站點(diǎn)會(huì)付費(fèi)給搜索引擎,以在相關(guān)Web站點(diǎn)列表中顯示在靠前的位置。好的搜索引擎會(huì)鑒別Web站點(diǎn)的內(nèi)容,并據(jù)此安排它們的順序,但許多搜索引擎無法鑒別。
[參考文獻(xiàn)]
[1]王慕東.搜索引擎的發(fā)展?fàn)顩r及使用技巧.信息系統(tǒng),2001(4).
[2]陳春陽.如何利用網(wǎng)絡(luò)搜索引擎檢索網(wǎng)絡(luò)信息資源.蘭州工業(yè)高等專科學(xué)校學(xué)報(bào),2003.
[3]張曼玲.現(xiàn)代信息檢索[M].哈爾濱工程大學(xué)出版社,2000.