譚凱文
(湖南長沙麓山濱江實驗學(xué)校 410000)
搜索引擎技術(shù)的原理與分類
譚凱文
(湖南長沙麓山濱江實驗學(xué)校 410000)
在互聯(lián)網(wǎng)的發(fā)展下,網(wǎng)絡(luò)中的信息資源也呈現(xiàn)出爆炸式的增長趨勢,給人們帶來了海量的信息,同時也對信息的搜索提出新的要求,搜索引擎技術(shù)的應(yīng)用即可解決這一問題。本文主要針對搜索引擎技術(shù)的原理與分類進行分析。
搜索引擎技術(shù);原理;分類
網(wǎng)絡(luò)時代的到來拉近了人與人之間,人與世界之間的距離,改變了人們獲取信息的方式。在當(dāng)今世界,面對紛雜而繁亂的信息世界,要想快速、高效而精準(zhǔn)地獲取自己想要的信息,我們需要高效的搜索技術(shù)和工具的支持。搜索引擎的出現(xiàn)有效地解決了信息獲取困難的問題。
搜索引擎是一種技術(shù),也是一種信息檢索的工具,還是存儲有大量信息的數(shù)據(jù)庫,也可以被稱之為可以對信息進行查詢的網(wǎng)站。因為搜索引擎其實就是人們可以在互聯(lián)網(wǎng)上使用網(wǎng)絡(luò)的搜索軟件,根據(jù)設(shè)定的要求進行大量相關(guān)信息的檢索、收集、分析,并形成相關(guān)信息數(shù)據(jù)庫、索引數(shù)據(jù)庫,一旦出現(xiàn)信息的檢索,則提供相應(yīng)的信息服務(wù)或指引。搜索引擎的信息采集是網(wǎng)絡(luò)機器人掃描一定IP地址范圍內(nèi)的網(wǎng)站,通過鏈接遍歷Web空間,來采集網(wǎng)頁資料。為保證采集的資料最新,網(wǎng)絡(luò)機器人還會回訪已抓取過的網(wǎng)頁。
搜索引擎技術(shù)的應(yīng)用首先是利用所謂的爬蟲軟件對web頁面進行抓取,也就是頁面的鏈接和讀取,在固定時間內(nèi)會有重復(fù)的動作以查看頁面的變化和更新。只有對抓取過的頁面進行拷貝和建立索引以后才有可能完成搜索引擎的搜索和信息的實時更新。搜索引擎技術(shù)的使用還需要有分析軟件,進行信息檢索的時候才會查找并搜索出與要求相互匹配的信息和數(shù)據(jù)并進行某一屬性的升降的排序。
為了更快捷高效地得到自己想要的信息,必須保證運用搜索引擎進行信息檢索的時候,搜索出的網(wǎng)頁排序靠前。這就需要人們在用搜索引擎進行信息檢索的時候注意關(guān)鍵詞的位置排列和出現(xiàn)的頻率的高低。要根據(jù)所搜索的信息找出最重要的作為關(guān)鍵詞,它必須有具體的含義和指向并且在檢索信息中應(yīng)該位置靠前。如要買睡衣,不能用衣服做關(guān)鍵詞,否則我們就會看到褲子、裙子、甚至是鞋子很多可選頁面;我們可以用睡衣甚至是男式或女式睡衣來作為關(guān)鍵詞進行檢索,這樣搜出的頁面就更符合我們的要求,我們只需注意款式、材質(zhì)甚至價格就行。如果再加上“棉”字來作為關(guān)鍵詞,那么就更接近我們所要的東西的要求了。搜索引擎對網(wǎng)頁進行檢索的時候,關(guān)鍵詞出現(xiàn)的頻率越高,越容易被查找出來,這也是我們要高效得到搜索內(nèi)容的途徑之一。
搜索引擎可以分為全文搜索引擎、目錄搜索引擎和元搜索引擎三種類型。
全文搜索引擎是真正意義上的搜索引擎。全文搜索引擎是通過搜索引擎的爬蟲軟件對互聯(lián)網(wǎng)的網(wǎng)頁進行抓取,分析并提取相關(guān)網(wǎng)站的信息,建立記錄并創(chuàng)建索引數(shù)據(jù)庫,一旦用戶查詢條件符合記錄的信息和數(shù)據(jù),就會自動執(zhí)行返回操作。
目錄索引僅僅是能在信息檢索的時候按目錄分類提供相應(yīng)的網(wǎng)站站點的鏈接,需要人工的信息摘要和分類以便進行目錄的瀏覽和直接的信息檢索。所以說目錄搜索引擎只是具備了搜索的功能而名不副實。
元搜索引擎沒有建立自己的數(shù)據(jù)庫,所以需要向多個搜索引擎遞交用戶的查詢請求,對返回的結(jié)果進行分析排序然后提供給用戶。
在用全文搜索引擎的時候,所有的操作是自動的,其搜索的信息量大而全面,并且更新及時,不會出現(xiàn)落伍和過時的信息。但由于信息量的龐大,用戶需要自己篩選有用的信息,摒棄那些沒用的記錄和結(jié)果,比較浪費時間,不能實現(xiàn)查找的精確性。而目錄搜索引擎需要進行手動的人工操作,雖然比較麻煩,提供的可用信息量小,但可以實現(xiàn)信息查找的分類和逐層的目錄檢索,查找的準(zhǔn)確度要優(yōu)于全文搜索引擎。元搜索因為同時對多個搜索引擎進行查詢的申請,所提供的信息量最大,但同樣需要用戶進行更多的精確篩選,費時尤甚。
搜素引擎給人們提供了信息查找和檢索的方便,但隨著互聯(lián)網(wǎng)的應(yīng)用領(lǐng)域的日益拓展和人們要求的不斷提高,顯現(xiàn)出很多應(yīng)用上的問題。各種搜素引擎的檢索規(guī)則不統(tǒng)一,人們使用起來并不方便;同時搜素引擎技術(shù)也應(yīng)該與時俱進,對搜素的空間和信息查詢結(jié)果的精確度上應(yīng)該有更大的提高。搜素引擎目前的檢索速度還不夠快,搜素出來的結(jié)果不僅單一,達不到用戶個性化服務(wù)的要求。而搜索引擎技術(shù)隨著人們對信息檢索的要求,對數(shù)據(jù)庫的信息儲存提出更高的要求,這種大容量的數(shù)據(jù)庫需要大量的帶寬和中央處理器的空間,在一定程度上影響了計算機運行的速度。
搜索引擎技術(shù)的發(fā)展深刻地影響著人們的生活。隨著未來網(wǎng)絡(luò)的發(fā)展和信息技術(shù)的進步,搜索引擎技術(shù)的研究與發(fā)展也將出現(xiàn)新的契機。
[1]王濤,田濤,李昌林.云電視關(guān)鍵技術(shù)——云計算搜索引擎技術(shù)專利分析[J].電視技術(shù),2013(S2).
[2]陳楚云,李麗霞,周蔚林.用搜索引擎技術(shù)開發(fā)和利用針灸古文獻[J].世界科學(xué)技術(shù)(中醫(yī)藥現(xiàn)代化),2011(05).
[3]祁延莉,張揚揚.搜索引擎技術(shù)專利的統(tǒng)計分析[J].中國發(fā)明與專利,2010(07).
[4]張煥武.搜索引擎技術(shù)研究的現(xiàn)狀與展望[J].科技情報開發(fā)與經(jīng)濟,2009(03).
TP391.3
A
1004-7344(2016)35-0249-01
2016-12-4