許瑞
摘 要:作為大眾連接互聯(lián)網的主要入口,搜索引擎根據搜索引擎使用者提交的請求有針對性地為其提供準確、高效以及可靠的檢索結果。然而由于互聯(lián)網資源的巨大性以及搜索引擎技術的復雜性,目前搜索引擎的檢索結果面臨準確性、可靠性和時效性等挑戰(zhàn)。本文將對當前的搜索引擎以及搜索引擎技術進行討論,并對他們的發(fā)展趨勢進行分析,同時對搜索引擎所面臨的問題進行剖析并給出相應的解決方法。
關鍵詞:搜索引擎;網絡爬蟲;檢索
中圖分類號:TP311.52 文獻標識碼:A
1.搜索引擎介紹
搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯(lián)網上采集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將檢索的相關信息展示給用戶的系統(tǒng)。搜索引擎是工作于互聯(lián)網上的一門檢索技術,它旨在提高人們獲取搜集信息的速度,為人們提供更好的網絡使用環(huán)境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。
全文搜索引擎是當前應用最為普遍的主流搜索引擎,國內外知名的有baidu,Google,Bing等。全文搜索引擎的工作原理是分詞程序將爬蟲程序從互聯(lián)網上抓取的文章中的內容預處理后進行分詞,然后計算機索引程序掃描分好的詞,對每一個詞建立倒排索引,并將該詞在文章中出現的位置以及次數記錄在數據庫中,當用戶檢索程序在用戶提交檢索請求時根據數據庫中事先建立的索引進行檢索,并將檢索結果反饋給用戶。全文搜索引擎數據庫的容量極大,檢索的范圍很廣,易用性較強,然而由于知識來源較為廣泛,導致重復的內容過多且繁雜,更新不夠迅速。
元搜索引擎就是通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索操作,是對分布于網絡中的多種檢索工具的全局控制機制。目前國內外有諸如360綜合搜索、InfoSpace等。元搜索引擎可以充分集中各搜索引擎的優(yōu)勢有效地擴大了搜索引擎的檢索廣度和提高了檢索結果的準確率。元搜索引擎是基于多個搜索引擎上的二次整合,它沒有數據庫,因此相同的檢索請求會導致重復檢索。
垂直搜索引擎是針對某一個行業(yè)進行搜索的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理后再返回給用戶。垂直搜索引擎是在特定的搜索領域來滿足特定的搜索需求如火車票搜索、視頻搜索等,其檢索范圍小而且是基于結構化數據和元數據的搜索,檢索結果準確度高,檢索時間短,所需耗費的成本低。
目錄搜索引擎是以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。它有別于其他的各類搜索引擎。
2.搜索引擎所用主要技術
搜索引擎工作流程主要有數據采集、數據預處理、數據處理、結果展示等階段。在各工作階段分別使用了網絡爬蟲、中文分詞、大數據處理、數據挖掘等技術。
網絡爬蟲也被稱為蜘蛛或者網絡機器人,它是搜索引擎抓取系統(tǒng)的重要組成部分。網絡爬蟲根據相應的規(guī)則,以某些站點作為起始站點通過各頁面上的超鏈接遍歷整個互聯(lián)網,利用URL引用根據廣度優(yōu)先遍歷策略從一個html文檔爬行到另一個html文檔來抓取信息。
中文分詞是中文搜索引擎中一個相當關鍵的技術,在創(chuàng)建索引之前需要將中文內容合理的進行分詞。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。
大數據處理技術是通過運用大數據處理計算框架,對數據進行分布式計算。由于互聯(lián)網數據量相當龐大,需要利用大數據處理技術來提高數據處理的效率。在搜索引擎中,大數據處理技術主要用來執(zhí)行對網頁重要度進行打分等數據計算。
數據挖掘就是從海量的數據中采用自動或半自動的建模算法,尋找隱藏在數據中的信息,是從數據庫中發(fā)現知識的過程。數據挖掘一般和計算機科學相關,并通過機器學習、模式識別、統(tǒng)計學等方法來實現知識挖掘。在搜索引擎中主要是進行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數據中抽取隱含的、未知的、可能有用的信息。
3.搜索引擎以及搜索引擎技術發(fā)展趨勢
3.1 搜索引擎的發(fā)展趨勢
隨著移動業(yè)務、科技的發(fā)展和人們生活方式的改變,在未來搜索引擎將會發(fā)生明顯的變化。
3.1.1 知識圖譜搜索
知識圖譜是顯示知識發(fā)展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯(lián)系。當用戶發(fā)起一個搜索請求后,除了顯示用戶搜索的結果,其他與之相關的重要信息也將以發(fā)散圖表的形式呈現出來。這一功能將在滿足用戶信息檢索的同時,可以更好的理解用戶所需要的內容。
3.1.2 個性化搜索
搜索引擎技術的通用性決定了它的普適性,從而忽略了搜索用戶個體之間的差異。個性化的搜索技術可以根據不同背景、不同目的和不同時期的查詢請求為不同用戶提供有針對性的個性化的搜索服務。個性化搜索通過采集以及分析不同的用戶數據信息來學習不同用戶的行為和愛好,從而實現對不同用戶進行差異化信息檢索的目的。
3.1.3 多媒體搜索
當前搜索引擎主要是基于文字進行搜索的,而圖片、音頻和視頻等多媒體搜索比純文本搜索要復雜得多,目前主流技術是通過對他們的描述文字進行解析來搜索,所以本質上來說還是基于文字的搜索,然而多媒體的描述文字經常與多媒體資料不匹配的問題導致多媒體搜索結果具有高度的不確定性,搜索結果極易受描述文字的干擾。未來的多媒體搜索技術將會通過對多媒體資料內容進行深度解析來彌補這一缺點。
3.1.4 跨語言搜索
語言已經成為限制不同語言的人們在互聯(lián)網上進行文化交流和科技交流最大的障礙,因此跨語言搜索必將成為未來搜索引擎必備的一個功能。目前跨語言搜索共有機器翻譯、雙語詞典查詢和雙語預料挖掘等三種方法。通過跨語言搜索能讓更多的人能夠共享異域文化與先進的科學技術。
3.2 搜索引擎技術的發(fā)展趨勢
3.2.1 信息抓取的數量和速度
互聯(lián)網是一個實時變化的拓撲信息網絡,每時每刻都會有大量的網頁被創(chuàng)建、更新。搜索引擎為了向用戶展現最新的互聯(lián)網信息,需要頻繁的去抓取互聯(lián)網上最近更新的網頁內容。在搜索引擎的抓取策略中,搜索引擎會頻繁的優(yōu)先抓取高權重的網絡站點,而對于低權重的網絡站點,通常以一個相對較低的頻率去抓取,這將導致不能及時的抓取低權重站點的數據信息,從而影響檢索結果的準確性,搜索引擎需要兼顧低權重站點。
3.2.2 海量數據存儲
互聯(lián)網每天都會新產生大量的數據,如何存儲從互聯(lián)網上挖掘出來的海量數據將會給搜索引擎的服務端帶來極大的挑戰(zhàn)?,F有的分布式存儲技術在一定程度上解決了當前的數據存儲問題,然而在未來數據量的增長速度將遠超現在,而且未來數據的類型也將越來越多樣化,如何有效的組織和存儲海量的、多樣化的數據將會是未來搜索引擎的一個發(fā)展熱點。
3.2.3 判斷用戶意圖及智能化發(fā)展
在搜索過程中,用戶所提交的搜索關鍵詞也許并不一定能準確表達他想要搜索的內容,搜索引擎通過利用人工智能技術合理的分析判斷用戶的真正意圖可以實現更加專業(yè)、更加準確有效的信息檢索,從而使用戶使用搜索引擎更加方便,進而可以極大地提高用戶的滿意度。
4.搜索引擎技術當前問題及解決方法
4.1 搜索引擎技術當前面臨的問題
網頁時效性:互聯(lián)網上的用戶眾多,數據信息來源極廣,互聯(lián)網上的網頁是呈實時動態(tài)變化的,網頁的更新、刪除等變動極為頻繁,有時候會出現新更新的網頁在爬蟲程序還來不及抓取的時候卻已經被刪除的情況,這將大大影響搜索結果的準確性。
大數據存儲問題:爬蟲抓取的數據在經過預處理后數據量依然相當龐大,這給大數據存儲技術帶來相當大的挑戰(zhàn)。當前大部分搜索引擎都是利用結構化的數據庫來存儲數據,結構化的數據庫存儲的數據具有高共享、低冗余等特點,然而由于結構化的數據庫難以并發(fā)查詢所以存在查詢效率受限的問題。
檢索結果可靠性:目前由于數據挖掘技術以及計算機硬件的限制使得數據處理準確度未能達到理想程度,而且由于一些個人或公司利用搜索引擎現有的漏洞通過作弊手段來干擾檢索結果導致檢索結果的可靠性可能會有損失。
4.2 解決方法
對于網頁時效性問題可以將權重高的網絡站點和權重低的網絡站點分開處理,對高權重和低權重的站點內容分別以合適的高頻率進行抓取,并將抓取的結果置于緩存中,索引程序對緩存中的數據進行處理,這樣可以使得高權重與低權重站點抓取并行處理,數據抓取與索引建立并行執(zhí)行。通過優(yōu)化數據的存儲結構,采用數據塊的模式借助于散列表連接的存儲模式可在一定程度上解決大數據存儲問題。通過加強反作弊技術,將先進的數據挖掘技術與神經網絡加速器硬件相結合可大幅度提高檢索結果的可靠性。
參考文獻
[1] Mohammed A. Alam and Doug Downey. Analyzing the content emphasis of web search engines.Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval.SIGIR '14, Pages 1083-1086, 2014, ACM.
[2] Chavdar Botev, Sihem Amer-Yahia, Jayavel Shanmugasundaram. A TeXQuery-based XML full-text search engine. Proceedings of the 2004 ACM SIGMOD international conference on Management of data. SIGMOD '04, June 2004, ACM.
[3] A. Gulli, A. Signorini.Building an open source meta-search engine. Special interest tracks and posters of the 14th international conference on World Wide Web. WWW '05, May 2005, ACM.
[4]吳小蘭,汪琪.元搜索引擎研究綜述[J].圖書情報工作,2009(9):46-49.
[5]王文鈞,李巍.垂直搜索引擎的現狀與發(fā)展探究[J].情報科學,2010(3):477-480.
[6]秦長江,侯漢清.知識圖譜——信息管理與知識管理的新領域[J]. 大學圖書館學報,2009(1):30-37+96.
[7]文振威,秦曉.個性化搜索引擎的研究與設計[J].計算機工程與設計,2009(2):342-344+394.