宋婷婷
(福建農林大學軟件工程學院,福建 福州 350002)
Web搜索引擎設計原理與發(fā)展方向探究*
宋婷婷
(福建農林大學軟件工程學院,福建 福州 350002)
闡述了Web全文搜索引擎的工作原理及其性能指標,指出當前Web搜索引擎存在精度偏低、用戶體驗不理想、商業(yè)氛圍過濃等問題,提出搜索引擎未來發(fā)展的方向.
搜索引擎;Web;發(fā)展
20世紀90年代初,阿帕網正式實現(xiàn)商用,全球范圍內的計算機互聯(lián)網開始形成,使得世界各地的距離拉近,然而人們更多的通過電子郵件進行互聯(lián)網通信.人們需要一種平臺,所見即所得地反映所需的信息,1993年W3C提出的Web平臺宣告誕生,此后,Web這詞幾乎成了互聯(lián)網的代名詞,人們通過網頁可實現(xiàn)真正意義上的網際沖浪.此時,Web的數量也在迅速增長.據統(tǒng)計,1998年互聯(lián)網上的Web頁面已經達到了2600萬個,到了2000年就突破了10億,到了10年后的2008年更是達到了1萬億個頁面.
但是,此時的Web已經不像它誕生時那樣精煉,而是充滿了冗余數據,解決該問題的途徑就是建立互聯(lián)網搜索引擎,實際上搜索引擎幾乎是伴隨著因特網一起誕生的.
目前已存在的搜索引擎大致可以分為三類:全文搜索引擎、目錄搜索引擎與元搜索引擎三種.其中技術要求最高的是全文搜索引擎,它需要包括信息抓取、分詞、索引、搜索等幾個重要步驟,當前,大部分的搜索引擎研究都是圍繞著全文搜索引擎來開展的.
信息抓取是由Spider(網絡蜘蛛)來實現(xiàn)的,Spider只是段程序,能夠從起始頁面順著超鏈接訪問其他頁面,互聯(lián)網上的頁面就是通過超鏈接上的URL構成了一個網狀的集合,因此,Spider從一個或一組URL開始,訪問該URL并進行本地索引,同時記錄該URL所指HTML文件中所有新的URL錨鏈(anchor);然后再以這些新的URL為起點,繼續(xù)進行該站點內的爬行,直到再沒有滿足條件的新URL為止.通常搜索引擎會生成多個信息采集Spider,自動根據初始搜索列表和一定的搜索策略去WWW站點搜集文檔,同時把所經頁面內容保存在數據庫中,便于建立索引.
對由Spider搜集的文檔,從搜索引擎服務器中提取出表達文檔的特征信息,為了使開發(fā)出來的系統(tǒng)能夠實現(xiàn)模糊查詢,還須分析建立關鍵詞的近義詞庫.另外,超級鏈接分析在Web結構挖掘中處于核心地位,我們必須分析出每一個頁面的出度、入度,便于后面頁面重要性權值的計算.對網頁提取特征信息后,由定義的DTD生成該網頁的XML文檔,通過其中的自定義標簽來記錄信息.
在搜索引擎中需要根據頁面內容建立索引,提高搜索引擎的效率,因為對于海量的數據來說,使用Like語句這樣的匹配方法來查詢,其速度是十分低下的.另外,為進一步提高檢索效率,在建立索引之前,我們必須對頁面中的內容進行分詞處理,它是通過分詞器來進行的,比如,將“中華人民”,分割成“中華”、“人民”,根據這些切分好的詞匯,構建索引,當然要實現(xiàn)例子中所展示的精確分詞效果,還需有個分詞詞庫來協(xié)助完成工作.
通常,搜索引擎都會有個Web界面,通過該界面上的瀏覽器控件,用戶可填入所要查詢的關鍵詞并將信息通過控件提交給引擎服務器.此時,服務器端就會根據用戶所提交關鍵詞訪問數據庫,迅速地根據之前建立的索引找到跟主題相關的頁面及其附屬信息,此即信息檢索.
如果不討論Web結構挖掘,通常情況下信息排序只考慮用戶查詢的關鍵詞在頁面中出現(xiàn)的次數,次數越高的,排名越前.要是考慮Web結構,還須分析這些頁面的出度,入度,讓被其他頁面鏈接次數最多的頁面(即權威頁面)排在最前,這就需根據一定的算法規(guī)則(如PageRank、HITS)分析,計算出結構的權值,根據這些權值進行排序.
信息的輸出即將前面生成的結果用Web界面的形式傳遞給用戶,它是搜索引擎本次查詢工作的終點,終端用戶由此獲得查詢結果,同時評價該搜索引擎的性能.
搜索引擎的召回率指的是搜索引擎的檢索結果中與主題相關的頁面數除以當前整個網絡Web環(huán)境中與主題相關的頁面數所獲得的比值,這個指標衡量的是搜索引擎的查全率.
由以上的定義,要想獲得當前搜索引擎的查全率,顯然條件是非??量痰?,因為網絡環(huán)境中隨時可能產生新的與主題相關的頁面,也可能刪除原有的頁面,頁面數量千變萬化,這就使得我們根本無法掌握網絡的現(xiàn)有狀態(tài),也就無法進行計算,因此查全率只能在規(guī)模較小而且相對比較穩(wěn)定的網絡中,進行一個大概的估算.而對于Internet這樣的廣域網,人們根據多目標優(yōu)化的思想提出了一種新的概念——相對查全率.
相對查全率不再以整個網絡環(huán)境的相關頁面數作為參照物的,而是以若干個搜索引擎中的最優(yōu)與最差對象作為參照物進行相對的比較,這樣就使得整個計算有章可循.
搜索引擎的精確度是指在搜索引擎的檢索結果中與搜索主題相關的頁面數除以檢索到的全部頁面數所得到的比值,這個指標衡量的是搜索引擎的查準率.
要提高精確度,就要注重所建立索引的合理性,也和分詞系統(tǒng)的工作效率密不可分,當然一般情況下,也和用戶的查詢關鍵詞的準確性有關系.
(1)精確度偏低
由于互聯(lián)網中的頁面數量大,而且變化也大,因此抓取頁面本身就是一個難度很大的工作,接下來,由于搜索引擎上的分詞(特別是中文分詞)存在偏差,以及所使用的鏈接分析算法的缺陷,這一系列因素導致了人們在搜索的時候發(fā)現(xiàn)搜索的結果和預期存在相當程度上的偏差.
(2)搜索結果沒有進行有效組織,處于混亂、無序的狀態(tài),無法給用戶提供良好的搜索體驗.
這方面的缺陷主要是由于沒有使用合理的頁面權威度權值來進行頁面排序,使得與主題相關度較低的頁面出現(xiàn)在輸出結果的前列,如今,關于頁面權值分析的算法主要有HITS、PageRank以及兩種算法的改進形式,其中一部分已經在實際系統(tǒng)中使用,但是更多的還處于實驗室評測研究階段.
(3)商業(yè)氣氛濃重,人為地采用競價排名,干擾正常搜索結果輸出
一些國內的搜索引擎為了商業(yè)上的利益,直接或者變相使用競價排名機制,這種機制在市場經濟的今天自然無可厚非,但那是從經濟學、社會學角度討論,而從用戶角度來說,這明顯影響到他們的正常搜索活動,因為任何人都不希望搜索到的結果中充斥著各類廣告等無用數據,另外,從Web挖掘技術的角度來看,這也很明顯與其研究方向背道而馳.
在現(xiàn)有搜索引擎的搜索模式下,用戶要解決一個問題,需要把這個問題的關鍵字輸入搜索引擎中,再搜索引擎返回與這個問題相關的頁面,但此時用戶并沒有馬上獲得問題的解決,而是需要通過人工分辨查找信息內容是否符合用戶要求,智能化水平低下,為了克服關鍵詞檢索和目錄查詢的缺點,現(xiàn)在已經出現(xiàn)了自然語言智能查詢.用戶可以用口語化的提問輸入問題,如“Who is Washington?”.搜索引擎在對提問進行語法結構和語義的分辨,智能地添加關鍵字進行檢索,從而直接給出提問的答案,或形成若干個可能的問題,讓用戶進行選擇后獲得結果.
搜索引擎的另外一個方向是發(fā)展垂直主題搜索引擎.人們平時常用的搜索引擎都是橫向的,而對于某個專業(yè)的專業(yè)人員來說,他所需要的是跟該學科方向緊密相關的信息,比如:企業(yè)管理人員,搜索“ASP”希望獲得的信息是和“Application Service Provider(應用服務提供商)”相關的信息內容,但是在通用的橫向搜索引擎搜索所獲得結果大量與“Active Serve Page(動態(tài)服務頁)”相關的計算機Web開發(fā)的知識,這就是問題所在,因此發(fā)展垂直主題搜索引擎是十分必要的,通過垂直主題搜索引擎不僅可以給用戶提供專業(yè)方向(如:股票、天氣等)的信息檢索而且提高了搜索引擎搜索效率和用戶的信息利用率.
隨著搜索平臺的不斷完善,現(xiàn)有的許多搜索引擎已經不僅像其最初時那樣只提供純文本的檢索,還推出了圖片、視頻等多媒體信息的檢索功能,但是,我們必須意識到,這圖片、視頻等信息還是基于文本內容的,搜索引擎只不過是搜索圖片、視頻所在頁面的文本來獲得相關的多媒體數據.那么,如果用戶碰到這樣的問題:在他的計算機里存放著一首鋼琴曲的音頻文件,但是他并不知道這首曲子的名字叫什么,那么這時,他就需要一個搜索引擎能夠把這個音頻文件當成搜索主題,在網絡中查找與該文件相符的音頻,并查找到這段樂曲的名字,這實際上就是一個逆向的過程,原先我們是通過文本查找到音頻,現(xiàn)在要根據音頻查找的文本,而后者才是真正意義上的多媒體搜索,它的搜索主題不再只是文字,而是各種多媒體的編碼.然而,現(xiàn)有的多媒體檢索大部分還處于在研究開發(fā)階段,還面臨著許多困難,比如:數據量大、編碼解碼以及匹配的時間消耗等,盡管如此,多媒體檢索必然要在將來占據信息檢索的重要地位.
近幾年,業(yè)內在Web開發(fā)技術上取得了很大的進步,Web已經由原先的B/S模式,向著富客戶端模式RIA的方向發(fā)展,即Web2.0,在這種全新的環(huán)境下,用戶可以在瀏覽器中獲得本地桌面般的界面體驗.RIA系統(tǒng)的開發(fā)工具也比傳統(tǒng)的Web開發(fā)豐富得多,F(xiàn)lex、Ajax等技術都能夠進行開發(fā).但是,無論開發(fā)手段如何豐富,整個系統(tǒng)還是要以瀏覽器作為載體來運行,而開發(fā)工具的不同,導致系統(tǒng)結構已經不再是單一的HTML語言,在這前提下,傳統(tǒng)的基于HTML超鏈接的搜索引擎蜘蛛程序無法正常地發(fā)現(xiàn)這種新的頁面,必然造成主題信息的大量流失.因此,搜索引擎對RIA系統(tǒng)信息的支持,也是現(xiàn)在搜索引擎需要研究的方向,畢竟,Web2.0是Web發(fā)展的一種趨勢.
在未來,Web搜索引擎仍然將在互聯(lián)網生活中扮演著十分重要的角色,進一步提高其性能,并且能夠提供種類豐富的查詢手段,是其發(fā)展的必然結果.本文對搜索引擎的發(fā)展提出了自己的建議與想法,希望能夠對互聯(lián)網搜索引擎的發(fā)展貢獻微薄之力.
[1]朱麗紅,趙燕平.Web挖掘研究綜述[J].情報技術,2004,(7):2 ~5.
[2]鳳元杰,劉正春,王堅毅.搜索引擎主要性能評價指標體系研究[J].情報學報,2004,23(1):63~68.
[3]袁津生,蔡岳.搜索引擎原理與實踐[M].北京:北京郵電大學出版社,2008:26~33.
[4]李曉明,閆宏飛,王繼民.搜索引擎:原理、技術與系統(tǒng)[M].北京:科學出版社,2005.8 ~13.
[5]張曉濱,石美紅,蔡桂洲.校園網搜索引擎設計[J].西安工程科技學院學報,2002,(3):243~246.
TP31
A
1006-5342(2011)12-0108-02
2011-10-13