夏琦
摘 要:計算機技術和互聯(lián)網(wǎng)的應用對網(wǎng)絡鏈接提出了更高要求,即對客戶心理和客戶需求分析的重視程度的加強。網(wǎng)絡鏈接分析是當代網(wǎng)絡計量學的前沿和熱點研究方向之一,以超鏈接和超文本技術為基礎。對網(wǎng)絡鏈接分析的相關概念進行了闡述,并著重從搜索引擎、網(wǎng)頁分布以及網(wǎng)絡鏈接指標三個方面進行國內(nèi)外研究情況分析和探討,最后對該領域的發(fā)展趨勢進行了簡單論述。
關鍵詞:網(wǎng)絡鏈接分析;搜索引擎;網(wǎng)頁分布;網(wǎng)絡鏈接指標
中圖分類號:TB 文獻標識碼:A doi:10.19311/j.cnki.1672-3198.2018.26.089
1 引言
隨著計算機的發(fā)展應用和互聯(lián)網(wǎng)的普及,當今社會正逐步走向信息化和網(wǎng)絡化?;诰W(wǎng)絡化服務和技術產(chǎn)業(yè)日漸成熟,并得到廣大民眾的認同和使用。早在20世紀80年代末,歐洲原子物理實驗室(CERN)提出了WEB理念,從而實現(xiàn)了局部范圍內(nèi)的數(shù)據(jù)傳輸和共享。隨著超文本標記語言的開發(fā)和利用,互聯(lián)網(wǎng)進入了飛速發(fā)展的時期。隨著對客戶心理和客戶需求分析的重視程度的加強,網(wǎng)絡鏈接分析以其時效性、準確性日益成為現(xiàn)代網(wǎng)絡分析和信息情報獲取的重要手段和方法,并且正逐漸發(fā)展成為當代網(wǎng)絡計量學領域的前沿問題和研究方向,即網(wǎng)絡鏈接分析研究應運而生。
2 網(wǎng)絡鏈接分析的國內(nèi)外研究現(xiàn)狀
2.1 網(wǎng)絡鏈接分析
網(wǎng)絡鏈接分析可以最早來源于“鏈接”一詞。鏈接,簡而言之就是定義和說明兩個或更多事物之間的關聯(lián)和內(nèi)外在聯(lián)系。隨著計算機技術的出現(xiàn)和互聯(lián)網(wǎng)的發(fā)展,以計算機網(wǎng)絡作為信息共享平臺的網(wǎng)絡鏈接技術成為網(wǎng)絡信息傳播和更新的重要手段。在統(tǒng)一資源定位符(URL,Uniform Resource Location)的基礎上,網(wǎng)絡鏈接利用超鏈接和超文本技術,完成同一網(wǎng)站內(nèi)部的不同網(wǎng)頁,不同網(wǎng)站,以及系統(tǒng)內(nèi)外部的鏈接。正是通過這種鏈接技術的發(fā)展,并將其輻射到整個互聯(lián)網(wǎng)網(wǎng)絡,無數(shù)分布在世界各地的計算機才能聯(lián)系到一起,構成網(wǎng)絡的一部分。越來越多的網(wǎng)絡服務商也關注到了網(wǎng)絡鏈接的相關分析,甚至在學界也引起了巨大的轟動和討論。很多學者認為,網(wǎng)絡鏈接分析的實質(zhì)就是傳統(tǒng)文獻計量學中的“引文分析法”,或者將其稱之為“網(wǎng)絡引文分析”。正如學者蘇芳荔所指出的那樣,“文獻引文呈現(xiàn)出主題集中,網(wǎng)絡鏈接則呈現(xiàn)出主題發(fā)散。”相比之下,筆者更認同其作為一種在網(wǎng)絡計量學范疇中的對網(wǎng)絡鏈接規(guī)律及其分布的研究方法。張洋教授和趙蓉英教授在《網(wǎng)絡鏈接分析的基本術語及其規(guī)范化》一文中將其定義為“一種以網(wǎng)絡連接為研究對象,根據(jù)引文分析法的基本原理和方法,對網(wǎng)絡連接的分布規(guī)律和網(wǎng)絡信息單元之間的鏈接規(guī)律進行分析研究的網(wǎng)絡信息計量學的特征研究方法”。該定義的提出對于全面而準確地描述網(wǎng)絡鏈接分析的特點和作用具有跨時代的意義。
2.2 搜索引擎的相關研究
搜索引擎是網(wǎng)絡重要的鏈接工具和導航工具,也是網(wǎng)絡計量學研究的基本數(shù)據(jù)采集工具,更在網(wǎng)絡鏈接中發(fā)揮著越來越重要的關鍵作用。它指利用一些方法和策略從互聯(lián)網(wǎng)采集信息,通過標引各種不同網(wǎng)站,從而建立系統(tǒng)的資源檢索機制,對網(wǎng)絡資源進行組織、整理和分配,為用戶提供信息檢索服務。國內(nèi)外目前搜索引擎用得比較多的是如Baidu、Google、Alltheweb等。AltaVista和Alltheweb作為著名的搜索引擎,不僅能對網(wǎng)頁進行站內(nèi)外檢索,更能統(tǒng)計出總鏈數(shù)、外內(nèi)鏈數(shù)以及鏈接影響因子等指標,其適用性強、查準率高。
雖然搜索引擎的種類和形式越來越多,其檢索性能也越來越強大和完善,但系統(tǒng)的查全率、查準率以及穩(wěn)定性等都不盡如人意,而且隨著網(wǎng)絡鏈接分析的深入研究,這些傳統(tǒng)的檢索工具亟待更新和擴展。1997年12月,AltaVista、ExciteLycos、NorthernLight等搜索引擎開始投入使用,32 億個網(wǎng)頁得到成功檢索,但與此同時我們發(fā)現(xiàn)一個重大的問題,即“所有的網(wǎng)絡搜索引擎的查全率都不能保障100%準確,對于單個搜索引擎而言,它們最多只能檢索到所有網(wǎng)頁總數(shù)的三分之一”。有很多因素限制了搜索引擎的查全率,包括使用不同的檢索詞和檢索策略等。在對搜索引擎進行研究的過程中,學者著重關注了不同網(wǎng)頁和不同站點之間的鏈接,其中網(wǎng)絡鏈接的覆蓋面、權重性成為了研究的重點和方向。英國文獻學家Snyder、Rosenbaum和Ingwersen等人研究了一些網(wǎng)頁和站點之間的鏈接關系,提出應對搜索引擎進行聯(lián)合以促進信息共享。通過對網(wǎng)頁賦予不同的權重,并以此對其影響力進行排序,谷歌的創(chuàng)始人SergeyBrin和LarryPage為用戶篩選和了解當前關鍵信息的相關情況提供了幫助。在比較國內(nèi)外各種搜索引擎的使用情況時,吳茵茵指出,由于通過AltaVista檢索到的中文信息要遠多于Alltheweb,所以它更適合在中國的網(wǎng)絡計量學中進行應用。而邱均平教授在《中國大學網(wǎng)站鏈接分析及網(wǎng)絡影響因子的討論》中的文獻檢索情況卻表明返回的數(shù)據(jù)比Alta Vista要多。
以上研究的結論和成果有助于量化信息的研究和規(guī)范化處理。此外,通過對搜索引擎的覆蓋范圍進行限定和研究,能夠最大化的利用具有實用性的信息,從而提高搜索引擎的檢準率。
3 網(wǎng)絡鏈接分析的發(fā)展趨勢
目前,網(wǎng)絡鏈接無論從連接工具、分析方法以及相關分析指標都去得了一系列不俗成果,但是還存在不少問題。首先,很多學者認為鏈接分析法的局限性問題是網(wǎng)絡鏈接分析的最大問題。鏈接分析是基于網(wǎng)站被鏈接與網(wǎng)站質(zhì)量之間的正向聯(lián)系的假設,然而網(wǎng)絡信息數(shù)量大、類型多樣、增長迅速,此外任何人可以不通過嚴格的審查就在互聯(lián)網(wǎng)上發(fā)布信息,因此鏈接分析的基本假設能否成立就備受質(zhì)疑。其次,網(wǎng)絡的被鏈接數(shù)量和訪問數(shù)量是不盡相同的,而且即便在某種程度上具有一致性,也是由商業(yè)推廣的廣告商、贊助商所決定的,因此這種評價體系本身就缺乏一定的客觀性和真實性,因為它有時很難代表用戶的真實想法。此外,鏈接量的計算也受網(wǎng)絡鏈接抽取難度所限。網(wǎng)上數(shù)據(jù)形式復雜,除了半結構化的數(shù)據(jù),如網(wǎng)頁、文檔等,還有一些非結構化數(shù)據(jù)的存在,如圖像、動畫、聲頻、視頻等格式的文件。目前,現(xiàn)有的信息識別和處理技術很難分析和辨別出后者這些文件中的鏈接,此外由于受到不同的腳本語言種類、程序員個人設計偏好的影響,分析和抽取動態(tài)網(wǎng)頁的鏈接也十分困難,從而導致鏈接量的統(tǒng)計不準確。學者陳穎儀在《網(wǎng)站訪問量與鏈接量關系的實證研究—以我國電子商務網(wǎng)站為例》一文中提到:“Alexa 訪問量排名是綜合用戶鏈接數(shù)和頁面瀏覽數(shù)后在網(wǎng)站之間進行比較排序的結果,因此是相對值,只依據(jù)排名在一定程度上可能會影響相關性分析得準確性?!崩罱淌趯υ诰W(wǎng)站評價過程中利用網(wǎng)絡鏈接分析法的做法提出了三點建議:第一是鏈接的動態(tài)平衡情況需要被考慮;第二是“第一假設前提”的成立受到了諸多因素的限制;第三是鏈接指標值的獲取使得商業(yè)搜索引擎在工作中可能遇到一些困難。網(wǎng)絡鏈接分析及其應用研究的瓶頸主要在以下兩方面:一方面,必須全面考慮各種載體的具體情況,從鏈接動機和鏈接類型出發(fā)區(qū)分網(wǎng)頁的權重,對鏈接進行詳細的分類統(tǒng)計,把對測定結果的解釋和應用建立在統(tǒng)計指標發(fā)展變化的內(nèi)部機理分析的基礎之上。另一方面,在鏈接分析中引入數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、XML和元數(shù)據(jù)等先進方法和技術,不斷改進搜索引擎的限制性搜索與控制功能,研制專業(yè)鏈接分析工具。這些控制方法和手段能夠減少網(wǎng)絡鏈接分析本身缺陷的負面影響,從而為網(wǎng)絡鏈接分析在不同領域的應用打下基礎。
總體而言,國內(nèi)外網(wǎng)絡鏈接各方面的研究還不夠成熟,而我們對其整體研究的思路比較狹窄,并沒有完全擺脫傳統(tǒng)文獻計量學的影響和束縛。對此,著名信息計量學家邱均平教授對網(wǎng)絡鏈接分析進行了全面而詳細的論述,即為了繼續(xù)深入探討網(wǎng)絡鏈接分析及其實際應用,需要在以下方面做出改進:一是對網(wǎng)絡鏈接分析的對象和特征進行基礎性的理論研究,明確其定義、內(nèi)涵和特點;二是對網(wǎng)絡鏈接分析的方法進行研究,主要方法包括內(nèi)容分析方法,引文分析方法等,這些方法可以被廣泛靈活地運用于網(wǎng)絡鏈接分析;三是對網(wǎng)絡鏈接分析工具進行開發(fā),合理開發(fā)出用于網(wǎng)絡鏈接研究的專用軟件,以提高研究結果的可靠性;四是積極探索網(wǎng)絡鏈接分析新的應用領域,擺脫現(xiàn)有的思想束縛,使網(wǎng)絡鏈接分析的應用領域拓展到行業(yè)實踐中去。
參考文獻
[1]蘇芳荔.文獻引文分析、網(wǎng)絡鏈接分析和網(wǎng)絡引文分析的比較[J].情報探索,2010,(1).
[2]張洋,趙蓉英.網(wǎng)絡鏈接分析的基本術語及其規(guī)范化[J].圖書情報工作,2007,(9).
[3]LAWRENCE,C L GILES.Searching the World Wide Web [J].Science,280:98- 100.
[4]楊木容.搜索引擎在網(wǎng)絡鏈接分析中的應用研究[J].圖書情報工作,2006,(11).
[5]Ingwersen P.The Calculation of Web Impact Factors [J].Journal of Documentation,1998,54(2):236-243.
[6]Brin S.,Page L..The anatomy of a large scale hypertextual Web Search engine.Proc.1988 WWW Conf,1988[EB/OL].http//google.stanford.edu/~backrub/google.html,Dec 10,2002.
[7]吳茵茵.不同搜索引擎在網(wǎng)絡因子分析中的比較研究[J].情報科學,2005,(3).
[8]邱均平,陳景全,段宇峰.中國大學網(wǎng)站鏈接分析及網(wǎng)絡影響因子的討論[J].中國軟件科學,2003,(6).
[9]陳穎儀.網(wǎng)站訪問量與鏈接量關系的實證研究——以我國電子商務網(wǎng)站為例[J] .中山大學研究生學刊(社會科學版),2005,(4).
[10]李江.鏈接指標用于網(wǎng)站評價的缺陷分析[J].圖書館雜志,2008,(5).
[11]張洋,邱均平,文庭孝.網(wǎng)絡鏈接分析研究進展[J].圖書情報知識,2004,(5).
[12]趙蓉英,段宇峰,邱均平.網(wǎng)絡信息計量學研究(1)——網(wǎng)絡鏈接研究的現(xiàn)狀及趨勢[J].情報學報,2005,(2).