国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

對網(wǎng)絡信息計量的幾點研究

2009-07-31 06:59:04高青青
科技經(jīng)濟市場 2009年5期
關鍵詞:影響因子搜索引擎

高青青

摘要:本文試圖從一些特定的領域來闡述網(wǎng)絡信息計量學的發(fā)展成果和可供發(fā)展的方向,主要包括了搜索引擎、網(wǎng)頁分布以及網(wǎng)絡信息的計量(即影響因子)等方面。筆者認為在目前的網(wǎng)絡環(huán)境和技術(shù)條件下,對網(wǎng)絡信息的計量顯得困難重重,但隨著研究的不斷深入和研究工作者的不懈努力,網(wǎng)絡信息計量學仍然可以取得長足發(fā)展并付之實踐。筆者同時認為網(wǎng)絡信息計量的前提是對網(wǎng)絡結(jié)構(gòu)的計量研究,其中,圖論和拓撲結(jié)構(gòu)是很重要的工具。

關鍵詞:網(wǎng)絡信息計量;搜索引擎;影響因子;圖論分類號:G350

引言

自20世紀90年代中期以來,對互聯(lián)網(wǎng)的性能方面的研究日益增多,并于初期將其命名為網(wǎng)絡文本研究,它主要是把現(xiàn)在信息計量學運用于互聯(lián)網(wǎng)信息的內(nèi)容、鏈接構(gòu)成以及搜索引擎等方面。1997年正式將這一研究領域稱為網(wǎng)絡信息計量學,英文名稱為“webometrics”或“cybermetrics”[1] 。本文闡述了最近業(yè)內(nèi)對網(wǎng)絡信息搜索的研究,并對網(wǎng)頁的鏈接和網(wǎng)絡文獻的影響因子進行了研究,而且筆者還簡述了圖論與拓撲學在網(wǎng)絡結(jié)構(gòu)研究中的重要作用,希望能從中找出一些具有價值的研究方向。

1網(wǎng)絡搜索引擎的查準率與查全率的研究

搜索引擎是網(wǎng)上的導航工具,它是通過采集、標引眾多網(wǎng)絡站點來提供全局性網(wǎng)絡資源控制與檢索機制,并對全球網(wǎng)絡中所有的信息資源進行集合、整理和分配,方便用戶查找所需的信息。雖然搜索引擎越來越多,功能越來越完善,但查全率、查準率、可到達性等都不能盡如人意。這些可以通過網(wǎng)絡信息計量的研究結(jié)果加以改善。

1997年12月,AltaVista、HotBot、NorthernLight、Excite、Lycos和 Infoseek六個商業(yè)網(wǎng)絡搜索引擎全面運行,共索引了32億個網(wǎng)頁,但這同時也表明了任何一個網(wǎng)絡搜索引擎的檢全率都愛到極大的限制,單個搜索引擎最多只能檢索網(wǎng)頁總量的1/3[2]。之所以如此,原因很多,例如搜索引擎對本站服務器的深入訪問必將受到該網(wǎng)站的結(jié)構(gòu)的限制,不同的檢索策略與不同的檢索詞也會關系到搜索引擎的檢全率。目前學術(shù)界對搜索引擎的研究和報道主要集中于網(wǎng)絡的各個站點和網(wǎng)頁的鏈接兩個方面,這很現(xiàn)實地把研究重點對準了搜索引擎的覆蓋面,說明了搜索引擎的在時間上的序列性與連續(xù)性。例如英國文獻學家Ingwersen以及Snyder 和 Rosenbaum等人就著重對AltaVista覆蓋范圍內(nèi)的網(wǎng)頁和站點的鏈接結(jié)構(gòu)進行了研究,并提出了搜索引擎應該聯(lián)合起來以促進信息的共享[3]。筆者亦認為這是可行的。搜索引擎的聯(lián)合有利于對信息的量化,對信息的規(guī)范起來了保障作用。同時,搜索引擎在信息網(wǎng)站的選擇上也應該有選擇地覆蓋,這樣可以很好的避免信息量大但實用性小的現(xiàn)象,對搜索引擎的檢準率是一個很大的幫助。

2網(wǎng)頁分布的研究

計算機專家Cronin和McKim提到“網(wǎng)絡正在改變著學術(shù)交流,任何新的學術(shù)理論和著作很快便能在網(wǎng)上共享,我們應該感謝計算機網(wǎng)絡”[4]。然而,怎么促進網(wǎng)絡信息的更好交流,則需要對各網(wǎng)絡站點結(jié)構(gòu)進行量化分析,得出網(wǎng)絡結(jié)構(gòu)及其迅速增長的模型,只有如此才能正確地比量出網(wǎng)絡信息與網(wǎng)絡高速公路的關聯(lián)。這些正是網(wǎng)絡信息計量研究者們需要做的工作。

網(wǎng)絡的結(jié)構(gòu)是各網(wǎng)絡站點相互鏈接的反映,而網(wǎng)絡鏈接又使網(wǎng)絡文獻呈現(xiàn)出各種聚類關系,促使各網(wǎng)站間存在著復雜的引用關系。網(wǎng)絡信息計量學的一個重要研究內(nèi)容便是網(wǎng)絡中的Web網(wǎng)頁之間的鏈接引用關系以及同被引與引文耦關系,最終用以揭示站點之間的相關性?;ヂ?lián)網(wǎng)是一個由節(jié)點和鏈構(gòu)成的信息資源網(wǎng)絡,是一個非純屬結(jié)構(gòu)的超文本系統(tǒng),不僅適合表達多媒體信息資源,還善于構(gòu)造和表示網(wǎng)絡信息資源之間的多方面、多層次的復雜關系。

有關網(wǎng)絡結(jié)構(gòu)的研究,涉及到計算機、人工智能、拓撲學、社會學、圖論等多種學科、領域的知識。一方面各個領域的研究者不得不吸收其它領域的研究方法,而另一方面又使不同領域的研究者都能找到研究切入點。最后導致的結(jié)果就是這方面的研究者和研究方法的構(gòu)成最大化,也是最容易引起爭議的研究領域,成為各個相關學科的“必爭之地”。

3網(wǎng)頁影響因子分析

1997年,Rousseau在他的文章“Stations:An Exploratory Study”中分析了網(wǎng)絡站點的分布與內(nèi)部鏈接情況。他與后來的Ingwersen一樣使用了舊版本的AltaVista進行統(tǒng)計研究,他利用“信息計量學+文獻計量學+科學計量學”搜索出了共343個相關網(wǎng)頁,通過分析研究,他不僅發(fā)現(xiàn)了網(wǎng)絡各搜索引擎具有相對獨立性,更重要的是他的研究顯示這些網(wǎng)頁的分布都符合洛特卡定律[5]。

Ingwersen通過對某一國家網(wǎng)站的研究,試圖從網(wǎng)絡影響因子(Web Impact Factors,Web-IF)來說明網(wǎng)頁鏈接之間的關系[6]。他的主要研究成果體現(xiàn)在三個方面:1)每一個搜索引擎都不可能全部搜集網(wǎng)站,但很多網(wǎng)站的信息都已經(jīng)被鏈接進來,自鏈接不會影響到總體的影響因子?!?com”域名的網(wǎng)絡站點的影響因子大約是0.5,但平均影響因子只有0.39;2)某一域名站點的影響因子比其域名網(wǎng)絡的影響因子更可靠,而且可以從前者推導出后者;3)通過差異計算可以評價一個搜索引擎的好壞。

此后還有很多學者對網(wǎng)頁影響因子進行了大量的研究,但都沒能得出一個統(tǒng)一而又具體的標準和計量方法,這也正體現(xiàn)了網(wǎng)絡信息計量的復雜性。

其實,就目前網(wǎng)絡的規(guī)范程度,要對網(wǎng)頁進行很實用的影響因子評價還不太具備可操作性。首先,網(wǎng)頁的量太大,網(wǎng)絡的飛速發(fā)展使得網(wǎng)頁的數(shù)量急劇增長,個人主頁、主題頁(某一主題的專指網(wǎng)頁)、各機構(gòu)性主頁、指南頁、資源頁等各種網(wǎng)頁都在不斷地增多,而且新的網(wǎng)頁類型也在產(chǎn)生;然后,網(wǎng)頁的內(nèi)容也多樣化,不僅哪方面的都有,而且形式也很多樣,有視頻的、音頻的、文字的等等,而且這些內(nèi)容的產(chǎn)生程序也各不相同。

4用圖論來理解網(wǎng)絡信息計量學

圖論(Graph Theory)是數(shù)學的一個分支。它以圖為研究對象。圖論中的圖是由若干給定的點及連接兩點的線所構(gòu)成的圖形,這種圖形通常用來描述某些事物之間的某種特定關系,用點代表事物,用連接兩點的線表示相應兩個事物間具有這種關系。圖論多用于描述社會關系、生態(tài)鏈以及Internet網(wǎng)絡等關系網(wǎng)絡,在信息計量學中,圖論也發(fā)揮了重要作用,例如在引文關系和概念分類系統(tǒng)等方面。理所當然,圖論也能在網(wǎng)絡信息計量中發(fā)揮重要角色,一般的,我們可以用點來表示網(wǎng)頁或網(wǎng)絡文獻,用線來描繪鏈接關系。

利用圖論可以很好地對網(wǎng)絡結(jié)構(gòu)進行分析。2000年,布羅德(Broder)等人首先利用圖論得出了一個針對網(wǎng)絡的結(jié)構(gòu)模型[7]。并且他們利用該模型建立了一個包含2億網(wǎng)頁和15億鏈接的數(shù)據(jù)庫,通過研究分析,他們把這些網(wǎng)頁分成了五個完全不同的類型:外鏈性網(wǎng)頁,內(nèi)鏈性網(wǎng)頁,內(nèi)外鏈綜合性網(wǎng)頁,零鏈接的網(wǎng)頁與指示性網(wǎng)頁。他們所建立的模型與數(shù)據(jù)庫在網(wǎng)絡結(jié)構(gòu)的研究方面價值很大,為人們弄清網(wǎng)絡復雜的鏈接關系提供了很好的基礎。

圖論的發(fā)展過程中,衍生出了一種專門用于計算機領域的學科即拓撲學。在網(wǎng)絡領域里,拓撲結(jié)構(gòu)得到完美的運用,我們完全也可以把它當成是網(wǎng)絡信息計量的一種運用。目前網(wǎng)絡信息的計量問題主要還是集中在網(wǎng)絡文獻(或網(wǎng)頁)的分布研究上,從上文中可以看出,網(wǎng)頁的影響因子的研究還很粗淺,筆者認為,在弄清網(wǎng)頁的結(jié)構(gòu)并對其結(jié)構(gòu)有一定的理論基礎之前,網(wǎng)絡信息的計量問題很難取得實質(zhì)性的進展。因此,利用圖論的拓撲學的相關方法和理論來加強對網(wǎng)絡的結(jié)構(gòu)研究將會是奠基性工作,這也會是一大難點。

筆者之所以認為對網(wǎng)絡結(jié)構(gòu)的研究才是當前最重要的網(wǎng)絡信息計量工作主要是因為當前學術(shù)界所持的網(wǎng)絡信息計量研究的幾個重點都寓于其中。網(wǎng)絡媒體信息本身的計量研究的實質(zhì)就是對網(wǎng)絡結(jié)構(gòu)的具體研究,各種媒體信息的具體分布,各數(shù)據(jù)庫的組織結(jié)構(gòu)等都和網(wǎng)絡結(jié)構(gòu)息息相關;網(wǎng)上文獻信息的計量分析主要是考慮著者與文獻的分布、文獻的增長與老化規(guī)律以及引文分析,在這幾個因素中,網(wǎng)絡結(jié)構(gòu)都起到了支配作用;網(wǎng)頁影響因子與數(shù)據(jù)庫中的知識發(fā)現(xiàn)的進行也很顯然是網(wǎng)絡結(jié)構(gòu)基礎上的研究工作。因此,加強對網(wǎng)絡結(jié)構(gòu)的研究將是網(wǎng)絡信息計量的突破口。

5結(jié)語

顯然,本文所闡述很多都是學術(shù)界一致的成果表達,但就筆者看來,當今的網(wǎng)絡信息是屬于“失控”局面,即不能有一種完善的辦法對其進行計量統(tǒng)計。要用一種模式把網(wǎng)絡上全部形式的信息都聯(lián)系在一起不僅技術(shù)和理論上都還沒達到這個水平,而且基礎設施方面也很欠缺;但筆者相信,只要從根本著手,能夠?qū)W(wǎng)絡結(jié)構(gòu)進行量化統(tǒng)計表述,網(wǎng)絡信息的計量問題也就迎刃而解了,為此,筆者認為圖論與拓撲結(jié)構(gòu)是很好的研究工具。

參考文獻:

[1]邱均平,張洋.網(wǎng)絡信息計量學綜述[J].高校圖書館工作,2005(1):1-12.

[2]LAWRENCE, C L GILES.Searching the World Wide Web[J]. Science, 280:98-100.

[3]Ingwersen P. The Calculation of Web Impact Factors[J].Journal of Documentation, 1998, 54 (2):236-243.

[4]Cronin, G. Mckim.Science and scholarship on the World Wide Web:A North American Perspective[J].Journal of Documentation,1996,(52):163-172

[5]R Rousseau.Sitations:An Exploratory Study[J].Cybermetrics,1997,(1):175-181.

[6]Ingwersen P. The Calculation of Web Impact Factors[J].Journal of Documentation, 1998, 54(2):236-243.

[7]BRODER. Graph structure in the Web[J]. WWW9 Conference.2000.http://www.almaden.ibm.com/cs/k53/www9.final;visited08.11.2000.

猜你喜歡
影響因子搜索引擎
基于個性化的協(xié)同過濾圖書推薦算法研究
農(nóng)作物病蟲害氣象環(huán)境影響因子分析
手機閱讀平臺用戶體驗影響因子分析
出版科學(2016年5期)2016-11-10 06:47:04
目的論視角下旅游英語的語言特色對漢譯旅游文本的啟示
科技視界(2016年23期)2016-11-04 13:29:09
云霧物理生長過程及其影響因子的虛擬仿真實驗
考試周刊(2016年50期)2016-07-12 23:09:38
“影響因子”是用來賺大錢的
讀書(2016年5期)2016-05-21 22:36:29
網(wǎng)絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
凌云县| 承德县| 沁阳市| 鄄城县| 阿拉善左旗| 新乡县| 全州县| 水城县| 新宾| 仙居县| 醴陵市| 三台县| 南岸区| 龙里县| 黎城县| 西城区| 卢湾区| 光山县| 海门市| 镇原县| 象山县| 冀州市| 胶南市| 龙江县| 资阳市| 乐亭县| 清流县| 福泉市| 巴彦淖尔市| 武宁县| 夹江县| 聂拉木县| 翼城县| 稷山县| 霍邱县| 临沂市| 安宁市| 汉寿县| 牙克石市| 邹城市| 东阿县|