劉勝久,李天瑞,珠 杰, 2
(1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 611756;2. 西藏大學(xué) 計(jì)算機(jī)科學(xué)系、藏文信息技術(shù)研究中心,西藏 拉薩 850000)
?
Zipf定律與網(wǎng)絡(luò)信息計(jì)量學(xué)
劉勝久1,李天瑞1,珠 杰1, 2
(1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 611756;2. 西藏大學(xué) 計(jì)算機(jī)科學(xué)系、藏文信息技術(shù)研究中心,西藏 拉薩 850000)
作為文獻(xiàn)計(jì)量學(xué)重要定律的Zipf定律已在許多領(lǐng)域得到較廣泛的應(yīng)用,網(wǎng)絡(luò)信息計(jì)量學(xué)伴隨著網(wǎng)絡(luò)信息的激增而受到人們?cè)絹?lái)越大的關(guān)注。該文結(jié)合搜索結(jié)果數(shù)量的分布情況,提出了在網(wǎng)絡(luò)信息計(jì)量學(xué)中仍然存在Zipf定律的猜想,并采用公開的詞語(yǔ)集在幾個(gè)代表性的搜索引擎中進(jìn)行實(shí)驗(yàn)驗(yàn)證,證實(shí)了搜索結(jié)果數(shù)目近似服從Zipf定律的結(jié)論,其中Baidu與So搜索結(jié)果的Zipf指數(shù)為0.003。
Zipf定律;Zipf指數(shù);搜索引擎;網(wǎng)絡(luò)信息計(jì)量學(xué)
自美國(guó)語(yǔ)言學(xué)家George Kingsley Zipf于1949年提出Zipf定律以來(lái),Zipf定律已在信息學(xué)、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、生物學(xué)、地理學(xué)、物理學(xué)等許多領(lǐng)域得到較廣泛的應(yīng)用,在學(xué)術(shù)界享有極高的聲譽(yù)。
Zipf 定律描述的主要是詞頻和詞序之間的聯(lián)系,它的一種表述形式為: 在自然語(yǔ)言的語(yǔ)料庫(kù)里,一個(gè)單詞出現(xiàn)的頻率與它在頻率表里的排名成反比。Zipf 定律揭示了語(yǔ)言學(xué)中的重要現(xiàn)象,使得人類對(duì)語(yǔ)言的分布認(rèn)識(shí)更為深刻,對(duì)其他學(xué)科產(chǎn)生了很大影響。Zipf定律是一個(gè)實(shí)驗(yàn)定律,而非理論定律,缺乏嚴(yán)格的理論推導(dǎo)與證明,但Zipf定律可以在很多現(xiàn)象中觀察到。如果我們?cè)谝粋€(gè)廣域范圍內(nèi)做出適當(dāng)?shù)慕?,那么,許多自然現(xiàn)象都符合Zipf定律。
網(wǎng)絡(luò)信息計(jì)量學(xué)是信息計(jì)量學(xué)在互聯(lián)網(wǎng)中的應(yīng)用與拓展,是伴隨著互聯(lián)網(wǎng)信息爆炸而出現(xiàn)的一門新興學(xué)科,它通過(guò)對(duì)互聯(lián)網(wǎng)信息的量化分析,為科研和社會(huì)服務(wù)。近年來(lái),網(wǎng)絡(luò)信息計(jì)量學(xué)已在網(wǎng)上信息本身的直接計(jì)量、網(wǎng)上文獻(xiàn)信息及其相關(guān)特征的信息計(jì)量、網(wǎng)絡(luò)站點(diǎn)的信息計(jì)量等其他問(wèn)題上取得一系列卓有成效的研究成果。作為最重要的互聯(lián)網(wǎng)應(yīng)用之一,搜索引擎的出現(xiàn)部分解決了互聯(lián)網(wǎng)上信息泛濫所導(dǎo)致的信息檢索困難問(wèn)題。搜索引擎的類別也由傳統(tǒng)的搜索引擎逐漸衍生出元搜索引擎、垂直搜索引擎、語(yǔ)義搜索引擎及智能搜索引擎等,對(duì)搜索引擎的研究是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要內(nèi)容。本文擬通過(guò)對(duì)搜索引擎結(jié)果數(shù)量分布的研究,探討Zipf定律在網(wǎng)絡(luò)信息計(jì)量學(xué)中的應(yīng)用,同時(shí)驗(yàn)證網(wǎng)絡(luò)信息計(jì)量學(xué)中存在Zipf定律的猜想,并結(jié)合實(shí)際情況對(duì)實(shí)際的搜索結(jié)果數(shù)量進(jìn)行分析。
2.1 Zipf定律研究現(xiàn)狀
Zipf定律來(lái)源于語(yǔ)言學(xué),最早是Zipf在對(duì)英文詞匯的詞頻分布的研究中發(fā)現(xiàn)的,其在中文[1-3]及印度語(yǔ)[4]、意大利語(yǔ)[5]其他語(yǔ)言詞頻分布中的適用性已得到證實(shí),對(duì)Zipf定律在語(yǔ)言學(xué)中的應(yīng)用尚在進(jìn)一步深入[6]。而且,Zipf定律也在物理學(xué)[7]、經(jīng)濟(jì)學(xué)[8]、生物學(xué)[9]等其他領(lǐng)域都得到了廣泛的應(yīng)用[10],其研究應(yīng)用領(lǐng)域有進(jìn)一步拓寬的趨勢(shì)。
Zipf定律在中文中的研究與應(yīng)用由來(lái)已久[11],伴隨著經(jīng)濟(jì)及社會(huì)的高速發(fā)展,近年來(lái)對(duì)Zipf定律的研究也日益關(guān)注其對(duì)經(jīng)濟(jì)及社會(huì)的促進(jìn)作用。鄭亞斌等人在中文歌詞上做了一些傳統(tǒng)的自然語(yǔ)言處理相關(guān)實(shí)驗(yàn),利用Zipf定律對(duì)歌詞語(yǔ)料庫(kù)的字和詞進(jìn)行統(tǒng)計(jì)特征的考察,實(shí)驗(yàn)表明其分布基本符合Zipf定律[12]。劉宇凡等人對(duì)唐代以來(lái)的文學(xué)作品按不同時(shí)期進(jìn)行分類建立語(yǔ)料庫(kù),字頻的分布情況表明自唐代以來(lái)不同時(shí)期的字頻都可以用一個(gè)指數(shù)截?cái)嗟膬缏珊瘮?shù)進(jìn)行很好的擬合,并且隨著歷史的發(fā)展,冪律性質(zhì)不斷衰減而指數(shù)性質(zhì)不斷增強(qiáng)[13]。
在網(wǎng)絡(luò)傳播領(lǐng)域中,一個(gè)較早被人注意的現(xiàn)象是網(wǎng)站的用戶數(shù)和訪問(wèn)量的分布基本符合Zipf 定律。此后,國(guó)內(nèi)外學(xué)者研究后發(fā)現(xiàn),在企業(yè)規(guī)模的分布[14]、城市規(guī)模的分布[15]、地震時(shí)間間隔的分布[16]、網(wǎng)站下載分布[17]等現(xiàn)象及自然語(yǔ)言識(shí)別系統(tǒng)與資本投資[18]等領(lǐng)域中均存在Zipf定律。
在P2P網(wǎng)絡(luò)研究中,Cai等人提出在結(jié)構(gòu)化P2P網(wǎng)絡(luò)的信任發(fā)現(xiàn)中仍然存在Zipf定律的猜想,并用實(shí)驗(yàn)證實(shí)了該猜想,同時(shí)研究了Zipf定律在其中的存在形式與特點(diǎn)[19];在圖像處理中,Hamoud等人應(yīng)用Zipf定律定義了不同的模式及編碼方法來(lái)描述圖像的復(fù)雜結(jié)構(gòu)化內(nèi)容以降低模式的數(shù)目,并對(duì)圖像進(jìn)行分割及分類等深層次的處理,取得了較好的效果[20]。Zipf 定律也廣泛應(yīng)用于地理、經(jīng)濟(jì)、城市、交通等領(lǐng)域[21]。由于Zipf 定律是 Pareto 方程的對(duì)數(shù)變換,滿足分形分維特征,將Zipf定律與分枝分維等其他理論與方法相結(jié)合,拓寬Zipf定律的研究應(yīng)用領(lǐng)域并探討其在其他領(lǐng)域的存在形式是當(dāng)前Zipf定律研究的重點(diǎn)。
2.2 網(wǎng)絡(luò)信息計(jì)量學(xué)研究現(xiàn)狀
自Almind Tomas C在文獻(xiàn)[22]中首次提出“網(wǎng)絡(luò)信息計(jì)量學(xué)”以來(lái),網(wǎng)絡(luò)信息計(jì)量學(xué)作為信息計(jì)量學(xué)的重要發(fā)展趨勢(shì)在國(guó)內(nèi)外都受到了極大的關(guān)注。當(dāng)前,網(wǎng)絡(luò)信息計(jì)量學(xué)的研究熱點(diǎn)主要集中在網(wǎng)絡(luò)鏈接關(guān)系和網(wǎng)絡(luò)影響因子、搜索引擎、用戶行為及Web挖掘等方面。
在中文Web信息檢索方面,李靜靜等人參考國(guó)外測(cè)試集的構(gòu)建經(jīng)驗(yàn),構(gòu)建了大規(guī)模中文網(wǎng)頁(yè)信息檢索測(cè)試集CWT,并對(duì)CWT進(jìn)行了有效的統(tǒng)計(jì)分析和實(shí)驗(yàn)研究,同時(shí)組織了SEWM中文網(wǎng)頁(yè)檢索評(píng)測(cè),推動(dòng)了中文網(wǎng)頁(yè)信息檢索技術(shù)的發(fā)展[23]。鑒于高質(zhì)量的數(shù)據(jù)對(duì)網(wǎng)絡(luò)信息計(jì)量學(xué)的極端重要性,Shi等人探討了依托當(dāng)前數(shù)據(jù)源,基于Dublin Core元數(shù)據(jù)元素集合提取新的數(shù)據(jù)達(dá)到為網(wǎng)絡(luò)計(jì)量學(xué)提供更好的數(shù)據(jù)支持目標(biāo)的可行性[24];由于網(wǎng)絡(luò)信息計(jì)量學(xué)方法是評(píng)估高等學(xué)府的重要工具之一,Elgharabawy 等人研究了WCAG方法與網(wǎng)絡(luò)信息計(jì)量學(xué)方法及搜索引擎在教育機(jī)構(gòu)評(píng)估中的關(guān)聯(lián),結(jié)果表明采用網(wǎng)絡(luò)信息計(jì)量學(xué)的方法與WCAG方法所得到的教育機(jī)構(gòu)排名存在一致的正相關(guān)關(guān)系,由此提出可將可訪問(wèn)性作為搜索引擎優(yōu)化的重要內(nèi)容[25];此外,采用復(fù)雜網(wǎng)絡(luò)的理論與方法研究計(jì)算機(jī)網(wǎng)絡(luò)上的信息也是當(dāng)前研究的一大熱點(diǎn)[26]。
從當(dāng)前網(wǎng)絡(luò)信息計(jì)量學(xué)研究的內(nèi)容與方法來(lái)看,研究經(jīng)典的信息計(jì)量學(xué),尤其是文獻(xiàn)計(jì)量學(xué)的理論與方法在互聯(lián)網(wǎng)中的推廣與拓展是目前網(wǎng)絡(luò)信息計(jì)量學(xué)研究的熱點(diǎn),對(duì)作為互聯(lián)網(wǎng)上最重要應(yīng)用之一的搜索引擎的研究也引起了人們?cè)絹?lái)越大的關(guān)注,借助搜索引擎研究網(wǎng)絡(luò)信息計(jì)量學(xué)是網(wǎng)絡(luò)信息計(jì)量學(xué)研究的一大熱點(diǎn)。此外,人們也開始將復(fù)雜網(wǎng)絡(luò)的理論與方法應(yīng)用于網(wǎng)絡(luò)信息學(xué)的研究之中。
2.3 搜索引擎研究現(xiàn)狀
自現(xiàn)代搜索引擎的鼻祖——Archie于1990年推出以來(lái),搜索引擎因其隱含的巨大商業(yè)價(jià)值而得到迅猛發(fā)展?,F(xiàn)階段的搜索引擎有上千種之多,搜索結(jié)果排序[27]及搜索引擎評(píng)測(cè)[28]作為搜索引擎研究的兩個(gè)主要方面歷來(lái)是搜索引擎研究的重點(diǎn)。近年來(lái),“以用戶為中心”的服務(wù)理念的深入,使得對(duì)用戶行為的研究成為搜索引擎新的研究熱點(diǎn)。
在用戶行為研究方面,王繼民等對(duì)北京大學(xué)“天網(wǎng)”的用戶點(diǎn)擊記錄進(jìn)行研究,發(fā)現(xiàn)用戶點(diǎn)擊不同URL的數(shù)量遵從Heaps定律,點(diǎn)擊URL的頻度-頻級(jí)服從類Zipf分布,點(diǎn)擊URL與頁(yè)面大小相關(guān)以及點(diǎn)擊URL具有時(shí)間局部性[29];余慧佳及岑榮偉等基于搜索引擎的用戶行為日志對(duì)用戶行為進(jìn)行分析和研究,提出了一種自動(dòng)進(jìn)行搜索引擎性能評(píng)價(jià)的方法[30], 對(duì)改進(jìn)搜索引擎的檢索算法及搜索引擎算法優(yōu)化與系統(tǒng)改進(jìn)等均有較好的指導(dǎo)意義[31-32];韓筱璞等對(duì)搜索引擎網(wǎng)站所公布的關(guān)鍵詞搜索頻率排行榜中的數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)關(guān)鍵詞搜索詞頻分布總體基本符合Zipf 定律且大多存在局部對(duì)Zipf 定律的分段符合。
從現(xiàn)階段Zipf定律、網(wǎng)絡(luò)信息計(jì)量學(xué)及搜索引擎等研究可以發(fā)現(xiàn),在許多領(lǐng)域均得到廣泛應(yīng)用的Zipf定律在網(wǎng)絡(luò)信息計(jì)量學(xué)中尚有很大的推廣應(yīng)用空間,即對(duì)Zipf定理在網(wǎng)絡(luò)信息計(jì)量學(xué)尤其是其重要研究對(duì)象之一——搜索引擎中的研究與應(yīng)用尚不深入。下面嘗試將Zipf定律應(yīng)用于搜索引擎中,提出搜索結(jié)果數(shù)目服從Zipf定律的猜想,并以實(shí)驗(yàn)驗(yàn)證該猜想,同時(shí)分析研究其對(duì)應(yīng)的Zipf指數(shù)。
3.1 網(wǎng)絡(luò)信息計(jì)量學(xué)中可能存在Zipf定律的猜想
搜索引擎是互聯(lián)網(wǎng)信息的新的組織形式,其通過(guò)對(duì)用戶輸入的搜索關(guān)鍵字的分析將與搜索關(guān)鍵字最相關(guān)的信息返回給用戶。對(duì)大部分輸入而言,搜索引擎均能給出足夠數(shù)量的結(jié)果,下面給出網(wǎng)絡(luò)信息計(jì)量學(xué)中可能存在Zipf定律的猜想。
假設(shè)搜索關(guān)鍵字集合為{Qi,i=1, 2, …, m},對(duì)任一搜索引擎SEj(j=1, 2, …, n)而言,搜索關(guān)鍵字Qi在時(shí)刻t的搜索結(jié)果數(shù)目為Num(Qi,SEj,t),將在同一時(shí)刻t得到的k個(gè)搜索結(jié)果數(shù)目進(jìn)行排序,則可以得到Num(Qi,SEj,t)(r)∝1/r,其中Num(Qi,SEj,t)(r)表示排名第r的搜索結(jié)果數(shù)目,在對(duì)數(shù)坐標(biāo)系中,所有的點(diǎn)(r,Num(Qi,SEj,t)(r))近似分布在一條直線上,即存在如下的函數(shù)關(guān)系。
(1)
其中a為正常數(shù),即為對(duì)應(yīng)的Zipf系數(shù)。
上述猜想是對(duì)Zipf定律在搜索引擎結(jié)果中的應(yīng)用與推廣,由于搜索引擎的搜索范圍基本涵蓋全部互聯(lián)網(wǎng)信息,采用搜索引擎結(jié)果作為類似于自然語(yǔ)言中的“詞頻”有一定的合理性與可行性。下面選用幾個(gè)具有代表性的搜索引擎進(jìn)行實(shí)驗(yàn)以驗(yàn)證該猜想。
3.2 實(shí)驗(yàn)方案
搜索關(guān)鍵字的選取比較困難,搜索引擎網(wǎng)站公布的關(guān)鍵詞搜索頻率排行榜更新頻繁且數(shù)量過(guò)少,不宜選用為搜索關(guān)鍵字。由于Zipf定律來(lái)源于對(duì)自然語(yǔ)言領(lǐng)域中詞頻分布的分析,因此本文采用詞語(yǔ)作為搜索關(guān)鍵字。另外,Zipf定律在中文詞頻分布中的適用性已得到驗(yàn)證,這里同樣可以選用足夠數(shù)量的中文詞語(yǔ)作為搜索關(guān)鍵字進(jìn)行實(shí)驗(yàn)。
在搜索詞語(yǔ)方面,盡管Sogou等搜索引擎運(yùn)營(yíng)商提供有部分搜索詞語(yǔ)數(shù)據(jù)集以供測(cè)試之用,如SogouQ等*http://www.sogou.com/labs/dl/q.html,但卻并未提供搜索結(jié)果數(shù)量。再者,由于搜索結(jié)果的時(shí)效性,在現(xiàn)階段采用搜索詞語(yǔ)的歷史記錄進(jìn)行搜索并對(duì)搜索結(jié)果進(jìn)行分析不盡合理,因?yàn)闊狳c(diǎn)話題會(huì)直接反應(yīng)到搜索的查詢?cè)~中以導(dǎo)致搜索結(jié)果數(shù)量出現(xiàn)較大的波動(dòng)。
對(duì)提供中文搜索的搜索引擎而言,必須面對(duì)的一個(gè)問(wèn)題是中文分詞?,F(xiàn)今的搜索引擎運(yùn)營(yíng)商或選取其他公司的產(chǎn)品作為分詞工具或自行開發(fā)中文分詞工具。Google的中文分詞技術(shù)采用的是Basis Technology*http://www.basistech.com公司提供的中文分詞技術(shù),百度使用的是自己公司開發(fā)的分詞技術(shù),中搜使用的是海量科技*http://www.hylanda.com提供的分詞技術(shù)。中文分詞的準(zhǔn)確度,與搜索引擎結(jié)果相關(guān)性和準(zhǔn)確性有相當(dāng)大的關(guān)系。所有的分詞工具的共同點(diǎn)是必須提供足夠數(shù)量的分詞庫(kù),而分詞工具的詞庫(kù)是作為搜索詞語(yǔ)關(guān)鍵字的理想選擇。這里,我們選用開源的IKAnalyzer*http://code.google.com/p/ik-analyzer/downloads/list中文分詞工具提供的分詞庫(kù),此處選用的版本為2012-u6,對(duì)應(yīng)的基本分詞庫(kù)容量為275 714。
國(guó)內(nèi)外的分析結(jié)構(gòu)與評(píng)測(cè)機(jī)構(gòu),如Hitwise、Search Engine Watch等會(huì)定期或不定期的發(fā)布研究報(bào)告,公布各個(gè)搜索引擎的市場(chǎng)份額?,F(xiàn)階段全國(guó)搜索市場(chǎng)份額為: 百度65.7%,360綜合搜索8.7%,搜狗6.2%,谷歌香港4.2%,百度圖片3.9%,搜搜3.3%,谷歌(英文)1.7%,必應(yīng)1.2%,谷歌中國(guó)0.5%,有道搜索0.5%*http://www.weste.net/2013/1-11/87960.html,這里選用排名前三位的搜索引擎——百度、360綜合搜索及搜狗進(jìn)行實(shí)驗(yàn)。
3.3 實(shí)驗(yàn)結(jié)果
搜索引擎在海量的互聯(lián)網(wǎng)信息中搜索與查詢關(guān)鍵字最相關(guān)的記錄,除去敏感詞匯及過(guò)于生僻的詞語(yǔ)外均能給出足夠數(shù)量的搜索結(jié)果。在實(shí)驗(yàn)中我們發(fā)現(xiàn),在275 714個(gè)搜索關(guān)鍵字中,只有極個(gè)別的少數(shù)詞語(yǔ)得不到結(jié)果,其余的均能得到較多的搜索結(jié)果。
圖1、圖2、圖3分別是在對(duì)數(shù)坐標(biāo)系中百度、360綜合搜索及搜狗三大搜索引擎對(duì)275 714個(gè)搜索關(guān)鍵字返回的結(jié)果數(shù)目與其對(duì)應(yīng)排名的點(diǎn)陣圖。
圖1 Baidu搜索結(jié)果數(shù)目
圖2 So搜索結(jié)果數(shù)目
圖3 Sogou搜索結(jié)果數(shù)目
上述三圖可以發(fā)現(xiàn),幾乎所有的點(diǎn)都分布在一條直線上,采用IBM SPSS Statistics 20對(duì)上述數(shù)據(jù)進(jìn)行擬合,可以得到如下的回歸方程,如式(2)—(4)所示。
NumBaidu=181 048 778.2RankBaidu-0.003,R2=0.988
(2)
NumSo=130 814 766.2RankSo-0.003,R2=0.996
(3)
NumSogou=4 884 107.210RankSogou-3.035×10-5,R2=0.925
(4)
從回歸結(jié)果可以看出,搜索結(jié)果數(shù)目與對(duì)應(yīng)的排名之間存在極為顯著的冪律分布關(guān)系,這很好地驗(yàn)證了上述猜想,證實(shí)了網(wǎng)絡(luò)信息計(jì)量學(xué)中存在Zipf定律的結(jié)論。至于圖形右端搜索結(jié)果數(shù)目的急劇下降是由于搜索結(jié)果數(shù)目的長(zhǎng)尾分布造成的,這與自然語(yǔ)言領(lǐng)域的詞頻長(zhǎng)尾分布類似。
此外,從上述搜索結(jié)果的點(diǎn)陣圖還可以看出,搜索結(jié)果數(shù)量的排序有一定的周期性,這在圖1及圖2中表現(xiàn)得尤為顯著,而且右端長(zhǎng)尾明顯降低。出現(xiàn)此種狀況的主要原因在于對(duì)大部分搜索引擎而言,若搜索結(jié)果數(shù)量在1 000以上則是以千、萬(wàn)、十萬(wàn)、百萬(wàn)、千萬(wàn)、億為單位度量的,若搜索結(jié)果數(shù)量在1 000以下則給出的是確切的數(shù)據(jù),由于搜索結(jié)果數(shù)量的階躍導(dǎo)致周期性的出現(xiàn)。圖1及圖2中的六個(gè)周期表明此階段的Baidu及So搜索結(jié)果數(shù)量介于不同的區(qū)間且分別是以千、萬(wàn)、十萬(wàn)、百萬(wàn)、千萬(wàn)、億為單位度量的,在對(duì)數(shù)坐標(biāo)系中的區(qū)間長(zhǎng)度也近似等同。至于圖3,由于Sogou的搜索結(jié)果全部是以個(gè)為單位,故未出現(xiàn)與圖1及圖2類似的周期性現(xiàn)象。右端長(zhǎng)尾明顯降低的原因在于其對(duì)應(yīng)的搜索結(jié)果數(shù)量不足1 000,故在對(duì)數(shù)坐標(biāo)系中變化得較快。
需要說(shuō)明的,由于搜索引擎存在定期或不定期的更新,上述分析結(jié)果隨時(shí)間而略有波動(dòng),但由于所選用的搜索詞有一定的代表性,且變化較小,搜索結(jié)果數(shù)量的總體趨勢(shì)變化不大。由于各個(gè)搜索引擎運(yùn)營(yíng)商采用的搜索技術(shù)及側(cè)重點(diǎn)不完全相同,導(dǎo)致對(duì)應(yīng)的分析結(jié)果有一定的差距。從上述分析結(jié)果中也可以看出,Baidu與So搜索結(jié)果數(shù)目的Zipf系數(shù)相同,但Sogou卻與上述二者差別較大。
盡管經(jīng)典文獻(xiàn)計(jì)量學(xué)的詞頻分布符合Zipf定律已有相關(guān)理論可以給出較合理的解釋,如優(yōu)先連接理論[33]及隨機(jī)演化模型[34]等,但在網(wǎng)絡(luò)信息中,詞頻數(shù)目的對(duì)數(shù)值仍然服從Zipf定律卻似乎缺少合適的理論可以給出合理的解釋。深入研究Zipf定律在信息計(jì)量學(xué)中的成因及在網(wǎng)絡(luò)信息計(jì)量學(xué)中新形式的機(jī)理是后續(xù)研究的重點(diǎn)。
本文借鑒文獻(xiàn)計(jì)量學(xué)中Zipf定律的思想,提出了在網(wǎng)絡(luò)信息計(jì)量學(xué)中仍然符合Zipf定律的猜想,并采用公開的分詞庫(kù)在幾個(gè)代表性的搜索引擎中得到驗(yàn)證,實(shí)驗(yàn)結(jié)果較好地驗(yàn)證了該猜想。同時(shí),結(jié)合搜索引擎的特點(diǎn)及搜索結(jié)果數(shù)量的實(shí)際,對(duì)搜索結(jié)果也給出了合理的解釋。后續(xù)工作的重點(diǎn)在于在更為廣泛的范圍內(nèi)研究Zipf定律的普適性,包括經(jīng)典的文獻(xiàn)計(jì)量學(xué)理論與方法在網(wǎng)絡(luò)信息計(jì)量學(xué)中的應(yīng)用與推廣,同時(shí)研究網(wǎng)絡(luò)信息計(jì)量學(xué)中Zipf定律的形成原因等。
[1] 關(guān)毅, 王曉龍, 張凱. 現(xiàn)代漢語(yǔ)計(jì)算語(yǔ)言模型中語(yǔ)言單位的頻度-頻級(jí)關(guān)系[J]. 中文信息學(xué)報(bào), 1999, 13(2): 8-15.
[2] 游榮彥. Zipf 定律與漢字字頻分布. 中文信息學(xué)報(bào)[J], 2000, 14(3): 60-65.
[3] 王洋, 劉宇凡, 陳清華. 漢語(yǔ)言文學(xué)作品中詞頻的Zipf分布[J]. 北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009, 45(4): 424-427.
[4] Jayaram B D, Vidya M N. Zipf’s law for Indian languages[J]. Journal of Quantitative Linguistics, 2008, 15(4): 293-17.
[5] Tuzzi A, Popescu I I, Altmann G. Zipf’s laws in Italian Texts[J].Journal of Quantitative Linguistics, 2009, 16(4): 354-367.
[6] Alexander G, Grigori S. Zipf and Heaps Laws’ Coefficients Depend on Language[C]//Proceedings of the CICLing-2001, Mexico City, Mexico, 2001: 332-335.
[7] 韓定定, 馬余剛. 原子核碎裂中可能存在Zipf定律[J]. 科學(xué)通報(bào), 2000, 45: 913-918.
[8] Kali R. The city as a giant component: a random graph approach to Zipf’s law[J]. Applied Economics Letters, 2003, 10(11): 717-720(4).
[9] 李玉鑑, 肖創(chuàng)柏. 蛋白質(zhì)序列中可能存在的Zipf定律[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2005, 31(4): 366-368.
[10] 曹盼盼, 閻春寧. 人類通信模式的冪律分布和Zipf定律[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2009, 6(4): 51-56.
[11] 王德進(jìn), 張社英, 劉源. 漢語(yǔ)言的幾個(gè)統(tǒng)計(jì)規(guī)律[J]. 中文信息學(xué)報(bào), 1987, 1(4): 33-39.
[12] 鄭亞斌, 劉知遠(yuǎn), 孫茂松. 中文歌詞的統(tǒng)計(jì)特征及其檢索應(yīng)用[J]. 中文信息學(xué)報(bào). 2007, 21(5): 61-67.
[13] 劉宇凡, 郭金忠, 陳清華. 唐代以來(lái)漢語(yǔ)文學(xué)作品中的字頻演變[J]. 中文信息學(xué)報(bào). 2011, 25(3): 93-97.
[14] Stanley M, Buldyrev S, Havlin S. Zipf’s plots and the size distribution of firms[J]. Economics Letters, 1995, 49: 453-457.
[15] Bruce M H. Zipf’s law and prior distributions for the composition of a population[J]. Journal of the American Statistical Association, 1970, 65: 1220-1232.
[16] Sornette D, Knopoff L, Kagan Y Y. Rank- ordering statistics of extreme events: Application to the distribution of large earthquakes[J]. Journal of Geophysical Research, 1996, 101(B6): 13883-13894.
[17] Han D D. Scale-free download network for publications, Chinese Physics Letter, 2004, 21: 1855-1857.
[18] Sornette D, Zajdenweber D. Economic returns of research: the Pareto law and its implications[J]. European Physical Journal B, 1998, 8: 653-664.
[19] Cai Biao, Chen Liangyin. Zipf’s Trust Discovery in Structured P2P Network[C]//Proceedings of the WKDD2010, 2010: 191-194.
[20] Hamoud M, Merouani H F. Detection of a Region of Interest in the Images Based on Zipf Laws[C]//Proceedings of the SITIS2011, 2011: 416-421.
[21] 薛飛. 中國(guó)城市規(guī)模的Zipf 法則檢驗(yàn)及其影響因素[D]. 廈門: 廈門大學(xué)碩士學(xué)位論文, 2007.
[22] Almind T C, Lngwersen P. Informetric analyses on the World Wide Web: Methodological Approaches to “webometrics”[J]. Joumal of Documentation, 1997, 53(4): 404-426.
[23] Shi Longqing, Zhao Qingfeng. Data Sources of Webometrics[C]//Proceedings of the CIS2011, 2011: 1312-1315.
[24] 李靜靜, 閆宏飛. 中文網(wǎng)頁(yè)信息檢索測(cè)試集的構(gòu)建、分析及應(yīng)用[J]. 中文信息學(xué)報(bào). 2008, 22(1): 30-36.
[25] Elgharabawy M A, Ayu M A. Web content accessibility and its relation to Webometrics ranking and search engines optimization[C]//Proceedings of the ICRIIS2011, 2011: 1-6.
[26] 何宇, 趙洪利, 楊海濤, 趙東杰. 復(fù)雜網(wǎng)絡(luò)演化研究綜述[J]. 裝備指揮技術(shù)學(xué)院學(xué)報(bào), 2011, 11(2): 120-125.
[27] 劉勝久, 李天瑞, 賈真, 尹紅風(fēng). 元搜索引擎排序方法建模與算法研究[J]. 計(jì)算機(jī)科學(xué), 2012, 39(11A): 197-199.
[28] 張偉哲, 張宏莉, 許笑, 何慧. 分布式搜索引擎系統(tǒng)效能建模與評(píng)價(jià)[J]. 軟件學(xué)報(bào), 2012, 23(2): 253-265.
[29] 王繼民, 彭波. 搜索引擎用戶點(diǎn)擊行為分析[J]. 情報(bào)學(xué)報(bào), 2006, 25(2): 154-162.
[30] 劉奕群, 岑榮偉, 張敏, 茹立云, 馬少平. 基于用戶行為分析的搜索引擎自動(dòng)性能評(píng)價(jià)[J]. 軟件學(xué)報(bào), 2008, 19(11): 3023-3032.
[31] 余慧佳, 劉奕群, 張敏, 茹立云 ,馬少平. 基于大規(guī)模日志分析的搜索引擎用戶行為分析[J]. 中文信息學(xué)報(bào), 2007, 21(1): 109-114.
[32] 岑榮偉, 劉奕群, 張敏, 茹立云, 馬少平. 基于日志挖掘的搜索引擎用戶行為分析[J]. 中文信息學(xué)報(bào), 2010, 24(3): 49-54.
[33] Simon H A. On a class of skew distribution functions[J]. Biometrika, 1955, 42: 425-440.
[34] 姜志宏, 王暉, 高超. 一種基于隨機(jī)行走和策略連接的網(wǎng)絡(luò)演化模型[J]. 物理學(xué)報(bào), 2011, 60(5): 818-826.
Zipf’s Law and Webometrics
LIU Shengjiu1, LI Tianrui1, ZHU Jie1, 2
(1. School of Information Science and Technology, Southwest Jiaotong University, Chengdu, Sichuan 611756, China;2. Research Center of Tibetan Information Technology Department of Computer Science,Tibetan University, Tibetan, Lhasa 850000, China)
Zipf’s Law has been applied widely in many fields as an important rule in bibliometrics. Webometrics has received much attention with the accelerated explosion of network information nowadays. We suggest that Zipf’s Law may exist in webometrics in the distribution of search result. We select the public word set and conduct experiments on several popular search engines. The experimental results confirm that the numbers of search results roughly conform to Zipf’s Law. The Zipf’s index of the numbers of search results of Baidu and So is 0.003.
Zipf’s law; Zipf’s index; search engine; webometrics
劉勝久(1988—),博士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)等。E-mail:liushengjiu2008@163.com李天瑞(1969—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橹悄苄畔⑻幚?、?shù)據(jù)挖掘和云計(jì)算等。E-mail:trli@swjtu.edu.cn珠杰(1973—),博士研究生,副教授,主要研究領(lǐng)域?yàn)椴匚男畔⑻幚砑夹g(shù)、數(shù)據(jù)挖掘等。E-mail:790139756@qq.com
1003-0077(2015)04-0089-06
2013-05-05 定稿日期: 2013-10-28
國(guó)家自然基金(61175047,61262058,61152001);中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制重點(diǎn)實(shí)驗(yàn)室開放課題(20110102)
TP391
A