国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)頁瀏覽行為的分析

2012-03-22 02:20:46雪,
上海理工大學學報 2012年4期
關(guān)鍵詞:冪指數(shù)冪律高斯分布

米 雪, 張 寧

(上海理工大學管理學院,上海 200093)

探索人類各種行為的統(tǒng)計特性,是探索自然界、認知人類自身的一個重要方面,對于研究經(jīng)濟、心理和眾多社會學科有著重要的意義.在研究涉及人類行為特性的問題時,一個常常采用的傳統(tǒng)近似是,將人類的行為簡化為可以使用泊松過程描述的穩(wěn)態(tài)隨機過程.這種假設(shè)導致的一個結(jié)論是人的行為的時間統(tǒng)計特征是比較均勻的,兩個相繼行為之間的時間間隔的偏離其平均值很多的概率很小.但是,Barabási通過對用戶電子郵件和普通郵件的發(fā)送與回復(fù)行為的時間間隔的實際統(tǒng)計,展示了與此截然不同的特性:人類行為同時具有長時間的靜默與短期的高頻率爆發(fā),相鄰兩個事件的時間間隔分布存在滿足反比冪函數(shù)的胖尾特性.這些行為的統(tǒng)計特性不能用傳統(tǒng)的泊松過程進行描述,說明人類的個體行為可能存在復(fù)雜的動力學機制[1].

Barabási等的工作開創(chuàng)了人類動力學的新方向.盡管這個方向問世時間很短,但是由于其理論和應(yīng)用上的雙重價值,很快就吸引了國際上許多知名科學家的關(guān)注[2].隨即研究者對這一問題展開了極為廣泛的探索.Vazqueza[3]認為人類的記憶會對自身的行為產(chǎn)生巨大的影響,因此從人類記憶的角度解釋了通信模式中人類動力學的非泊松分布.除此之外,人類行為不僅僅是為了完成某些任務(wù),興趣愛好往往也是驅(qū)動人類行為的一個重要因素,如網(wǎng)頁瀏覽[4-8]、電影點播[9]、游戲[10]等人類行為,所以韓筱璞等[11]提出了一個基于可變興趣的人類動力學模型,并通過數(shù)值模擬和解析進行了研究,得到了指數(shù)為1的冪律分布形式的時間間隔分布.

互聯(lián)網(wǎng)為觀察了解和監(jiān)管人類社會行為的很多方面提供了途徑,特別是那種有著大量頻繁訪問的“老客戶”的網(wǎng)站.如果這些網(wǎng)站屬于公司或者大學的話,其使用模式能夠為人類群體工作習慣提供研究的信息.Dezso等[5]通過研究個體用戶的瀏覽模式和門戶網(wǎng)站上某個網(wǎng)頁訪問量之間的相互作用,發(fā)現(xiàn)新聞網(wǎng)頁的訪問量不依賴于其內(nèi)容,而主要取決于用戶的訪問和瀏覽模式,其訪問量表現(xiàn)出冪律衰退特點.Goncalves等[8]對用戶瀏覽網(wǎng)頁的日志做了一個基礎(chǔ)全面的實證分析,他認為線性優(yōu)先連接,基于優(yōu)先權(quán)的排隊以及用戶興趣的衰減是理解網(wǎng)頁瀏覽行為的關(guān)鍵.張寧[7]用復(fù)雜網(wǎng)絡(luò)的方法研究特定群體進行萬維網(wǎng)訪問的行為特征,得到了雖然群體用戶訪問萬維網(wǎng)的時間是隨機的,所訪問的網(wǎng)頁各有不同,但大部分人的興趣是一致的,群體興趣網(wǎng)絡(luò)的入度分布具有冪律特征,群體興趣圖譜基本穩(wěn)定,校園群體上網(wǎng)行為具有特定的時間規(guī)律性.本文分別從時間間隔和事件間隔兩個層面上研究了某高校的網(wǎng)頁瀏覽日志的規(guī)律,群體用戶訪問網(wǎng)頁的時間間隔和事件間隔服從冪律分布,所有單個用戶的活躍性也服從冪律分布,而且不論是群體用戶行為還是單個用戶行為,時間間隔的冪指數(shù)大于事件間隔的冪指數(shù).

1 數(shù)據(jù)來源與統(tǒng)計方法

研究的數(shù)據(jù)來自國內(nèi)某高校局域網(wǎng)內(nèi)師生訪問互聯(lián)網(wǎng)的記錄,時間跨度為半個月,從2009年11月26日凌晨0時開始到2009年12月09日凌晨23時59分59秒結(jié)束.

對于用戶瀏覽網(wǎng)頁的行為來說,最重要的問題是能否有效地判斷此過程是由人類發(fā)出的正常訪問過程.現(xiàn)實中很多因素可以引起頁面的發(fā)送請求,除了人類用戶的正常操作過程之外,還有如良性軟件和惡性軟件的自動更新過程,黑客的自動攻擊.大多數(shù)的自動更新過程都呈現(xiàn)出具有清晰頻率的規(guī)則動態(tài);蓄意攻擊的特點是:它們會產(chǎn)生巨大的訪問量并且這些訪問量會集中在很小的一個時間段內(nèi)爆發(fā).毫無疑問,這些非正常訪問會在實證分析中影響統(tǒng)計結(jié)果的準確性.所以文中將使用統(tǒng)計事件間隔的方法來過濾掉統(tǒng)計研究中的非正常訪問過程,并且對比事件間隔和時間間隔的統(tǒng)計結(jié)果,由此對用戶瀏覽網(wǎng)頁的行為進行分析.

統(tǒng)計中定義事件間隔為連續(xù)兩次訪問同一網(wǎng)站期間訪問其它網(wǎng)站的次數(shù)n,相應(yīng)的概率分布為P(n).時間間隔t為連續(xù)兩次訪問網(wǎng)頁的時間差,相應(yīng)的概率分布為P(t).統(tǒng)計表明該高校在觀測期內(nèi)一共訪問的主站數(shù)量為82 153個,平均每天的訪問用戶有2 631個,平均每天會發(fā)出1 510 381個訪問請求,較大的數(shù)據(jù)量足以反映真實的統(tǒng)計規(guī)律.

2 網(wǎng)頁瀏覽的行為分析

2.1 群體用戶訪問網(wǎng)頁的時間間隔分布和事件間隔分布

這里所說的群體用戶指的是將所有用戶看成一個整體,即在不對用戶的IP進行過濾的情況下,考察所有用戶瀏覽網(wǎng)頁的時間間隔和事件間隔分布.統(tǒng)計結(jié)果如圖1所示,該分布在雙對數(shù)坐標下呈現(xiàn)出冪函數(shù)的特點,冪指數(shù)分別為

從時間間隔方面來說,隨著生活節(jié)奏的加快,互聯(lián)網(wǎng)為人類的生活和學習帶來極大的便利,在日常生活和工作中人們常常需要頻繁地訪問互聯(lián)網(wǎng),所以對于群體用戶來說,大多數(shù)的時間間隔都很短,只有晚上休息的時候才會有比較長的時間間隔,這種時間間隔的極度不均勻性造成了冪律分布的形成.從事件間隔方面來說,這里統(tǒng)計得到的事件個數(shù)實際上就是群體用戶訪問所有網(wǎng)站的個數(shù).由于各種網(wǎng)站的功能不同,所以人們?yōu)g覽各種網(wǎng)頁的概率也不同.如對自己感興趣的網(wǎng)站,一天可能要瀏覽多次,高頻率的訪問必然使得其間訪問其它網(wǎng)站的次數(shù)減少;而有些跟自己生活不相關(guān)的網(wǎng)站,可能很久才瀏覽一次.這種事件間隔的不均勻性也造成了冪律分布的形成.

2.2 所有單個用戶的活躍性分布

文獻[9]是眾多關(guān)于網(wǎng)絡(luò)應(yīng)用研究中極具代表性的一項研究成果.筆者對某在線電影點播網(wǎng)站的歷史記錄進行了研究,提出了“活躍性a”概念,相應(yīng)的概率分布為P(a).本文也對活躍性進行了實證研究,活躍性定義為用戶在一天中平均點擊的網(wǎng)頁數(shù),用戶的平均活躍性

圖1 群體用戶訪問網(wǎng)頁的時間間隔分布及事件間隔分布Fig.1 The exponents of time interval and event intervals distributions of web-browsing behaviors based on collective aspects

盡管開始就預(yù)測活躍性本身存在著非平凡的分布,但從實證數(shù)據(jù)中觀察到的冪律關(guān)系還是讓人們感到意外.圖2給出了所有單個用戶的活躍性分布,冪指數(shù)為s=1.68,這與高校的實際生活中的經(jīng)驗相符:多數(shù)的學生主要以學業(yè)為主,只是偶爾上網(wǎng)娛樂一下或者查閱資料;而少數(shù)的學生以搞科研為主,生活學習中離不開電腦,所以上網(wǎng)的活躍性必然比較大.

2.3 冪指數(shù)與活躍性的關(guān)系

為了挖掘活躍性在人類的網(wǎng)頁瀏覽模式中扮演的角色,將所有用戶按照其活躍程度遞增進行排序,然后將這些排序后的用戶分為20組,每個組包含幾乎相同數(shù)目的用戶.然后對這20組分別進行時間間隔統(tǒng)計和事件間隔統(tǒng)計,并且研究它們的冪指數(shù)和活躍性的關(guān)系后發(fā)現(xiàn):所有的20組的時間間隔分布和事件間隔分布都滿足冪函數(shù)律,并且兩種統(tǒng)計方法中的冪指數(shù)各不相同;時間間隔和事件間隔的冪指數(shù)與活躍性都成正相關(guān)性.

圖2 所有單個用戶的活躍性分布Fig 2 The exponents of activity distributions of web-browsing behaviors based on all singles aspects

圖3(a)為時間間隔的冪指數(shù)與活躍性的關(guān)系,對其進行曲線擬合發(fā)現(xiàn)該分布服從冪律分布,擬合的冪律分布的函數(shù)為y=1.037x0.131,擬合指數(shù)R2=0.992;圖3(b)是事件間隔的冪指數(shù)與活躍性的關(guān)系,對其進行曲線擬合分析發(fā)現(xiàn)該擬合結(jié)果服從高斯分布,而不是時間間隔層面中的冪律分布,擬合的高斯分布函數(shù)為,擬合指數(shù)R2=0.992.

圖3 冪指數(shù)與活躍性的關(guān)系Fig.3 The relation between power-law exponent and activity

2.4 單個用戶冪指數(shù)分布

為了顧及到每個用戶瀏覽模式的冪指數(shù)的不同,本文研究了不同個體的瀏覽模式并發(fā)現(xiàn)單個用戶的時間間隔分布和事件間隔分布均服從冪律分布,其冪指數(shù)的個體人數(shù)c均服從高斯分布.平均冪指數(shù)分別是擬合的高斯分布函數(shù)分別為y=

從圖1中,不難發(fā)現(xiàn)群體用戶訪問網(wǎng)頁的時間間隔分布的冪指數(shù)大于事件間隔分布的冪指數(shù),而在圖4中顯示,單個用戶時間間隔的冪指數(shù)分布的平均指數(shù)也大于單個用戶事件間隔的冪指數(shù)分布的平均指數(shù),并且后者的分布比前者的也要集中.

圖4 單個用戶時間間隔和事件間隔的冪指數(shù)分布Fig.4 The time interval distribution is a power law with exponent following a Gaussian distribution,so as the event interval distribution

3 結(jié) 論

關(guān)于網(wǎng)頁瀏覽的人類行為分析已經(jīng)有很多專家學者從不同角度進行了分析研究,本文是利用高校訪問互聯(lián)網(wǎng)的歷史記錄數(shù)據(jù),從時間間隔和事件間隔兩個層面對群體用戶和單個用戶進行了分析.實證表明,群體用戶訪問網(wǎng)頁的時間間隔和事件間隔都服從冪律分布,所有單個用戶的活躍性也是服從冪律分布的,而且不論是群體用戶行為還是單個用戶行為,時間間隔的冪指數(shù)大于事件間隔的冪指數(shù);時間間隔的冪指數(shù)與活躍性服從冪律分布,而事件間隔的冪指數(shù)與活躍性服從高斯分布;單個用戶時間間隔和事件間隔的冪指數(shù)都是服從高斯分布的.

互聯(lián)網(wǎng)的發(fā)展極大的促進了信息的交流和溝通,網(wǎng)頁瀏覽已經(jīng)成為了人們了解社會動態(tài)的一種重要的途徑,因此,通過網(wǎng)頁瀏覽模式對人類行為規(guī)律的研究,在資源有限的條件下,通過最為恰當?shù)姆绞?,讓人人都公平地享有信息資源是非常有必要的.

致謝:感謝中國科技大學韓筱璞和上海理工大學樊超參與的有益討論.

[1] 汪秉宏,韓筱璞.人類行為的動力學與統(tǒng)計力學研究[J].物理,2010,39(1):28-37.

[2] 李楠楠,周濤,張寧.人類動力學基本概念與實證分析[J].復(fù)雜系統(tǒng)與復(fù)雜性科學,2008,5(2):15-24.

[3] Vazquez A.Impact of memory on human dynamics[J].Physica A,2007,373:747.

[4] Racz B,Lukacs A.High density compression of log files[DB/OL].[2009-11-10].http://csd12.computer.org/comp/pro2ceedings/dcc/2004/2082/00/20820557.pdf.

[5] Dezso Z,Almaas E,Lukacs A,et al.Dynamics of information access on the web[J].Physical Review E,2006,73(6):066132.

[6] 趙庚生,張寧.人類行為的動力學模型[M].香港:上海系統(tǒng)科學出版社,2008:47-53.

[7] 張寧.群體興趣網(wǎng)的統(tǒng)計特性研究[J].上海理工大學學報,2008,30(3):243-248.

[8] Goncalves B,Ramasco J J.Human dynamics revealed through Web analytics[J].Physical Review E,2008,78(2):026123.

[9] Zhou T,Kiet H A T,Kim B J,et al.Role of activity in human dynamics[J].Europhysics Letters,2008,82(2):28002.

[10] Henderson T,Nhatti S.Modeling user behavior in networked games[C]//Proc 9th ACM International Conference on Multimedia.New York:ACM Press,2001:212.

[11] Han X P,Zhou T,Wang B H.Modeling human dynamics with adaptive interest[J].New Journal of Physics,2008,10(7):073010.

猜你喜歡
冪指數(shù)冪律高斯分布
源于學生試題疑問的數(shù)學建模例談
部分相干冪指數(shù)相位渦旋光束的傳輸特性研究*
物理學報(2022年1期)2022-01-19 04:44:04
利用Box-Cox變換對移動通信中小區(qū)級業(yè)務(wù)流量分布的研究
2種非對稱廣義高斯分布模型的構(gòu)造
基于逼近理想點冪指數(shù)評估的防空導彈型譜分析與研究
一種基于改進混合高斯模型的前景檢測
一類度互質(zhì)的無標度網(wǎng)絡(luò)研究
考試周刊(2016年99期)2016-12-26 10:54:30
四川地區(qū)降水冪律指數(shù)研究
冪律流底泥的質(zhì)量輸移和流場
對抗冪律
道真| 蓝山县| 延安市| 盐池县| 互助| 囊谦县| 邵武市| 青海省| 勐海县| 本溪市| 马尔康县| 怀来县| 凤庆县| 沁水县| 五大连池市| 台中县| 阳曲县| 曲沃县| 灵武市| 肃北| 中阳县| 新乐市| 马公市| 宁强县| 桃源县| 博爱县| 顺义区| 台中县| 济阳县| 图木舒克市| 怀安县| 邵阳县| 同江市| 鹿泉市| 荆门市| 海原县| 建阳市| 上思县| 汶川县| 岚皋县| 南丹县|