米 雪, 張 寧
(上海理工大學管理學院,上海 200093)
探索人類各種行為的統(tǒng)計特性,是探索自然界、認知人類自身的一個重要方面,對于研究經(jīng)濟、心理和眾多社會學科有著重要的意義.在研究涉及人類行為特性的問題時,一個常常采用的傳統(tǒng)近似是,將人類的行為簡化為可以使用泊松過程描述的穩(wěn)態(tài)隨機過程.這種假設(shè)導致的一個結(jié)論是人的行為的時間統(tǒng)計特征是比較均勻的,兩個相繼行為之間的時間間隔的偏離其平均值很多的概率很小.但是,Barabási通過對用戶電子郵件和普通郵件的發(fā)送與回復(fù)行為的時間間隔的實際統(tǒng)計,展示了與此截然不同的特性:人類行為同時具有長時間的靜默與短期的高頻率爆發(fā),相鄰兩個事件的時間間隔分布存在滿足反比冪函數(shù)的胖尾特性.這些行為的統(tǒng)計特性不能用傳統(tǒng)的泊松過程進行描述,說明人類的個體行為可能存在復(fù)雜的動力學機制[1].
Barabási等的工作開創(chuàng)了人類動力學的新方向.盡管這個方向問世時間很短,但是由于其理論和應(yīng)用上的雙重價值,很快就吸引了國際上許多知名科學家的關(guān)注[2].隨即研究者對這一問題展開了極為廣泛的探索.Vazqueza[3]認為人類的記憶會對自身的行為產(chǎn)生巨大的影響,因此從人類記憶的角度解釋了通信模式中人類動力學的非泊松分布.除此之外,人類行為不僅僅是為了完成某些任務(wù),興趣愛好往往也是驅(qū)動人類行為的一個重要因素,如網(wǎng)頁瀏覽[4-8]、電影點播[9]、游戲[10]等人類行為,所以韓筱璞等[11]提出了一個基于可變興趣的人類動力學模型,并通過數(shù)值模擬和解析進行了研究,得到了指數(shù)為1的冪律分布形式的時間間隔分布.
互聯(lián)網(wǎng)為觀察了解和監(jiān)管人類社會行為的很多方面提供了途徑,特別是那種有著大量頻繁訪問的“老客戶”的網(wǎng)站.如果這些網(wǎng)站屬于公司或者大學的話,其使用模式能夠為人類群體工作習慣提供研究的信息.Dezso等[5]通過研究個體用戶的瀏覽模式和門戶網(wǎng)站上某個網(wǎng)頁訪問量之間的相互作用,發(fā)現(xiàn)新聞網(wǎng)頁的訪問量不依賴于其內(nèi)容,而主要取決于用戶的訪問和瀏覽模式,其訪問量表現(xiàn)出冪律衰退特點.Goncalves等[8]對用戶瀏覽網(wǎng)頁的日志做了一個基礎(chǔ)全面的實證分析,他認為線性優(yōu)先連接,基于優(yōu)先權(quán)的排隊以及用戶興趣的衰減是理解網(wǎng)頁瀏覽行為的關(guān)鍵.張寧[7]用復(fù)雜網(wǎng)絡(luò)的方法研究特定群體進行萬維網(wǎng)訪問的行為特征,得到了雖然群體用戶訪問萬維網(wǎng)的時間是隨機的,所訪問的網(wǎng)頁各有不同,但大部分人的興趣是一致的,群體興趣網(wǎng)絡(luò)的入度分布具有冪律特征,群體興趣圖譜基本穩(wěn)定,校園群體上網(wǎng)行為具有特定的時間規(guī)律性.本文分別從時間間隔和事件間隔兩個層面上研究了某高校的網(wǎng)頁瀏覽日志的規(guī)律,群體用戶訪問網(wǎng)頁的時間間隔和事件間隔服從冪律分布,所有單個用戶的活躍性也服從冪律分布,而且不論是群體用戶行為還是單個用戶行為,時間間隔的冪指數(shù)大于事件間隔的冪指數(shù).
研究的數(shù)據(jù)來自國內(nèi)某高校局域網(wǎng)內(nèi)師生訪問互聯(lián)網(wǎng)的記錄,時間跨度為半個月,從2009年11月26日凌晨0時開始到2009年12月09日凌晨23時59分59秒結(jié)束.
對于用戶瀏覽網(wǎng)頁的行為來說,最重要的問題是能否有效地判斷此過程是由人類發(fā)出的正常訪問過程.現(xiàn)實中很多因素可以引起頁面的發(fā)送請求,除了人類用戶的正常操作過程之外,還有如良性軟件和惡性軟件的自動更新過程,黑客的自動攻擊.大多數(shù)的自動更新過程都呈現(xiàn)出具有清晰頻率的規(guī)則動態(tài);蓄意攻擊的特點是:它們會產(chǎn)生巨大的訪問量并且這些訪問量會集中在很小的一個時間段內(nèi)爆發(fā).毫無疑問,這些非正常訪問會在實證分析中影響統(tǒng)計結(jié)果的準確性.所以文中將使用統(tǒng)計事件間隔的方法來過濾掉統(tǒng)計研究中的非正常訪問過程,并且對比事件間隔和時間間隔的統(tǒng)計結(jié)果,由此對用戶瀏覽網(wǎng)頁的行為進行分析.
統(tǒng)計中定義事件間隔為連續(xù)兩次訪問同一網(wǎng)站期間訪問其它網(wǎng)站的次數(shù)n,相應(yīng)的概率分布為P(n).時間間隔t為連續(xù)兩次訪問網(wǎng)頁的時間差,相應(yīng)的概率分布為P(t).統(tǒng)計表明該高校在觀測期內(nèi)一共訪問的主站數(shù)量為82 153個,平均每天的訪問用戶有2 631個,平均每天會發(fā)出1 510 381個訪問請求,較大的數(shù)據(jù)量足以反映真實的統(tǒng)計規(guī)律.
這里所說的群體用戶指的是將所有用戶看成一個整體,即在不對用戶的IP進行過濾的情況下,考察所有用戶瀏覽網(wǎng)頁的時間間隔和事件間隔分布.統(tǒng)計結(jié)果如圖1所示,該分布在雙對數(shù)坐標下呈現(xiàn)出冪函數(shù)的特點,冪指數(shù)分別為
從時間間隔方面來說,隨著生活節(jié)奏的加快,互聯(lián)網(wǎng)為人類的生活和學習帶來極大的便利,在日常生活和工作中人們常常需要頻繁地訪問互聯(lián)網(wǎng),所以對于群體用戶來說,大多數(shù)的時間間隔都很短,只有晚上休息的時候才會有比較長的時間間隔,這種時間間隔的極度不均勻性造成了冪律分布的形成.從事件間隔方面來說,這里統(tǒng)計得到的事件個數(shù)實際上就是群體用戶訪問所有網(wǎng)站的個數(shù).由于各種網(wǎng)站的功能不同,所以人們?yōu)g覽各種網(wǎng)頁的概率也不同.如對自己感興趣的網(wǎng)站,一天可能要瀏覽多次,高頻率的訪問必然使得其間訪問其它網(wǎng)站的次數(shù)減少;而有些跟自己生活不相關(guān)的網(wǎng)站,可能很久才瀏覽一次.這種事件間隔的不均勻性也造成了冪律分布的形成.
文獻[9]是眾多關(guān)于網(wǎng)絡(luò)應(yīng)用研究中極具代表性的一項研究成果.筆者對某在線電影點播網(wǎng)站的歷史記錄進行了研究,提出了“活躍性a”概念,相應(yīng)的概率分布為P(a).本文也對活躍性進行了實證研究,活躍性定義為用戶在一天中平均點擊的網(wǎng)頁數(shù),用戶的平均活躍性
圖1 群體用戶訪問網(wǎng)頁的時間間隔分布及事件間隔分布Fig.1 The exponents of time interval and event intervals distributions of web-browsing behaviors based on collective aspects
盡管開始就預(yù)測活躍性本身存在著非平凡的分布,但從實證數(shù)據(jù)中觀察到的冪律關(guān)系還是讓人們感到意外.圖2給出了所有單個用戶的活躍性分布,冪指數(shù)為s=1.68,這與高校的實際生活中的經(jīng)驗相符:多數(shù)的學生主要以學業(yè)為主,只是偶爾上網(wǎng)娛樂一下或者查閱資料;而少數(shù)的學生以搞科研為主,生活學習中離不開電腦,所以上網(wǎng)的活躍性必然比較大.
為了挖掘活躍性在人類的網(wǎng)頁瀏覽模式中扮演的角色,將所有用戶按照其活躍程度遞增進行排序,然后將這些排序后的用戶分為20組,每個組包含幾乎相同數(shù)目的用戶.然后對這20組分別進行時間間隔統(tǒng)計和事件間隔統(tǒng)計,并且研究它們的冪指數(shù)和活躍性的關(guān)系后發(fā)現(xiàn):所有的20組的時間間隔分布和事件間隔分布都滿足冪函數(shù)律,并且兩種統(tǒng)計方法中的冪指數(shù)各不相同;時間間隔和事件間隔的冪指數(shù)與活躍性都成正相關(guān)性.
圖2 所有單個用戶的活躍性分布Fig 2 The exponents of activity distributions of web-browsing behaviors based on all singles aspects
圖3(a)為時間間隔的冪指數(shù)與活躍性的關(guān)系,對其進行曲線擬合發(fā)現(xiàn)該分布服從冪律分布,擬合的冪律分布的函數(shù)為y=1.037x0.131,擬合指數(shù)R2=0.992;圖3(b)是事件間隔的冪指數(shù)與活躍性的關(guān)系,對其進行曲線擬合分析發(fā)現(xiàn)該擬合結(jié)果服從高斯分布,而不是時間間隔層面中的冪律分布,擬合的高斯分布函數(shù)為,擬合指數(shù)R2=0.992.
圖3 冪指數(shù)與活躍性的關(guān)系Fig.3 The relation between power-law exponent and activity
為了顧及到每個用戶瀏覽模式的冪指數(shù)的不同,本文研究了不同個體的瀏覽模式并發(fā)現(xiàn)單個用戶的時間間隔分布和事件間隔分布均服從冪律分布,其冪指數(shù)的個體人數(shù)c均服從高斯分布.平均冪指數(shù)分別是擬合的高斯分布函數(shù)分別為y=
從圖1中,不難發(fā)現(xiàn)群體用戶訪問網(wǎng)頁的時間間隔分布的冪指數(shù)大于事件間隔分布的冪指數(shù),而在圖4中顯示,單個用戶時間間隔的冪指數(shù)分布的平均指數(shù)也大于單個用戶事件間隔的冪指數(shù)分布的平均指數(shù),并且后者的分布比前者的也要集中.
圖4 單個用戶時間間隔和事件間隔的冪指數(shù)分布Fig.4 The time interval distribution is a power law with exponent following a Gaussian distribution,so as the event interval distribution
關(guān)于網(wǎng)頁瀏覽的人類行為分析已經(jīng)有很多專家學者從不同角度進行了分析研究,本文是利用高校訪問互聯(lián)網(wǎng)的歷史記錄數(shù)據(jù),從時間間隔和事件間隔兩個層面對群體用戶和單個用戶進行了分析.實證表明,群體用戶訪問網(wǎng)頁的時間間隔和事件間隔都服從冪律分布,所有單個用戶的活躍性也是服從冪律分布的,而且不論是群體用戶行為還是單個用戶行為,時間間隔的冪指數(shù)大于事件間隔的冪指數(shù);時間間隔的冪指數(shù)與活躍性服從冪律分布,而事件間隔的冪指數(shù)與活躍性服從高斯分布;單個用戶時間間隔和事件間隔的冪指數(shù)都是服從高斯分布的.
互聯(lián)網(wǎng)的發(fā)展極大的促進了信息的交流和溝通,網(wǎng)頁瀏覽已經(jīng)成為了人們了解社會動態(tài)的一種重要的途徑,因此,通過網(wǎng)頁瀏覽模式對人類行為規(guī)律的研究,在資源有限的條件下,通過最為恰當?shù)姆绞?,讓人人都公平地享有信息資源是非常有必要的.
致謝:感謝中國科技大學韓筱璞和上海理工大學樊超參與的有益討論.
[1] 汪秉宏,韓筱璞.人類行為的動力學與統(tǒng)計力學研究[J].物理,2010,39(1):28-37.
[2] 李楠楠,周濤,張寧.人類動力學基本概念與實證分析[J].復(fù)雜系統(tǒng)與復(fù)雜性科學,2008,5(2):15-24.
[3] Vazquez A.Impact of memory on human dynamics[J].Physica A,2007,373:747.
[4] Racz B,Lukacs A.High density compression of log files[DB/OL].[2009-11-10].http://csd12.computer.org/comp/pro2ceedings/dcc/2004/2082/00/20820557.pdf.
[5] Dezso Z,Almaas E,Lukacs A,et al.Dynamics of information access on the web[J].Physical Review E,2006,73(6):066132.
[6] 趙庚生,張寧.人類行為的動力學模型[M].香港:上海系統(tǒng)科學出版社,2008:47-53.
[7] 張寧.群體興趣網(wǎng)的統(tǒng)計特性研究[J].上海理工大學學報,2008,30(3):243-248.
[8] Goncalves B,Ramasco J J.Human dynamics revealed through Web analytics[J].Physical Review E,2008,78(2):026123.
[9] Zhou T,Kiet H A T,Kim B J,et al.Role of activity in human dynamics[J].Europhysics Letters,2008,82(2):28002.
[10] Henderson T,Nhatti S.Modeling user behavior in networked games[C]//Proc 9th ACM International Conference on Multimedia.New York:ACM Press,2001:212.
[11] Han X P,Zhou T,Wang B H.Modeling human dynamics with adaptive interest[J].New Journal of Physics,2008,10(7):073010.