国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

博客好友互動行為相似性研究

2014-07-07 01:48趙長寬李封徐彬張昱
計算機工程與應用 2014年6期
關鍵詞:密友博文相似性

趙長寬,李封,徐彬,張昱

東北大學計算中心,沈陽 110819

◎博士論壇◎

博客好友互動行為相似性研究

趙長寬,李封,徐彬,張昱

東北大學計算中心,沈陽 110819

朋友關系是構成社會網絡的關鍵要素之一。朋友關系的不斷變化,推動網絡的發(fā)展。同時信息在朋友互動中得以廣泛傳播。用戶依托其個體特質及其所在網絡關系,開展豐富的網絡行為,通過彼此互動,促進朋友關系的發(fā)展。鑒于頻繁互動是朋友關系的重要特征之一,提出朋友在線互動行為之間具有較高的相似性假設,并遵循互惠機制。從行為的時間特性分析入手,提出用戶互動行為相似性計算模型。利用博客的歷史數(shù)據(jù),分析發(fā)表、共享、評論、留言等互動行為,并對互動行為相似度模型進行驗證。

網絡行為;互動;相似度;朋友關系;博客

1 引言

在博客、微博等社會網絡中,朋友紐帶是構成網絡邊的一種重要社會關系。社會學意義上的朋友關系,界定相對模糊。從表象上來說,既有“朝夕相處”密友,亦有“天涯若比鄰”摯友。大規(guī)模在線社會網絡出現(xiàn)后,人類的交互行為得以有效記錄,從而為定量分析社會網絡中的朋友關系提供了數(shù)據(jù)基礎[1]。但是在線社會網絡中的朋友關系表象相對簡單,例如在博客中,通過其博客好友列表,即可確認其朋友關系。并且朋友的建立也相對容易,通過“添加好友”即可完成。但是此類關系如何建立,是否反應真實社會中的朋友關系,是需要深入研究的一個問題。另外,通過觀察博客和微博中的朋友關系,發(fā)現(xiàn)大量朋友關系處于“沉寂”狀態(tài),朋友之間很少或根本沒有互動。對于信息傳播、社區(qū)發(fā)現(xiàn)等研究來說,這類朋友關系沒有意義,因此需要提出合理的方法挖掘真實的朋友關系。

中國傳統(tǒng)哲學思想認為“同聲相應,同氣相求是朋友關系的重要特征,朋友間需要通過積極的互動,才能維系和促進朋友關系的發(fā)展。因此本文重點從互動行為角度研究社會網絡中的朋友關系。

與Jones以Facebook為研究對象[2]不同,本文以博客為研究對象,利用快照數(shù)據(jù),觀察用戶在一定時期內的互動行為,包括發(fā)文、留言、共享、推薦等,分析朋友之間的互動行為及其特點。Facebook的特點是注重交流和互動,用戶發(fā)表的內容簡短,且時效性強,不足在于每次交流所表達思想相對單一,且不完備。博客的博文內容豐富,是用戶深思熟慮的結果,表達的思想更加成熟和完備,但是存在時效性較差和互動性弱的不足。

本文主要貢獻包括在:(1)分析在線網絡中用戶行為特點,提出博客中朋友間互動行為相似性模型;(2)對博客中的典型互動行為進行了分析,提出了互動行為相似計算方法;(3)基于博客的歷史網絡數(shù)據(jù)快照對互動行為相似性模型進行驗證,并應用于博客中好友及密友的發(fā)現(xiàn)。

2 相關研究

目前,社會網絡中朋友關系研究主要集中于關系預測方面。重點從聚類、同質性、互惠性角度進行研究[3]。聚類研究重點從結構角度分析兩個節(jié)點建立關系的可能性,認為具有共享公共鄰居的節(jié)點建立鏈接的可能性較大[4]。Kossinets與Watts通過在校大學生的社會網絡研究,提出“具有公共熟人的兩個同學成為熟人的可能性較大”[5]。Yin通過分析推特網絡數(shù)據(jù),進一步提出“Twitter網絡中90%的新鏈接發(fā)生具有至少有一個公共鄰居的節(jié)點間”[6]。而McPherson則強調同質性的作用,提出“人們傾向與自己個人特質和經歷相似的人交往”[7],通過大學的熟人網絡[5]、中學的朋友網絡[8],以及Facebook中的大學生群體關系[9],進一步說明種族、音樂和影視品味、年齡、地理位置、語言和經歷對社會網絡關系的建立具有重要作用。Garlaschelli等則認為用戶傾向與鏈接自己的用戶建立聯(lián)系,從而提出網絡關系建立中的互惠機制[10]。一般來說,聚類機制要強于同質性機制[11],而在類Facebook和Flickr在線網絡中,互惠機制更加重要[3]。當前關系預測研究關注于從網絡靜態(tài)結構和屬性的相似性分析,預測朋友關系的建立,而未分析網絡的動態(tài)特性,即對用戶間互動行為對朋友關系的影響。

在社會網絡中,朋友關系建立是用戶互動行為的結果,并通過頻繁交互促進朋友關系發(fā)展,并以此傳遞信息。頻繁互動行為是朋友關系的重要特征,互動行為頻率相對用戶屬性更加重要[12]?;有袨橄嗷バ匝芯?,近來才有少量的報道,例如電話網絡中互致電話[13],Twitter用戶的“互推”[14]等。Thurner分析了多用戶多角色在線游戲(MMOG)中的用戶行為特性,Jing-Kai分析此類游戲中,用戶性別交換及其對用戶行為統(tǒng)計結果的關系[15]。雖然對于用戶個體的行為時間特性研究開始獲得部分學者的關注,但是針對互動行為的時間特性和行為相似性,未見相關的報道。

3 問題描述

在社會網絡G=(V,E)中的兩個用戶u和v,若兩者是朋友關系,則存在邊(u,v)∈E。假設G支持的行為集合B={b1,b2,…,bm},則用戶u對好友v互動行為bi的時間函數(shù)βi(u,v,bi,t)可以表示為:

依據(jù)“同聲相應,同氣相求”的朋友關系論述,從互動行為的時間特性相似性角度給出好友定義。

定義1若用戶u和v的互動行為時間特性相似度大于閾值δ,即滿足公式(2),則稱兩者為好友。

在當前條件下,用戶處在傳統(tǒng)意義上的社會網絡和在線社會網絡兩個網絡中,需要在兩個網絡之間進行不斷切換,并找到合適的時間點,登錄社會網絡,處理網絡中的各種事務,因此在線社會網絡中的用戶行為均以其在線為前提。假設用戶在線狀態(tài)O的時間函數(shù)ο(u,t),則滿足公式(3):

其中Gt為G在時刻t的快照。

當用戶在線時,依據(jù)自身狀態(tài),例如教育背景、喜好、經驗等,對所見信息作出的反應。假設用戶u根據(jù)自身狀態(tài)對朋友v作出行為的時間函數(shù)ρi(u,v,bi,t),則滿足公式(4):

綜上所述,用戶u對朋友v行為bi的時間函數(shù)可以用公式(6)計算。

基于互惠機制假設,好友之間個人特質對用戶之間互動行為影響將非常小。例如,在博客中,無論用戶是否對朋友的博文感興趣,均會積極評論或推薦。因此基于互動行為時間特性提出用戶相似度計算規(guī)則,即滿足公式(7),則認為兩者是好友關系。

由于僅當用戶在線時,才能處理開展在線的互動行為,而用戶在線時間是隨機的,從微觀粒度上分析,很難保證兩者的相似性,因此如何計算互動行為的相似性成為一個關鍵的問題。

4 博客用戶互動行為

不同在線社會網絡所提供的用戶行為集合差異較大。在微博中,提供了發(fā)表、閱讀、評論、轉發(fā)、關注等行為。而在博客中則提供了發(fā)表、分享(轉發(fā))、評論、推薦、閱讀(訪問)、筆記(或稱為“記錄”)、加群組,并支持打招呼、發(fā)消息、留言、加關注和加好友等輔助行為。

為了分析用戶互動行為之間的相似性,本文選取博客歷史快照數(shù)據(jù)為研究對象。在博客中用戶行為可以大致分為如下三類:

(1)增強魅力:發(fā)表、記錄、加群。

(2)直接交往:打招呼、發(fā)消息、留言、加關注和加好友。

(3)增進友誼:分享、評論、推薦、訪問。

由于記錄和加入群組行為相對較少,不能反映彼此的互動行為特征。因此本文分析中,不考慮記錄、加群組行為。另外根據(jù)文獻[2]的研究結果,留言作為一種公開的互動行為,與打招呼、發(fā)消息等私下互動行為相比,對朋友關系的貢獻相當,因此在本文中,也不考慮打招呼、發(fā)消息等行為。由于朋友關系預測不是本研究重點,因此也不考慮加關注和加好友等行為。訪問作為分享、評論、推薦等行為的前置動作,并且匿名訪問無法記錄,因此也不考慮。本文重點關注的用戶行為如表1所示。

表1 典型博客用戶互動行為

4.1 相似度計算

假設兩位用戶的行為函數(shù)φ(x,t)和γ(x,t),在時間段[ta,tb]上,均勻地選取n個離散點,分別計算其函數(shù)值。

當n足夠大時,即當n=n*時,在時間段[ta,tb]上,兩個函數(shù)的相似性可以通過公式(8)計算。

假設在時間段[ta,tb]上,進一步將時間段[ta,tb]均勻劃分為z個區(qū)間,且z≤n*。在區(qū)間[ta+(k-1)·q,ta+k·q]上,分別計算:

當z足夠大時,即z=z*,在時間段[ta,tb]內的時間點T=(t1,t2,…,tz)上觀察函數(shù)φ(x,t)和γ(x,t),統(tǒng)計時間片tk-tk-1內用戶行為總數(shù)。從而獲得用戶行為的統(tǒng)計結果序列X={xk|k=1,2,…,z*}和Y={yk|k=1,2,…,z*}。用戶行為φ(x,t)和γ(x,t)的相似性,可以通過公式(10)計算近似結果:

采用上述近似計算,z*選擇的一個難點,其值過小,將掩蓋函數(shù)豐富的細節(jié)特征;其值過大,則不利于提取函數(shù)局部整體特征。

由于在博客中,用戶撰寫博文、閱讀、評論博文都需要相對較長的時間,并且需要用戶登錄到網絡中才能進行操作,受制網絡接入條件的限制。因此取樣周期的選擇上,確定以周為單位。

由于余弦相似廣泛應用于向量的相似性計算,因此本研究中,采用此方法計算方面行為函數(shù)的相似計算,計算公式如式(11)所示,其中Xi和Yi分別為用戶u和v完成的行為bi的統(tǒng)計結果。

在博客中,用戶會作出多種行為,這些行為作為用戶當前意志的表現(xiàn),是用戶當前狀態(tài)的真實反映。為了更好地評估用戶之間的行為相似度問題,給出了多種行為的相似度定義及其計算公式。

定義2假設社會網絡中支持多種行為Β={b1,b2,…,bm},則用戶u、v的多行為相似度是各種類行為相似度之和。

多行為相似度計算如公式(12)所示,交叉計算各類行為的相似度,并求和:

4.2 互動行為相似度計算

在博客中,用戶通過“發(fā)表”行為確立在群組中地位,因此其花費在發(fā)表行為上投入的精力和時間最大。撰寫博文的時間要遠大于轉發(fā)、評論、推薦和留言等行為所花費時間,因此,可以近似認為發(fā)表博文的時間即為用戶在線時間。用戶行為的時間特性基于4.1節(jié)的相似性計算規(guī)則,用戶u發(fā)表博文行為b1的時間特性,可以通過在離散的時間點T=(t1,t2,…,tz)上觀測獲得,假設結果為X1={x|k=1,2,…,z}。同時,觀察到用戶v實施行為b1的統(tǒng)計結果為Y1={y|k=1,2,…,z},則用戶u和用戶v在線時間的相似性可以通過公式(13)計算:

假設用戶在時間片[ta,ta+ε]上,用戶的轉發(fā)、評論、推薦和留言等互動行為彼此相互獨立,并且用戶與其所有朋友之間的行為相互獨立。由于用戶行為,取決于用戶在線時間,因此需要深入分析用戶在線時間對用戶互動行為時間特性的影響。

由于用戶發(fā)表博文的時間遠大于其他互動行為,可以推論,若在[tb,tb+ε]上用戶v發(fā)表了博文,即可認為其有足夠的時間對好友u的互動行為進行回應。由于用戶針對一篇博文的分享、推薦、評論、留言行為一般不超過一次,因此可以認為除發(fā)表博文之外的互動行為數(shù)量不超過其好友在臨近時間片上發(fā)表的博文數(shù)量。

按照互惠原則,用戶之間互動行為的評估,不能以彼此互動行為的多少和分布評估,而應當考慮用戶對朋友所作出的評論、轉發(fā)等互動行為數(shù)量與朋友發(fā)表博文數(shù)量的比例來度量用戶對朋友關系的投入,并以此作為互惠機制的度量基礎。

基于上述思想,建立用戶互動行為對朋友關系的評估計算模型。假設b1為發(fā)表博文行為,在離散的時間點T=(t1,t2,…,tz)上,用戶u對好友v采取的互動行為集合Β={b2,b3,…,bm},其中行為bi統(tǒng)計結果為{|k=1,2,…,z},i∈[2,m]。作為回應,好友v對好友u采取的互動行為bi統(tǒng)計結果為{|k=1,2,…,z},i∈[2,m]。由于用戶u對好友v實施評論、推薦等行為的數(shù)量一般不超過用戶v發(fā)表博文的數(shù)量。因此用戶u對好友v采取互動行為bi對朋友關系的投入,可以通過公式(14)計算:

基于上述互動行為相似度計算模型,提出相應的計算方法如下:

算法1互動行為相似度計算

輸入用戶交互行為記錄{(uid,vid,bi,time-stamp)},其中uid、vid分別為用戶u和v的ID,交互行為集合bi∈B,timestamp為時間戳;時間段[ta,tb],取樣時間ε。

輸出用戶交互行為相似度s(uid,vid,bi)。

1.s=0

2.用ε分割[ta,tb],計算T=(t1,t2,…,tz)

3.for k=1 to z

3.1計算[ti,ti+1]上用戶u對v采取行為bi的次數(shù)

3.2計算[ti,ti+1]上用戶v對u采取行為bi的次數(shù)

4.for k=2 to z

5.按余弦相似度法則計算相似度

6.返回s

5 實驗分析

5.1 數(shù)據(jù)選擇

本文以科學網博客(網址:http://blog.sciencenet.cn/ blog.php,其用戶主體是中國及部分海外華人科技工作者及在校學生構成,其特點是用戶本身的文化素質和知識水平較高,且采用實名認證)的網絡快照為數(shù)據(jù)集,采集熱點博文作者及其朋友在2011-01-01到2013-01-01期間的交互數(shù)據(jù)。數(shù)據(jù)集的統(tǒng)計情況如表2所示。

表2 博客網數(shù)據(jù)集

本實驗在安裝有Intel i3處理器、12 GB內存、2 TB硬盤和Linux操作系統(tǒng)的微機上完成,基于Python2.6語言開發(fā)程序實現(xiàn)數(shù)據(jù)清洗和統(tǒng)計分析,部分實驗數(shù)據(jù)的處理在Matlab 2008上實現(xiàn)。

5.2 用戶行為相似性

在進行分析前,對未發(fā)表博文的作者進行了清洗。按照2周的時間間隔,統(tǒng)計用戶的各類行為出現(xiàn)的次數(shù),建立用戶行為數(shù)量與時間的函數(shù),并按照用戶各類行為的累加和對用戶進行排名。

抽取排名第1的用戶和排名第500的用戶,其行為的時間特性如圖1和圖2所示,從中可以發(fā)現(xiàn)樣本用戶自身的行為彼此相似程度較高。

個體行為相似性的分布如圖3所示,超過93.4%的樣本數(shù)據(jù)的個體行為相似性大于0.7,超過74.3%的樣本數(shù)據(jù)中的個體行為相似性大于0.8。

從上述分析得出以下結論:用戶的在線網絡行為與其自身的時間和狀態(tài)密切相關,并且各類行為時間特性呈現(xiàn)較強的相似性。

圖1 活躍度排名第一的用戶行為

圖2 活躍度排名第500的用戶行為

圖3 用戶行為之間的相似度分布

5.3 好友分布

由于朋友之間的相互交往明顯多余陌生人,朋友的頻繁互動是朋友關系的一個重要特征,長時間不聯(lián)系或沒有互動的朋友關系,其關系將非常微弱。因此從互動角度,將朋友分為兩類:

(1)兩年內有過互動行為的朋友稱為好友;

(2)兩年內互動超過51次的朋友稱為“密友”。

通過兩年內的歷史數(shù)據(jù)分析,好友占朋友比例如圖4所示,好友數(shù)量分布如圖5所示。對具有好友關系的博主進行分析,其密友占好友的比例如圖6所示,密友數(shù)量的分布如圖7所示。從中可以發(fā)現(xiàn)好友及密友的分布遵循了冪律分布,密友的數(shù)量小于80個。

圖4 好友占朋友比例

圖5 好友數(shù)量分布

圖6 密友占好友比例

圖7 密友數(shù)量分布

5.4 好友互動行為相似性

首先分析用戶與密友之間互動行為之間的相似性。按密友數(shù)量從大到小排序,并抽取5個樣本,好友數(shù)分別為{238,99,75,24,10},其密友數(shù)分別為{72,30,21,11,5}。分別計算用戶與密友之間在分享、推薦、評論、留言四種互動行為之間的相似度,然后計算行為相似度之間的標準差。圖8給出了樣本點標準差的分布情況,從中可以發(fā)現(xiàn):

圖8 樣本點用戶自身行為相似度偏差

(1)用戶對其好友實施的各類行為之間的相似度較高,其標準差小于0.25。

(2)用戶密友數(shù)量越多,其行為之間相似度標準差隨之增加,說明受制于用戶本身限制,用戶不能對所有密友開展相對均衡的互動行為。因此用戶密友可以進一步細分。

其次分析用戶與好友之間的互動行為相似度的分布情況,圖9給出了上述樣本點好友互相推薦行為之間的相似度計算結果。從中可以發(fā)現(xiàn),好友之間互動行為本身的相似性較高,說明用戶之間保持了相對平等的互動模式。

圖9 樣本點互相推薦相似性

6 結束語

在社會網絡中,朋友之間的互動行為是推動朋友關系發(fā)展的重要力量。傳統(tǒng)的朋友關系研究,多關注于個體特質、關系預測等問題,而對個體網絡行為的時間特性,以及朋友之間的互動行為特性關注不足。朋友之間的互動行為是朋友關系發(fā)展中最細微的地方,是實現(xiàn)信息傳遞的基礎。

為發(fā)現(xiàn)朋友之間互動行為的時間特性,假設維系和發(fā)展朋友關系需要不斷的互動和交流。在已知朋友關系網絡中,可以通過互動關系區(qū)分一般朋友和密友,并認為密友彼此之間互動行為遵循互惠機制?;诖思僭O,給出用戶互動行為相似的計算方法。利用博客的歷史快照的數(shù)據(jù)分析,對前述假設進行了驗證。實驗證明,在博客中朋友關系相對松散,僅僅少數(shù)的用戶之間互動頻繁。頻繁互動的密友之間,其互動行為相似程度很高,說明好友之間存在相同的行為模式,并通過彼此的互動實現(xiàn)了信息的傳遞和影響力的傳播。另外還發(fā)現(xiàn)博客用戶自身的多種行為之間存在較強相似性。傳統(tǒng)的時間序列分析不能直接應用于用戶行為時間特性研究,需要提出新的分析方法。本文提出互動相似度量方法仍需深入研究,特別是要關注用戶行為模式對互動行為的影響。本文的相關研究成果可以擴展應用到社區(qū)發(fā)現(xiàn)和社區(qū)的結構穩(wěn)定性研究。

[1]Barabasi A L.Scale-free networks:a decade and beyond[J]. Science,2009,325:412-413.

[2]Jones J J,Settle J E,Bond R M,et al.Inferring tie strength from online directed behavior[J].PLoS ONE,2013,8(1).

[3]Zhang Q M,Lu L,Wang W Q,et al.Potential theory for directed networks[J].PLoS ONE,2013,8(2).

[4]Newman.Clustering and preferential attachment in growing networks[J].Phys Rev E,2001,64(2).

[5]Kossinets G,Watts D J.Empirical analysis of an evolving social network[J].Science,2006,311:88-90.

[6]Yin D,Hong L,Xiong X,et al.Link formation analysis inmicroblog[C]//Proceedings of the34th International Conference on Research and Development in Information Retrieval,New York,USA,2011:1235-1236.

[7]McPherson M,Smith-Lovin L,Cook J.Birds of a feather:homophily in social networks[J].Annual Review of Sociology,2001,27:415-444.

[8]Currarini S,Jackson M O,Pin P.Identifying the roles of race-based choice and chance in high school friendship network formation[J].Proceedings of the National Academy of Sciences,2010,107:4857-4861.

[9]Lewis K,Gonzalez M,Kaufman J.Social selection and peer influence in an online social network[J].Proceedings of the National Academy of Sciences,2012,109:68-72.

[10]Garlaschelli D,Loffredo M I.Patterns of link reciprocity in directed network[J].Physical Review Letters,2004,93.

[11]Brzoowski M J,Romero D M.Who should I follow? Recommending people in directed social networks[C]// Proceedings of the5th International Conference on Weblogs and Social Media.[S.l.]:The AAAI Press,2011:458-461.

[12]Zhang H,Dantu R.Predicting social ties in mobile phone networks[C]//Intelligence and Security Informatics(ISI). Vancouver,BC,Canada:IEEE Press,2010:25-30.

[13]Baatarjav E A,Amin A,Dantu R,et al.Are you my friend?[C]//7th IEEE Consumer Communications and Networking Conference(CCNC).Las Vegas,NV:IEEE Press,2010:1-5.

[14]Thurner S,Szell M,Sinatra R.Emergence of good conduct,scaling and Zipf laws in human behavioral sequences in an online world[J].PLoS ONE,2012,7(1).

[15]Jing-Kai L,Kunwoo P.Gender swapping and user behaviors in online social games[C]//Proceedings of the IW3C2 WWW 2013 Conference.Rio de Janeiro,Brazil:ACM,2013.

ZHAO Changkuan,LI Feng,XU Bin,ZHANG Yu

Computing Center,Northeastern University,Shenyang 110819,China

In the social network,the friendship is a kind of key element.With the changing of friendships,the social network evolves over time.And the information propagates widely with the friends interacting.Based on the personal properties and the status in social network,various behaviors are done by users,and the friendships are developed at the same time. As the frequent interaction is one the key character of friendship,it is proposed that the friends interaction behaviors are similar to each other,and the interaction mechanism is of reciprocity.Based on the time series analysis of user behaviors, interaction behaviors similarity computing model is proposed.Using the blog history snapshot data,the publishing,sharing, commenting and wall posting behaviors are evaluated,and then the similarity computing models are tested.

network behavior;interaction;similarity;friendship;blog

A

TP18

10.3778/j.issn.1002-8331.1308-0192

ZHAO Changkuan,LI Feng,XU Bin,et al.Interaction behaviors similarity between close friends in blog network. Computer Engineering and Applications,2014,50(6):1-6.

國家自然科學基金(No.61272179);沈陽市科技項目基金(No.F11-264-1-33);教育部專項基金項目(No.MOE-INTEL-2012-06)。

趙長寬(1976—),男,博士研究生,講師,研究領域為數(shù)據(jù)庫查詢技術,社會網絡;李封(1981—),男,博士研究生,講師,研究領域為社會網絡;徐彬(1980—),男,博士,講師,研究領域為社會網絡;張昱(1980—),男,博士研究生,講師,研究領域為社會網絡。E-mail:zck@cc.neu.edu.cn

2013-08-15

2013-09-30

1002-8331(2014)06-0001-06

CNKI網絡優(yōu)先出版:2013-11-25,http://www.cnki.net/kcms/detail/11.2127.TP.20131125.1541.031.html

猜你喜歡
密友博文相似性
一類上三角算子矩陣的相似性與酉相似性
第一次掙錢
淺析當代中西方繪畫的相似性
德國人“密友”不多
誰和誰好
低滲透黏土中氯離子彌散作用離心模擬相似性
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
閨中無密友
比敵人更可怕的三種朋友
V4國家經濟的相似性與差異性