劉 列,邢千里,劉奕群,張 敏,馬少平
(清華大學 智能技術(shù)與系統(tǒng)國家重點實驗室,清華信息科學與技術(shù)國家實驗室(籌),清華大學 計算機系,北京 100084)
社交網(wǎng)絡用戶標簽預測研究
劉 列,邢千里,劉奕群,張 敏,馬少平
(清華大學 智能技術(shù)與系統(tǒng)國家重點實驗室,清華信息科學與技術(shù)國家實驗室(籌),清華大學 計算機系,北京 100084)
隨著社交網(wǎng)站的流行以及用戶的大規(guī)模增加,社交網(wǎng)絡用戶行為分析已經(jīng)成為社交網(wǎng)站進行網(wǎng)站維護、性能優(yōu)化和系統(tǒng)升級的重要基礎(chǔ),也是網(wǎng)絡知識挖掘和信息檢索的重要研究領(lǐng)域。為了更好地理解社交網(wǎng)絡用戶添加個人標簽的行為特征,該文基于大約263萬個微博用戶的真實數(shù)據(jù),對用戶標簽的分布進行了研究和分析。我們主要考察了用戶標簽的宏觀分布特征,以及用戶標簽與關(guān)注對象的標簽分布之間的聯(lián)系,發(fā)現(xiàn)微博用戶給自己添加標簽時,在開始階段傾向于使用反映個性的標簽,之后會出于從眾心理而選用大眾化標簽。我們將研究發(fā)現(xiàn)運用到基于關(guān)注關(guān)系的標簽預測算法中,結(jié)果證實相關(guān)分析對于社交網(wǎng)站的標簽推薦等課題具有一定的參考意義。
社交網(wǎng)絡;用戶行為分析;標簽預測
近幾年,國內(nèi)外互聯(lián)網(wǎng)上逐漸興起一大批社交網(wǎng)站,在國外以Twitter、Facebook為代表,在國內(nèi)則以新浪微博、騰訊微博、人人網(wǎng)等為代表,隨著用戶規(guī)模的不斷擴大,這些網(wǎng)站逐步成為眾多網(wǎng)民獲取信息、發(fā)表意見、制造輿論的主要途徑。以微博為例,據(jù)最新CNNIC統(tǒng)計報告顯示[1],截至2012年12月底,中國微博用戶規(guī)模達3.09億,較2011年底增長5 873萬,增幅達到23.5%,網(wǎng)民中的微博用戶比例由2011年底的48.7%增長到2012年底的54.7%。微博已經(jīng)成為了中國網(wǎng)民使用的主流應用,龐大的用戶規(guī)模進一步鞏固了其網(wǎng)絡輿論傳播中心的地位。
如何為用戶提供優(yōu)質(zhì)的服務,幫助用戶及時高效地獲取所需信息,最大規(guī)模地吸引用戶群,一直是社交網(wǎng)站所關(guān)注的重點。用戶行為分析是了解用戶行為習慣和使用意圖的主要方法之一。社交網(wǎng)站提供的服務多種多樣,導致用戶行為的種類也具有多樣性,常見的用戶行為包括發(fā)布原創(chuàng)信息、轉(zhuǎn)發(fā)、評論、添加標簽等,這也進一步導致了用戶信息的復雜多樣。針對其中一種或多種信息進行分析,均可以挖掘出許多有價值的發(fā)現(xiàn),而本文則主要著眼于對用戶添加個人標簽的行為特征進行分析。個人標簽是用戶根據(jù)自身情況對自己標注的文本內(nèi)容,可以反映用戶的身份、特長、愛好、專業(yè)領(lǐng)域等信息,多為字數(shù)較少的詞或者短語。研究用戶標簽的分布特征,可以為社交網(wǎng)站的標簽推薦、專家搜索、用戶分類等應用提供一定參考。
本文通過對大約263萬個微博用戶的信息進行分析,主要研究兩個方面的特征:一是用戶標簽分布的宏觀特征;二是用戶標簽與其關(guān)注對象的標簽分布之間的聯(lián)系。與以往工作不同的是,我們在分析過程中,重點考察了用戶標簽列表不同位置上的標簽分布情況。通過分析,我們希望能夠了解用戶添加個人標簽的行為特點,為社交網(wǎng)站相關(guān)應用的算法優(yōu)化提供一定依據(jù)和方向。
以下內(nèi)容首先介紹了本研究課題的相關(guān)工作;然后介紹了新浪微博的個人標簽功能和本研究使用的數(shù)據(jù)集;接著,從兩個方面對用戶標簽的分布進行特征分析;再嘗試將相關(guān)發(fā)現(xiàn)運用到基于關(guān)注關(guān)系的標簽預測算法中;最后給出工作總結(jié)和啟示。
近幾年,對于社交網(wǎng)絡的相關(guān)研究一直是國內(nèi)外信息檢索領(lǐng)域的熱門課題。國外學者在做相關(guān)研究時大多以Twitter作為研究對象,而國內(nèi)學者則比較喜歡用新浪微博作為研究對象。盡管Twitter和新浪微博在功能上有很多相似之處,但也存在一些差異,比如Twitter提供了話題標簽功能,卻沒有提供個人標簽功能,而新浪微博則同時向用戶提供了話題標簽和個人標簽功能。這也導致在標簽預測方面的研究主要是針對文檔標簽或者資源標簽[2-3],針對用戶標簽的研究則相對較少。
許多關(guān)于社交網(wǎng)絡的研究是通過建立反映用戶興趣的描述文檔,對用戶進行個性化的內(nèi)容推薦或好友推薦,因此,如何建立準確的描述文檔對于個性化服務的質(zhì)量有著重要的影響。一般建立用戶文檔的方法是從用戶發(fā)布的內(nèi)容中提取關(guān)鍵詞,如Weng[4]等人在TwitterRank中使用的topic model,或者根據(jù)他人對某個用戶的描述建立關(guān)鍵詞列表,如Ghosh[5]等人使用Twitter的list功能建立專家搜索系統(tǒng)。這些方法都是從側(cè)面建立用戶描述,并沒有使用用戶對自己的描述信息,導致結(jié)果會出現(xiàn)一定偏差。而新浪微博提供的個人標簽功能可以看做是用戶感興趣話題的直接反映,因此研究用戶的個人標簽對于建立更準確的用戶描述有重要意義。2011年,陳淵[6]等人針對微博用戶提出了一種標簽推薦方法,他們根據(jù)用戶的關(guān)注人數(shù)、粉絲人數(shù)和發(fā)布的微博數(shù)對用戶群體進行分類,針對不同群體分別使用關(guān)注對象的標簽集合、粉絲的標簽集合或從微博中提取的關(guān)鍵詞等作為標簽推薦的依據(jù)。他們針對個別用戶進行了實驗,結(jié)果表明這種方法具有一定的效果。與以往工作不同的是,本文主要分析了用戶添加個人標簽的行為特征,特別是針對不同位置的標簽分布進行分析,相關(guān)發(fā)現(xiàn)可以為進一步的標簽預測、專家尋找、用戶分類等研究提供一定的參考依據(jù)。
本研究使用的用戶數(shù)據(jù)集是在2011年9月至2012年5月之間抓取的2 631 061個新浪微博用戶信息,包含用戶的ID、個人標簽、關(guān)注關(guān)系等。新浪微博雖然為用戶提供了添加個人標簽的功能,但限制每個標簽最多包含七個中文字符,且每個用戶最多只能添加十個個人標簽。比如創(chuàng)新工場CEO李開復先生(微博地址: http://weibo.com/kaifulee)為自己添加的十個標簽是“風險投資”、“微博控”、“創(chuàng)新工場”、“教育”、“科技”、“電子商務”、“移動互聯(lián)網(wǎng)”、“創(chuàng)業(yè)”、“IT互聯(lián)網(wǎng)”、“世界因你不同”。
圖1展示了數(shù)據(jù)集中擁有不同數(shù)量標簽的用戶所占比例。
由圖1可以看到,大約40%的用戶給自己添加了至少一個標簽。而在有標簽的用戶集合中,有一至九個標簽的用戶數(shù)目分布比較平均,而有十個標簽的用戶則相對較多,占有標簽用戶的20%左右??梢圆聹y,一個用戶在填寫或者修改個人標簽信息時,如果看到了新浪微博提示的“最多十個標簽”,便會不自覺地給自己添加滿十個標簽,使有限的“資源”得到充分利用。
基于上述數(shù)據(jù)集合,我們可以從多種角度對微博用戶的標簽分布進行深入的分析和研究,考察社交網(wǎng)絡用戶添加個人標簽的行為特征。注意,為了避免英文字母的大小寫影響分析結(jié)果,我們在分析之前將數(shù)據(jù)集中的英文字母統(tǒng)一做了小寫處理。
圖1 擁有不同數(shù)量標簽的用戶所占比例
4.1 用戶標簽的宏觀分布分析
由于微博用戶在添加個人標簽時,除了字數(shù)限制外,在內(nèi)容上并沒有嚴格的限制,所以不同用戶添加的標簽在內(nèi)容上可能會多種多樣。同時,有一些標簽可能會出現(xiàn)在許多用戶的標簽列表中,被大量用戶共享。我們首先從以下幾個角度分析用戶標簽分布的宏觀特征。
4.1.1 不同標簽的標簽數(shù)分布
經(jīng)過統(tǒng)計,數(shù)據(jù)集中的所有用戶共有標簽 6 395 232個,平均每個用戶有2.43個標簽。除去重復的標簽,數(shù)據(jù)集中共包含900 119種不同的標簽。這些不同的標簽在數(shù)據(jù)集中出現(xiàn)的次數(shù)差異很大,比如出現(xiàn)次數(shù)最多的標簽“音樂”共出現(xiàn)了195 542次,而僅出現(xiàn)一次的標簽則有698 275種,占所有不同種類標簽的77.58%。圖2顯示了不同種類標簽出現(xiàn)次數(shù)的分布。
圖2 用戶標簽出現(xiàn)次數(shù)分布
由圖2可以看出,除去一些出現(xiàn)次數(shù)較多的標簽,大多數(shù)標簽出現(xiàn)的次數(shù)與標簽種類數(shù)呈指數(shù)分布關(guān)系。絕大部分標簽出現(xiàn)次數(shù)很少,我們將這些標簽視為少數(shù)用戶特有的“個性標簽”,例如,有96.23%的標簽僅出現(xiàn)了十次或十次以下;另一小部分標簽在數(shù)據(jù)集中則大量出現(xiàn),被許多用戶共享,我們將這些標簽視為“大眾標簽”。表1給出了在數(shù)據(jù)集中出現(xiàn)次數(shù)最多的十種大眾標簽,及它們的出現(xiàn)次數(shù)在所有標簽總數(shù)中所占的比例。
由表1可以看到,大眾標簽大多是大家普遍關(guān)注的話題,比如電影、美食等,而且多與娛樂、休閑有關(guān)。僅前十種大眾標簽就占了所有標簽的20%左右,可見其出現(xiàn)次數(shù)之多。
表1 出現(xiàn)次數(shù)最多的10種標簽
4.1.2 不同位置的標簽熵
我們在研究過程中發(fā)現(xiàn),用戶標簽列表不同位置上的標簽分布是不同的,而且存在一定規(guī)律性。為了觀察用戶標簽列表的不同位置上標簽的分布差異,我們將有標簽的用戶按照標簽數(shù)(1至10個)進行分類,計算了每一類用戶在不同位置上的標簽熵。計算公式如式(1)所示。
(1)
其中,假設(shè)一個集合中共有n個不同的標簽,pi代表第i個標簽在該集合中出現(xiàn)的頻率。
圖3顯示了在數(shù)據(jù)集上求標簽熵的結(jié)果。圖中每條曲線代表擁有特定標簽數(shù)的一類用戶,橫軸代表標簽在用戶標簽列表中所處的位置。
圖3 標簽列表中不同位置的標簽熵
觀察圖3中的每一條曲線可以看到,對于每一類用戶而言,隨著標簽位置由前至后,標簽熵呈現(xiàn)明顯遞減的趨勢。這說明在用戶標簽列表中,靠前的位置標簽的分布比靠后的位置更加離散。而比較圖2中不同曲線的高低可以看到,對于同一標簽位置而言,基本上標簽數(shù)越多的用戶群對應的標簽熵越高。說明標簽數(shù)越多的用戶群在某一位置上的標簽分布相對離散,而標簽數(shù)少的用戶在同一位置上的標簽分布則相對集中。猜測其原因,可能是用戶標簽列表中位置靠前的標簽包含更多反映用戶特點或者個性的標簽,而靠后的標簽則包含更多大眾化的標簽,進一步猜想,用戶在添加個人標簽時,在開始階段會傾向于添加個性標簽,而之后則會出于從眾心理添加大眾化的標簽。為了更好地證實這一猜想,下面一節(jié)我們將舉例統(tǒng)計大眾標簽在用戶標簽列表不同位置所占的比例。
4.1.3 不同位置的大眾標簽比例
我們以表1中的大眾標簽為例,統(tǒng)計了在標簽列表的不同位置上,排名前幾位的標簽出現(xiàn)次數(shù)在該位置所有標簽個數(shù)中所占的比例之和,結(jié)果如圖4所示。圖中sum3、sum5、sum10分別代表在表1中排名前三、前五、前十的標簽所占的比例之和。
觀察圖4可以看出,在標簽列表越靠后的位置,大眾標簽在數(shù)量上所占的比例越大, 而且基本呈現(xiàn)隨位置線性增長的趨勢。這也符合之前的猜想,即用戶在給自己添加標簽時,在添加完反映個性的標簽后,會傾向于使用大眾化的標簽填充自己標簽列表。
4.2 用戶標簽與其關(guān)注對象的標簽分布之間的關(guān)系分析
圖4 若干流行標簽(如表1所示)在不同位置的分布情況
上面我們分析了用戶標簽宏觀分布的一些特征,下面我們通過分析用戶標簽與其關(guān)注對象的標簽分布之間的關(guān)系,進一步考察用戶添加個人標簽的行為特征。
4.2.1 用戶標簽在其關(guān)注對象的標簽集合中出現(xiàn)的情況
新浪微博作為一個社交平臺, 其最大的特色就是用戶可以自由地關(guān)注感興趣的其他用戶,并隨時瀏覽關(guān)注對象發(fā)布的微博。因此關(guān)注關(guān)系在一定程度上說明了用戶之間的相似性,而這種相似性也可能體現(xiàn)在用戶標簽上。我們對擁有不同標簽數(shù)的用戶群分別統(tǒng)計了平均每個用戶有多少比例的標簽會出現(xiàn)在其關(guān)注對象的標簽集合中,作為對比,我們對每個用戶隨機選取了和其關(guān)注對象個數(shù)相等的若干非關(guān)注對象,并做了相同的統(tǒng)計。圖5顯示了統(tǒng)計結(jié)果。
從圖5中可以看出,無論一個用戶的標簽數(shù)是多少,基本上其將近一半的個人標簽會出現(xiàn)在關(guān)注對象的標簽集合中,對其標簽與非關(guān)注對象的標簽的重復度僅為30%左右,這反映了具有關(guān)注關(guān)系的用戶在興趣、專業(yè)等方面存在一定的相似性。
圖5 用戶標簽在其關(guān)注對象和非關(guān)注對象的標簽中出現(xiàn)的平均比例
4.2.2 不同位置的標簽在用戶關(guān)注對象的標簽集合中出現(xiàn)的情況
為了進一步考察用戶標簽和關(guān)注對象的標簽分布之間的關(guān)系,我們對擁有特定標簽數(shù)(1—10個)的用戶群,分別統(tǒng)計了在標簽列表不同位置上的標簽出現(xiàn)在其關(guān)注對象標簽集合中的平均比例和平均次數(shù),結(jié)果如圖6和圖7所示。圖中每條曲線代表擁有特定標簽數(shù)的一類用戶,橫軸代表標簽在用戶標簽列表中所處的位置。
觀察圖6和圖7可以看出,對于一個用戶而言,他的標簽列表中位置越靠后的標簽,在其關(guān)注對象的標簽集合中出現(xiàn)的可能性越大,而且出現(xiàn)的平均次數(shù)也比位置靠前的標簽多。還可以觀察到,圖6和圖7中的曲線基本都呈現(xiàn)出近似的線性上升趨勢。結(jié)合4.1.3的分析,某一位置的大眾標簽所占比例會隨著位置由前至后近似線性增加,而相對于個性標簽,大眾標簽更可能被有關(guān)注關(guān)系的用戶共享,這也就導致了上述兩幅圖中的曲線呈現(xiàn)出近似線性上升的趨勢。這一結(jié)果進一步說明了用戶在添加個人標簽時,會傾向于先添加個性標簽,而越往后則越傾向于使用大眾標簽。
為了更好地觀察上述發(fā)現(xiàn)對于社交網(wǎng)絡用戶的標簽預測等工作的參考意義,本文提出了一種基于關(guān)注關(guān)系的標簽預測算法,并通過比較說明上述發(fā)現(xiàn)的應用價值。
5.1 基于關(guān)注關(guān)系的標簽預測算法
算法的基本思想是使用微博用戶所有關(guān)注對象的標簽集合作為依據(jù)對用戶做標簽預測,同時將用戶標簽列表不同位置的標簽分布特征考慮進預測過程。
具體而言,假設(shè)用戶A關(guān)注了n個用戶B1、B2、……、Bn。其中,用戶Bi有m個標簽,按照在Bi標簽列表中的先后順序依次記為Ti,1、Ti,2、……、Ti,m,m的取值范圍是1~10。對標簽Ti,j按照式(2)賦予權(quán)重:
(2)
其中,α為可變系數(shù)。按照式(2),Bi的標簽所得到的權(quán)重會隨著位置由前至后線性增加,而Bi的所有標簽獲得的權(quán)重之和正好等于Bi的標簽個數(shù)m。
將A所有關(guān)注對象的標簽集合中相同標簽獲得的權(quán)重累加,并根據(jù)最終得到的標簽權(quán)重對用戶A所有關(guān)注對象的標簽按權(quán)重由高到低進行排序,取權(quán)重較高的若干標簽作為預測結(jié)果。
5.2 三種作為對照的標簽預測算法
? 對照算法一:在5.1算法的基礎(chǔ)上使用權(quán)重如式(3)所示。
(3)
? 對照算法二:在5.1算法的基礎(chǔ)上使用權(quán)重如式(4)所示。
(4)
? 對照算法三:將在全體數(shù)據(jù)集中出現(xiàn)次數(shù)最多的若干大眾標簽按照出現(xiàn)次數(shù)由多到少排序,作為預測結(jié)果。
其中,前兩種對照算法是在5.1算法的基礎(chǔ)上改變權(quán)重公式得到的。按照式(3),Bi的所有標簽會得到相同的權(quán)重1;按照式(4),Bi的標簽所得到的權(quán)重會隨著位置由前至后線性減小。兩個公式均保證Bi的所有標簽獲得的權(quán)重之和等于m。
5.3 算法預測結(jié)果與分析
對于有特定標簽數(shù)(1~10個)的每一類用戶群,我們都從數(shù)據(jù)集中隨機抽取了1萬個用戶作為測試樣本。使用5.1算法和5.2中提到的三種對照算法對測試集中的10萬個用戶做標簽預測,限制最多預測30個標簽。
我們將預測結(jié)果與用戶的原始標簽(預測標簽屬于原始標簽集合則視為正確結(jié)果)比較,計算了三種方法的MAP值(Mean Average Precision),結(jié)果如圖8所示(α=0.2,β=1)。圖中MAP0、MAP1、MAP2和MAP3分別代表使用5.1算法、對照算法一、對照算法二和對照算法三得到的預測結(jié)果的MAP值。圖中橫軸代表用戶的標簽數(shù)。
圖8 具有不同標簽數(shù)的用戶預測結(jié)果的MAP
對比圖8中MAP0、MAP1、MAP2的值可以看出,使用式(2)得到的預測效果最好,式(3)次之,式(4)最差。MAP0是在MAP1的基礎(chǔ)上使用戶標簽列表中位置靠后的標簽獲得較高的權(quán)重得到的預測結(jié)果,結(jié)合上文對用戶添加標簽的行為特征的分析,可以發(fā)現(xiàn)MAP0的計算過程會使位置靠后的大眾標簽獲得更高的權(quán)重,從而被“正確”地預測出來或者在預測結(jié)果的列表中獲得更高的排序,因此使用式(2)得到的MAP值要高于使用式(3)得到的結(jié)果。而使用式(4)則會使位置靠后的大眾標簽獲得較低的權(quán)重,同時位置靠前的個性標簽得到較高的權(quán)重,因此預測結(jié)果的MAP值低于另外兩種方法。
但是,整體而言,這三種基于關(guān)注關(guān)系的預測算法做標簽預測的效果均不理想,MAP值都在0.1至0.18之間。對比MAP0和MAP3可以發(fā)現(xiàn),除了對標簽數(shù)小于3的用戶做預測的結(jié)果差別較大外,二者基本相同,MAP0略高于MAP3。這說明5.1算法預測出的正確標簽大多都是大眾標簽。
本文通過對以新浪微博為代表的社交網(wǎng)絡用戶數(shù)據(jù)的分析,研究了用戶在社交網(wǎng)絡環(huán)境下添加個人標簽的行為特征,挖掘了用戶標簽分布的宏觀特征、用戶標簽與其關(guān)注對象的標簽分布之間的關(guān)系等。經(jīng)過分析,我們發(fā)現(xiàn),在系統(tǒng)限制了標簽個數(shù)的情況下,大多數(shù)用戶會傾向于添加標簽到不能再添加為止。而在添加標簽的過程中,用戶在開始階段一般會添加一些反映個人身份、專業(yè)特長、興趣愛好等信息的個性標簽,而在最后則會處于從眾心理,選擇一些大眾化的標簽填充自己的標簽列表。這導致了用戶標簽在標簽列表不同位置上分布的差異性——位置靠前的標簽更可能是個性標簽,而位置靠后的標簽則更可能是大眾標簽。我們將此發(fā)現(xiàn)運用在一個基本的基于關(guān)注關(guān)系的標簽預測過程中,結(jié)果顯示這一發(fā)現(xiàn)對于提高標簽預測的準確率有一定的參考價值。如果要將這一發(fā)現(xiàn)運用于社交網(wǎng)絡中的專家搜索,可以想象,在設(shè)計算法的過程中,應該更加重視用戶標簽列表中位置靠前的標簽,因為這些標簽更能反映用戶的專業(yè)、特長等信息。
研究社交網(wǎng)絡用戶添加個人標簽的行為特征以及用戶標簽的分布特點,對于社交網(wǎng)絡的標簽預測、專家用戶推薦、用戶分類等課題的研究均有一定的參考意義,也能夠幫助社交網(wǎng)站改進算法,向用戶提供更優(yōu)質(zhì)的服務。在今后的工作中,我們將進一步挖掘用戶標簽的相關(guān)信息,并嘗試將發(fā)現(xiàn)運用到多種實用任務中,為優(yōu)化社交網(wǎng)絡的服務提供更多的參考。
[1] 中國互聯(lián)網(wǎng)絡信息中心.第31次中國互聯(lián)網(wǎng)發(fā)展狀況報告[R],2013.
[2] 孫憲策.基于內(nèi)容的社會標簽推薦與分析研究[D].清華大學博士學位論文,2010.
[3] 袁柳,張龍波.基于概率主題模型的標簽預測[J].計算機科學,2011,30(7):175-180.
[4] Jianshu Weng, Ee-Peng Lim, Jing Jiang, et al. TwitterRank: finding topic-sensitive influential twitterers [C]//Proceedings of the 3rd ACM international conference on Web search and data mining (WSDM ’10). ACM, New York, NY, USA, 2010: 261-270.
[5] Saptarshi Ghosh, Naveen Sharma, Fabricio Benevenuto, et al. Cognos: crowdsourcing search for topic experts in microblogs [C]//Proceedings of the 35th international ACM SIGIR conference on research and development in information retrieval (SIGIR ’12). ACM, New York, NY, USA, 2012: 575-590.
[6] 陳淵, 林磊, 孫承杰, 等. 一種面向微博用戶的標簽推薦方法[J].智能計算機與 應用,2011, 1(50): 21-26.
[7] Aditya Pal, Scott Counts. Identifying topical authorities in microblogs[C]//Proceedings of the 4th ACM international conference on Web search and data mining (WSDM ’11). ACM, New York, NY, USA, 2011: 45-54.
[8] Q Vera Liao, Claudia Wagner, Peter Pirolli, et al. Understanding experts’ and novices’ expertise judgment of twitter users[C]//Proceedings of the 30th ACM conference on human factors in computing systems (SIGCHT). 2012: 2461-2464.
[9] Meeyoung Cha, Hamed Haddadi, Fabricio Benevenuto, et al. Measuring user influence in Twitter: The million follwer fallacy [C]//Proceedings of the 4th international AAAI conference on Weblogs and social media. 2010.
[10] I Weber, C Castillo. The demographics of web search [C]//Proceedings of the 33rd international ACM SIGIR conference on reaearch and develpment in information retrieval. 2010, 179: 523-530.
User Behavior Analysis of Person Tags in SNS
LIU Lie, XING Qianli, LIU Yiqun, ZHANG Min, MA Shaoping
(State Key Laboratory of Intelligent Tech. & Sys.,Tsinghua National Laboratory for Information Science and Technology, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)
With the popularity of social network sites (SNS) and the massive increase in SNS users, the behavior analysis of SNS users is of substantial importance in website maintenance, performance optimization and system upgrade. It’s also a very important research area of network knowledge mining and information retrieval. For a better understanding of the user behaviors in adding tags for themselves in SNS, this paper analyses the distribution of user tags based on the data of about 2.63 million Weibo users. This paper investigates the macroscopic distribution characteristics of user tags, and the relation of tag distributions between a user and the people he follows. We reveal that when Weibo users add tags for themselves, they tend to use tags which can reflect their characteristics in the beginning, then, they tend to select popular tags out of a herd mentality. We applied research findings to a tag prediction algorithm based on following relationships, and the results prove that the correlation analysis provides certain reference significance to tag recommendation in social networks.
SNS; user behavior analysis; tag prediction
劉列(1991—),本科生。E?mail:lieliu213@gmail.com邢千里(1987—),博士研究生,主要研究領(lǐng)域為信息檢索。E?mail:xingqianli@gmail.com劉奕群(1981—),博士,副教授,主要研究領(lǐng)域為信息檢索。E?mail:yiqunliu@tsinghua.edu.cn
1003-0077(2016)02-0056-08
2013-09-15 定稿日期: 2014-03-15
TP391
A