劉運沖
摘要:微博用戶構(gòu)成了一個社交網(wǎng)絡(luò),在這個結(jié)構(gòu)中,各用戶之間又相互聯(lián)系,存在著關(guān)系上的相似性。本文針對微博中信息量大,用戶之間興趣上的某種相似性,提出了一種多態(tài)相似度模型。從不同方面綜合考慮,通過用戶背景,交互性,以及微博內(nèi)容之間的相似性,將用戶興趣形似性加權(quán)結(jié)合得到最終的結(jié)果模型。實驗結(jié)果表明,多態(tài)相似度模型較傳統(tǒng)的方法,在用戶個性化推薦中更準(zhǔn)確地反映用戶的興趣。
關(guān)鍵詞:社交網(wǎng)絡(luò);多態(tài)相似度模型;個性化推薦
中圖分類號:TP311? ? ? ? 文獻標(biāo)識碼:A? ? ? ? 文章編號:1009-3044(2019)02-0175-03
Research on Interest Similarity Based on Weibo
LIU Yun-chong
(Anhui University of Science and Technology,Computer Science and Engineering,Huainan 232001, China)
Abstract:Weibo users constitute a social network. In this structure, users are connected to each other and there is a similar relationship. This paper proposes a polymorphic similarity model for the similarity of interest in microblogs and the interest among users. From a variety of aspects, through the user background, interactivity, and the similarity between the content of the Weibo, the user interest form weights are combined to obtain the final result model. The experimental results show that the polymorphic similarity model reflects the user's interest more accurately in the user's personalized recommendation than the traditional method.
Key words: social network; polymorphic similarity model; personalized recommendation
1引言
隨著信息技術(shù)的發(fā)展,各種社交手段也越來越豐富,不斷豐富著人們的生活,社交媒體的出現(xiàn),把世界交織成一個復(fù)雜的網(wǎng)絡(luò)圈,人們可以即時獲取信息,發(fā)表自己的觀點,聊天互動也不像在信息匱乏時那樣變得奢望。多種多樣的社交工具可供人們選擇,比如國外的Twitter、Facebook,國內(nèi)的人人網(wǎng),新浪微博,騰訊微博等,都是人們獲取信息及發(fā)表觀點的社交工具。根據(jù)財報顯示,截至2017年12月,新浪微博的月活躍用戶已增至3.92億,創(chuàng)下新浪微博上市以來的一個新紀(jì)錄。日活躍用戶達1.65億。其中從國內(nèi)社交媒體來說,新浪微博的使用量及活躍度遙遙領(lǐng)先其他社交方式。由于微博有數(shù)以億計的用戶節(jié)點,在如此多網(wǎng)民在線的情況下,也面臨著數(shù)據(jù)過載的問題。當(dāng)用戶閱讀到某個用戶或轉(zhuǎn)發(fā)的微博之前,他并不知道這條微博是否是他所喜歡的,是否能夠給他帶來有用的信息,當(dāng)用戶面前面對那么多微博內(nèi)容的時候,更多的是不感興趣的或者認(rèn)為這些微博并不能給他帶來有用信息,用戶閱讀之后才能根據(jù)微博的價值及是否感興趣來對微博進行轉(zhuǎn)發(fā)或評論。因此,個性化推薦就顯得尤為重要。根據(jù)用戶的興趣來為其推薦感興趣的潛在的用戶。
微博用戶興趣分為長期興趣和短期興趣。長期興趣即靜態(tài)興趣。短期興趣即動態(tài)興趣,隨時間發(fā)生變化,每個時間段用戶的興趣可能都不一樣。更多學(xué)者研究相似用戶只是從背景方面考慮,只考慮到了長期興趣,有的只是單獨從短期興趣方面研究。本文結(jié)合長期興趣和短期興趣,從背景和微博內(nèi)容方面綜合考慮研究用戶之間興趣的相似度。
2相關(guān)工作
針對微博短文本相似性度量不精確的問題 ,黃賢英 ,陳紅陽等人提出了多視角微博短文本相似度算法。實驗表明,該算法在微博話題檢測應(yīng)用方面,能有效降低話題檢測的漏檢率和誤檢率。徐志明 ,李棟等人提出了各種用戶屬性信息的用戶相似度計算方法,并根據(jù)實驗對每個方法進行對比,結(jié)果表明在用戶關(guān)系方面,基于社交信息的用戶相似度具有更好的效果。黃宏程,陸衛(wèi)金等人提出了基于用戶興趣相似性的關(guān)系預(yù)測算法。通過余弦相似性指標(biāo)計算用戶間的興趣相似度來預(yù)測用戶關(guān)系。實驗結(jié)果表明,該算法能夠準(zhǔn)確描述用戶興趣,提高用戶關(guān)系預(yù)測的準(zhǔn)確性。
以上提到的工作都是從某一方面提出的解決問題方法,雖然都能實現(xiàn),但從問題的全面性考慮,本文針對此問題從多方面綜合考慮提出了多態(tài)相似度模型。
3相似性計算
研究兩個用戶之間的興趣相似性,從背景和微博內(nèi)容兩個方面來考慮,對于背景信息,根據(jù)用戶u,v的一些屬性,分別出它們的相似度,最后通過加權(quán)得到背景信息相似度。對于微博內(nèi)容興趣相似度,研究兩微博文本之間高頻關(guān)鍵詞術(shù)語的相似性。
3.1基于微博背景的相似度
(1)關(guān)注列表
通常微博用戶都會對他人進行關(guān)注,一旦用戶對其他用戶進行關(guān)注,就可以從中獲取到用戶所關(guān)注他人用戶的微博內(nèi)容信息,這相當(dāng)于用戶對其關(guān)注用戶的微博內(nèi)容有所感興趣,因此被關(guān)注的用戶博文也能反映用戶的興趣。
用戶的關(guān)注列表體現(xiàn)用戶之間的興趣相似度,比如用戶U1關(guān)注了NBA球星勒布朗詹姆斯,用戶U2也關(guān)注了勒布朗詹姆斯,則在一定程度上說明用戶U1,U2有著共同的興趣,他們都喜歡NBA,喜歡籃球。
設(shè)用戶U1關(guān)注的用戶集合為S(N1),U2關(guān)注的用戶集合為S(N2),由關(guān)注列表得到的相似度為
simL=[S(N1)?S(N2)S(N1)?S(N2)-S(N1,N2)]? ? ? ? ? ? ? ? ? (1)
(2)用戶標(biāo)簽
新浪微博為用戶提供了添加標(biāo)簽的功能,該功能部分可以最多添加10個標(biāo)簽,大多以關(guān)鍵詞的形式進行描述。用戶可以描述自己的職業(yè),公司,興趣愛好,其他用戶可以根據(jù)興趣愛好找到志同道合的人,用戶添加的標(biāo)簽是對自己興趣愛好的直接描述,用戶的標(biāo)簽可能會影響用戶的微博內(nèi)容,因此獲取用戶的這些興趣愛好比較方便。根據(jù)標(biāo)簽所提供的信息用KL距離來表示兩者之間的相似性。距離越大,說明兩標(biāo)簽之間的相似度越小。反之,二者相似度越大。
SimT=[i=1TPiulogPiuPiv]? ? ? ? ? ? ? ? ? (2)
(3)用戶轉(zhuǎn)發(fā)
用戶轉(zhuǎn)發(fā)某好友的微博的頻率越高,用戶與該好友的興趣相似度越大。通常情況下,如果用戶對另一個用戶的微博感興趣,他就會對這個用戶的微博進行轉(zhuǎn)發(fā),通過這種方式傳遞著一種信息,此用戶和另一用戶有著相同的意見或觀點。如果一個用戶多次轉(zhuǎn)發(fā)另一個用戶的微博,說明這兩個用戶之間可能存在著興趣上的相似性。如果兩個用戶之間多次相互轉(zhuǎn)發(fā)對方的微博,說明這兩個用戶之間一定存在著興趣上的相似性。因此,利用轉(zhuǎn)發(fā)提出了用戶之間的相似性計算公式。
如果用戶U1轉(zhuǎn)發(fā)用戶U2的微博數(shù)量為N1,用戶U2轉(zhuǎn)發(fā)用戶U1的數(shù)量為N2,用戶U1微博中為轉(zhuǎn)發(fā)的數(shù)量為D1,用戶U2微博中轉(zhuǎn)發(fā)的數(shù)量為D2,則用戶轉(zhuǎn)發(fā)相似度為
[SimF=N1*N2D1*D2]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
綜合以上信息,最終得到的基于背景的興趣相似度為
SimB=w1SimL+w2SimT+w3SimF? ? ? ? ? ? ? ? ? ? ?(4)
其中,
W1+w2+w3=1? ? ? ? ? ? ? ? ? ? ? ? (5)
3.2基于內(nèi)容的興趣相似度
文本內(nèi)容的相似性在一定程度上反映了兩者之間有一定的共同愛好。文本內(nèi)容通過一定的邏輯關(guān)系把一系列術(shù)語串聯(lián)起來,從而形成一篇完整的文本。為了計算微博文本內(nèi)容的相似度,將基于向量的概念語義相似度方法擴展至文本語義相似度,一般認(rèn)為,如果兩篇文本內(nèi)容里面的術(shù)語概念向量語義相似度越大,那么這兩篇文章的內(nèi)容相關(guān)性越強,語義關(guān)聯(lián)也越強。通過計算文本的高頻術(shù)語相似度來替代兩文本內(nèi)容之間的相似度,計算公式為
SimText=[i=li=ni=lj=mconceptsimilary(Ci,Cj)m*n]? ? ? ? ? ? ? (6)
最終根據(jù)背景和內(nèi)容得出用戶之間的興趣相似度為
SimI=αSimB+βSimText? ? ? ? ? ? ? ? (7)
其中,α,β的值各取0.5
3.3個性化微博推薦
一段時間一個用戶U的關(guān)注用戶所發(fā)布的最新微博集合為Cnew,對于其中的每個新的微博cnew,計算該用戶U對此微博的興趣度,公式為
InterestLevel(U,Cnew)=[t∈T(Snew*Ut)]·? ? ? ? ? (8)
其中,T是用戶所感興趣的主題集合,Snew為主題分布向量。
當(dāng)用戶的關(guān)注用戶發(fā)布或轉(zhuǎn)發(fā)新的微博內(nèi)容時,對新微博集合按興趣度的降序排列,將TOP-N個新微薄推薦給用戶
4實驗
實驗數(shù)據(jù):
本實驗的數(shù)據(jù)來自新浪微博。數(shù)據(jù)的獲取過程包括采集和篩選兩個部分。數(shù)據(jù)采集階段,利用數(shù)據(jù)采集工具獲取新浪微博用戶的基本信息和內(nèi)容信息;篩選數(shù)據(jù)階段,去除信息缺失嚴(yán)重的無效數(shù)據(jù)。最后得到169788個用戶數(shù)據(jù)。其中包括微博的個人信息和關(guān)注列表數(shù)據(jù)。在用戶個人信息這方面,有職業(yè)、年齡、注冊時間、興趣愛好等。本文將利用信息檢索領(lǐng)域的評價指標(biāo)排序準(zhǔn)確率作為評價用戶相似度的性能。通過用戶之間的關(guān)注序列,對比用戶之間的相似度所產(chǎn)生的相似序列,評價用戶之間相似度。
本部分實驗采取排序準(zhǔn)確率和MAP作為評價指標(biāo)。排序準(zhǔn)確率公式如下
Accuracy=[1|U|u∈U1|F(u)|i=1|F(u)|11+|S(u)_ri-F(u)_ri|]? ?(9)
其中,將U的相似序列S(u)作為待測結(jié)果,將U的關(guān)注序列F(u)作為標(biāo)準(zhǔn)答案.對于關(guān)注序列F(u)中的每個用戶i,它在F(u)、S(u)中出現(xiàn)的次序位置分別記為F(u)_ri,、S(u)_ri
MAP=[1|U|u∈U1|D(u)|i=1|D(u)|iS(u)_ri]? ? ? ? ? ? ? (10)
(1)基于背景和內(nèi)容的相似度實驗結(jié)果
該實驗部分是考察微博用戶的背景信息和文本內(nèi)容對用戶興趣相似度的影響。實驗內(nèi)容:首先計算用戶的關(guān)注列表相似度、用戶標(biāo)簽相似度、用戶轉(zhuǎn)發(fā)相似度,然后將它們加權(quán)融合,得到用戶的背景信息相似度。通過文本內(nèi)容關(guān)鍵詞的相似性糅合得到內(nèi)容相似性。最后和背景信息加權(quán)得到最終相似性。圖1給出了上述各種相似度在排序準(zhǔn)確率上的實驗結(jié)果。實驗結(jié)果顯示:用戶轉(zhuǎn)發(fā)相似性具有較好的實驗效果,綜合地看,3種屬性信息和文本內(nèi)容相似度加權(quán)融合而成的最終結(jié)果效果最好。
從實驗結(jié)果可以看出:用戶標(biāo)簽準(zhǔn)確率最低??赡艿脑蛴校?)標(biāo)簽信息的不完整性,用戶的標(biāo)簽中涉及用戶的個人隱私信息,用戶可能不會真正描述自己,或者隨意填寫,有的甚至不寫。用戶的轉(zhuǎn)發(fā)最能體現(xiàn)用戶的興趣,如果用戶對此微博轉(zhuǎn)發(fā)說明對微博感興趣,否則也不會去轉(zhuǎn)發(fā)。
通過結(jié)果觀察,用戶之間的微博轉(zhuǎn)發(fā)準(zhǔn)確率最高,最能說明轉(zhuǎn)發(fā)對興趣相似性的判斷所起的作用最大,而關(guān)注列表僅次于微博轉(zhuǎn)發(fā),可能只是短暫的興趣,時間久之,興趣會發(fā)生變化,但變化不會太大。但用戶之間共同關(guān)注用戶的比例較大,也能說明二者具有相同的愛好。
(2)推薦用戶的準(zhǔn)確率比較
分別應(yīng)用上述各種相似度,進行用戶推薦.圖2給出了上述各種相似度在用戶推薦上的實驗結(jié)果。實驗結(jié)果顯示:對于用戶推薦來說,用戶信息的3種屬性信息相比,用戶轉(zhuǎn)發(fā)相似度取得了最好的推薦效果。
5結(jié)束語
本文結(jié)合前人研究的基礎(chǔ)上,進一步完善了相似度計算的方法。針對多態(tài)相似度模型,給出了微博用戶的屬性信息以及計算方法。在此基礎(chǔ)上,完成了微博用戶相似度的整體計算方法。最后通過實驗來驗證他們的性能。
利用微博數(shù)據(jù),根據(jù)微博用戶信息,分別給出了用戶屬性信息、用戶轉(zhuǎn)發(fā)、內(nèi)容的相似度計算方法。
參考文獻:
[1] HUANG Xianying ,CHEN Hongyang ,LIU Ying‐tao.Research on Microblog short text similarity and its application in Microblog topic detection[J].
[2] Xu zhi-Ming,LiDong,Liu Ting,et al.Measuring similarity between microblog users and its application[J].Chinese Journal of Computers.2014,37(1):207-218(in Chinese)
[3] HUANG Hongcheng, LU Weijin,et al.User Relationships Prediction Algorithm with Interest Similarity Measurement[J].Computer Science and Exploration.2017,11(7)-1068-12
[4] Wang Xiao-Yu,Xiong Fang,Ling Bo,Zhou Aoying.A similarity-based algorithm for topic exploration and distillation.Journal of Software,2003,14(9):1578-1585(in Chinese)
[5] 邢千里,劉列,劉奕群,張敏,馬少平.微博中用戶標(biāo)簽的研究[J].軟件學(xué)報,2015,26(7):1626?1637.
[6] 彭澤環(huán),孫樂,韓先培,石貝.基于排序?qū)W習(xí)的微博用戶推薦[J].中文信息學(xué)報,2013,27(4):96?102.
[7] 楊圩生,羅愛民,張萌萌.基于信任環(huán)的用戶冷啟動推薦[J].計算機科學(xué),2013,40(11a):363?366.
[8] 張園美.微博用戶興趣分析方法應(yīng)用研究[D].大連:大連理工大學(xué),2015.
[9] 李峰,侯加英,曾榮仁,等.融合詞向量的多特征句子相似度計算方法研究[J].計算機科學(xué)與技術(shù),2017(11).