藍(lán)友樞 張章學(xué)
摘 要:社交網(wǎng)絡(luò)中各種推廣應(yīng)用都依賴于用戶興趣的獲取。用戶興趣獲取方法多種多樣,但大多集中于用戶關(guān)注信息、用戶瀏覽網(wǎng)頁的分析,用戶發(fā)表的語義信息與興趣的潛在聯(lián)系很少被深度發(fā)掘。提出基于標(biāo)簽的話題分割模型,將所有文本轉(zhuǎn)化為帶標(biāo)簽的文本以便聚類。通過分析話題變化狀態(tài)推測(cè)用戶興趣遷移狀況,注重社交網(wǎng)絡(luò)用戶興趣及遷移狀況與話題動(dòng)態(tài)變化過程的潛在關(guān)聯(lián),利用Word2vec對(duì)話題進(jìn)行相似度分析,充分利用詞的上下文信息表征豐富的語義信息,通過分析社交網(wǎng)絡(luò)平臺(tái)數(shù)據(jù),得到用戶興趣分布、興趣動(dòng)態(tài)變化過程以及話題遷移狀況。將結(jié)果進(jìn)行擬合后發(fā)現(xiàn),用戶的興趣及變化狀況很大程度上取決于用戶發(fā)表的話題。
關(guān)鍵詞:社交網(wǎng)絡(luò);用戶興趣;話題模型
DOI:10.11907/rjdk.172859
中圖分類號(hào):TP302
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)006-0049-04
Abstract:A variety of applications in social network are dependent on user interest. To obtain user interest diversity, a large number of methods are focused on those information that users pay attention or the semantic information is ignored. In this paper, we focus on the social network interest of user and migration status about topics.We obtain the migration status of interest by analyzing the changes of the topics. By Word2vec model similarity of the topic is analysed. This model makes full use of the word context information to characterize semantic information. Then we put forward the model of partition based on topics that convert all texts into tagged texts. Finally, We observe the changes of the topics when interests change. By analyzing the data obtained from the social networking ,we get the distribution of user interest, the dynamic process of interest change and the migration of topics. It is found that topics largely depend on the user's interests.
Key Words:social network; interest; topic model
0 引言
社交網(wǎng)絡(luò)與現(xiàn)實(shí)生活越來越重合,而社交網(wǎng)絡(luò)平臺(tái)的大量推廣使人們?cè)谔摂M網(wǎng)絡(luò)中得到的信息越來越貼合現(xiàn)實(shí)需求,主題探測(cè)及追蹤技術(shù)旨在找到并追蹤人們感興趣的話題[1],讓人們了解這些信息或事件的后續(xù)發(fā)展,以便用戶能更全面地分析事件[2]。社交網(wǎng)絡(luò)中用戶興趣極為重要,大部分研究都涉及到用戶興趣,例如社交網(wǎng)絡(luò)推薦服務(wù)就是與用戶興趣息息相關(guān)的[3]。對(duì)信息傳播而言,若用戶對(duì)該信息有興趣,那么傳播率就會(huì)很高[4]。因此,用戶興趣獲取是社交網(wǎng)絡(luò)中一切應(yīng)用的基石。
本文采用經(jīng)典的Word2vec話題模型對(duì)話題進(jìn)行相似度分析。話題模型最早產(chǎn)生于1996年,由當(dāng)時(shí)美國國防高級(jí)研究計(jì)劃署(簡稱DARPA)提出,用于判斷在沒有人工干預(yù)的情況下新聞的主題趨勢(shì)[5]。隨著技術(shù)的不斷進(jìn)步,許多研究將概率主題模型用來識(shí)別大規(guī)模文檔集或主題信息[6-7]。由于社交網(wǎng)絡(luò)用戶發(fā)表文檔的局限性(簡短且包含許多表情符號(hào)),導(dǎo)致傳統(tǒng)的VSM(Vector Space Model,簡稱向量空間模型)無法處理含有該類特性的微博文本[8]。相對(duì)于經(jīng)典的潛在語義分析(Latent Semantic Index,簡稱 LSI)[9]、潛在狄立克雷分配(Latent Dirichlet Allocation,簡稱LDA)[10]過程而言,本文采用的模型充分利用詞的上下文信息,能更加豐富地表征語義信息。本文提出了基于標(biāo)簽的話題分割模型,利用標(biāo)簽文本對(duì)所有文本進(jìn)行聚類劃分。在以下兩方面進(jìn)行研究:①利用話題模型將用戶信息標(biāo)簽化,從而達(dá)到簡化信息聚類文本的效果;②采用Word2vec話題模型對(duì)話題進(jìn)行相似度分析,以了解用戶的話題遷移狀況。
1 模型建立
1.1 模型架構(gòu)
為得到用戶話題與興趣的聯(lián)系,需要對(duì)用戶發(fā)表的文本信息進(jìn)行處理,本文采用Word2vec話題模型對(duì)用戶發(fā)表的信息進(jìn)行語義處理。社交網(wǎng)絡(luò)用戶發(fā)表微博的文本存在分類標(biāo)簽,為便于話題聚類,本文建立一個(gè)半監(jiān)督話題模型,將所有文本都生成帶標(biāo)簽文本。模型基本原理如圖1所示。從這些話題得到用戶的興趣并根據(jù)話題變化分析用戶的興趣遷移現(xiàn)象。
根據(jù)圖1的基本原理作出以下假設(shè):①任意用戶發(fā)表的文本可存在多個(gè)標(biāo)簽,但標(biāo)簽間概率相等;②興趣分為6大類:美食、休閑、時(shí)尚、購物、文化、旅游;③聚類允許存在重疊部分。
1.2 Word2vec話題模型建立
Distributed representation 是Word2vec 使用的詞向量表示方式,最早由 Hinton在 1986 年提出[11],目的是通過訓(xùn)練將每個(gè)詞映射成K維實(shí)數(shù)向量,通過詞與詞之間的關(guān)系判斷它們之間的語義相似度。本文采用連續(xù)詞袋模型(Continuous Bag-of-Word Model, 簡稱CBOW),將每個(gè)詞映射成K維實(shí)數(shù)向量。
Hierarchical Softmax本質(zhì)是優(yōu)化CBOW的輸出層。傳統(tǒng)的CBOW輸出層利用softmax計(jì)算概率值,而Hierarchical Softmax利用Huffman樹計(jì)算概率值。Hierarchical Softmax將詞表中的全部詞看成葉子節(jié)點(diǎn),詞頻作為節(jié)點(diǎn)的權(quán)重,構(gòu)建一棵Huffman樹。Huffman樹是二叉樹,如圖2所示。直觀上可以看出,葉子節(jié)點(diǎn)的權(quán)重越大,該葉子節(jié)點(diǎn)離根節(jié)點(diǎn)越近。因此,對(duì)于模型來說,若一個(gè)詞的詞頻越高,它距離根節(jié)點(diǎn)就越近。從圖中能發(fā)現(xiàn)它的最優(yōu)路徑是唯一的,Hierarchical Softmax利用最優(yōu)路徑計(jì)算指定詞概率。
1.3 聚類分析
社交網(wǎng)絡(luò)中存在帶標(biāo)簽文本,建立一個(gè)半監(jiān)督的話題模型是為了將所有文本都生成帶標(biāo)簽文本,以便進(jìn)行話題聚類,從這些話題中得到用戶興趣,并根據(jù)話題變化分析用戶的興趣遷移現(xiàn)象。
根據(jù)話題間相似度實(shí)驗(yàn),本文設(shè)置一個(gè)初始閾值δ,當(dāng)未標(biāo)簽文本D-i與標(biāo)簽文本D-j之間的相似度大于等于初始閾值δ,就可將未標(biāo)簽文本同化為D-j的同一類標(biāo)簽文本。一直重復(fù)該步驟直到所有文本皆被標(biāo)記,再進(jìn)行文本間的聚類分析。最后將標(biāo)簽進(jìn)行大類劃分為美食、休閑、時(shí)尚、購物、文化、旅游。
1.4 興趣及話題動(dòng)態(tài)狀況
社交網(wǎng)絡(luò)用戶的興趣會(huì)隨著時(shí)間的改變而發(fā)生變化,本文利用用戶關(guān)注信息監(jiān)測(cè)用戶興趣狀況,根據(jù)用戶不同時(shí)間關(guān)注的用戶列表變化狀況分析用戶興趣變化狀況。用戶興趣變化是一個(gè)緩慢的過程,用戶興趣很少會(huì)突然發(fā)生改變,因此,本文設(shè)置一個(gè)興趣狀態(tài)量表示這個(gè)動(dòng)態(tài)變化過程。設(shè)F-t、L-t、S-t、P-t、C-t、T-t分別是t時(shí)刻用戶關(guān)注美食相關(guān)、休閑相關(guān)、時(shí)尚相關(guān)、購物相關(guān)、文化相關(guān)、旅游相關(guān)的博主數(shù)量,定義對(duì)任意用戶i在t時(shí)刻都存在一個(gè)興趣狀態(tài)量S-it,如下式:
設(shè)置一個(gè)興趣狀態(tài)量表示興趣變化的動(dòng)態(tài)過程,對(duì)于話題同樣設(shè)置一個(gè)話題狀態(tài)量表示話題的動(dòng)態(tài)遷移過程。在上述的聚類過程中將用戶話題進(jìn)行聚類,設(shè)DF-t、DL-t、DS-t、DP-t、DC-t、DT-t分別是t時(shí)刻用戶發(fā)表的美食相關(guān)、休閑相關(guān)、時(shí)尚相關(guān)、購物相關(guān)、文化相關(guān)、旅游相關(guān)的文本數(shù)量。
2 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析
以用戶發(fā)表的微博信息以及用戶關(guān)注的內(nèi)容進(jìn)行實(shí)驗(yàn)。生活中存在一些用戶基本不發(fā)微博也不關(guān)注其他用戶情況,在數(shù)據(jù)處理時(shí)過濾掉這部分?jǐn)?shù)據(jù)。首先隨機(jī)抽取1 000個(gè)微博,去除兩周內(nèi)發(fā)表微博數(shù)少于3條的用戶,分別采集他們兩周內(nèi)的微博數(shù)據(jù)。對(duì)話題進(jìn)行聚類之后發(fā)現(xiàn)微博中興趣的分布情況如圖3所示。由圖(3)可知用戶興趣主要集中在名人明星、生活?yuàn)蕵芬约皶r(shí)事新聞3方面。
本文目的是得到用戶間的興趣變化狀況與話題變化狀況之間的關(guān)聯(lián),任意選擇微博中的一個(gè)用戶,根據(jù)模型定義得到興趣變化狀況及話題變化狀況。
用戶的實(shí)際興趣獲取來自于微博用戶關(guān)注情況分析,根據(jù)分析提取出用戶的真實(shí)興趣狀況。將用戶間的興趣變化狀況和話題變化狀況(見圖4、圖5)進(jìn)行擬合,如圖6所示。由于初始閾值的不確定性,因此對(duì)不同閾值狀態(tài)下的結(jié)果都進(jìn)行分析。實(shí)際操作中初始閾值高于0.8的基本沒有,因此將其分成6段:[0,0.2),[0.2,0.4),[0.4,0.5),[0.5,0.6),[0.6,0.7),[0.7,0.8)。從圖6可發(fā)現(xiàn)初始閾值越大,興趣與話題的擬合度就越高。但當(dāng)?shù)竭_(dá)一定值之后,變化卻不明顯。
3 結(jié)語
本文對(duì)社交網(wǎng)絡(luò)中用戶興趣及遷移狀況對(duì)話題的影響進(jìn)行了研究。針對(duì)話題間的相似度進(jìn)行分析,采用傳統(tǒng)的Word2vec模型,充分利用詞的上下文信息及該模型豐富的表征語義信息,提出基于標(biāo)簽的話題分割模型。通過話題改變過程中興趣的動(dòng)態(tài)變化過程,分析興趣及遷移狀況對(duì)話題的影響。實(shí)驗(yàn)數(shù)據(jù)表明,用戶發(fā)表的話題很大程度上取決于用戶的興趣變化狀況。
參考文獻(xiàn):
[1] ZHANG X, GUO Z, LI B. An effective algorithm of news topic tracking[C].Intelligent Systems, 2009. GCIS '09. WRI Global Congress on. IEEE, 2009:510-513.
[2] PON R K, CARDENAS A F, CRITCHLOW T, et al. Tracking multiple topics for finding interesting articles[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2007:560-569.
[3] 張曉婕.基于微博用戶興趣模型的個(gè)性化廣告推薦研究[D].上海:華東師范大學(xué),2014.
[4] ZHAO N, CUI X, DAWSON K A, et al. Impact of individual interest shift on information dissemination in modular networks[J]. Physica A Statistical Mechanics & Its Applications, 2017(466):232-242.
[5] 李樹平,張偉,楊柳,等.話題跟蹤技術(shù)的研究綜述[J].赤子,2014(21):130-131.
[6] 陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析[J].計(jì)算機(jī)科學(xué),2013,40(4):127-130.
[7] BERRY, MICHAEL W, KOGAN, et al. Text Mining: applications and theory[J]. John Wiley & Sons, 2010(1):29-33.
[8] MELUCCI M. Vector-Space Model[M]. Springer US, 2009.
[9] HEISTERKAMP D R. Building a latent semantic index of an image database from patterns of relevance feedback[C].16 Th International Conference on Pattern Recognition. IEEE Computer Society, 2002:40134.
[10] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
[11] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013(6):1257-1262.
(責(zé)任編輯:杜能鋼)