馬 力,王 蕓,楊 琳
(西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710061)
基于MoodCast模型的用戶行為分析與預(yù)測(cè)
馬 力,王 蕓,楊 琳
(西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710061)
心理學(xué)研究表明人類行為受其情感的影響,鑒于社交網(wǎng)絡(luò)中對(duì)用戶行為的分析未考慮到情感傳播因素的影響問(wèn)題,本文基于動(dòng)態(tài)因子圖模型(MoodCast)在情感分析中預(yù)測(cè)準(zhǔn)確率較高的特點(diǎn),將其應(yīng)用于社交網(wǎng)絡(luò)的行為分析中,給出了一種新的情感預(yù)測(cè)模型,并將該模型運(yùn)用到廣告點(diǎn)擊用戶行為分析中。實(shí)驗(yàn)仿真結(jié)果驗(yàn)證了用戶情感與社會(huì)關(guān)系因素及時(shí)間因素相關(guān),用戶情感與行為呈正相關(guān)。
情感;情感傳播;預(yù)測(cè)模型;行為
情感是人類對(duì)客觀外界事物態(tài)度的體驗(yàn),人們?cè)谏缃痪W(wǎng)絡(luò)中的行為直接反映其在真實(shí)世界中的活動(dòng)和情感。這促使傳統(tǒng)意義上的主觀心理學(xué)概念的情感在網(wǎng)絡(luò)空間和人類社會(huì)中顯現(xiàn)出一致性、通用性和重要性,成為影響人類個(gè)體、社會(huì)及網(wǎng)絡(luò)社會(huì)智能活動(dòng)的重要因素。
目前大部分系統(tǒng)只是支持網(wǎng)絡(luò)宏觀分析(如網(wǎng)絡(luò)結(jié)構(gòu)分析和可視化分析),而對(duì)網(wǎng)絡(luò)微觀分析(如個(gè)體用戶行為分析、影響力分析等)卻鮮有研究。情感動(dòng)態(tài)分析目前主要研究集中在心理學(xué)和社會(huì)學(xué)領(lǐng)域,重點(diǎn)關(guān)注人類情感的動(dòng)因,包括某種具體的情感是如何演化形成、情感隨時(shí)間的動(dòng)態(tài)變化、或者朋友們之間的情感如何相互影響[3]。文獻(xiàn)[6]研究了幸福感在社交網(wǎng)絡(luò)中的動(dòng)態(tài)傳播,揭示了在社交網(wǎng)絡(luò)中,幸福感最多通過(guò)三層聯(lián)系在人群中進(jìn)行傳播。文獻(xiàn)[7]在此基礎(chǔ)上對(duì)孤獨(dú)感的動(dòng)因進(jìn)行了更進(jìn)一步的研究,指出在社交網(wǎng)絡(luò)中孤獨(dú)感有著和幸福感相似的傳播模式。但這些工作中的絕大部分只定性地在一定規(guī)模的社交網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行統(tǒng)計(jì)分析及測(cè)試驗(yàn)證,缺乏對(duì)社交網(wǎng)絡(luò)情感及其動(dòng)態(tài)演變的定量計(jì)算。為此,本文將用戶情感傳播因素應(yīng)用到社交網(wǎng)絡(luò)中,研究情感主觀范疇與網(wǎng)絡(luò)行為有機(jī)相融合的計(jì)算建模問(wèn)題,為準(zhǔn)確度量人類的情感提供新的技術(shù)途徑。
動(dòng)態(tài)因子圖情感預(yù)測(cè)模型(Emotion Prediction via Dynamic Continuous Factor Graph Model,MoodCast)是由清華大學(xué)教授唐杰提出,主要用于定量計(jì)算社交網(wǎng)絡(luò)中用戶的情感以及分析預(yù)測(cè)其行為分析。MoodCast是結(jié)合用戶的動(dòng)態(tài)狀態(tài)信息(如地點(diǎn)、活動(dòng)和屬性)和用戶的社會(huì)關(guān)系對(duì)其情感的影響而建立的模型。MoodCast中將主體情緒的變化建模成動(dòng)態(tài)連續(xù)網(wǎng)絡(luò) Gt的函數(shù):Gt=(V,Et, Xt,Yt)。其中 V是用戶的集合,假設(shè)有 n個(gè)用戶,是指在 t時(shí)刻用戶vi和用戶 vj創(chuàng)建的連接。Xt是社交網(wǎng)絡(luò)上所有用戶在連續(xù)時(shí)間屬性變化的集合,Yt是在社交網(wǎng)絡(luò)上所有用戶情感狀態(tài)改變的集合。假設(shè)用戶所處環(huán)境不變,即 Xt=X[3],則用戶的情緒僅根據(jù)時(shí)間關(guān)聯(lián)因子函數(shù)和社會(huì)關(guān)聯(lián)因子函數(shù)而變化,所以用戶的情緒可以表述為式(1):
其中,h(Gt)為時(shí)間關(guān)聯(lián)因子函數(shù),它表示用戶的最近過(guò)去時(shí)刻 t′情感狀態(tài) yt′對(duì)時(shí)刻 t的情感狀態(tài) yt的影響程度。由于時(shí)間影響具有連續(xù)性,即t時(shí)刻前的m個(gè)時(shí)刻為t-1,t-2,…,t-m,根據(jù)MoodCast模型,之前狀態(tài)的時(shí)隔越短對(duì)情緒預(yù)測(cè)的影響越深刻,因此預(yù)測(cè)情感的變量主要是最近的過(guò)去狀態(tài),歸一化過(guò)去各時(shí)間的影響總和,如式(2)所示:
g(Gt)為社會(huì)關(guān)聯(lián)因子函數(shù),它表示用戶 vj在 t′時(shí)刻的情感對(duì)用戶 vi在 t時(shí)刻情感的影響。Fowle、Whitfield和Christakis研究發(fā)現(xiàn)一個(gè)社會(huì)網(wǎng)絡(luò)中用戶傳播幸福三度分離,即三度之內(nèi)用戶比之外感到幸福的可能性更大,用戶的情緒影響只在兩階內(nèi)比較顯著,且影響因子的系數(shù)分別為 18%、11%[6]。研究中忽略主體之間聯(lián)系的密切度,二值化為一階社交網(wǎng)絡(luò)用戶間聯(lián)系矩陣E(dij),
矩陣 E(dij)平方后得二階社交網(wǎng)絡(luò)用戶間聯(lián)系矩陣E2(eij),
社會(huì)關(guān)系方面研究社交網(wǎng)絡(luò)中其他用戶vj對(duì)用戶vi的影響,而主對(duì)角線為自身對(duì)自身的影響,所以聯(lián)系矩陣的主對(duì)角線為0。社交網(wǎng)絡(luò)用戶有多個(gè)聯(lián)系人,我們對(duì)En×n進(jìn)行列標(biāo)準(zhǔn)化如式(3)所示:
一階社會(huì)關(guān)聯(lián)效應(yīng)為:
二階社會(huì)關(guān)聯(lián)效應(yīng)為:
社會(huì)關(guān)聯(lián)函數(shù):
假設(shè)用戶情緒是自身情緒在時(shí)間上的延續(xù)及社交關(guān)系對(duì)用戶情緒影響的和,則形式上用戶情感狀態(tài)的預(yù)測(cè)函數(shù)表示為:f(V,Et+1,Xt+1|Gt)→Yt+1
由于廣告是短文本,特征向量表示會(huì)異常稀疏,廣告文本去除停用詞后剩余更少,所以通過(guò)經(jīng)驗(yàn)點(diǎn)擊率將剩余文本中的關(guān)鍵詞作為廣告標(biāo)簽。
設(shè)詞t在M條廣告中出現(xiàn)的次數(shù)為N(t),則t平均在每條廣告中出現(xiàn)N(t)|M次。設(shè)t在一條廣告a中出現(xiàn)的次數(shù)為n(t,a),則t在廣告a的重要性如式(8):
篩選后的詞序列 tki(ki∈{1,2,…,iλ})就是廣告 a的標(biāo)簽,因?yàn)榍笤~比重和詞序列均與M無(wú)關(guān),所以可將M設(shè)為常整數(shù)。
P(ω1|t1),P(ω1|t2),…,P(ω1|tn)是估算出現(xiàn)的標(biāo)簽 t1,t2,…,tn的廣告點(diǎn)擊率。根據(jù)貝葉斯公式,對(duì)任意詞 t出現(xiàn)時(shí),廣告被點(diǎn)擊的概率是:
g(t,a)>1,與 N(t)呈負(fù)相關(guān),與 n(t,a)呈正相關(guān)(即詞t在廣告a中出現(xiàn)次數(shù)越多越重要)。廣告a中的所有詞為 ti(i=1,2,…,n),讓 ti按其比重 g(t,a)排序,得到詞序列 tki(ki∈{1,2,…,n}),設(shè)置閾值 λ∈(0,1)
式(10)中,ω1表示廣告被點(diǎn)擊,ω0表示廣告沒(méi)有被點(diǎn)擊。
為了計(jì)算聯(lián)合條件概率 P(ω1|t1t2,…tn),定義 πi(T)= P(ω1|T),i=0,1。首先分析廣告標(biāo)簽的互作用性:如果π1(t1t2)>π1(t1),則 t2對(duì) t1為增強(qiáng)效果,比如 t1是某品牌,t2是“清倉(cāng)”、“打折”等。 反之,π1(t1t2)<π1(t1),則 t2對(duì) t1為減弱效果。有上述特殊情況轉(zhuǎn)為一般形式,α(Tn,tn+!)=為tn+1廣告標(biāo)簽相對(duì)n維廣告標(biāo)簽向量Tn的效果系數(shù)(α>1為增強(qiáng)效果,α<1為減弱效果)。
假設(shè)互作用相互獨(dú)立,那么:
如式(12),π1(t1t2…tn)的取值可大于等式后半部分,所以互作用不獨(dú)立。正如我們?nèi)粘Y?gòu)物,影響因素眾多,除去主導(dǎo)因素,剩余因素的影響比較小,而“折扣”、“清倉(cāng)”標(biāo)簽的加強(qiáng)效果也不是累加的。所以添加修正因子函數(shù)關(guān)于 i的減函數(shù) λ(tK,ti),得:
通過(guò)樣本針對(duì)每個(gè)標(biāo)簽 t獲得 λ(t,i),再擬合 i,用經(jīng)驗(yàn)概率估算 α(tK,tki)。對(duì)所有標(biāo)簽 t1,t2,t3,…生成矩陣Mα,其中:
我們也可以設(shè)定閾值忽略點(diǎn)擊率很小的標(biāo)簽,最終可以估算 π1(t1t2…tn)=P(ω1|t1t2…tn)。
本文基于情感傳播機(jī)制的用戶行為分析主要是通過(guò)在每一次會(huì)話中用戶點(diǎn)擊廣告的概率,預(yù)測(cè)一次會(huì)話,主要受用戶的查詢和廣告特征的影響。用戶的查詢直接決定了用戶有沒(méi)有點(diǎn)擊廣告的意愿,廣告特征在用戶查看廣告條件下,影響廣告的點(diǎn)擊率。設(shè)s代表一次會(huì)話的特征向量,令查詢中的關(guān)鍵字為向量q,廣告特征(標(biāo)簽)為 l,則s=(q,l)。設(shè)用戶點(diǎn)擊廣告為 ω1,不點(diǎn)擊廣告為 ω0,則令:
其中yt為情緒預(yù)測(cè)模型,如式(13)所示。
本文采用指數(shù)形式加入情緒因素是因?yàn)榍榫w對(duì)點(diǎn)擊率的影響是整體的,會(huì)貫穿不同點(diǎn)擊率變化的過(guò)程。用系數(shù)σ來(lái)解決影響程度的不確定性。
用戶情感服從X~N(0,1)正態(tài)分布,設(shè)0.5為情感“中立”,大于0.5為情感“積極”,情感值越大越積極,小于0.5為情感“消極”,情感值越低越低落。同時(shí)引用正態(tài)分布的期望與方差來(lái)觀察情緒變化與波動(dòng)程度對(duì)預(yù)測(cè)情緒的影響。
實(shí)驗(yàn)主要驗(yàn)證聯(lián)系人情感變化與波動(dòng)程度對(duì)用戶未來(lái)情感的影響程度。首先,設(shè)定不同情感期望值來(lái)分析聯(lián)系人情感狀態(tài)對(duì)用戶情感的影響。圖1~圖3顯示不同情感狀態(tài)的用戶受聯(lián)系人情感變化的影響,所有曲線均趨于平緩。圖4綜合處于不同水平的自身情緒的實(shí)驗(yàn)結(jié)果曲線看出聯(lián)系人的情緒變化有可能明顯改變用戶情緒。圖5通過(guò)改變不同水平情緒的聯(lián)系人的比重來(lái)觀察對(duì)自身情緒的影響程度,看出當(dāng)某水平情緒的聯(lián)系人所占比重較大時(shí),可明顯改變自身的情緒水平。圖6設(shè)定不同情緒波動(dòng)程度的聯(lián)系人來(lái)分析對(duì)自身情緒波動(dòng)的影響,發(fā)現(xiàn)當(dāng)聯(lián)系人情緒方差較小時(shí),自身情緒波動(dòng)穩(wěn)定,當(dāng)聯(lián)系人情緒方差大于研究對(duì)象時(shí),自身情緒波動(dòng)變大。
圖1 用戶情緒值不變時(shí)受聯(lián)系人不同情緒值的影響曲線
圖2 用戶情緒值為積極時(shí)受聯(lián)系人不同情緒值的影響曲線
圖3 用戶情緒值為消極時(shí)受朋友不同情緒值的影響曲線
圖4 用戶情緒值不同且分別受情緒積(消)極的朋友影響曲線
圖5 用戶情緒不變受情緒積極和情緒消極的聯(lián)系人影響曲線
圖6 用戶情緒值不變受聯(lián)系人情緒波動(dòng)大小不同的影響曲線
上圖顯示該情感預(yù)測(cè)模型的有效性,而聯(lián)系人的情緒明顯影響自身的行為,本文在廣告點(diǎn)擊模型中加入情緒元素的影響:
假設(shè)影響水平參數(shù) a=1,a的取值為正數(shù)即可,把聯(lián)系人行為與自身之前行為設(shè)為正態(tài)變量,變量的期望值與聯(lián)系人情緒水平變化一致,因?yàn)槁?lián)系人行為明顯影響自身情緒預(yù)測(cè)值,上述實(shí)驗(yàn)已證,考慮點(diǎn)擊率受多種獨(dú)立因素影響,設(shè)變量服從正態(tài)分布。
圖7、圖8表明了聯(lián)系人的不同情緒變化對(duì)用戶點(diǎn)擊率預(yù)測(cè)的影響,三條線的斜率都是正的,說(shuō)明了社交網(wǎng)絡(luò)用戶情感對(duì)點(diǎn)擊率呈現(xiàn)正向影響。
圖7 聯(lián)系人的情緒對(duì)點(diǎn)擊率的影響(200個(gè)數(shù)據(jù))
圖8 聯(lián)系人的情緒對(duì)點(diǎn)擊率的影響(200個(gè)數(shù)據(jù),擬合后)
本文將用戶情感的預(yù)測(cè)模型引入到用戶廣告點(diǎn)擊行為預(yù)測(cè)中,有效證明了用戶的情緒受到社會(huì)關(guān)聯(lián)因子的影響,而影響程度與社會(huì)關(guān)聯(lián)因子的取值有關(guān),并且情感對(duì)用戶行為有正向作用。但對(duì)用戶情感的細(xì)微變化研究不夠,未來(lái)擬對(duì)社交網(wǎng)絡(luò)中用戶情感傳播的微觀機(jī)理進(jìn)行深入研究。
[1]JACKSON P,MOULINIER I.Natural language processing for online applications:text retrieval,extraction and categorization[M].John Benjamins Publishing Company,2007.
[2]FELDMAN R,SANGER J.The text mining handbook[M]. Cambridge University Press.2006.
[3]唐杰,賈珈,楊洋,等.社交網(wǎng)絡(luò)數(shù)據(jù)的情感計(jì)算[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2014,10(5):18-24.
[4]BERRY M,CASTELLANOS M.Survey of text mining II:clustering,classification and retrieval[J].Springer,2007.
[5]WHITFIELD J.The Secret of Happiness:Grinning on the Internet[J].Nature,2008.
[6]FOWLER J H,CHRISTAKIS N A.Dynamic spread of happiness in a large social network:longitudinal analysis over 20 years in the Framingham heart study[J].British Medical Journal,2008.
[7]CACIOPPO J T,F(xiàn)OWLER J H,CHRISTAKIS N A.Alone in the crowd:the structure and spread of loneliness in a large social network[J].Journal of Personality and Social Psychology,2009.
[8]Qi Yudong,Qu Ning,Xie Xiaofang.Web Information Systems and Mining(WISM).IEEE.2010.
[9]BOLLEN J,MAO H,ZENG X J.Twitter mood predicts the stock market.Computational Science,2011,2(1):1-8.
[10]GOYAL K A,SADASIVAM A.A critical analysis of rational &emotional approaches in car selling[J].Int'l J.Business Research and Management,2010,1(2):59-63.
[11]楊琳.基于社交網(wǎng)絡(luò)的用戶行為分析及預(yù)測(cè)[D].西安:西安郵電大學(xué),2013.
Analysis and prediction of user behavior based on MoodCast model
Ma Li,Wang Yun,Yang Lin
(School of Computer Science,Xi′an Institute of Post and Telecommunications,Xi′an 710061,China)
Psychology research shows that human behavior is influenced by the emotion.In view of the analysis of user behavior without emotional communication mechanism in social networks,this paper presents a new model of emotion prediction based on dynamic factor graph model with the characteristics of higher prediction accuracy(MoodCast).The model was applied to predict user behavior of clicking on ads.Simulation results show that emotion is associated with social relationship and time.User behavior is positively influenced by emotion.
emotion;emotional communication;prediction model;behavior
TN919.81
A
10.16157/j.issn.0258-7998.2015.11.039
馬力,王蕓,楊琳.基于 MoodCast模型的用戶行為分析與預(yù)測(cè)[J].電子技術(shù)應(yīng)用,2015,41(11):140-143.
英文引用格式:Ma Li,Wang Yun,Yang Lin.Analysis and prediction of user behavior based on MoodCast model[J].Application of Electronic Technique,2015,41(11):140-143.
2015-07-08)
馬力(1961-),男,教授,博士,主要研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與信息系統(tǒng)集成研究、網(wǎng)絡(luò)信息智能化處理方法研究、網(wǎng)絡(luò)環(huán)境下教育與學(xué)習(xí)理論應(yīng)用實(shí)踐研究。
王蕓(1990-),女,碩士,主要研究方向:社交網(wǎng)絡(luò)下自然語(yǔ)言處理。
楊琳(1987-),女,碩士,主要研究方向:基于文本聚類的免疫網(wǎng)絡(luò)研究。