秦 鋒,陳 增,鄭 嘯,童 琨
1(安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,馬鞍山 243032)2(安徽祥云科技有限公司,馬鞍山 243032)
隨著網(wǎng)絡(luò)的快速發(fā)展,為了對(duì)用戶的社交網(wǎng)絡(luò)訪問(wèn)行為進(jìn)行預(yù)測(cè),將用戶關(guān)注的內(nèi)容呈現(xiàn)給用戶,實(shí)現(xiàn)個(gè)性化推薦,并且對(duì)網(wǎng)絡(luò)用戶行為實(shí)時(shí)監(jiān)管,是當(dāng)下網(wǎng)絡(luò)發(fā)展過(guò)程中遇到的難題之一.用戶訪問(wèn)行為預(yù)測(cè)研究不僅僅實(shí)現(xiàn)對(duì)用戶的個(gè)性化推薦,展現(xiàn)了其商業(yè)價(jià)值,同時(shí)也為網(wǎng)絡(luò)信息傳播、輿情監(jiān)控、網(wǎng)絡(luò)異常行為監(jiān)控和熱點(diǎn)提取等問(wèn)題的研究提供幫助,展現(xiàn)了其科研價(jià)值.根據(jù)CNNIC[1]發(fā)布的第38次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告,直到2016年6月份,我國(guó)微博用戶規(guī)模為2.42億.
現(xiàn)在微博已成為在我國(guó)最廣泛使用的社交網(wǎng)絡(luò),分析研究微博用戶的行為習(xí)慣對(duì)于了解社交網(wǎng)絡(luò)信息的傳遞與擴(kuò)散有著重要的參考價(jià)值.目前國(guó)內(nèi)外對(duì)于微博用戶的行為研究主要根據(jù)用戶的瀏覽和轉(zhuǎn)發(fā)的歷史行為或者用戶關(guān)注對(duì)象特征等用戶靜態(tài)屬性進(jìn)行預(yù)測(cè),而忽略了用戶本身的情緒和興趣的影響.在心理學(xué)研究中發(fā)現(xiàn)情緒對(duì)于用戶行為有著直接的影響,目前已經(jīng)有部分學(xué)者將心理學(xué)模型于用到文本情感分析研究中,本文主要從用戶發(fā)布微博的文本信息進(jìn)行研究分析,將用戶瀏覽微博時(shí)的情感和興趣引入到預(yù)測(cè)模型中,與用戶的屬性特征結(jié)合,以此達(dá)到提升預(yù)測(cè)模型的效果.
隨著微博用戶規(guī)模的不斷擴(kuò)大,微博在人們的日常生活中的地位也更加重要,國(guó)內(nèi)外對(duì)于微博網(wǎng)絡(luò)中用戶行為也有了更多的研究.張旸等人[2]根據(jù)分析Twitter中用戶轉(zhuǎn)發(fā)行為的特點(diǎn),根據(jù)選取特征的重要性排名,提出了基于特征加權(quán)預(yù)測(cè)模型,使用機(jī)器學(xué)習(xí)的方法驗(yàn)證了模型的有效性.清華大學(xué)的Tan等人[3]通過(guò)構(gòu)建社交網(wǎng)絡(luò)結(jié)構(gòu),分析用戶屬性和用戶行為歷史,提出NTT-FGM模型以便更好地預(yù)測(cè)用戶行為.曹玖新等人[4]以新浪微博為研究對(duì)象,對(duì)各種影響用戶轉(zhuǎn)發(fā)微博的因素統(tǒng)計(jì)分析,并且根據(jù)分析的特征進(jìn)行建模研究.最終選取用戶特征、社交特征和微博特征構(gòu)建轉(zhuǎn)發(fā)預(yù)測(cè)模型,通過(guò)機(jī)器學(xué)習(xí)的方法驗(yàn)證模型的效果.Xu Zhiheng等[5]從個(gè)人用戶的轉(zhuǎn)發(fā)行為的視角對(duì)Twitter的社會(huì)特征、內(nèi)容特征、Twitter特征和作者特征構(gòu)建預(yù)測(cè)模型,實(shí)驗(yàn)中使用C4.5決策樹、支持向量機(jī)、邏輯回歸三種分類算法,并提出了“l(fā)eave-onefeature-out”的方法確定了影響用戶轉(zhuǎn)發(fā)行為的特征是密切相關(guān)的.劉瑋等[6]將影響用戶轉(zhuǎn)發(fā)行為的因素分為三類:用戶行為因素、微博因素、用戶興趣因素.通過(guò)分析各方面的特征建立預(yù)測(cè)模型UBF-RPM模型,實(shí)驗(yàn)表明效果提升3.59%.李志清等[7]分析了影響用戶轉(zhuǎn)發(fā)行為的各類因素,通過(guò)將LDA概率主題模型挖掘微博的隱含主題特征,與微博特征和用戶特征結(jié)合建立微博轉(zhuǎn)發(fā)預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果表明融合特征對(duì)轉(zhuǎn)發(fā)行為預(yù)測(cè)的有效性.
微博短文本情感分析是通過(guò)對(duì)微博文本內(nèi)容的分析,挖掘用戶在微博文本中表達(dá)的情感色彩,同時(shí)這是微博短文本情感分析的工作核心.如今國(guó)內(nèi)外在微博短文本情感方面的研究非常多,Pak等人[8]從語(yǔ)言學(xué)的角度對(duì)抓取的Twitter微博進(jìn)行分析,構(gòu)建語(yǔ)料庫(kù),建立情感分類器,并且在NB、SVM和CRF實(shí)現(xiàn).Sriram等[9]考慮到微博文本的特有特征,如作者信息、發(fā)布時(shí)間等,通過(guò)實(shí)驗(yàn)說(shuō)明在文本分類任務(wù)時(shí)加入這些特征后,分類性能得到了提高.國(guó)內(nèi)外對(duì)于微博用戶興趣的研究同樣取得了很大的進(jìn)展.Shen等[10]假設(shè)用戶的興趣分布可以用各種實(shí)體表示,利用主題算法對(duì)知識(shí)庫(kù)進(jìn)行實(shí)體訓(xùn)練以及上下文語(yǔ)義關(guān)聯(lián),構(gòu)建用戶興趣模型并完成實(shí)體鏈接任務(wù).邱云飛等人[11]結(jié)合微博短文本數(shù)據(jù)集,給出微博短文本重構(gòu)概念,對(duì)微博的原始特征進(jìn)行擴(kuò)充,讓聚類效果有所提升,而且根據(jù)重構(gòu)特征建立用戶興趣模型.王巖等[12]根據(jù)微博數(shù)據(jù)存在大量鏈接的特點(diǎn),抽取HTML元素組成文檔鏈,根據(jù)共現(xiàn)閾值構(gòu)造主題抽取模型,并且實(shí)現(xiàn)話題的情感分析.陳文濤等人[13]通過(guò)對(duì)TwitterLDA、UserLDA以及AuthorLDA的對(duì)比實(shí)驗(yàn),分析了三種LDA模型優(yōu)勢(shì)所在,同時(shí)詳細(xì)介紹了通過(guò)主題模型來(lái)構(gòu)建用戶興趣模型的方法和技術(shù).
網(wǎng)絡(luò)用戶行為的一個(gè)子類——社交網(wǎng)站用戶行為,不但擁有其父類的特征,自身同時(shí)具有獨(dú)特的個(gè)性.我們把社交網(wǎng)絡(luò)中的行為特點(diǎn)總結(jié)歸納成下面的4點(diǎn).
1)交互性.當(dāng)用戶瀏覽社交網(wǎng)絡(luò)平臺(tái)的時(shí)候,會(huì)通過(guò)信息的發(fā)布、轉(zhuǎn)發(fā)、評(píng)論等行為與好友進(jìn)行交互,在信息轉(zhuǎn)發(fā)等傳遞過(guò)程中,用戶的信息交互促進(jìn)朋友關(guān)系的發(fā)展,也會(huì)吸引更多新的用戶加入.
2)消息快速擴(kuò)散性.社交網(wǎng)絡(luò)中,用戶之間構(gòu)建了龐大的復(fù)雜的用戶關(guān)系網(wǎng)絡(luò),用戶發(fā)布或者分享的消息能夠快速的在用戶間傳播,隨著社交平臺(tái)的多樣化,信息的傳播速度也大大提升.
3)保密性.多數(shù)的社交平臺(tái)使用中,不要求用戶實(shí)名認(rèn)證,對(duì)用戶的信息最大程度上給予保護(hù).
4)不確定性.現(xiàn)在隨著各式各樣的社交網(wǎng)絡(luò)平臺(tái)的出現(xiàn),使得原本繁雜的網(wǎng)絡(luò)環(huán)境更加的復(fù)雜,社交用戶的群體也有著很大的區(qū)別,這些都讓用戶在社交網(wǎng)絡(luò)中的行為變得更加復(fù)雜多變,難以預(yù)測(cè).
在微博平臺(tái)中,對(duì)于所有用戶均可見的行為有轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊3種,還有一種收藏行為除了用戶本身之外的其他均不可見,所以對(duì)于微博用戶行為的研究中不考慮收藏行為.
我們通過(guò)對(duì)某一認(rèn)證用戶一個(gè)星期內(nèi)發(fā)布的微博的點(diǎn)贊數(shù)、評(píng)論數(shù)及轉(zhuǎn)發(fā)數(shù)的對(duì)比,我們發(fā)現(xiàn)三種行為之間的操作次數(shù)的變化趨勢(shì)呈現(xiàn)出一致性,所以認(rèn)為3種行為操作之間具有正相關(guān)的關(guān)系,如圖1所示.
圖1 微博轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊數(shù)對(duì)比
經(jīng)過(guò)對(duì)該認(rèn)證用戶的這一個(gè)星期內(nèi)發(fā)布的微博的點(diǎn)贊數(shù)、評(píng)論數(shù)及轉(zhuǎn)發(fā)數(shù)的對(duì)比分析,我們通過(guò)SPSS工具對(duì)微博的三種操作次數(shù)進(jìn)行相關(guān)性分析,結(jié)果發(fā)現(xiàn)其顯著性p=0.2%<1%(顯著性水平),說(shuō)明三種行為之間都具有強(qiáng)正相關(guān)關(guān)系,其相關(guān)系數(shù)都超過(guò)了99%,這說(shuō)明微博用戶的轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊行為之間有直接的關(guān)系.
本文選取的屬性特征有微博等級(jí)、粉絲數(shù)量、微博累計(jì)數(shù)量、認(rèn)證類別、微博使用天數(shù)、是否是會(huì)員、會(huì)員等級(jí)、關(guān)注用戶數(shù)量等.這些用戶主要特征能夠很好地幫助我們識(shí)別用戶的類型,其中關(guān)注用戶數(shù)量能夠反映當(dāng)前用戶微博被轉(zhuǎn)發(fā)的可能性大小.
本文情感特征是通過(guò)短文本情感分析方法,對(duì)文本進(jìn)行識(shí)別分析,最終得到文本的情感特征,這里情感特征主要分為三類,包括:正向情感特征,中性情感特征,以及負(fù)向情感特征.由于微博的特性,本文采用微博短文本情緒分類方法,主要選取的文本特征包括情感詞典、否定詞、表情及標(biāo)點(diǎn)符號(hào)、詞性標(biāo)注特征等.
目前主流的情感分析算法,很多都在使用情感詞典,但是目前主流的情感詞典中HowNet和NTUSD詞典只有情感極性分類,沒(méi)有情感強(qiáng)度的劃分,所以本文在情感詞的識(shí)別任務(wù)中,我們根據(jù)HowNet、DLUT、NTUSD情感詞典,構(gòu)建AHUT情感詞典.格式如表1所示.
表1 AHUT情感詞典示例
在文本情感計(jì)算中還引入程度副詞,表情符號(hào)及特殊標(biāo)點(diǎn)符號(hào) (如“?”、“?。?!”、“……”等等),使情感計(jì)算更加準(zhǔn)確,一般情況下僅有一個(gè)程度副詞修飾該情感詞.程度級(jí)別副詞詞典由HowNet提供,共包含219 個(gè)詞匯,分為 6 個(gè)級(jí)別,“極其/最”,“很”,“較”,“稍”,“欠”,“超”.還將否定詞加入到特征中去,本文中用到的否定詞如表2所示.
表2 否定詞列表
綜合考慮情感模型的特征,情感計(jì)算公式如下:
結(jié)合當(dāng)前短文本情感分析的研究,選取在短文本分析中重要的特征構(gòu)建本文微博情感分析模型,其中微博情感強(qiáng)度計(jì)算如算法1所示.
FOR each Ti∈ {T1,T2,···,Tn} DO//文本預(yù)處理,分詞,去除URL,@用戶名以及停用詞等Ti←preprocessing (Ti)
Ti← //微博詞向量IF (Ti contain (Si,j))Senti += Si,j *advi,j*(–1)k;IF (Ti contain (Syn))Senti += Syn;END IF END FOR IF (Senti==0)//根據(jù)情感詞強(qiáng)度計(jì)算//情感強(qiáng)度,然后根據(jù)對(duì)文本標(biāo)記Ti_Lable = 0;ELSE IF (Senti>0)Ti_Lable = 1;ELSE Ti_Lable = –1;END IF
為了將用戶興趣更好的分類展示,我們對(duì)新浪微博主頁(yè)的熱門類別與各種門戶網(wǎng)站上的類別目錄進(jìn)行分析研究,最后確定將微博用戶興趣映射到10個(gè)較為常見的分類中,分別是:新聞、娛樂(lè)、體育、財(cái)經(jīng)、科技、時(shí)尚、汽車、{旅游、教育、文}化.并且由此構(gòu)建用戶興趣向量Ij=Ij,1,Ij,2,···,Ij,10.如某用戶對(duì)美食和娛樂(lè)的內(nèi)容興趣度較高,則其對(duì)應(yīng)的興趣向量為I={1,0,1,0,0,0,0,0,0,0}.本文用戶興趣模型從用戶標(biāo)簽特征和文本隱含主題特征兩個(gè)方面提取用戶興趣.
用戶個(gè)人標(biāo)簽是指描寫職業(yè)、個(gè)性或者興趣等的短語(yǔ)或者有關(guān)自我介紹的詞組等,這些標(biāo)簽在很大程度上反映了用戶的興趣領(lǐng)域,但是也有一些不利之處,如微博中很多用戶是沒(méi)有設(shè)置自己的標(biāo)簽或者標(biāo)簽是隨便填寫,不能真實(shí)的體現(xiàn)用戶的興趣等.
TF-IDF (Term Frequency-Inverse Document Frequency)是文本分類研究中的常用技術(shù),是用來(lái)統(tǒng)計(jì)文檔中每個(gè)詞匯對(duì)于該文檔的影響力大小的工具[14].TFIDF的主要思路是:如果在某個(gè)文檔中一個(gè)詞語(yǔ)出現(xiàn)的次數(shù)較多,而在其余文檔中出現(xiàn)次數(shù)較少,則這個(gè)詞語(yǔ)就能夠很好的把該文檔與其他的區(qū)別開來(lái).TFIDF值等于:表示詞頻,即wi在文檔j中出現(xiàn)的頻率,IDFi為wi在訓(xùn)練語(yǔ)料上的逆文檔頻率值.
在選擇特征方面,TF-IDF方法和信息增益(Information Gain)方法忽略了特征詞類間分布情況;而卡方檢驗(yàn)(Chi-square test)方法和互信息(Mutual Information)方法有低頻詞傾向,夸大了低頻詞的作用.文檔分布方差反映的是不同類別文本間特征詞分布差異,詞概率分布方差則可以修正文檔分布方差的低頻詞缺陷.根據(jù)這兩類方差的特點(diǎn),將其與TF-IDF計(jì)算融合到一起中,能夠在一定程度上提升主題關(guān)鍵詞的提取效果.例如“手機(jī)”既有可能在“科技”類別的新聞中出現(xiàn),又可能出現(xiàn)在“時(shí)尚”類別新聞中等等.為了保證“類別”專有特征的選擇效果并且保證主題關(guān)鍵詞的提取準(zhǔn)確率,我們用詞的類間概率分布方差和文檔分布方差乘積的對(duì)數(shù)來(lái)更新TF-IDF的特征權(quán)重.
設(shè)wi是文本集中的一個(gè)詞,詞wi的類間概率分布方差為:
c為類別總數(shù),是詞wi在類別cj中的出現(xiàn)的概率,同理,定義詞wi的類間文檔分布方差為:
文檔j中詞wi的TF-IDF特征修正權(quán)重是:
現(xiàn)實(shí)的微博網(wǎng)絡(luò)環(huán)境中,微博的文本內(nèi)容在很大程度上影響用戶是否瀏覽、轉(zhuǎn)發(fā)該信息,每個(gè)用戶都有自己獨(dú)特的興趣愛(ài)好,關(guān)注科技方面但是不懂體育的用戶在瀏覽微博時(shí),對(duì)“大數(shù)據(jù)”為主題的微博的興趣度要比“NBA比賽”為主題的微博的興趣度高很多.因此,微博文本的內(nèi)容隱含主題特征對(duì)于微博用戶行為的影響非常大.本文通過(guò)使用LDA模型對(duì)用戶一定時(shí)間段內(nèi)的微博文本提取特定主題數(shù)的主題詞語(yǔ)分布,實(shí)現(xiàn)了文本內(nèi)容到主題向量的映射.本文的LDA主題模型使用的是LDA開源工具JGibbLDA,LDA模型中的主要參數(shù)alpha默認(rèn)為50/K(K是主題數(shù)目),beta默認(rèn)值取0.1.
為了更加準(zhǔn)確地提取用戶的興趣,我們構(gòu)建用戶興趣模型,將用戶的標(biāo)簽興趣Q與文本實(shí)時(shí)興趣P根據(jù)公式計(jì)算,得出最終用戶興趣I.標(biāo)簽興趣Q是根據(jù)標(biāo)簽詞語(yǔ)和用戶興趣類別關(guān)鍵詞的相似度計(jì)算得出,實(shí)時(shí)興趣P是根據(jù)TF-IDF提取的關(guān)鍵詞與LDA模型輸出的主題分布進(jìn)行相似度計(jì)算,如算法2所示.
算法2.用戶短期興趣提取算法輸入:T = {T1,T2,…,Tn} //用戶微博集合F = {F1,F2,…,Fm} //用戶特征向量輸出://用戶興趣向量SHORT_INTEREST PROCEDURE FOR i = 0,1,2,…,n DO//通過(guò)文檔主題生成模型獲取關(guān)鍵詞分布K = {K1,K2,…,Kl}←Ti;//TF-IDF算法處理過(guò)程Words = {W1,W2,…,Wh }←Ti;FOR j = 0,1,2,…,h FOR k = 0,1,2,…,l If (Similar(Kk,Wj)< α)remove Kk from K;END FOR END FOR Short ← K;Similar(Kj,Wi)←JaccardSimilarty(Kj,Wi);END FOR
根據(jù)用戶微博的發(fā)布時(shí)間,將其短期興趣分為k個(gè)時(shí)段的實(shí)時(shí)興趣(本文中時(shí)間間隔取一周),根據(jù)興趣衰減函數(shù),得到用戶在時(shí)間內(nèi)的用戶興趣,其公式如下:
如圖2所示,介紹了用戶興趣提取實(shí)現(xiàn)過(guò)程.
圖2 用戶興趣提取過(guò)程
將情感特征提取模型和用戶興趣模型,獲取的微博情感,用戶興趣以及用戶特征融合,建立微博用戶的行為預(yù)測(cè)模型,預(yù)測(cè)模型特征如表3所示.
表3 預(yù)測(cè)模型特征
根據(jù)選取的特征,構(gòu)建模型輸入向量,根據(jù)分類器輸出行為預(yù)測(cè)結(jié)果向量,當(dāng)時(shí)表示不會(huì)進(jìn)行轉(zhuǎn)發(fā)操作,當(dāng)時(shí),表示進(jìn)行轉(zhuǎn)發(fā)操作;當(dāng)時(shí),表示評(píng)論,當(dāng)時(shí),表示不評(píng)論;當(dāng)時(shí)表示不點(diǎn)贊,當(dāng)時(shí)表示點(diǎn)贊.如圖3所示.
圖3 預(yù)測(cè)模型
數(shù)據(jù)集由北京理工大學(xué)網(wǎng)絡(luò)搜索挖掘與安全實(shí)驗(yàn)室張華平博士分享的五百萬(wàn)微博語(yǔ)料提取所得,提取規(guī)則為:用戶微博數(shù)超過(guò)2000,并且相鄰兩篇微博發(fā)布時(shí)間的間隔要小于24小時(shí).一共選取200位用戶大概450 000條微博文本.每條數(shù)據(jù)記錄的屬性是:uid:用戶編號(hào),weiboId:微博編號(hào),created_at:發(fā)表時(shí)間,favorited:是否收藏,reposts_count:轉(zhuǎn)發(fā)次數(shù),comments_count:評(píng)價(jià)次數(shù),attitudes_count:點(diǎn)贊次數(shù),text:微博內(nèi)容.
為了評(píng)估預(yù)測(cè)分類效果,我們采取常見的評(píng)價(jià)標(biāo)準(zhǔn),準(zhǔn)確率P(Precision)、查全率R(Recall)和F值(F-measure),作為我們的評(píng)價(jià)標(biāo)準(zhǔn),點(diǎn)贊行為實(shí)驗(yàn)結(jié)果以表4的形式表示.
表4 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)表
那么,P、R和F-measure的具體計(jì)算公式如下:
同理我們可以計(jì)算得出評(píng)論行為和轉(zhuǎn)發(fā)行為的分類預(yù)測(cè)的準(zhǔn)確率P(Precision)、查全率R(Recall)和F值(F-measure).
在微博文本情感特征提取模型中,我們采用的是目前短文本分類常用的分類器,包括樸素貝葉斯(NB)、K-近鄰(KNN)、支持向量機(jī)(SVM)、TF-IDF文本分類算法四種文本分析主流算法.情感特征提取實(shí)驗(yàn)中采用5折交叉驗(yàn)證實(shí)驗(yàn),其平均性能如表5所示.
表5 常用分類器性能對(duì)比
通過(guò)對(duì)比實(shí)驗(yàn),我們可以看出在情感特征提取中SVM分類算法表現(xiàn)的效果最好.
用戶興趣模型的分類結(jié)果如圖4所示.
圖4 用戶興趣分類結(jié)果
為了驗(yàn)證情感特征和興趣特征的重要性,我們?cè)跓o(wú)情感特征(選取用戶特征和興趣特征)、無(wú)主題特征(選取用戶特征和情感特征)和全特征(選取全部三種特征)三種情況下的準(zhǔn)確率、查全率和F-measure.實(shí)驗(yàn)中是以LibSVM為分類器.實(shí)驗(yàn)結(jié)果對(duì)比如圖5所示.
通過(guò)統(tǒng)計(jì)圖我們可以很清楚地觀察到,在特征選取時(shí)只考慮用戶情感或者興趣,無(wú)論是用戶的點(diǎn)贊行為、轉(zhuǎn)發(fā)行為還是評(píng)論行為預(yù)測(cè)的準(zhǔn)確率和召回率都比全特征時(shí)的高,因此情緒特征和興趣特征對(duì)用戶行為的預(yù)測(cè)是有效的.
根據(jù)本文構(gòu)建的微博用戶預(yù)測(cè)模型,我們分別使用樸素貝葉斯、K近鄰、支持向量機(jī)3種常用分類算法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)采取的是數(shù)據(jù)的5折交叉驗(yàn)證,分別實(shí)現(xiàn)了轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊3種行為的預(yù)測(cè)分析,如圖6是5折交叉實(shí)驗(yàn)的平均結(jié)果.
通過(guò)實(shí)驗(yàn)結(jié)果對(duì)比,我們發(fā)現(xiàn)行為預(yù)測(cè)模型在樸素貝葉斯和K近鄰分類器上對(duì)用戶行為預(yù)測(cè)的準(zhǔn)確率、召回率都在75%以上,在支持向量機(jī)分類算法上表現(xiàn)得很好,最高的準(zhǔn)確率接近90%,所以認(rèn)為該微博用戶行為預(yù)測(cè)模型是有效的,但是相比較轉(zhuǎn)發(fā)和點(diǎn)贊行為的預(yù)測(cè)結(jié)果,評(píng)論行為的預(yù)測(cè)效果表現(xiàn)較差,根據(jù)分析我們猜測(cè)評(píng)論用戶對(duì)微博的關(guān)注重點(diǎn)與轉(zhuǎn)發(fā)和點(diǎn)贊的用戶有所差別,比如當(dāng)用戶看到一些實(shí)用技巧分享的微博,可能會(huì)進(jìn)行轉(zhuǎn)發(fā)或者點(diǎn)贊,但是不一定會(huì)評(píng)論,相對(duì)于評(píng)論行為,用戶可能會(huì)更加傾向于點(diǎn)贊和轉(zhuǎn)發(fā).
圖6 行為預(yù)測(cè)結(jié)果對(duì)比
本文主要對(duì)于用戶的行為進(jìn)行研究,建立了基于用戶情感和興趣的行為預(yù)測(cè)模型,通過(guò)使用常用的分類算法對(duì)微博用戶的三種行為進(jìn)行對(duì)比實(shí)驗(yàn),通過(guò)統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果的準(zhǔn)確率、召回率和F值,證明了預(yù)測(cè)模型的可行性與有效性,本文下一步工作就是將微博用戶的一些歷史行為、關(guān)注用戶列表等因素融入到預(yù)測(cè)模型中,也可以在微博文本分析中將圖片、視頻等融入到情感模型中,提升用戶情感分析的準(zhǔn)確率.
1 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第38次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》.北京:中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,2016.
2 張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測(cè)研究.中文信息學(xué)報(bào),2012,26(4):109–114,121.
3 Tan CH,Tang J,Sun JM,et al.Social action tracking via noise tolerant time-varying factor graphs.Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington,DC,USA.2010.1049–1058.
4 曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測(cè).計(jì)算機(jī)學(xué)報(bào),2014,37(4):779–790.
5 Xu ZH,Yang Q.Analyzing user retweet behavior on twitter.Proceedings of 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.Istanbul,Turkey.2012.46–50.
6 劉瑋,賀敏,王麗宏,等.基于用戶行為特征的微博轉(zhuǎn)發(fā)預(yù)測(cè)研究.計(jì)算機(jī)學(xué)報(bào),2016,39(10):1992–2006.[doi:10.11897/SP.J.1016.2016.01992]
7 李志清.基于LDA主題特征的微博轉(zhuǎn)發(fā)預(yù)測(cè).情報(bào)雜志,2015,34(9):158–162.
8 Pak A,Paroubek P.Twitter as a corpus for sentiment analysis and opinion mining.Proceedings of the 7th Conference on International Language Resources and Evaluation.Valleta,Malta.2010.
9 Sriram B,Fuhry D,Demir E,et al.Short text classification in twitter to improve information filtering.Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.Geneva,Switzerland.2010.841–842.
10 Shen W,Wang JY,Luo P,et al.Linking named entities in tweets with knowledge base via user interest modeling.Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Chicago,IL,USA.2013.68–76.
11 邱云飛,王琳潁,邵良杉,等.基于微博短文本的用戶興趣建模方法.計(jì)算機(jī)工程,2014,40(2):275–279.
12 王巖.基于共現(xiàn)鏈的微博情感分析技術(shù)的研究與實(shí)現(xiàn)[碩士學(xué)位論文].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.
13 陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析.計(jì)算機(jī)科學(xué),2013,40(4):127–130,135.
14 王甜甜,康宇.方差和詞向量用于文本降維的研究.計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(11):29–34.[doi:10.15888/j.cnki.csa.005473]