国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感分析的社交網(wǎng)絡(luò)意見領(lǐng)袖的識(shí)別:以情感分類為手段

2017-11-24 05:39蔣瀾,林娜娜,劉陽(yáng),史雪琪,陸詩(shī)慧
教育教學(xué)論壇 2017年47期
關(guān)鍵詞:情感分析意見領(lǐng)袖社交網(wǎng)絡(luò)

蔣瀾,林娜娜,劉陽(yáng),史雪琪,陸詩(shī)慧

摘要:在社交網(wǎng)絡(luò)中進(jìn)行意見領(lǐng)袖的挖掘?qū)π畔鞑ヅc演化的深度分析、輿情監(jiān)控和引導(dǎo)具有重要意義。結(jié)合情感分析,挖掘在專業(yè)知識(shí)領(lǐng)域受到大眾支持的正面意見領(lǐng)袖是本項(xiàng)目研究重點(diǎn)。實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),Leader-PageRank算法能夠結(jié)合社交網(wǎng)絡(luò)的用戶交互,更有效客觀地識(shí)別在專業(yè)領(lǐng)域中的正面意見領(lǐng)袖。

關(guān)鍵詞:社交網(wǎng)絡(luò);意見領(lǐng)袖;情感分析

中圖分類號(hào):G640 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2017)47-0043-02

近年來,隨著微博、微信等社交媒體的興起,社交網(wǎng)絡(luò)的規(guī)模與影響力不斷地?cái)U(kuò)大,產(chǎn)生了一批具有社會(huì)輿論號(hào)召力的大V,這些能夠引導(dǎo)社會(huì)輿論趨勢(shì),傳播公共信息,推薦商業(yè)產(chǎn)品的網(wǎng)絡(luò)節(jié)點(diǎn)被稱為意見領(lǐng)袖。而情感分析能夠判別社交網(wǎng)絡(luò)用戶間的情感傾向,作為意見領(lǐng)袖的一種挖掘方法,具有一定的科學(xué)依據(jù)。本文將結(jié)合情感分析,探討在專業(yè)領(lǐng)域中具有正面影響力的意見領(lǐng)袖。

一、基于情感分析的意見領(lǐng)袖識(shí)別

基于情感分析的意見領(lǐng)袖的識(shí)別方法研究框架分5步:(1)數(shù)據(jù)收集;(2)文本預(yù)處理;(3)主題帖與評(píng)論特征提??;(4)主題帖分類與情感計(jì)算;(5)構(gòu)建關(guān)注情感綜合矩陣;(6)利用Leader-PageRank算法,計(jì)算意見領(lǐng)袖值。

二、主題帖分類

本文研究的社交網(wǎng)絡(luò)主體是垂直類社交網(wǎng)絡(luò)汽車論壇,關(guān)注汽車知識(shí)類主題帖,如汽車信息、汽車維修等。我們采用LDA主題模型對(duì)主題帖名進(jìn)行分類,它能擴(kuò)展短文本的特征項(xiàng),在一定程度上解決短文本的特征稀疏問題。LDA模型的基本思路是:挑選主題帖的有效內(nèi)容作為長(zhǎng)文檔來訓(xùn)練LDA主題模型,得到隱含主題詞的概率分布;將主題帖名帶入到隱含主題模型中,得到主題詞,增加到主題帖名的特征向量;將特征向量帶入SVM算法分類器進(jìn)行分類,提取汽車相關(guān)的主題帖。

三、文本情感極性分類

1.文本分類研究。文本的情感極性分析是對(duì)帶有主觀情感的文本進(jìn)行語(yǔ)義分析,將文本分為正面、中立、負(fù)面三個(gè)類型。評(píng)論文本中帶有的情感傾向能反映用戶對(duì)主題帖和作者所帶有的情感。但基于情感詞語(yǔ)語(yǔ)義分析的方法需要借助情感詞典,維護(hù)成本較高,不適合在研究中使用。因而,本文采用基于統(tǒng)計(jì)自然語(yǔ)言的方法對(duì)文本評(píng)論進(jìn)行分析。常用的統(tǒng)計(jì)自然語(yǔ)言方法的情感分類器有:支持向量機(jī)(SVM)、樸素貝葉斯(NB)、最大熵(ME)等。本文采用支持SVM作為文本情感分類器。

2.文本特征提取。在主題帖中,評(píng)論多為正面或中立,負(fù)面評(píng)論少容易導(dǎo)致統(tǒng)計(jì)結(jié)果的不準(zhǔn)確。本文在基于統(tǒng)計(jì)自然語(yǔ)言的方法上,針對(duì)實(shí)際不均衡分類方法提出了改進(jìn)的統(tǒng)計(jì)量法。統(tǒng)計(jì)量法假定特征項(xiàng)t與文檔類別c之間符合具有一階自由度的卡方分布。而針對(duì)不均衡集的改進(jìn)CHI特征方法中t對(duì)于c的CHI統(tǒng)計(jì)值的公式(1)如下所示:

(1)

N為訓(xùn)練所用樣本集中所有的文檔總數(shù);A為屬于c類且包含特征t的文檔數(shù);B為不屬于c類但包含特征t的文檔數(shù);C為屬于c類但不包含特征t的文檔數(shù);D為不屬于c類也不包含特征t的文檔數(shù);α為面向小樣本類特征項(xiàng)的選擇傾向因子;M為所有的樣本類別總數(shù);mt為特征t在訓(xùn)練集中所出現(xiàn)過的類別數(shù)目。此方法能剔除“負(fù)相關(guān)”特征項(xiàng)的影響,保留小類特征項(xiàng)并加入識(shí)別因子,提高比重少但對(duì)分類貢獻(xiàn)較大的特征項(xiàng)權(quán)重。

3.文本分類器算法。支持向量機(jī)(SVM)算法是基于統(tǒng)計(jì)學(xué)原理的一種機(jī)器學(xué)習(xí)算法,通過尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化的一種分類算法。支持向量機(jī)為二元分類算法,設(shè)線性樣本集T={(x1,y1),……(xi,yi)}∈(X×Y)i,其中xk∈X∈Rn,yk∈Y={-1,1},n維空間中線性判別函數(shù)的一般形式為g(x)=(w.x)+b。如果分類面對(duì)所有樣本進(jìn)行了正確分類,那么應(yīng)滿足約束條件yk(w.x+b)+b-1≥0,k=1,……,i最優(yōu)分類面應(yīng)使兩類樣本決策面的最小距離■最大,在約束條件下最小化Φ(w),即■w.w。再采用lagrange乘子法可以算出原問題優(yōu)化問題的對(duì)偶形式,約束條件為:

■a■y■=0,a■≥0,k=1……,i(6)

然后對(duì)lagrange函數(shù)的系數(shù)αk進(jìn)行求解下列函數(shù)的最大值

?專(a)=■?墜■-■■■ykyj?墜■?墜j(xkxj)(7)

這是二次函數(shù)最優(yōu)解的問題。若?墜k*為最優(yōu)解,則

W*=■yk?墜■*x■(8)

其中等式必須滿足?墜■(yk(w.xk+b)-1)=0 k=1,…i,求解上述問題后得到最優(yōu)分類函數(shù)為

f(x)=sgn■w*.x*+b*=sgn■ykak(xk·x)+b(9)

4.Leader-PageRank算法。傳統(tǒng)PageRank可用于社交網(wǎng)絡(luò)節(jié)點(diǎn)影響力的計(jì)算,但忽略了用戶間的互動(dòng)情況。Leader-PageRank算法考慮了社交網(wǎng)絡(luò)中用戶評(píng)論關(guān)注情況,增加了用戶間的情感屬性。邊權(quán)重公式如下(2):Wij=■+F■(2)

Wij為節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i的綜合權(quán)重;■e■為節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i所有回帖評(píng)論的情感傾向綜合,單條正面評(píng)論取值1,中立評(píng)論取值0.5,負(fù)面評(píng)論取值為-2;nij代表節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i所有評(píng)論交互次數(shù);Fij為節(jié)點(diǎn)j是否關(guān)注節(jié)點(diǎn)i。Wij的取值范圍為[2,-2],概括了社交網(wǎng)絡(luò)中用戶之間的關(guān)系。將Wij代入到Leader-PageRank的公式中,具體計(jì)算如公式(3)所示。

LPR(i)=■+d■j∈R(i)LPR(j)■(3)

LPR(i)是節(jié)點(diǎn)i的Leader-PageRank值;d為阻尼因子0.85;N為總數(shù);R(i)為指向節(jié)點(diǎn)i的所有集合;

■|W■|為節(jié)點(diǎn)j鏈接出去的邊的所有權(quán)重絕對(duì)值總和。對(duì)Leader-PageRank多次迭代,得到基于用戶關(guān)注與互動(dòng)情況的社交網(wǎng)絡(luò)正面意見領(lǐng)袖排名。

四、實(shí)驗(yàn)與分析

我們?cè)谄囍揖W(wǎng)上論壇中選取了100名用戶,并且基于上述主題帖分類和情感分類的結(jié)果,我們共提取汽車相關(guān)的主題帖314條,共提取這些主題帖下的互動(dòng)評(píng)論9346條,抽取樣本評(píng)論3216條,其中負(fù)面回復(fù)數(shù)為小類別集,占樣本集的7.11%。利用Leader-PageRank算法算出他們的意見領(lǐng)袖值。

通過對(duì)比Pagerank算法的值,我們可以分析出結(jié)合情感分析的Leader-Pagerank算法的客觀性。如用戶N054,它在Pagerank算法中的意見領(lǐng)袖值排名第十,但在Leader-Pagerank中意見領(lǐng)袖排名躍居第一,說明該意見領(lǐng)袖雖然在社交網(wǎng)絡(luò)結(jié)構(gòu)中的影響力不大,但它發(fā)表了許多專業(yè)性的主題帖且收獲了許多的正面評(píng)價(jià),因此意見領(lǐng)袖值發(fā)生了巨大的變化。

本文基于情感分析特征對(duì)社交網(wǎng)絡(luò)中意見領(lǐng)袖的識(shí)別的問題進(jìn)行研究。該算法不僅充分考慮了用戶的顯性能力:信息傳播過程中的活躍度,更加注重對(duì)用戶在信息傳播過程中信息質(zhì)量、效果及評(píng)論人的認(rèn)可度等隱性能力的綜合考量。然而本文仍然存在一些不足,如搜集的數(shù)據(jù)比較少,不能更加準(zhǔn)確地比較情感分析的優(yōu)勢(shì)。

參考文獻(xiàn):

[1]鈕亮.基于粗糙集_AHM的新浪微博意見領(lǐng)袖挖掘[M].電子科技大學(xué)學(xué)報(bào),2016,(1).

[2]肖宇,許煒,夏霖.一種基于情感傾向分析的網(wǎng)絡(luò)團(tuán)體意見領(lǐng)袖識(shí)別算法[J].計(jì)算機(jī)科學(xué),2012,39(2):34-37.

猜你喜歡
情感分析意見領(lǐng)袖社交網(wǎng)絡(luò)
在線評(píng)論情感屬性的動(dòng)態(tài)變化
微博動(dòng)員、維權(quán)倡議與記者的利益表達(dá)機(jī)制
新形勢(shì)下高校網(wǎng)絡(luò)文化建設(shè)管理機(jī)制研究
微信營(yíng)銷意見領(lǐng)袖培養(yǎng)現(xiàn)狀研究
吴堡县| 宝清县| 离岛区| 永修县| 峨眉山市| 龙陵县| 花莲市| 玛纳斯县| 宜宾县| 盐城市| 永清县| 富民县| 图们市| 开远市| 宁蒗| 阜平县| 靖安县| 正阳县| 奉节县| 八宿县| 张家口市| 克什克腾旗| 开化县| 如皋市| 黎城县| 临潭县| 襄樊市| 维西| 南阳市| 吕梁市| 昌宁县| 吴桥县| 衡阳县| 论坛| 宣城市| 龙里县| 收藏| 南汇区| 青浦区| 凤城市| 巴彦淖尔市|