王淼 劉家委 朱鑫奕 劉樹(shù)林 余愛(ài)玲
摘要:互聯(lián)網(wǎng)用戶發(fā)表觀點(diǎn)具有傳播能力強(qiáng)、范圍廣的特點(diǎn),對(duì)其他社交用戶的影響極大,研究用戶的社會(huì)影響力意義重大,已成為當(dāng)前輿情研究的熱點(diǎn)。通過(guò)用戶畫(huà)像和文本情感分析的方法,從不同維度對(duì)社會(huì)影響力進(jìn)行細(xì)致梳理,揭示了研究社會(huì)影響力的不同方法,并總結(jié)了各類方法的特點(diǎn)與發(fā)展趨勢(shì),最后給出研究社會(huì)影響力的相關(guān)啟示。
關(guān)鍵詞:用戶畫(huà)像;文本情感分析;社會(huì)影響力;輿情
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)25-0071-02
網(wǎng)絡(luò)通信平臺(tái)是當(dāng)前人們獲取信息的主要方式,通過(guò)微博、微信等社交平臺(tái)人們不僅獲取訊息而且可以發(fā)表自己的觀點(diǎn),這些平臺(tái)使用門(mén)檻低,傳播能力強(qiáng)且范圍廣,每天會(huì)有百萬(wàn)以上的評(píng)論產(chǎn)生,通過(guò)這些媒體平臺(tái)發(fā)表言論,可能對(duì)相關(guān)事件造成一定影響。當(dāng)公共事件發(fā)生時(shí),往往伴隨著聲音出現(xiàn)在評(píng)論中,有利有弊,當(dāng)某一個(gè)評(píng)論流量達(dá)到足以改變公共事件發(fā)展方向時(shí),輿情便從中產(chǎn)生。而當(dāng)今社交平臺(tái)又是影響政務(wù)、商業(yè)、信息的平臺(tái),每一次的輿情控制都是對(duì)相關(guān)政務(wù)機(jī)構(gòu)、商業(yè)機(jī)構(gòu)、信息機(jī)構(gòu)的寶貴財(cái)富。
1文本情感分析與社會(huì)影響力
1.1文本情感分析概述
文本情感分析作為自然語(yǔ)言處理的重要分支,是統(tǒng)計(jì)學(xué)、人工智能、語(yǔ)言學(xué)等領(lǐng)域的深度交叉融合。文本情感分析是利用計(jì)算機(jī)技術(shù)對(duì)文本進(jìn)行主客觀分類與意見(jiàn)挖掘的理論與方法,以分類、判斷文本的情感傾向性為主要目的。文本情感分析首先需要對(duì)源文本進(jìn)行分類處理,分類處理的對(duì)象是主觀性文本與客觀性文本[1],目的是抽取出主觀性文本進(jìn)行下一步情感分析工作。在得出主觀性文本后,需要對(duì)其進(jìn)行情感極性分析和情感極性強(qiáng)度分析。
廣義文本情感分析,被稱為意見(jiàn)挖掘、情感分析等 [1],主要對(duì)文本中表現(xiàn)出的態(tài)度、情感、傾向等主觀性內(nèi)容進(jìn)行辨別、分類、標(biāo)注、分析等處理,從而生成新的情感總結(jié)和傾向性分析。廣義文本情感分析將情感分為多種不同元素,包括個(gè)人的情緒狀態(tài)、心理思想和主觀傾向性等,通過(guò)提取自然語(yǔ)言文本中的情感元素來(lái)挖掘文本中的主觀傾向、立場(chǎng)、態(tài)度等。
狹義文本情感分析則與之相反,將情感傾向性分為正面、反面或中性,主要對(duì)文本情感進(jìn)行分類、對(duì)情緒與傾向性進(jìn)行分析。當(dāng)前,對(duì)狹義文本情感分析的主要研究方法主要有基于深度學(xué)習(xí)的方法、基于語(yǔ)義情感規(guī)則的分類方法,以及融合的分類方法。
1.2文本情感分析方法
文本情感分析可以分為詞語(yǔ)、句子和篇章三個(gè)層面的分析[2]。其中,情感分析的基礎(chǔ)是詞語(yǔ),詞語(yǔ)的情感分析可以依賴情感詞抽取、建立語(yǔ)料庫(kù)和情感詞典等方法來(lái)實(shí)現(xiàn)。句子的情感分析是在詞語(yǔ)的基礎(chǔ)上,直接得出文本中某一整句的情感分析結(jié)果,是詞語(yǔ)情感分析的綜合,也將直接決定篇章級(jí)別情感分析的好壞。篇章級(jí)別的情感分析是文本情感分析中的重難點(diǎn),受多種分析因素的綜合影響,分析結(jié)果難以穩(wěn)定在理想范圍。
文本情感分析應(yīng)用的方法[3],主要有機(jī)器學(xué)習(xí)和詞典兩種方法。基于機(jī)器學(xué)習(xí)的方法以監(jiān)督學(xué)習(xí)的方法為主,主要有決策樹(shù)分類器、線性分類器、規(guī)則分類器和概率分類器。其中,線性分類器包括支持向量機(jī)與神經(jīng)網(wǎng)絡(luò),概率分類器包括樸素貝葉斯、貝葉斯網(wǎng)絡(luò)和最大熵?;谠~典的方法分為基于字典方法和基于語(yǔ)料庫(kù)方法。其中,字典方法即構(gòu)建情感詞典,基于語(yǔ)料庫(kù)方法包括統(tǒng)計(jì)方法和語(yǔ)義方法。
當(dāng)前,文本情感分析工作更多使用機(jī)器學(xué)習(xí)算法去完成。同時(shí),融合的方法成為未來(lái)發(fā)展的趨勢(shì)和突破方向,算法的融合、字典與機(jī)器學(xué)習(xí)算法的混合使用等往往比單一處理方法更加高效。
1.3文本情感分析與社會(huì)影響力的應(yīng)用實(shí)例
社會(huì)影響力是用戶或商家在互聯(lián)網(wǎng)中發(fā)表觀點(diǎn)、評(píng)論和文章所帶來(lái)的輿情影響,社會(huì)影響力分析對(duì)輿情監(jiān)控、虛假評(píng)論、情感傾向性判斷等工作具有重要參考價(jià)值。目前,國(guó)內(nèi)外學(xué)者已經(jīng)成功將文本情感分析廣泛應(yīng)用于各類與社會(huì)影響力相關(guān)的場(chǎng)景中。
羅昌銀等基于用戶狀態(tài)和行為,利用機(jī)器學(xué)習(xí)算法應(yīng)用于虛假評(píng)論識(shí)別[4]。具體提出一種虛假評(píng)論方法,結(jié)合PU學(xué)習(xí)算法完成識(shí)別工作,并運(yùn)用SVM分類器和邏輯回歸模型完成主觀分類和情感分析。此方法能夠成功識(shí)別虛假評(píng)論,但沒(méi)有具體呈現(xiàn)出虛假評(píng)論與正常評(píng)論兩者之間的異同。張凌等基于特征分析與機(jī)器學(xué)習(xí)方法具體分析負(fù)面微博特征[5],同時(shí)提出負(fù)面微博識(shí)別的不同思路。首先分析了負(fù)面微博的具體特征,并通過(guò)正面微博運(yùn)用機(jī)器學(xué)習(xí)方法對(duì)識(shí)別工作進(jìn)行驗(yàn)證。此研究在負(fù)面微博識(shí)別中,將不同主題的負(fù)面微博分類,以負(fù)面詞為研究核心,為微博情感分析提供了新思路。但實(shí)驗(yàn)中微博樣本數(shù)量不足,同時(shí)對(duì)句子與篇章級(jí)別的負(fù)面微博識(shí)別研究較少。
崔彥琛等基于情感分析具體研究了消防突發(fā)事件網(wǎng)絡(luò)輿情情感詞典構(gòu)建工作[6]。此研究基于情感分析中的詞典方法,分析情感詞典構(gòu)建工作之后,綜合了消防情感詞典、網(wǎng)絡(luò)用語(yǔ)詞典和通用詞典三種詞典,構(gòu)建了新的消防輿情情感詞典。構(gòu)建的消防輿情情感詞典可以準(zhǔn)確、高效地應(yīng)用于突發(fā)消防事件的輿情監(jiān)控,是情感分析應(yīng)用于輿情和社會(huì)影響力的成功案例之一。伍靜等提出一種結(jié)合文本情感的微博僵尸粉識(shí)別模型[7],首先定義了微博用戶的11個(gè)特征,然后對(duì)微博文本進(jìn)行情感分析,最后對(duì)實(shí)驗(yàn)?zāi)P瓦M(jìn)行評(píng)價(jià)。此模型實(shí)現(xiàn)過(guò)程完成了對(duì)微博僵尸粉識(shí)別工作,但不能完成對(duì)僵尸粉和不活躍用戶的區(qū)分。
2用戶畫(huà)像與社會(huì)影響力
2.1用戶畫(huà)像分析概述
用戶畫(huà)像,作為一種刻畫(huà)目標(biāo)用戶、聯(lián)系用戶,和發(fā)現(xiàn)用戶的意向趨勢(shì)的需求工具,用戶畫(huà)像在各領(lǐng)域行業(yè)與領(lǐng)域得到了廣泛的應(yīng)用。宋美琦,陳燁,張瑞認(rèn)為在單個(gè)用戶畫(huà)像和群體用戶畫(huà)像的分類的基礎(chǔ)上用戶畫(huà)像的內(nèi)涵有三個(gè)要素:用戶屬性、用戶特征,用戶標(biāo)簽具有標(biāo)簽化、時(shí)效性、動(dòng)態(tài)性三個(gè)屬性,針對(duì)用戶社會(huì)影響力用戶畫(huà)像的構(gòu)建需要根據(jù)具體的場(chǎng)景來(lái)進(jìn)一步細(xì)化才能產(chǎn)生精準(zhǔn)的使用價(jià)值[8]。
2.2用戶畫(huà)像分類
不同的用戶需求則需要這需要不同的用戶畫(huà)像構(gòu)建方法。劉海鷗,孫晶晶,蘇妍嫄,張亞明提出了4種模型與方法:基于用戶行為的畫(huà)像方法、基于用戶興趣偏好的畫(huà)像方法、基于主題的畫(huà)像方法、基于人格特性與用戶情緒的畫(huà)像方法[9]。
基于用戶行為的畫(huà)像方法,本類數(shù)據(jù)大多都是動(dòng)態(tài)的,用戶在社交平臺(tái)上或是現(xiàn)實(shí)中會(huì)留下自己的一些行為痕跡,這些行為痕跡數(shù)據(jù)的實(shí)效性較短,所以針對(duì)動(dòng)態(tài)收集的時(shí)間間隔要求較高,且通常常見(jiàn)的有效數(shù)據(jù)有用戶瀏覽記錄,用戶日志記錄,購(gòu)買記錄。從此類數(shù)據(jù)中可以提取出一些有效標(biāo)簽例如:周期行為規(guī)律,行為動(dòng)態(tài)速度,變化過(guò)程等。此類數(shù)據(jù)產(chǎn)生價(jià)值對(duì)數(shù)據(jù)采集與數(shù)據(jù)分析的速度要較高。
基于用戶興趣偏好的畫(huà)像方法,此類數(shù)據(jù)部分是動(dòng)態(tài)的,用戶的興趣愛(ài)好可能會(huì)持續(xù)很長(zhǎng)一段時(shí)間,目前用戶畫(huà)像普遍是運(yùn)用這類方法來(lái)提供推薦或是意向分析,同時(shí)根據(jù)直接的興趣愛(ài)好數(shù)據(jù)通過(guò)主觀分析計(jì)算,可以獲取一些潛在的用戶興趣偏好。但當(dāng)用戶的興趣較少時(shí),提供價(jià)值的精度則會(huì)變低,并且挖掘此類數(shù)據(jù),會(huì)從情感分析入手,所以難度的偏向性也比較大。若需要提供有效的價(jià)值需要較復(fù)雜的數(shù)據(jù)采集和數(shù)據(jù)分析手段。
基于主題的畫(huà)像方法,此類用戶畫(huà)像主要針對(duì)的是群體用戶,用戶多,特征廣是他的主要特點(diǎn),若主題單一數(shù)據(jù)來(lái)源比較單一,有降低收集、分析的要求的特點(diǎn),但是主題與主題之間的無(wú)關(guān)聯(lián),很容易導(dǎo)致此類數(shù)據(jù)無(wú)價(jià)值。
基于人格特性與用戶情緒的畫(huà)像方法,此類數(shù)據(jù)具有很大的主觀性,一般通過(guò)用戶的問(wèn)卷調(diào)查,當(dāng)面訪問(wèn)獲得數(shù)據(jù),可以通過(guò)人格、性格、情緒、行為分類來(lái)預(yù)測(cè)出用戶的情感偏向。并且目前的網(wǎng)絡(luò)環(huán)境,用戶的情緒比現(xiàn)實(shí)中的情緒更加豐富,所以獲得此類數(shù)據(jù)的來(lái)源很多,但是由于此類數(shù)據(jù)的主觀性很強(qiáng),通過(guò)欺騙等手段,獲取數(shù)據(jù)的正確性會(huì)下降。所以導(dǎo)致數(shù)據(jù)的不真實(shí)性很大,從而導(dǎo)致用戶畫(huà)像刻畫(huà)不清晰。
2.3用戶畫(huà)像構(gòu)建流程分析
高廣尚論述了三個(gè)主要步驟:收集用戶數(shù)據(jù),研究用戶信息,細(xì)分標(biāo)簽[10]。同時(shí)他也根據(jù)不同的用戶需求總結(jié)了6種不同的構(gòu)建方法:基于設(shè)計(jì)與思維,基于本體或概念,基于主題和話題,基于興趣或偏好,基于行為與日志,基于多維或融合。社會(huì)輿情本是一個(gè)復(fù)雜的且雜質(zhì)信息比較多的環(huán)境,所以在社會(huì)影響力分析時(shí)可以針對(duì)不同的平臺(tái)環(huán)境來(lái)改變用戶畫(huà)像的構(gòu)建方法或是多個(gè)用戶畫(huà)像構(gòu)建方法同時(shí)使用。
用戶畫(huà)像的構(gòu)建分為靜態(tài)和動(dòng)態(tài),靜態(tài)用戶畫(huà)像刻畫(huà)后不會(huì)改變,對(duì)于目前大多數(shù)用戶畫(huà)像的使用環(huán)境來(lái)說(shuō),用戶的信息以及環(huán)境是會(huì)隨著時(shí)間改變的,靜態(tài)的構(gòu)建方法有局限性,所以動(dòng)態(tài)的用戶畫(huà)像構(gòu)建更為適用,所以大多數(shù)特定的用戶畫(huà)像需要一定時(shí)間間隔定時(shí)的去更新標(biāo)簽。
3結(jié)束語(yǔ)
針對(duì)用戶在社交平臺(tái)的影響力分析,國(guó)內(nèi)外均缺乏針對(duì)性的研究,目前研究大多將研究重點(diǎn)放在信息本身的傳播過(guò)程,研究輿情的傳播過(guò)程而非研究社交平臺(tái)的用戶影響力對(duì)信息傳播的影響力。而目前的用戶畫(huà)像算法大多也著重于將用戶畫(huà)像用于推薦算法當(dāng)中,缺少將其用于信息傳播判斷當(dāng)中。在傳統(tǒng)的針對(duì)網(wǎng)絡(luò)社交平臺(tái)用戶畫(huà)像的研究當(dāng)中,常用基于用戶行為的畫(huà)像用于研究用戶的在社交網(wǎng)絡(luò)的行為,從而分析用戶在社交平臺(tái)當(dāng)中的行為,進(jìn)而判斷用戶的社會(huì)影響力。而在有關(guān)文本分析的研究中,文本分析常用于文本情感研究,用于研究用戶的對(duì)事件的情感傾向,或者用于對(duì)文本內(nèi)容進(jìn)行分類研究,而對(duì)研究用戶發(fā)表的文本對(duì)社會(huì)的影響力方向,還缺乏實(shí)際應(yīng)用研究與應(yīng)用場(chǎng)景。
后續(xù)研究可以結(jié)合用戶畫(huà)像與文本分析,將用戶特征與文本信息進(jìn)行關(guān)聯(lián),研究某一類的用戶在當(dāng)前環(huán)境下,其表達(dá)的內(nèi)容具有怎樣的社會(huì)影響力。
參考文獻(xiàn):
[1] 楊立公,朱儉,湯世平.文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1574-1578,1607.
[2] 楊開(kāi)漠,吳明芬,陳濤.廣義文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2019,39(S2):6-14.
[3] 魏韡,向陽(yáng),陳千.中文文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2011,31(12):3321-3323.
[4] 譚熒,張進(jìn),夏立新.社交媒體情境下的情感分析研究綜述[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020,4(1):1-11.
[5] 羅昌銀,但唐朋,李艷紅,等.基于虛假評(píng)論識(shí)別的微博評(píng)論情感分析的研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(4):55-62.
[6] 張凌,譚毅,朱禮軍,等.負(fù)面微博特征分析研究[J].情報(bào)理論與實(shí)踐,2019,42(7):132-137,170.
[7] 崔彥琛,張鵬,蘭月新,等.消防突發(fā)事件網(wǎng)絡(luò)輿情情感詞典構(gòu)建研究[J].情報(bào)雜志,2018,37(10):154-160.
[8] 宋美琦,陳燁,張瑞.用戶畫(huà)像研究述評(píng)[J].情報(bào)科學(xué),2019,37(4):171-177.
[9] 劉海鷗,孫晶晶,蘇妍嫄,等.國(guó)內(nèi)外用戶畫(huà)像研究綜述[J].情報(bào)理論與實(shí)踐,2018,41(11):155-160.
[10]高廣尚. 用戶畫(huà)像構(gòu)建方法研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2019(3):25-35.
【通聯(lián)編輯:梁書(shū)】