馬超 余輝 夏文蕾 管為棟
摘?要:[目的/意義]研究政務(wù)微博評(píng)論中的情感極性分析方法,為政務(wù)微博情感傾向判斷提供依據(jù)并為未來(lái)情感分析研究指出方向。[方法/過(guò)程]基于字典的情感分析方法構(gòu)建情感極性分析模型,以上海公安機(jī)構(gòu)微博為實(shí)例,驗(yàn)證模型的可用性,并分析微博已有屬性信息在情感分析中的作用。最后對(duì)微博的這些信息以及情感極性進(jìn)行相關(guān)性分析。[結(jié)果/結(jié)論]本文的情感極性分析模型具有可用性,微博評(píng)論量和轉(zhuǎn)發(fā)量之間存在著顯著正相關(guān)性,并且在轉(zhuǎn)發(fā)量較低時(shí),評(píng)論量與情感極性存在著顯著負(fù)相關(guān)關(guān)系。且當(dāng)微博點(diǎn)贊量大于評(píng)論量時(shí),微博內(nèi)容自身帶有正向情感傾向。
關(guān)鍵詞:政務(wù)微博;情感極性;顯式信息;相關(guān)關(guān)系
DOI:10.3969/j.issn.1008-0821.2020.03.016
〔中圖分類號(hào)〕G206?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2020)03-0157-12
Abstract:[Purpose/Significance]The paper provides the basis for government micro-blog emotions tend and the future research direction by studying the method of emotional polarity.[Method/Process]With the case of shanghai municipal public security bureau weibo,this paper showed the usability of the emotional polarity model,and analyzed the function of explicit information.Finally,the study gave the correlation analysis of this information.[Result/Conclusion]The result uncovered the accuracy of the model and that there was significant correlation between comments and forwarding number.At the same time,there was significant correlation between comments and emotional polarity with the low amount of forwarding.Moreover,when the amount of like was larger than the number of comments,the content of weibo itself has a positive emotional tendency.
Key words:government micro-blog;emotional polarity;explicit information;correlation
隨著國(guó)家對(duì)電子政務(wù)的重視以及近年來(lái)社會(huì)媒體的發(fā)展,以社會(huì)媒體為平臺(tái)的電子政務(wù)應(yīng)用逐漸成為主流,政務(wù)微博作為國(guó)內(nèi)最大的社會(huì)媒體平臺(tái)在網(wǎng)絡(luò)輿情和社會(huì)治理方面都具有顯著作用[1]。截至2018年上半年,新浪微博用戶規(guī)模為3.37億人,截至2018年6月,新浪平臺(tái)已經(jīng)認(rèn)證政務(wù)機(jī)構(gòu)微博137 677個(gè)[2]。在社交媒體環(huán)境中,需要分析不同敏感話題的輿論傳播規(guī)律和特征,以及社交媒體環(huán)境中的主題和熱點(diǎn),從而以點(diǎn)帶面,把握社交網(wǎng)絡(luò)輿情發(fā)展規(guī)律進(jìn)而有效引導(dǎo)[3]。近年來(lái)圖片識(shí)別技術(shù)、流媒體處理技術(shù)不斷發(fā)展,豐富了社會(huì)媒體的表現(xiàn)形式,而在可處理的政務(wù)信息中,文本由于其自身的易處理性、權(quán)威性、明確性始終占有重要地位。情感分析就是文本分析的一個(gè)重要應(yīng)用,如在政府出臺(tái)新的試行政策前,在政務(wù)微博上征求民意,通過(guò)分析公民的情感傾向來(lái)對(duì)政策進(jìn)行調(diào)整;在突發(fā)事件中,在政務(wù)微博中分析出不同地區(qū)的受災(zāi)程度來(lái)調(diào)整救援力度;在輿情控制中,通過(guò)網(wǎng)民情感變化趨勢(shì)預(yù)測(cè)輿情走向等。而現(xiàn)有關(guān)于情感分析的研究多以產(chǎn)品為對(duì)象,對(duì)于服務(wù)內(nèi)容的評(píng)論分析較少,而政府機(jī)構(gòu)也無(wú)法處理公民對(duì)政務(wù)信息的全部反饋。
政務(wù)微博評(píng)論的情感分析和其他產(chǎn)品類有以下幾個(gè)區(qū)別:1)政務(wù)微博通常不帶商業(yè)性,多以為人民服務(wù)為宗旨,所以評(píng)論中的意見傾向都是基于公民本身的考慮,更具有研究意義;2)產(chǎn)品類評(píng)論可能需要對(duì)應(yīng)產(chǎn)品特征,而政務(wù)微博評(píng)論考慮整體情感傾向即可;3)政務(wù)微博較產(chǎn)品類微博更具權(quán)威性,公民受其他因素影響較小,政務(wù)微博下的轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊行為較為規(guī)范,即三大屬性信息的可用性程度更高。
1?相關(guān)研究
1.1?情感分析
情感分析是文本分析的一個(gè)重要代表應(yīng)用,學(xué)者們將情感分析應(yīng)用到了各個(gè)領(lǐng)域。涂海麗等通過(guò)在線旅游的評(píng)論數(shù)據(jù)建立了游客的情感分析模型,為旅游經(jīng)營(yíng)者提供直觀的旅游目的地的情感傾向[4]。唐曉波等在產(chǎn)品評(píng)論領(lǐng)域通過(guò)計(jì)算情感詞與特征搭配的權(quán)重,構(gòu)建了特征本體的評(píng)論情感分析方法[5]。孟偉花等在學(xué)術(shù)質(zhì)量評(píng)價(jià)方面,結(jié)合情感分析和Altmetrics評(píng)價(jià)方案,解決了學(xué)術(shù)影響力只考慮關(guān)注度而忽視極性的問(wèn)題[6]。劉雯等以雅安地震為例,把情感分析應(yīng)用到了對(duì)自然災(zāi)害的輿情分析中,以計(jì)算的情感值為基礎(chǔ)來(lái)預(yù)測(cè)輿情走勢(shì)[7]。
極性識(shí)別是情感分析的關(guān)鍵,極性識(shí)別最細(xì)致的是單詞級(jí),然后可以聚合到更高級(jí)別,目前主要有兩種技術(shù),即使用詞典作為參照庫(kù)和使用特定領(lǐng)域內(nèi)的訓(xùn)練文檔集作為詞項(xiàng)極性的知識(shí)源[8]。前者通過(guò)個(gè)人為特定任務(wù)或機(jī)構(gòu)開發(fā)通用詞典,人工或者自動(dòng)生成情感極性,這一類效果依賴于詞典與當(dāng)前處理文檔集的適應(yīng)度,王科等總結(jié)歸納情感詞典構(gòu)建方法,并從知識(shí)庫(kù)、語(yǔ)料庫(kù)方面指出了各種中英情感詞典方法中的優(yōu)缺點(diǎn)[9];后者則是從已經(jīng)標(biāo)注了觀點(diǎn)的文檔集中訓(xùn)練出預(yù)測(cè)極性的概率模型,它的準(zhǔn)確率和訓(xùn)練文檔集的大小有關(guān),并且也要求訓(xùn)練文檔集和預(yù)測(cè)文本具有一定的匹配性。
為了利用好大量已經(jīng)標(biāo)記可用訓(xùn)練集,如淘寶網(wǎng)的評(píng)論內(nèi)容、星級(jí)以及好中差評(píng)結(jié)論這類顯示標(biāo)注了評(píng)論整體極性的文本,已有學(xué)者對(duì)一些網(wǎng)站的購(gòu)物、飲食以及電影等的評(píng)論信息進(jìn)行了分析,減少了對(duì)情感詞典和訓(xùn)練文檔集大小的依賴,如馬松岳等以豆瓣電影網(wǎng)為對(duì)象,驗(yàn)證了電影打分和評(píng)論極性之間的較高相關(guān)性,與情感強(qiáng)度間的弱相關(guān)性[10]。
1.2?政務(wù)微博
目前政務(wù)微博的研究國(guó)外主要集中在Facebook和Twitter兩大社交平臺(tái),國(guó)內(nèi)則是以新浪微博居多。此外,騰訊微博、微信公眾號(hào)也屬于政務(wù)博客的重要陣營(yíng)。如張志安等認(rèn)為應(yīng)該把握微博和微信的特點(diǎn),在政務(wù)工作上傳承和協(xié)同發(fā)揮“雙微”的作用[11];石婧等以上海市政務(wù)微博和微信文本為分析對(duì)象,劃分出了“雙微”關(guān)系的4種類型并分析了每種類型的特征,為更好地應(yīng)用于政務(wù)服務(wù)提供了參考[12]。孟川瑾等對(duì)優(yōu)秀政務(wù)微博“@問(wèn)政銀川”模型進(jìn)行分析,為國(guó)內(nèi)政務(wù)微博發(fā)展困境指明方向[13]。周莉等采用內(nèi)容分析法,研究了政務(wù)微博在突發(fā)事件中的特征和影響,為政府引導(dǎo)突發(fā)事件提出建議[14]。包明林等根據(jù)國(guó)內(nèi)政務(wù)微博發(fā)展,以用戶視角構(gòu)建了政務(wù)微博服務(wù)質(zhì)量評(píng)價(jià)指標(biāo)體系[15],胡吉明等則是以政務(wù)信息發(fā)布質(zhì)量為對(duì)象構(gòu)建評(píng)價(jià)模型,指明服務(wù)質(zhì)量的提升方向[16]。
在政務(wù)微博研究上,國(guó)內(nèi)研究涉及政務(wù)微博的運(yùn)營(yíng)模式、在各種事件中的作用、評(píng)價(jià)服務(wù)質(zhì)量等。相比國(guó)外研究少了統(tǒng)計(jì)分析類和內(nèi)容分析類的研究,如Stamati T等通過(guò)統(tǒng)計(jì)公民參與Facebook數(shù)據(jù)來(lái)說(shuō)明政府和粉絲在有無(wú)選舉期間的特點(diǎn)是否有區(qū)別[17];Gascó M等對(duì)英國(guó)一次暴動(dòng)期間的5 984位公民的Twitter進(jìn)行內(nèi)容和情感分析,發(fā)現(xiàn)公民容易被其他非危機(jī)事件影響,可以利用來(lái)幫助相關(guān)組織處理事件[18];Medaglia R等在繪制社會(huì)媒體政府整體狀況時(shí)把相關(guān)研究?jī)?nèi)容分為了環(huán)境、用戶特點(diǎn)、用戶行為、平臺(tái)性質(zhì)、管理、效率六大類[19],這基本涵蓋了目前政務(wù)微博的各大內(nèi)容研究主題。
1.3?微博信息分析
本文的微博信息指的是不用分析就能得到的明顯信息,像微博三大屬性信息(轉(zhuǎn)發(fā)量、評(píng)論量和點(diǎn)贊量)或者話題、形式等,這些信息可以較為直觀地顯示出一些潛在的重要信息,本研究暫將些類信息稱為顯式信息。段堯清等在以政務(wù)網(wǎng)微信公眾號(hào)為對(duì)象時(shí)就從政務(wù)信息本身的標(biāo)題、形式、內(nèi)容和來(lái)源4個(gè)方面的顯式信息進(jìn)行了統(tǒng)計(jì)分析,得出此類信息的主要特征,為促進(jìn)政務(wù)類信息傳播提供參考依據(jù)[20]。王克嶺等立足于點(diǎn)贊視角,運(yùn)用路徑分析和PLS分析,并通過(guò)實(shí)證研究表明點(diǎn)贊行為與行為從眾性、內(nèi)容重要性、興趣和情感性的顯著正向影響[21]。顏月明等則是通過(guò)H指數(shù)和R指數(shù)思想提出影響力評(píng)估模型,模型表明高點(diǎn)贊量的文章更能得到大眾的認(rèn)可[22]。在評(píng)論研究上,發(fā)掘評(píng)論的內(nèi)容是研究熱點(diǎn),也有學(xué)者通過(guò)評(píng)論的一些顯式信息來(lái)研究評(píng)論的一些特性,如張艷輝等通過(guò)評(píng)論者的信息等級(jí)、文本長(zhǎng)度、是否有圖片等來(lái)判斷評(píng)論的有用性[23]。在轉(zhuǎn)發(fā)研究上,湯胤等在研究社會(huì)媒體轉(zhuǎn)發(fā)行為時(shí),以社會(huì)認(rèn)知理論為基礎(chǔ),表明了個(gè)人感知對(duì)轉(zhuǎn)發(fā)影響力較大[24]。
微博評(píng)論中都是短文,沒有標(biāo)題,形式以文本為主,所以微博最直接的顯式信息就是點(diǎn)贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)這3個(gè)數(shù)值型數(shù)字,但這類信息不同于淘寶產(chǎn)品評(píng)價(jià)那樣直接根據(jù)星級(jí)數(shù)值判斷滿意程度,更沒有直接的好評(píng)、中評(píng)和差評(píng)3類定性界定,所以需要對(duì)這些數(shù)據(jù)進(jìn)行一定分析和處理,得到近似于星級(jí)評(píng)價(jià)的效果。
1.4?研究評(píng)述
總結(jié)相關(guān)研究,政務(wù)微博評(píng)論內(nèi)容較少被學(xué)者們重視,而現(xiàn)有的微博評(píng)論情感分析也還存在以下幾點(diǎn)不足:1)目前還沒有一個(gè)較好的方法去驗(yàn)證情感分析結(jié)果的準(zhǔn)確性及度量情感強(qiáng)度;2)研究多是關(guān)于產(chǎn)品、飲食類,政務(wù)微博由于起步相對(duì)較晚,不帶商業(yè)性,導(dǎo)致前期政務(wù)微博評(píng)論情感相關(guān)研究利用較少;3)情感分析多基于情感詞典或者訓(xùn)練文檔集方法,和其他網(wǎng)購(gòu)、影評(píng)平臺(tái)相比,在顯式信息利用上還沒有進(jìn)行較充分的研究。
本文首先對(duì)政務(wù)微博評(píng)論情感進(jìn)行分析,求證本文提出的情感分析模型在政務(wù)微博評(píng)論中的可用程度;接著用本模型分析結(jié)果對(duì)比微博的一些顯式信息,試圖尋找與政務(wù)微博評(píng)論情感極性相關(guān)的顯式信息,來(lái)減少對(duì)情感詞典和訓(xùn)練文檔集大小的依賴。
2?模型設(shè)計(jì)
政務(wù)微博評(píng)論情感分析模型框架圖如圖1所示,簡(jiǎn)要流程可以分為以下幾個(gè)模塊:1)獲取微博數(shù)據(jù);2)文本信息處理,包括對(duì)評(píng)論內(nèi)容進(jìn)行分詞和詞性標(biāo)注;3)情感分析,主要是通過(guò)情感詞典對(duì)極性詞、否定詞和程度詞的判斷;4)顯式信息的準(zhǔn)備與處理(通常包括點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)等);5)情感極性與顯式信息相關(guān)性分析。
2.1?數(shù)據(jù)準(zhǔn)備
本研究微博數(shù)據(jù)來(lái)自新浪微博平臺(tái),由于政務(wù)微博應(yīng)該具有權(quán)威性,所以選取的微博是來(lái)自政務(wù)機(jī)構(gòu)官方認(rèn)證的微博。數(shù)據(jù)獲取方式為Python爬蟲程序,數(shù)據(jù)獲取后存儲(chǔ)于MySQL數(shù)據(jù)庫(kù)。本模型選用詞典的方法來(lái)判斷文本情感極性,即每個(gè)詞有一定有概率屬于某種極性,為了權(quán)威性和可靠性更高,這里選用公開的知網(wǎng)HowNet情感詞典。該情感詞典包括中文和英文的程度級(jí)別詞語(yǔ)、負(fù)面評(píng)價(jià)詞語(yǔ)、負(fù)面情感詞語(yǔ)、正面評(píng)價(jià)詞語(yǔ)、下面情感詞語(yǔ)和主張?jiān)~語(yǔ),本模型中主要用到中文的正負(fù)面情感詞語(yǔ)以及程度級(jí)別詞。
否定詞會(huì)直接影響評(píng)論情感極性的判斷,所以這里詞典中還需要補(bǔ)充否定詞典。學(xué)者張樂等在研究短文本情感折射模型中運(yùn)用Word2vec對(duì)基礎(chǔ)情感詞典擴(kuò)充并取得較好結(jié)果[25]。本研究先給出基礎(chǔ)否定詞匯,然后通過(guò)Word2vec進(jìn)行擴(kuò)充,選取與各基礎(chǔ)詞相似度較高的前100個(gè)詞作為初始否定詞集,然后人工進(jìn)行篩選,得到最終否定詞集。由于微博的社會(huì)網(wǎng)絡(luò)性,這里Word2vec的訓(xùn)練數(shù)據(jù)來(lái)源選取的維基百科數(shù)據(jù)。本研究選取的基礎(chǔ)否定詞有:不、沒、無(wú)和非。經(jīng)過(guò)擴(kuò)展后的部分否定詞及與基礎(chǔ)詞相似度如表1所示。
2.2?文本處理
本模型在微博論文文本處理上主要包括兩個(gè)重要內(nèi)容,中文分詞和詞性標(biāo)注。分詞是為了能與情感字典以及否定詞集進(jìn)行匹配,同時(shí)分詞后也便于詞性的標(biāo)注,進(jìn)行更為精準(zhǔn)地處理文本情感極性。唐曉波等在對(duì)產(chǎn)品評(píng)論情感挖掘時(shí)就總結(jié)出了情感詞一般出現(xiàn)在謂語(yǔ)中,狀語(yǔ)和定語(yǔ)對(duì)感強(qiáng)度有影響等[26]。
Python是這兩年非常受歡迎的文本分析語(yǔ)言,本研究從爬蟲到分詞以及詞性標(biāo)注都是用Python語(yǔ)言編寫,分詞和詞性標(biāo)注采用Python環(huán)境下自帶的jieba分詞系統(tǒng)。由于全模式分詞中否定詞多次出現(xiàn)會(huì)影響情感極性,所以研究選擇精確模式分詞。
2.3?情感分析
微博評(píng)論文本主體都是由一些短文本組成,還有很大部分是由個(gè)別詞組成,所以傳統(tǒng)的句法結(jié)構(gòu)分析在評(píng)論文本中并不適用,這里直接根據(jù)精確模式分詞后的詞性標(biāo)注,需要分是否有謂語(yǔ)動(dòng)詞來(lái)分析。如果沒有謂語(yǔ)動(dòng)詞,即無(wú)情感詞可匹配,不采取任何操作,或情感極性值記為0;如果有謂語(yǔ)動(dòng)詞,提取評(píng)論中的謂語(yǔ)動(dòng)詞來(lái)遍歷情感詞典中的詞以判斷謂語(yǔ)動(dòng)詞的情感極性得到初步的情感極性判斷,然后根據(jù)是否含有否定詞來(lái)重新判斷評(píng)論的情感極性,最后根據(jù)情感詞典中的程度詞典來(lái)賦予極性權(quán)重,得出單條評(píng)論的情感極性值。在實(shí)際處理中,為了追求準(zhǔn)確與便捷,也可以用評(píng)論句子中的所有詞去遍歷情感詞典,避免詞性標(biāo)注不準(zhǔn)確帶來(lái)的遺漏。之后依次去遍歷否定詞典和程度詞典,得到更有說(shuō)服力的結(jié)論。單條政務(wù)微博評(píng)論的情感分析簡(jiǎn)要流程如圖2所示。
2.4?顯式信息分析
由于本研究不涉及用戶研究,中國(guó)社會(huì)也提倡人人平等,這里將所有公民的評(píng)論權(quán)重一致對(duì)待,即單條微博的情感傾向性由支持這條微博的人數(shù)與不支持這條微博的人數(shù)比例來(lái)判斷。由于微博的機(jī)制,支持可以由點(diǎn)贊和正向情感的評(píng)論來(lái)表示,反對(duì)和中立通過(guò)負(fù)向或中立情感評(píng)論來(lái)表示。本研究用Z來(lái)表示單條微博的支持度,即當(dāng)Z大于1時(shí),單條微博情感整體傾向?yàn)檎?。除了直接分析點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)三者之間的關(guān)系外,研究還應(yīng)該對(duì)三者之間進(jìn)行過(guò)數(shù)學(xué)處理后的數(shù)值進(jìn)行分析,如三者中任意兩者的比值與情感極性值的比較,或三者中有相關(guān)性的兩個(gè)進(jìn)行均值處理后代替原來(lái)只用其中一個(gè)參數(shù)的比例等。下面介紹一個(gè)點(diǎn)贊數(shù)與評(píng)論數(shù)的比值和它與情感極性值比較的理由和意義。
L/C,其中L代表單條微博點(diǎn)贊數(shù),C代表單條微博評(píng)論數(shù),即點(diǎn)贊數(shù)與評(píng)論數(shù)的比值。選取理由是點(diǎn)贊可以粗略看作是對(duì)微博的認(rèn)同,即判斷情感極性為正向,在單一變量條件下,點(diǎn)贊數(shù)越多,可以認(rèn)為該微博在公民中的情感正向值越高。而評(píng)論中情感暫時(shí)無(wú)法簡(jiǎn)單判斷出來(lái),可以假設(shè)評(píng)論中全都是負(fù)面情感,那么點(diǎn)贊數(shù)與評(píng)論數(shù)的比值即等于正向情感與負(fù)向情感的比值,可以判斷出單條微博的整體情感極性,即有式(1)成立。
其中E(正)表示正向情感傾向數(shù),E(負(fù))表示負(fù)向情感傾向數(shù)。而在實(shí)際操作中,評(píng)論中情感有正有負(fù),真實(shí)的負(fù)向情感值E(負(fù))應(yīng)該小于此時(shí)的評(píng)論數(shù)C,真實(shí)的支持度應(yīng)該大于基于假設(shè)計(jì)算出來(lái)的值,如式(2)所示。
所以如果單條微博的L/C值大于1,那么此條微博的整體情感支持度就大于1,此時(shí)可以假定微博整體情感極性判斷為正向。
2.5?相關(guān)性假設(shè)
相關(guān)關(guān)系是一種非確定性的關(guān)系,相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的量。本文用簡(jiǎn)單相關(guān)系數(shù)來(lái)衡量各組數(shù)值之間是否存在相關(guān)關(guān)系,用字母r表示,用來(lái)度量?jī)蓚€(gè)變量間的線性關(guān)系,即兩個(gè)變量X和Y之間的線性相關(guān)系數(shù)r定義如式(3)所示[27]。
1)從整體上分析,點(diǎn)贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)兩兩之間存在相關(guān)關(guān)系;
2)點(diǎn)贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)分別和微博情感極性之間存在著相關(guān)關(guān)系;
3)點(diǎn)贊數(shù)、評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)之間進(jìn)行計(jì)算處理后與微博情感極性之間存在著相關(guān)關(guān)系,如當(dāng)微博點(diǎn)贊數(shù)超過(guò)評(píng)論數(shù)時(shí),微博情感傾向?yàn)檎虻母怕瘦^大,即在一定前提條件下,微博的三大屬性信息與評(píng)論的情感極性存在著相關(guān)關(guān)系。
3?實(shí)驗(yàn)設(shè)計(jì)與相關(guān)結(jié)論
國(guó)外已有學(xué)者研究表明交通、住房和工作這類主題是公民最關(guān)心的政務(wù)話題[28]。但在中國(guó),公安的官方微博是擁有粉絲最多的機(jī)構(gòu),所以本實(shí)驗(yàn)以上海公安機(jī)構(gòu)微博評(píng)論為對(duì)象,在新浪微博平臺(tái)上對(duì)上海市公安局官方微博“警民直通車—上海”在2017年9月1日到2018年8月31日之間發(fā)布的微博評(píng)論進(jìn)行分析,去除重復(fù)性評(píng)論以及空的(沒有文本信息)評(píng)論信息,初步處理后數(shù)據(jù)量為3 582條微博,以及30 948條評(píng)論。本實(shí)驗(yàn)設(shè)計(jì)有兩個(gè)目的,首先是要驗(yàn)證本模型情感分析方法的準(zhǔn)確性,然后用模型的情感結(jié)論來(lái)分析微博的顯式信息是否有參考價(jià)值。
3.1?情感驗(yàn)證與結(jié)果標(biāo)準(zhǔn)化
本小節(jié)進(jìn)行初步人工驗(yàn)證,確定模型的可用性,并對(duì)情感分析結(jié)果進(jìn)行統(tǒng)一的優(yōu)化處理。具體的驗(yàn)證根據(jù)情感分析流程依次為情感詞判斷、否定詞判斷和程度詞判斷的驗(yàn)證,最后對(duì)復(fù)合句進(jìn)行判斷。模型驗(yàn)證舉例如表2所示。
從表2中可以看出本模型對(duì)于極性判斷是準(zhǔn)確可行的,從整體極值上看,得出的極值為單句評(píng)論中的正向情感和負(fù)向情感比值,但這個(gè)比值在不同單句中的差值較大,不利于得到整體情感。考慮到一條微博評(píng)論代表一個(gè)公民的情感,需要對(duì)每條評(píng)論進(jìn)行標(biāo)準(zhǔn)化處理,重新分配情感權(quán)重。極性pol的判斷和情感支持度pos的標(biāo)準(zhǔn)化代碼為:
#情感極性pol判斷
if Pos>Neg:pol=1
else:
if Neg>Pos:pol=-1
else:pol=0
#情感極性比值,標(biāo)準(zhǔn)化到-1到1之間的情感值
if Pos+Neg==0:pos=0
else:
pos=2*(Pos/(Pos+Neg)-0.5)
其中Pos代表單條評(píng)論中正向情感傾向度,Neg代表單條評(píng)論中負(fù)向情感傾向度。一條微博的所有評(píng)論情感值相加,代表這條微博評(píng)論的整體情感傾向。經(jīng)標(biāo)準(zhǔn)化后的單條評(píng)論情感值為[-1,1]之間的數(shù)值,后期研究如果考慮到每個(gè)公民的情感表達(dá)程度影響大小不同,可以用具體的情感數(shù)值來(lái)進(jìn)行計(jì)算。在只考慮情感極性的情況下,可以直接用情感極性判斷值pol來(lái)計(jì)算。
3.2?情感極性判斷應(yīng)用結(jié)果
為了后續(xù)研究顯式信息的作用,先要驗(yàn)證本模型在單條微博所有的評(píng)論情感極性判斷的準(zhǔn)確性。本研究對(duì)象為政務(wù)微博信息,政務(wù)微博多與民生問(wèn)題相關(guān),這里選取上海市公安局微博中,以溺水為關(guān)鍵詞的相關(guān)微博進(jìn)行情感分析驗(yàn)證,具體選取的事件和相關(guān)分析結(jié)果如表3所示。
在微博事件驚險(xiǎn)溺水視頻中,實(shí)際情感傾向?yàn)樨?fù)主要原因是視頻中小孩的監(jiān)護(hù)人帶孩子在海邊玩時(shí)輕視了大海的危險(xiǎn)性,小孩險(xiǎn)些被海浪沖走,模型結(jié)果與實(shí)際傾向一致。在微博離岸流悲劇中,主要是對(duì)離岸流的科普性知識(shí),微博評(píng)論應(yīng)該是正向情感或者不帶情感的,實(shí)際查看后發(fā)現(xiàn)評(píng)論中只有較少關(guān)于微博本身內(nèi)容,多是在為另一些事件在維權(quán)引發(fā)的負(fù)面情緒。安全愛心班中,評(píng)論沒有一條是與微博內(nèi)容相關(guān)的,結(jié)果沒有任何意義。水中救援教程視頻中,模型結(jié)果為不帶情緒,實(shí)際分析為微博評(píng)論中正向情緒受到了“唐小僧”事件的負(fù)面評(píng)論影響。防溺水提示的微博中,一共只有3條評(píng)論,并不帶明顯的情感極性。警方提醒防溺水微博中,評(píng)論走向了調(diào)侃的風(fēng)格,整體呈現(xiàn)出正向極性。男子跳江消防救起微博中,評(píng)論的負(fù)面情緒主要來(lái)源于批評(píng)男子自殺行為。溺水救生指南微博中,評(píng)論沒有特別的負(fù)面情緒,民眾發(fā)表了一些對(duì)于指南的一些疑問(wèn)。
從表3中可以看出模型基本在情感極性分析上可用,但準(zhǔn)確度需要進(jìn)一步衡量。這里采用準(zhǔn)確率來(lái)計(jì)算,并將評(píng)論數(shù)作為對(duì)比結(jié)果正確的微博事件權(quán)重,按式(4)所示計(jì)算準(zhǔn)確率。
其中c為情感極性判斷正確的微博評(píng)論數(shù),s為樣本所有評(píng)論數(shù)之和。如果將可用的對(duì)比結(jié)果暫且歸為不準(zhǔn)確一類,根據(jù)上面的溺水相關(guān)微博分析結(jié)果計(jì)算p值為69.5%,將可用的對(duì)比結(jié)果歸為準(zhǔn)確,p值為85.7%。由應(yīng)用結(jié)果準(zhǔn)確性分析可知,本模型在不考慮內(nèi)容相關(guān)性的情況下的可用性較高。
3.3?相關(guān)性分析
在分析微博的點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)三者之間關(guān)系時(shí),用上篩選后的全部樣本3 582條微博內(nèi)容以及其所有評(píng)論情感分析的情感值。根據(jù)相關(guān)系數(shù)的缺點(diǎn),即它接近于1的程度與數(shù)據(jù)組數(shù)n相關(guān),當(dāng)n較小時(shí),相關(guān)系數(shù)的波動(dòng)較大,對(duì)有些樣本相關(guān)系數(shù)的絕對(duì)值可能碰巧接近于1;當(dāng)n較大時(shí),相關(guān)系數(shù)的絕對(duì)值容易偏小。特別是當(dāng)n=2時(shí),相關(guān)系數(shù)的絕對(duì)值總為1。因此在樣本容量n較小時(shí),僅憑相關(guān)系數(shù)較大就判定變量x與y之間有密切的線性關(guān)系是不妥當(dāng)?shù)摹1狙芯繉颖疚⒉?shù)n從較數(shù)值取到3 582之間來(lái)觀察相關(guān)系數(shù)的變化。部分n值和對(duì)應(yīng)的相關(guān)系數(shù)如表4所示。
通常當(dāng)0 從得出的相關(guān)系數(shù)表中,還可以得出在n<224時(shí),情感極性與評(píng)論和轉(zhuǎn)發(fā)之間也有較為顯著的相關(guān)性,但隨著樣本n的增加,相關(guān)性減小。即說(shuō)明假設(shè)二中微博評(píng)論情感與點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)都沒有直接的相關(guān)性。假設(shè)二并目前還不能成立,已有的三大屬性信息還不能直接代替文本情感分析方法去判斷微博評(píng)論情感傾向,還需要平臺(tái)未來(lái)提供更多的顯式信息。 因此對(duì)微博和評(píng)論做進(jìn)一步深度分析,用來(lái)排除一些個(gè)別因素,如單個(gè)指標(biāo)數(shù)量極多的情況,本研究進(jìn)行了分段式回歸分析,多次試驗(yàn)后發(fā)現(xiàn)以評(píng)論量進(jìn)行分段效果較好,研究在評(píng)論量各分段區(qū)間內(nèi)評(píng)論、轉(zhuǎn)發(fā)和點(diǎn)贊與情感的關(guān)系,分析結(jié)果如表5所示。當(dāng)評(píng)論量在0~90區(qū)間時(shí),僅轉(zhuǎn)發(fā)與情感分別在5%和1%水平上顯著正相關(guān),而評(píng)論和點(diǎn)贊與情感的相關(guān)性不顯著;當(dāng)評(píng)論量在0~60區(qū)間時(shí),評(píng)論和轉(zhuǎn)發(fā)與情感的相關(guān)系數(shù)分別為-0.008和0.011,分別在5%和1%水平上顯著。當(dāng)評(píng)論量在0~30區(qū)間時(shí),評(píng)論和轉(zhuǎn)發(fā)與情感的相關(guān)系數(shù)分別為-0.022和0.007,且都在1%水平上顯著;當(dāng)評(píng)論量在0~10區(qū)間時(shí),評(píng)論和轉(zhuǎn)發(fā)與情感的相關(guān)系數(shù)分別為-0.013和0.004,且都在5%水平上顯著;即假設(shè)三中在轉(zhuǎn)發(fā)量較低時(shí)評(píng)論量與微博評(píng)論情感呈負(fù)相關(guān)關(guān)系。 3.4?實(shí)驗(yàn)驗(yàn)證 為了論證本文分析結(jié)果的可靠性,本實(shí)驗(yàn)從統(tǒng)計(jì)方法和話題實(shí)例兩個(gè)方面進(jìn)行檢驗(yàn)。本文選取了同一研究對(duì)象不同時(shí)間段的數(shù)據(jù)為分析樣本。實(shí)驗(yàn)選取了近期(實(shí)驗(yàn)數(shù)據(jù)之后)上海公安機(jī)構(gòu)政務(wù)微博進(jìn)行驗(yàn)證,獲取了2018年10月20日到2019年5月20日之間的微博及相關(guān)評(píng)論信息,進(jìn)行初步篩選后,得到2 812條微博和31 043條評(píng)論,作為實(shí)驗(yàn)檢驗(yàn)數(shù)據(jù)集。 3.4.1?統(tǒng)計(jì)方法檢驗(yàn) 為了檢驗(yàn)整體是否符合研究結(jié)論,本文選取全部檢驗(yàn)數(shù)據(jù)集進(jìn)行驗(yàn)證是否支持假設(shè)一,結(jié)果評(píng)論量和轉(zhuǎn)發(fā)量之間相關(guān)關(guān)系仍顯著,如表6所示。 本文對(duì)檢驗(yàn)樣本進(jìn)行了分段回歸分析,結(jié)論表明在評(píng)論量在0~10之間驗(yàn)證中,評(píng)論量與情感的相關(guān)系數(shù)為-0.044,且在1%水平上顯著,轉(zhuǎn)發(fā)量與情感的相關(guān)系數(shù)為0.001,且在5%水平上顯著,說(shuō)明在評(píng)論為0~10這個(gè)區(qū)間內(nèi)評(píng)論量與情感極性顯著負(fù)相關(guān),而轉(zhuǎn)發(fā)與情感顯著正相關(guān)。說(shuō)明評(píng)論與情感顯著負(fù)相關(guān)以及轉(zhuǎn)發(fā)量與情感極性顯著正相關(guān)這一結(jié)論在同一樣本的不同時(shí)間段同樣成立。分析結(jié)果如下表7所示。
[7]劉雯,高峰,洪凌子.基于情感分析的災(zāi)害網(wǎng)絡(luò)輿情研究——以雅安地震為例[J].圖書情報(bào)工作,2013,(20):104-110.
[8]拉姆什·沙爾達(dá),杜爾森·德倫,埃弗雷姆·特班.商務(wù)智能:數(shù)據(jù)分析的管理視角[M].北京:機(jī)械工業(yè)出版社,2017.
[9]王科,夏睿.情感詞典自動(dòng)構(gòu)建方法綜述[J].自動(dòng)化學(xué)報(bào),2016,(4):495-511.
[10]馬松岳,許鑫.基于評(píng)論情感分析的用戶在線評(píng)價(jià)研究——以豆瓣網(wǎng)電影為例[J].圖書情報(bào)工作,2016,(10):95-102.
[11]張志安,曹艷輝.政務(wù)微博和政務(wù)微信:傳承與協(xié)同[J].新聞與寫作,2014,(12):57-60.
[12]石婧,周蓉,李婷.政務(wù)服務(wù)“雙微聯(lián)動(dòng)”模式研究——基于上海市政務(wù)微博與政務(wù)微信的文本分析[J].電子政務(wù),2016,(2):50-59.
[13]孟川瑾,盧靖.基于新公共服務(wù)的政務(wù)微博運(yùn)行機(jī)制——“@問(wèn)政銀川”案例研究[J].電子政務(wù),2016,(4):45-53.
[14]周莉,李曉,黃娟.政務(wù)微博在突發(fā)事件中的信息發(fā)布及其影響[J].新聞大學(xué),2015,(2):144-152.
[15]包明林,劉蓉,鄒凱,等.政務(wù)微博服務(wù)質(zhì)量評(píng)價(jià)指標(biāo)體系研究[J].現(xiàn)代情報(bào),2015,(9):93-97.
[16]胡吉明,李雨薇,譚必勇.政務(wù)信息發(fā)布服務(wù)質(zhì)量評(píng)價(jià)模型與實(shí)證研究[J].現(xiàn)代情報(bào),2019,39(10):78-85.
[17]Stamati T,Papadopoulos T,Anagnostopoulos D.Social Media for Openness and Accountability in the Public Sector:Cases in the Greek Context[J].Government Information Quarterly,2015,32(1):12-29.
[18]Gascó M,Bayerl P S,Denef S,et al.What Do Citizens Communicate About During Crises?Analyzing Twitter Use During the 2011 UK Riots[J].Government Information Quarterly,2017,34(4):635-645.
[19]Medaglia R,Zheng L.Mapping Government Social Media Research and Moving it Forward:A Framework and A Research Agenda[J].Government Information Quarterly,2017,34(3):496-510.
[20]段堯清,程寧?kù)o,肖博.基于政務(wù)微信公眾號(hào)的易得性信息特征研究[J].情報(bào)科學(xué),2016,(7):131-135.
[21]王克嶺,張?zhí)鹣瘟?微信公眾號(hào)軟文內(nèi)部點(diǎn)贊影響因素研究[J].西安財(cái)經(jīng)學(xué)院學(xué)報(bào),2018,(2):71-77.
[22]顏月明,趙捧未.一種微信公眾號(hào)影響力的評(píng)估方法[J].情報(bào)雜志,2016,(9):141-145.
[23]張艷輝,李宗偉.在線評(píng)論有用性的影響因素研究:基于產(chǎn)品類型的調(diào)節(jié)效應(yīng)[J].管理評(píng)論,2016,(10):123-132.
[24]湯胤,徐永歡,張萱.基于社會(huì)認(rèn)知理論的社交媒體用戶轉(zhuǎn)發(fā)行為研究[J].圖書館工作與研究,2016,(6):68-76.
[25]張樂,閆強(qiáng),呂學(xué)強(qiáng).面向短文本的情感折射模型[J].情報(bào)學(xué)報(bào),2017,(2):180-189.
[26]唐曉波,肖璐.基于情感分析的評(píng)論挖掘模型研究[J].情報(bào)理論與實(shí)踐,2013,(7):100-105.
[27]何春雄,龍衛(wèi)江,朱鋒峰.概率論與數(shù)理統(tǒng)計(jì)[M].2012.
[28]Bonsón E,Royo S,Ratkai M.Citizens'?Engagement on Local Governments'?Facebook Sites.An Empirical Analysis:The Impact of Different Media and Content Types in Western Europe[J].Government Information Quarterly,2015,32(1):52-62.
[29]孫華俊.思想政治教育心理環(huán)境的創(chuàng)設(shè)與優(yōu)化[J].江漢大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2019,36(2):104-112.
[30]張柳,王晰巍,王鐸,等.微博環(huán)境下高校輿情情感演化圖譜研究——以新浪微博“高校學(xué)術(shù)不端”話題為例[J].現(xiàn)代情報(bào),2019,39(10):119-126.
(責(zé)任編輯:郭沫含)