鐘瑞童
摘要:通過研究某知名演員偷稅漏稅事件的輿情走勢,給出輿情分析框架,使用Word2vec模型分析人物關系,梳理事件背景,而后使用評論影響力指標篩選具有導向作用的輿論,再通過主題模型提取觀點,分析輿情走勢,并對不同主題觀點下各類人群構成做量化分析。該分析框架有助于決策者迅速精準把握熱點事件輿情,了解公眾心理,反映社會風氣。
關鍵詞:輿情分析;觀點挖掘;主題模型;word2vec模型
中圖分類號:G206.3??? 文獻標識碼:A 文章編號:CN61-1487-(2019)010-0134-04
一、引言
公眾人物的一舉一動對整個社會有很大的影響,人民群眾的看法也反映了整個社會對于公眾人物的認知和判斷。某知名演員每年的個人收入高達數億人民幣,在去年該演藝明星被曝出令人咋舌的天價片酬,并且“一陰一陽大小合同”公然偷稅漏稅等行業(yè)內幕也隨之浮出水面。自某新聞從業(yè)人爆出該明星的陰陽合同之后,各職能部門和媒體就一直沒有中斷對于該演藝明星的調查。終于,在去年10月3日,該演藝明星偷逃稅案件的結果正式公布,引發(fā)媒體關注?!把胍暰W”報道稅務部門依法查處該明星“陰陽合同”等偷逃稅問題。此事一出,各類媒體爭相報道,微博、知乎、朋友圈都充斥著各種評論和看法,該演藝明星偷稅漏稅事件成為引爆社會輿論的焦點。
本研究應用爬蟲技術和文本挖掘技術和自然語言處理方法,對該明星偷稅漏稅事件的社會網絡輿情實證分析框架進行研究。
二、文獻綜述
(一)社會網絡輿情
從李津浩在《采寫編》2017年第2期發(fā)表的文章《從社會公眾事件看網絡輿情引導》中,可以準確地總結出公眾人物的定義、特點及其對輿論的影響。社會公眾人物具有公眾性、典型性、商業(yè)價值、社會影響力的特點,其中最典型的特點是其言行會對社會和公眾產生的巨大影響力。如果公眾人物的行為舉止得當,憑借他們的高知名度,會成為社會發(fā)展好的方面的代表,給公眾以積極的影響。公眾人物如果言行不當,在新媒體這種環(huán)境下,極易引發(fā)眾怒,輿論就會呈現一邊倒的聲討批評,產生網絡輿情。
在網絡輿情的研究方面比較成熟、主流的分析方法主要有網絡調查法、基于統(tǒng)計規(guī)則的模式識別方法、基于內容挖掘的主題檢測方法等。以上幾種方法均存在一定的局限性,一些新的方法應運而生。首先,在大數據時代的背景下,數據挖掘的方法已經在更大程度和更廣范圍應用到網絡輿情的分析和研究之中。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。其次則是聚類(clustering)分析法,即根據對某種相似程度的度量,按照相似度將數據對象分組成為多個類或簇。聚類分析法已經被廣泛應用于很多方面的數據分析研究中。最后則是社會網絡分析法(SNA),即通過對個體之間的關系構建模型并進行描述,對這些模型中包含的結構及其對個人和整個群體的影響進行分析。我們可以將大數據應用到日常的輿情管理中,加強對各個網絡平臺的監(jiān)管。大數據技術的發(fā)展為傳統(tǒng)網絡輿情的管理拓寬了視野,我們可以運用大數據對網站、微博、微信等網絡平臺進行監(jiān)控,對信息數據的傳播和動態(tài)進行實時分析,以便從瞬息萬變的輿情信息中找準重點,合理分配有限的資源,提高輿情管理效率。
(二)潛在狄利克雷(LDA)分布主題模型
隱含狄利克雷分布簡稱LDA(Latent Dirichlet allocation),首先由Blei,David M.、吳恩達和Jordan, Michael I 于2003年 提出,目前在文本挖掘領域包括文本主題識別、文本分類以及文本相似度計算方面都有應用。LDA是一種典型的詞袋模型,即它認為一篇文檔是由一組詞構成的一個集合,詞與詞之間沒有順序以及先后的關系。一篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成。它是一種主題模型,可以將文檔集中每篇文檔的主題,按照概率分布的形式給出;它是一種無監(jiān)督學習算法,在訓練時不需要手工標注的訓練集,需要的僅僅是文檔集以及指定主題的數量k即可;此外LDA的另一個優(yōu)點則是,對于每一個主題均可找出一些詞語來描述。本小組在文本挖掘技術層面上在文獻的分類篩選中選擇了LDA主題模型,LDA主題模型在國內的研究也已經較為成熟。苑東東、趙杰煜、葉緒倫(2018)在《結合深度學習的監(jiān)督主題模型》中,萬子瑋(2018)在《基于主題詞的微博用戶興趣模型研究》中提出結合深度學習的監(jiān)督主題模型,利用深度網絡強大的非線性擬合能力,建立文檔主題分布與標簽之間的映射,利用變分期望最大化(EM)和深度網絡訓練方法,共同完成貝葉斯框架下模型參數的更新,通過改變網絡結構和激活函數的類型,用于分類和回歸任務。在前人對LDA改進的基礎上,將模型應用于微博用戶興趣的深度挖掘中,將模型的先驗概率,更換為后驗概率確定用戶興趣模型,提高了主題模型的計算效率,并且保證了主題興趣挖掘的準確度。最后,通過召回率、查準率等評價指標對模型進行評價分析,并分析模型應用于個性化廣告推薦中的適用性。
三、該明星偷稅漏稅事件微博輿情分析
(一)基于Word2vec模型的社會網絡人物關系挖掘
1.語料準備
爬取知乎上關于“該明星偷稅漏稅”問題的回答共2022條。選取知乎上關于“偷稅漏稅”事件的回答作為word2vec模型的訓練語料的原因是,知乎上的回答大部分都是長文本,非常適合word2vec的訓練,而且長文本可以將關于“偷稅漏稅”事件相關的過程來龍去脈闡釋清楚,便于word2vec挖掘人物之間的關聯(lián)度。得到原始文本后,去除無關的網頁標簽數據,過濾出原始文本。
在語料數據預處理這個過程中,先將原始文本進行中文分詞,由于我們最終的目的是要將“偷稅漏稅”事件相關聯(lián)的公眾人物挖掘出來并分析他們之間的關聯(lián)度,所以我們注意的一點是對于人名的分詞的準確度,構造精確的用戶自定義字典。由于word2vec注重于上下文的關聯(lián),所以將詞頻很高的語氣詞和助詞等對上下文關聯(lián)不起作用的詞語去除,構造精確的停用詞列表。由于原始文本中有很多的與此事件闡述無關的網址,不能載入word2vec進行訓練,所以將其剔除,最后去除所有的標點符號,得到可用于word2vec訓練的文檔。以下給出語料預處理的具體步驟:
第一步,將所有的回答載入一個文檔中。
第二步,定義該明星偷稅漏稅問題的用戶自定義字典,字典列表里包括明星的人名,其中也包含同一個人的多個稱呼(如XXX和X老師),此外,還有相關知名影視公司。
第三步定義停用詞,將詞頻較高的助詞、語氣詞等定義為停用詞,在分詞之后這些詞匯將會被過濾掉。
第四步,去除文本中所有的標點符號和網址鏈接,最終過濾出純文本并將其分詞,準備訓練word2vec模型。
2.訓練word2vec模型并輸出相似度矩陣
將知乎關于“該明星偷稅漏稅”問題所有的回答作為語料庫訓練word2vec模型,并挖掘相關人物的向量相似度(即人物相關性),并得到人物關系相似度矩陣。
由于矩陣中每一個人物關系相似度都超過0.9,所以要觀察他們之間相對的相似度,要將其標準化。為了防止人物關系相似度矩陣出現負數,用max-min方法對其進行標準化。這種標準化的優(yōu)點是:標準化后所有的數值都是非負的,并且原數據中最小的數標準化后變?yōu)?,最大的數標準化后變?yōu)?,可以讓我們清晰地觀察到關系相似度最高的兩個人,還有最不相關的兩個人。將人物關系相似度矩陣進行可視化,轉化為關系圖:
3.人物關系解讀與事件梳理
從人物關系圖中可以直觀地看出,整個事件是以該明星為中心,向外輻射出與“偷稅漏稅”事件相關的人物,輻射出相關的人物有演藝人物4、新聞從業(yè)者1、演藝人物3、演藝人物2、演藝人物1。在圖中還可看出,與該明星關聯(lián)性不大的演藝人物4,在此事件中,他和該明星是有一定的并列關系,因為他們同時被新聞從業(yè)者1所批判,因此演藝人物1和演藝人物4的相關性近似于0,說明在此事件中,演藝人物4和1毫不相關,互相不牽連。這個模型最大的特點是能挖掘公眾所不熟知的人物關系,比如演藝人物2和3,公眾可能認為他們兩個與“偷稅漏稅”事件毫不相關,其實不然,他們和這個事件的核心人物都有著非常大的關聯(lián)度。這個模型可以使公眾有新的了解目標,主動地去搜尋看似不相關的人物的事件,而不是被動的接受媒體傳播的信息。
(二)基于主題模型的輿論觀點分析
1.引入微博評論影響力指標過濾輿論導向信息
使用Python+Selenium+Chrome編寫爬蟲程序。截至目前,獲取微博話題“#該明星偷稅#”“#該明星偷稅、漏稅#”“#該明星大轟炸戲份9秒#”“#該明星偷稅漏稅調查結果#”“#該明星陷偷稅門#”5個話題下內容無缺失的討論文本共計2119條,并爬取發(fā)布者信息,共計1703條(同一個人可能有多條討論)。數據庫變量類別分別為變量名、用戶名、發(fā)布時間、轉發(fā)量、評論量、點贊量、評論內容、性別、所在地、用戶類別等。
使用轉發(fā)、評論與點贊量構造微博評論影響力指標,衡量其言論所起到的輿論導向作用,過濾對輿論影響低的討論。指標計算方法如下:
從詞頻圖中我們可以清晰看出,作為事件主角的該明星的姓名出現次數遙遙領先其他詞匯,總共出現了684次;其次是“偷稅漏稅”這一行為,總共出現了179次;像“罰款”“國家”“法律”“偷稅”“逃稅”這一類與國家法治制度相關的詞匯出現次數緊隨其后,基本都達到90次左右,這也體現了大多數微博用戶對于國家基本法律的重視和對該明星違反國家基本法律政策的反對;除此之外,類似“視頻”“明星”“大轟炸”“娛樂圈”這類有關娛樂圈電影明星的詞匯的出現次數也有很多,基本上都達到了70次左右,說明部分微博用戶認為該明星偷稅漏稅事件與整個娛樂圈風氣具有一定的相關聯(lián)度;最后,類似于“道歉”“補繳”“處罰”“依法”“刑事責任”“封殺”這類詞匯的存在表明部分微博用戶認為該明星有責任進行道歉以及受到處罰以正娛樂圈的風氣。
2.輿論觀點挖掘與基于FREX score的模型解讀
使用LDA主題模型將1004條討論聚類,并輸出各類觀點下的關鍵詞,共得出了7大類關鍵詞主題。
主題1側重討論“國家”“法律”“罰款”“有錢”等關鍵詞,體現公眾對此次事件的直觀感受是比較震撼的,討論集中在本次涉案金額較多,相關法律和罰款數額等;主題2側重討論“轟炸”“流出”“臺詞”英文版等關鍵詞,體現此事件與電影《大轟炸》非常相關,《大轟炸》的視頻流出事件成為討論的熱點;主題3中出現“演藝人物4”和“新聞從業(yè)者1”兩位當事人,集中在人物關系的討論上;主題4突出了“知錯”“坐牢”等關鍵詞,體現民眾對懲罰力度的不滿,并扒出某演藝人因偷稅坐牢事件與此對比;主題5側重“逃稅”“娛樂圈”“藝人”等關鍵詞,體現此次事件引發(fā)公眾對娛樂圈逃稅普遍現象的熱點討論;主題6出現“國家”“沒有”“偷稅”“戲子”等關鍵詞,集中討論“戲子誤國”的相關內容;主題7中側重“稅款”“罰款”“稅務機關”“部門”“依法”“處罰”等關鍵詞,體現追責問責態(tài)度。主題3與主題4具有一定相似度,其討論內容都集中在人物關系上。其中主題3與主題6的話題影響力較高,反映公眾關注事件來龍去脈的討論與國家發(fā)展層面上“娛樂至死”“戲子誤國”的討論。
考慮到某些詞匯由于詞頻太高,導致在每個主題下的排名均靠前,例如“該明星”,排列第一位,但并不能突出顯示不同主題的差異,因此引入FREX score同時考慮詞語的出現頻率和排他性,FREX即“Frequency and Exclusive”,同時考慮了單個詞語在不同主題下的條件概率與在總體中的邊緣概率。其公式表達如下:
其主體思路為,為使主題模型所得結果更加趨于信息最大化,同時考慮詞語的條件概率和邊緣概率,為λ賦予不同值,目的是使不同主題體現出差異,且更加可被解釋。LDA模型中初始輸出的結果即為λ=1時的結果。
調整λ值以獲得各類主題下根據FREX score由高到低的排名順序,發(fā)現λ取0.37時各類主題差異較為可區(qū)分,且可解釋性強,綜合對比發(fā)現,民眾對于該明星事件的觀點主要呈下列幾種形式:
第一,震驚,驚嘆于國家法規(guī)的漏洞,涉案金額巨大,同時也激起人們對巨額逃稅款的概念的討論;
第二,悲哀,許多人聯(lián)想到默默無聞值守崗位的各領域人才,只能賺取微薄的工資,而國家發(fā)展依靠各領域人才而非影視明星,“戲子誤國”,還有一部分人聯(lián)想到從前影視明星因偷稅漏稅坐牢,而如今該明星不用如此,悲哀世道不復從前;
第三,憤怒,其一,該明星在《大轟炸》中僅出場9秒便賺取3000萬元薪酬,引發(fā)民眾對于目前娛樂圈影視明星收入過高的討論,其二,對該明星強烈譴責,追查到底,絕不姑息。
3.持不同觀點的人群差異分析
(1)輿論主題變化趨勢
10月3日是評論量呈爆炸性增長的一天,人們紛紛在這一天在微博上發(fā)表自己對“偷稅漏稅”事件的看法,說明當天“偷稅漏稅”事件被媒體炒得沸沸揚揚,是觀察輿論主題所占比例最合適的時機,所以我們將10月3日的評論所屬主題匯總進行觀察。
10月3日,公眾發(fā)表了大量的言論,其中第6類主題占比最大,占到總體的21%,其次是第5類主題,占總體的19%。根據各類主題的關鍵詞,我們可以挖掘出,在評論量猛增的第一天,人們主要的輿論導向是該明星觸犯了法律,應該向國家和人民道歉,并有一部分的輿論在談論該明星出演的電影《大轟炸》的上映問題。
在10月3日以后,評論量開始大幅度下降,我們觀察10月3日以后的輿論變化趨勢:從10月6日到10月18日,公眾發(fā)表了較少的言論,其中占比最大的主題由剛開始的第6主題轉變?yōu)榱说?主題,第6主題在剛開始占據輿論霸主地位,然后慢慢地淡化了。根據各類主題的關鍵詞,我們可以挖掘出,在評論的第二個階段,人們主要的輿論導向從該明星觸犯了法律,應該向國家和人民道歉,變成了該明星應該坐牢,并且該主題關鍵詞中提到了社會的正能量,說明國民開始力挺某新聞從業(yè)人的做法,并且呼吁要保護之。
評論量在10月27日大幅度地增加,而且第一主題的占比最大,所以根據關鍵詞,關鍵詞中提到了娛樂、金錢,而對應著當時正在頒發(fā)諾貝爾獎項,我們作出了合理的推斷,受眾在這一天提出了“娛樂至死”的輿論導向,并呼吁用知識和科技去復興中華,年輕人不應該沉迷娛樂而不能自拔。
(2)不同主題下的人群屬性交叉分析
第一,在不同主題下的人群性別比例。擁有不同的輿論類別的人群中,男女比例大致相同,各占一半左右。但是在第5個類別中,女性比例明顯大于男性,根據類別的關鍵詞,可以推斷出,在讓該明星道歉的問題上和該明星出演的電影《大轟炸》的上映問題上,女性群體的反應是大于男性群體的。
第二,在不同主題下的人群所在省份比例。在各個類別中,北京、山東、江蘇、廣東這四個地區(qū)的人民充當了重要的角色,其中北京、山東和廣東這三個地區(qū)在七個類別中相差無幾。
其中江蘇省在第三類和第七類主題中占比比較突出,根據類別的關鍵詞,其中第三類主題的突出關鍵詞:“該明星”“演藝人物4”“納稅”,第七類主題的突出關鍵詞:“陰陽合同”,可以看出江蘇省的人民更看重事情的真正原因和來龍去脈。
其中北京和山東與當事人的籍貫相關,江蘇無錫是該明星工作室的所在地,事件爆發(fā)后,江蘇省地稅局對該明星工作室展開調查,引發(fā)討論。
第三,在不同主題下的人群影響力比較。第三類主題所屬人群的影響力遠遠大于其他類別,根據類別關鍵詞,可以看出看重事情的真正原因和來龍去脈的人群,普遍具有很大的影響力。
四、討論
(一)從Word2vec對知乎中關于“該明星偷稅漏稅看法”的文本梳理發(fā)現,涉及該明星事件的公眾人物有“新聞從業(yè)者1”“演藝人物4”“演藝人物2”“演藝人物3”“演藝人物1”等人?!靶侣剰臉I(yè)者1”和該明星是本次事件的中心人物,其余“演藝人物”與該明星有并列關系,共同受到“新聞從業(yè)者1”抨擊。
(二)使用多維標度法可確定事件內隱含7類主題觀點。分別為“有關該明星涉案金額多的討論”“有關該明星電影《大轟炸》的視頻及臺詞流出的討論”“有關事件人物關系的討論”“有關某演藝人因偷稅坐牢與此事對比”“娛樂圈逃稅普遍現象的討論”“有關‘戲子誤國的討論”“有關稅務機關問責的討論”。其中有關事件人物關系和國家層面上“戲子誤國”的話題影響力較大。
(三)10月3日事件爆發(fā),該天公眾討論最多的話題是第五、第六主題,人們的輿論導向是該明星觸犯了法律應該向國家和人民道歉,并有一部分的輿論在談論該明星出演的電影《大轟炸》的上映問題。而后事件討論量逐步降低,從10月6日起,原本占比最高的主題六轉變?yōu)橹黝}四,在公眾討論的第二個階段,人們主要的輿論導向從該明星觸犯了法律應該向國家和人民道歉,變成了該明星應該坐牢,并且該主題關鍵詞中提到了正能量。10月27日,話題熱度突然增長,主題一占比最高,國民在這一天提出了“娛樂至死”的輿論導向,并呼吁人民用知識和科技去復興中華,年輕人不應該沉迷娛樂。
(四)男性微博用戶偏向討論人物關系,女性微博用戶偏向討論讓該明星道歉和電影《大轟炸》的上映問題。其他主題類別下的男女比例均衡。北京、山東、江蘇、廣東四省微博用戶討論較多,其中北京和山東與當事人的籍貫相關。由此可見,在本話題的討論中,涉事人與涉事機構所在地域的用戶言論對輿論影響較大。
(五)第三類主題所屬人群的影響力遠遠大于其他類別,根據類別關鍵詞,可以看出看重事情的真正原因和來龍去脈的人群,普遍具有很大的影響力。
參考文獻:
[1]吳婷.淺談網絡輿論的社會影響[J].新聞傳播,2017(7).
[2]時郁婷.論媒介融合對新聞傳播的影響研究[J].大眾文藝, 2011(7).
[3]李津浩.從社會公眾事件看網絡輿情引導[J].采寫編, 2017(2).
[4]黃寶書,王昊寧.“新聞云系統(tǒng)”與齊魯臺的新聞制播創(chuàng)新[J].南方電視學刊,2011(2).
[5]何佳,周長勝,石顯鋒.網絡輿情監(jiān)控系統(tǒng)的實現方法[J].鄭州大學學報(理學版),2010(1).
[6]苑東東,趙杰煜,葉緒倫.結合深度學習的監(jiān)督主題模型[J].模式識別與人工智能,2018(8).
[7]萬子瑋.基于主題詞的微博用戶興趣模型研究[D].首都經濟貿易大學,2018.
[8]Sievert C,Shirley K E.LDAvis:A method for visualizing and interpreting topics[C]//The Workshop on Interactive Language Learning,2014.
[9]Chuang J,Manning C D,Heer J.Termite:visualization techniques for assessing textual topic models[C]//International Working Conference on Advanced Visual Interfaces.ACM,2012.
[10]Ramage D,Hall D,Nallapati R,et al.Labeled LDA:a supervised topic model for credit attribution in multi-labeled corpora[C]//Conference on Empirical Methods in Natural Language Processing,EMNLP 2009,6-7 August 2009,Singapore,A Meeting of Sigdat,A Special Interest Group of the ACL.DBLP,2009.