国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

政府政務(wù)微博效能評(píng)估及可視化分析

2021-03-25 02:09賈斯涵郝琳琳
軟件導(dǎo)刊 2021年3期
關(guān)鍵詞:政務(wù)可視化卷積

賈斯涵,王 英,郝琳琳,王 鑫

(1.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;2.吉林大學(xué)人工智能學(xué)院,吉林長(zhǎng)春 130012)

0 引言

從2009 年開(kāi)始,作為新型的社交媒體平臺(tái),微博逐漸走進(jìn)了人們的視野中。10 年間,微博發(fā)展到如今的月活躍用戶5.16 億人次,愈來(lái)愈多的人開(kāi)始借助微博了解世界,微博也因此成為人們溝通交流、情感表達(dá)的重要媒介,其間充斥著大量帶有情感色彩的評(píng)論與觀點(diǎn),使得這些微博文本無(wú)論是在商業(yè)分析還是輿情監(jiān)測(cè)中都具有重要的經(jīng)濟(jì)和社會(huì)價(jià)值[1]。政務(wù)新媒體是近年來(lái)政府緊跟時(shí)代脈搏的產(chǎn)物,是加快政府職能轉(zhuǎn)變,提高政府治理能力的重要手段。作為政務(wù)新媒體發(fā)展最早、最成熟的社交平臺(tái),政務(wù)微博已經(jīng)成為各級(jí)政務(wù)機(jī)構(gòu)推行政務(wù)公開(kāi),拉近政府與公眾距離的重要載體。

本文針對(duì)政府政務(wù)微博的效能評(píng)估及可視化分析問(wèn)題,使用卷積神經(jīng)網(wǎng)絡(luò)解決政務(wù)微博評(píng)論的情感分析問(wèn)題,利用Echarts 工具,從公眾反響、傳播能力、互動(dòng)用戶的整體特征等角度進(jìn)行可視化,實(shí)現(xiàn)輿情統(tǒng)計(jì)和分析。

1 情感分析方法概述

文本情感分析,又稱傾向性分析、意見(jiàn)挖掘等,是自然語(yǔ)言處理(Natural Language Processing,NLP)的一個(gè)重要領(lǐng)域。世界上絕大多數(shù)數(shù)據(jù)都沒(méi)有預(yù)先定義文本的組織結(jié)構(gòu),通過(guò)構(gòu)建模型識(shí)別和提取文本中的觀點(diǎn)和特征,對(duì)文本進(jìn)行理解和分類,可以幫助人們?cè)跀?shù)據(jù)爆炸時(shí)代快速處理非結(jié)構(gòu)化文本,提高工作效率。現(xiàn)有的情感分類技術(shù)主要有3 類。

1.1 基于情感詞典的方法

基于情感詞典的分類方法比較機(jī)械化,需要大量文本作為基礎(chǔ)素材,模擬人的思維進(jìn)行判斷,通過(guò)對(duì)語(yǔ)料庫(kù)的人工整理構(gòu)建不同粒度的情感詞典,以及否定詞詞典、程度副詞詞典等自定義詞典。

最基本的方法是對(duì)詞典中情感程度相同的詞組賦予相等權(quán)重,將分詞后的詞語(yǔ)與語(yǔ)料庫(kù)詞典中的詞進(jìn)行匹配,對(duì)情感值進(jìn)行線性疊加,其中否定詞和副詞可以根據(jù)實(shí)際情況生成自己的判斷規(guī)則:判斷為否定詞時(shí),權(quán)值反號(hào)處理,判斷有副詞時(shí),可以進(jìn)行倍數(shù)處理。目前,較為知名的中文詞典包括臺(tái)灣大學(xué)整理的NTUSD 詞典、知網(wǎng)發(fā)布的Hownet 情感詞典以及清華大學(xué)李軍中文褒貶義詞典。

但無(wú)論如何改進(jìn),基于情感詞典的分類方法都存在它獨(dú)有的局限性,即它始終依賴于“詞典”本身,這也意味著情感詞典在面臨新詞的不斷迭出和舊詞新意等情況時(shí),無(wú)法及時(shí)擴(kuò)展更新。同時(shí),由于情感詞典的不同選擇,情感分類結(jié)果也會(huì)因此受到影響。

1.2 基于機(jī)器學(xué)習(xí)的方法

近年來(lái),隨著人工智能的快速發(fā)展,機(jī)器學(xué)習(xí)不斷進(jìn)入人們的視野中,其關(guān)鍵步驟是如何使機(jī)器可以像人一樣學(xué)習(xí)?;跈C(jī)器學(xué)習(xí)的情感分析方法主要是手動(dòng)進(jìn)行文本特征提取,通過(guò)一系列指令讓機(jī)器從數(shù)據(jù)中學(xué)習(xí),最后根據(jù)這些指定的算法對(duì)文本實(shí)現(xiàn)分詞,并輸出情感分類的最終答案。它能有效解決詞庫(kù)無(wú)法及時(shí)更新的問(wèn)題,在減少人工成本的同時(shí),分類效果也很好。其中,較為常見(jiàn)的算法為支持向量機(jī)(SVM)、最大熵和樸素貝葉斯等。

1963 年,一種有監(jiān)督的非概率模型,即支持向量機(jī)被提出。該算法基本原理是在訓(xùn)練集合中找到最優(yōu)的超平面H,最優(yōu)的分類超平面可以滿足將不同類別的數(shù)據(jù)以最大間隔分開(kāi)。將標(biāo)記好的文本表示映射成多維空間上的點(diǎn),通過(guò)學(xué)習(xí)將不同情緒的樣本劃分到空間的不同區(qū)域,并對(duì)新文本進(jìn)行情緒極性預(yù)測(cè)[2]。

但是作為有監(jiān)督的機(jī)器學(xué)習(xí),其局限性體現(xiàn)在手動(dòng)標(biāo)記文本特征,同時(shí)過(guò)度依賴分類器。在大數(shù)據(jù)時(shí)代,基于機(jī)器學(xué)習(xí)的情感分析方法訓(xùn)練大規(guī)模文本數(shù)據(jù)較為困難[3]。

1.3 基于深度學(xué)習(xí)的方法

作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,深度學(xué)習(xí)是利用深度神經(jīng)網(wǎng)絡(luò)模擬生物的神經(jīng)系統(tǒng)解決特征提取問(wèn)題[4]。有別于淺層模型,它可以自動(dòng)從原始數(shù)據(jù)中學(xué)習(xí)層次化的特征,高效地標(biāo)示出數(shù)據(jù)中蘊(yùn)含的復(fù)雜模式[5]。同時(shí)可以很好地避免傳統(tǒng)的情感分析方法帶來(lái)的的局限,在進(jìn)行文本情感傾向性分析時(shí),它能夠自動(dòng)提取文本特征,并在學(xué)習(xí)過(guò)程中不斷地修正模型。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在文本分類的第一個(gè)應(yīng)用中是由Kim[6]提出的一個(gè)模型,在其研究結(jié)果中CNN 對(duì)于情感分類的效果要遠(yuǎn)好于SVM,避免了顯示的特征抽取,同時(shí)網(wǎng)絡(luò)可以并行學(xué)習(xí),降低了運(yùn)行的復(fù)雜度。其中,卷積神經(jīng)網(wǎng)絡(luò)的特征包括局部感知,可以減少參數(shù)數(shù)量,降低過(guò)擬合的可能性;共享權(quán)重可以幫助神經(jīng)網(wǎng)絡(luò)的輸入保持空間不變性,混合可以簡(jiǎn)化從卷積層輸出的信息[7]。在文獻(xiàn)[8]中,作者對(duì)于TextCNN模型做了大量調(diào)參測(cè)試,對(duì)其進(jìn)行的文本分類給出了具體建議,包括對(duì)預(yù)訓(xùn)練詞向量、激活函數(shù)的研究等;在文獻(xiàn)[9]中,作者對(duì)比了TextCNN 模型、基于TF-IDF 特征提取的傳統(tǒng)機(jī)器學(xué)習(xí)模型以及LSTM 模型,實(shí)驗(yàn)結(jié)果顯示在短文本分類中,TextCNN 模型的準(zhǔn)確率遠(yuǎn)高于傳統(tǒng)機(jī)器學(xué)習(xí)模型,且訓(xùn)練時(shí)間遠(yuǎn)小于LSTM 模型;文獻(xiàn)[10]提出的動(dòng)態(tài)卷積模型(DCNN)更加復(fù)雜,但其可以提取句子中活躍的特征,同時(shí)性能顯示出非常好的結(jié)構(gòu)。

長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為特殊的RNN 網(wǎng)絡(luò),專門(mén)為了解決普通循環(huán)神經(jīng)網(wǎng)絡(luò)的長(zhǎng)期依賴問(wèn)題而設(shè)計(jì)。它由Hochreiter 等[11]于1997 年首次提出。接下來(lái),越來(lái)越多的專家學(xué)者投入到情感分析研究中。劉騰飛等[12]提出結(jié)合循環(huán)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的文本分類研究,結(jié)果顯示這是一個(gè)可以利用卷積神經(jīng)網(wǎng)絡(luò)獲得有價(jià)值的特征,利用循環(huán)網(wǎng)絡(luò)高效獲取文本內(nèi)部信息的復(fù)合模型,在完成文本分類任務(wù)中顯現(xiàn)出良好性能。李洋等[13]提出一種卷積神經(jīng)網(wǎng)絡(luò)和BLSTM 特征融合的模型,利用CNN 提取局部特征,利用BLSTM 提取與上下文本相關(guān)的全局特征,結(jié)果較二者分別使用準(zhǔn)確率更優(yōu)。

但是對(duì)于CNN 進(jìn)行文本分類仍然需要大量的研究工作,未來(lái)還需要注意卷積核大小、超參數(shù)調(diào)節(jié)等問(wèn)題,同時(shí)進(jìn)行CNN 與其它深度學(xué)習(xí)算法的融合實(shí)驗(yàn)[14]。

2 基于深度學(xué)習(xí)的情感分類方法

自然語(yǔ)言處理領(lǐng)域較為活躍的研究方向包括文本分類,根據(jù)情緒的不同進(jìn)行分類可以視為情感的傾向性分析。深度學(xué)習(xí)算法在計(jì)算機(jī)圖像中取得顯著成績(jī),運(yùn)用到文本分類中也表現(xiàn)出色。

2.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò),最早可以追溯到1962 年的一項(xiàng)生物學(xué)研究?,F(xiàn)已發(fā)展為深度學(xué)習(xí)領(lǐng)域一項(xiàng)重要模塊,主要用于圖像識(shí)別。它主要運(yùn)用了3 種基本概念:局部感受野、共享權(quán)重和混合。

(1)局部感受野(Local Receptive Fields)。在卷積神經(jīng)網(wǎng)絡(luò)中,輸入一般看作方形排列的像素矩陣,這不同于在傳統(tǒng)網(wǎng)絡(luò)中,輸入的神經(jīng)元被理解為縱向排列的形式。同時(shí),與全連接層網(wǎng)絡(luò)的每個(gè)輸入神經(jīng)元連接到每個(gè)隱藏神經(jīng)元不同,卷積網(wǎng)絡(luò)只將輸入圖像的像素進(jìn)行局部區(qū)域連接,即一個(gè)隱藏神經(jīng)元對(duì)應(yīng)輸入神經(jīng)元的一個(gè)小矩陣,該矩陣叫做局部感受野,針對(duì)不同的神經(jīng)網(wǎng)絡(luò)可以移動(dòng)不同的跨距。這樣可以有效解決全連階層網(wǎng)絡(luò)而不考慮空間結(jié)構(gòu)問(wèn)題。

(2)共享權(quán)重(Shared Weights)。由于一部分輸入像素對(duì)應(yīng)一個(gè)隱藏神經(jīng)元,因此在卷積網(wǎng)絡(luò)中,每個(gè)連接對(duì)應(yīng)相等的權(quán)重,同時(shí)每個(gè)隱藏神經(jīng)元也對(duì)應(yīng)一個(gè)相等的偏置。同時(shí),將卷積層中訓(xùn)練的所有權(quán)重或偏置設(shè)置為相同的權(quán)值,這種平移不變性可以有效減少需要學(xué)習(xí)的參數(shù)量。共享的權(quán)重和偏置可以被視為一個(gè)濾波器或者卷積和。

(3)混合(Pooling)?;旌弦卜Q作池化。其本質(zhì)是簡(jiǎn)化從卷積層輸出的信息,起到類似壓縮圖片的作用?;旌纤惴ㄒ话惆ㄗ畲笾祷旌希╩ax-pooling)和L2 混合(L2 pool?ing)。其中,最大值混合是計(jì)算出相鄰區(qū)域內(nèi)的最大激活值,而L2 混合是取區(qū)域內(nèi)所有值平方和的平方根。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不同,兩種算法使用效果也不同。卷積神經(jīng)網(wǎng)絡(luò)的多卷積核使得其最終可以獲得多種特征。

2.2 TextCNN

Kim[6]在2014 年提出了TextCNN,結(jié)構(gòu)如圖1 所示,他將用于圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類技術(shù)中,利用不同大小的卷積核提取文本中的關(guān)鍵特征,從而達(dá)到良好的文本分類效果。

Fig.1 TextCNN model structure圖1 TextCNN 模型結(jié)構(gòu)

(1)嵌入層(Embedding Layer)。嵌入層輸入降維后的句子矩陣,其中每一行表示一個(gè)詞向量,若矩陣大小為n×k,則詞向量的維度為k,矩陣大小為7×5,則詞向量維度為5。類似CNN 模型中輸入圖像的原始像素。

(2)卷積層(Convolution Layer)。在TextCNN 模型中,由于文本的最小粒度是詞,因而詞向量的維度s 就是卷積核的寬度。高度即窗口大小一般設(shè)置為2、3、4,可以得到不同的特征圖,同時(shí)考慮了文本的上下文。

(3)池化層(Polling Layer)。TextCNN 在池化層中選用1-Max-pooling 抽取每個(gè)特征中的強(qiáng)特征,認(rèn)定其為最重要的特征,同時(shí)解決了經(jīng)過(guò)窗口大小不同的卷積核后特征向量維度不相等的問(wèn)題,并保證了特征值位置不變。

(4)全連接層(Fully Connected Layer)。TextCNN 的最后一層為全連接層,輸出時(shí)經(jīng)過(guò)softMax 激活函數(shù),它用來(lái)計(jì)算每個(gè)類別可能為正確結(jié)果的概率,最終可以將具有最大值的特征作為該文本的類別。

其中,TextCNN 的詳細(xì)過(guò)程如圖2 所示。

3 研究思路與框架

3.1 研究思路

Fig.2 TextCNN 's specific process圖2 TextCNN 的具體過(guò)程

鑒于微博篇幅精簡(jiǎn)、表達(dá)生活化等特點(diǎn),針對(duì)微博評(píng)論的情感傾向性分析,在分類前需要對(duì)非結(jié)構(gòu)化的原始數(shù)據(jù)集進(jìn)行預(yù)處理,即對(duì)文本進(jìn)行中文分詞和詞向量訓(xùn)練,將文本轉(zhuǎn)換為數(shù)字特征的同時(shí)進(jìn)行降維處理,并聯(lián)系上下文語(yǔ)義。本文采用基于深度學(xué)習(xí)的方法,區(qū)別于傳統(tǒng)情感分類算法的詞典構(gòu)建和特征提取,深度學(xué)習(xí)算法更加高效和精準(zhǔn)。對(duì)此,采用TextCNN 深度學(xué)習(xí)算法對(duì)政務(wù)微博下的評(píng)論進(jìn)行訓(xùn)練,完成積極、中立、消極的情感分類。

針對(duì)數(shù)據(jù)可視化部分,據(jù)微博原文下參與互動(dòng)的用戶相關(guān)信息、評(píng)論內(nèi)容及政務(wù)微博本身,本文將采用Echarts工具構(gòu)建圖表,直觀展示政府政務(wù)微博的受眾特點(diǎn)、傳播能力等特征,達(dá)到對(duì)效能評(píng)估結(jié)果的可視化展示目的。

本文通過(guò)引入對(duì)信息其它層面多維度的統(tǒng)計(jì)與分析,改進(jìn)了情感傾向性分析獨(dú)立存在的問(wèn)題,形成多角度交叉對(duì)比,最終達(dá)到效能評(píng)估目的,并實(shí)現(xiàn)可視化分析,使枯燥的數(shù)據(jù)更加生動(dòng)具體,讓人一目了然。

3.2 效能評(píng)估及可視化分析

本文的效能評(píng)估是指將訓(xùn)練好的用戶評(píng)論數(shù)據(jù)集與互動(dòng)用戶數(shù)據(jù)集和政務(wù)微博數(shù)據(jù)集一同進(jìn)行交叉或獨(dú)立式處理,包括從用戶地區(qū)分布、用戶年齡分布等角度進(jìn)行統(tǒng)計(jì),最終達(dá)到效能評(píng)估結(jié)果,而其中的情感傾向性分析為本文效能評(píng)估重點(diǎn)。

對(duì)于可視化分析,本文采用Echarts 開(kāi)源可視化工具作為將非結(jié)構(gòu)化的數(shù)字信息轉(zhuǎn)化為可視化圖表的媒介,以更為直觀的方式讓數(shù)據(jù)在可視化的同時(shí)達(dá)到展現(xiàn)分析結(jié)果的目的。

3.3 研究框架

本文通過(guò)對(duì)政府政務(wù)微博進(jìn)行可視化的效能評(píng)估,提供更科學(xué)的評(píng)估手段,不僅可以推動(dòng)技術(shù)上的革新,同時(shí)更有利于推進(jìn)媒體管理模式創(chuàng)新。數(shù)據(jù)集選自法制日?qǐng)?bào)、平安北京、首都網(wǎng)警、人民日?qǐng)?bào)、中國(guó)警方在線以及最高人民檢察院的政務(wù)官方賬號(hào)所發(fā)布的1 385 條微博、其下的17 587 條評(píng)論,以及13 679 名參與討論的微博用戶信息。

根據(jù)已有的微博評(píng)論,采用基于深度學(xué)習(xí)的情感分析方法,包括對(duì)數(shù)據(jù)集進(jìn)行切分、預(yù)處理和分類。在分類過(guò)程中,采用三分類算法,將情感傾向性劃分為積極、消極和中立。同時(shí),在微博用戶屬性、政務(wù)官方微博活躍程度等方面進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和對(duì)比,最終利用Echarts 開(kāi)源可視化庫(kù)對(duì)結(jié)果進(jìn)行展示。

政府政務(wù)微博效能評(píng)估及可視化分析總體方案可大致分為以下4 個(gè)步驟,如圖3 所示。

(1)Jieba 中文分詞。分詞的目的是進(jìn)行情感分析,需要使用的數(shù)據(jù)集為微博評(píng)論文件中的評(píng)論部分,并將數(shù)據(jù)集劃分為測(cè)試集和訓(xùn)練集。分詞選用的是精確模式,可以將句子中的詞準(zhǔn)確地加以分解,有利于后續(xù)文本分析。

(2)詞向量訓(xùn)練。傳統(tǒng)特征提取方法需要評(píng)估函數(shù)才能進(jìn)行權(quán)重計(jì)算,而評(píng)估函數(shù)是基于統(tǒng)計(jì)學(xué)方法的,需要規(guī)模較大的訓(xùn)練集,本文所使用的數(shù)據(jù)集規(guī)模較小,不適用于類似TF-IDF 的傳統(tǒng)做法。采用Keras 平臺(tái)的嵌入層進(jìn)行詞向量訓(xùn)練模型可以有效解決one-hot 的維度爆炸問(wèn)題,將文本數(shù)據(jù)映射到低緯度稀疏矩陣中,并可以直接應(yīng)用于TextCNN 后續(xù)步驟。

(3)TextCNN 分類算法。TextCNN 分類算法來(lái)源于卷積神經(jīng)網(wǎng)絡(luò),其在文本分類中展現(xiàn)了很好的結(jié)果,解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)由于全連接層而需要訓(xùn)練大量參數(shù)的問(wèn)題。使用三分類算法,在最后一層使用softMax 全連接層,將積極、消極、中立的分類預(yù)測(cè)以概率形式輸出。

(4)可視化顯示。由于本文數(shù)據(jù)集規(guī)模較小,采用MySQL 數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),使用PHP 語(yǔ)言執(zhí)行SQL 語(yǔ)句進(jìn)行數(shù)據(jù)庫(kù)的連接和操作,同時(shí)與HTML+CSS+JavaScript 結(jié)合進(jìn)行后續(xù)Web 可視化應(yīng)用。在可視化實(shí)現(xiàn)過(guò)程中,使用Echarts 開(kāi)源可視化庫(kù)從多種角度對(duì)用戶信息、政務(wù)微博和評(píng)論內(nèi)容進(jìn)行統(tǒng)計(jì)和整理,最終以多種形式的圖表呈現(xiàn)政府政務(wù)新媒體的評(píng)估結(jié)果。

Fig.3 The overall scheme of effectiveness evaluation and visual analysis of government Microblog圖3 政府政務(wù)微博效能評(píng)估及可視化分析方案

4 情感分類模型實(shí)現(xiàn)

4.1 文本分布式表示

首先采用Keras 的Tokenizer 模塊將分詞后的文本轉(zhuǎn)化為機(jī)器可識(shí)別的數(shù)字矩陣,創(chuàng)建好Tokenizer 對(duì)象后,利用fit_on_texts()函數(shù)根據(jù)詞的詞頻進(jìn)行編號(hào),出現(xiàn)次數(shù)越多,編號(hào)越小。采用texts_to_sequences()函數(shù),將文本轉(zhuǎn)換成數(shù)字特征,形成整數(shù)形式的索引序列。使用pad_se?quences()函數(shù)對(duì)每條文本進(jìn)行填充或修剪,設(shè)置一個(gè)固定值,超過(guò)閾值的會(huì)被截掉,不足的會(huì)在序列前面填充0,設(shè)置的最大長(zhǎng)度為50。利用TextCNN 模型的第一層Embed?ding 層將每個(gè)編碼的詞進(jìn)行one-hot 編碼,然后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行線性變換,使其嵌入到低維空間中,最終映射成為稠密矩陣,同時(shí)通過(guò)神經(jīng)網(wǎng)絡(luò)不斷迭代,嵌入的詞向量得到訓(xùn)練和更新,使得上下文語(yǔ)義也得到了聯(lián)系。

4.2 TextCNN 模型搭建

本文選用通過(guò)卷積神經(jīng)網(wǎng)絡(luò)處理文本分類的TextCNN模型。模型結(jié)構(gòu)如圖4 所示。

Fig.4 Construction of TextCNN model圖4 TextCNN 模型搭建

第一層為嵌入層,第二層為一維卷積,第三層為池化層,窗口大小分別為3、4、5,它們通過(guò)融合層拼接在一起,其中激活函數(shù)為線性整流函數(shù)(Rectified Linear Unit,RE?LU),克服了sigmoid 函數(shù)在飽和區(qū)域收斂慢的問(wèn)題,減少了反向傳播求誤差梯度的計(jì)算量,提高了訓(xùn)練速度。最后進(jìn)入全連接層,經(jīng)由softMax 函數(shù)輸出3 種情感類別的概率。

配置訓(xùn)練模型,損失函數(shù)(loss)是編譯模型必須存在的兩個(gè)參數(shù)之一,本文選用解析損失函數(shù),它是Keras 提供的一種交叉嫡代價(jià)函數(shù),幫助神經(jīng)網(wǎng)絡(luò)從錯(cuò)誤中快速學(xué)習(xí),交叉嫡是非負(fù)的,因此模型正確率越高,交叉嫡的值越接近0。另一個(gè)重要參數(shù)為優(yōu)化器(Optimizer),采用梯度下降算法找到偏置和權(quán)重的最優(yōu)解,使代價(jià)函數(shù)最小化。選用自適應(yīng)矩估計(jì)(Adaptive moment estimation,Adam)優(yōu)化器,它屬于隨機(jī)梯度下降(SGD)算法的改進(jìn),通過(guò)隨機(jī)抽取小規(guī)模訓(xùn)練樣本進(jìn)行計(jì)算,并在隨機(jī)梯度下降算法的基礎(chǔ)上增加了一階動(dòng)量和二階動(dòng)量,可以加速梯度下降并自動(dòng)調(diào)整學(xué)習(xí)速率,進(jìn)而減少訓(xùn)練時(shí)間。

訓(xùn)練模型,fit()函數(shù)用來(lái)按照指定的迭代次數(shù)訓(xùn)練模型。訓(xùn)練集樣本數(shù)為11 200,每輪包含100 個(gè)樣本用來(lái)計(jì)算一次梯度下降算法優(yōu)化損失函數(shù),到第5 輪停止訓(xùn)練,同時(shí)指定驗(yàn)證集的樣本數(shù)為1 400。

最終訓(xùn)練結(jié)果如圖5 所示。

Fig.5 TextCNN model training results圖5 TextCNN 模型訓(xùn)練結(jié)果

5 可視化功能設(shè)計(jì)及構(gòu)建

5.1 數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)

采用phpMyAdmin 作為客戶端管理數(shù)據(jù)庫(kù),它支持使用PHP 語(yǔ)言執(zhí)行SQL 各種語(yǔ)句以完成對(duì)政務(wù)數(shù)據(jù)的統(tǒng)計(jì)和可視化。

以下是關(guān)于政府政務(wù)微博數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)庫(kù)中的基本表結(jié)構(gòu):

(1)review 表(政務(wù)微博評(píng)論表)用來(lái)存儲(chǔ)政務(wù)微博下的評(píng)論及其相關(guān)信息。具體結(jié)構(gòu)如表1 所示。

Table 1 Review Form(Government Microblog review Form)表1 review 表(政務(wù)微博評(píng)論表)

(2)weibo 表(政務(wù)微博表)用來(lái)存儲(chǔ)政務(wù)微博原文內(nèi)容及標(biāo)題等相關(guān)信息。具體結(jié)構(gòu)如表2 所示。

Table 2 Microblog table(Government Microblog table)表2 weibo 表(政務(wù)微博表)

(3)weibo_user 表(微博用戶表)用來(lái)存儲(chǔ)評(píng)論過(guò)政務(wù)微博的用戶相關(guān)信息。具體結(jié)構(gòu)如表3 所示。

Table 3 Weibo_user table(Weibo user table)表3 weibo_user 表(微博用戶表)

本文還在微博用戶表、政務(wù)微博評(píng)論表和政務(wù)微博表的基礎(chǔ)上建立了兩個(gè)視圖user_review 和user_sentiment,它不占用實(shí)際內(nèi)存空間??梢杂脕?lái)解決子查詢中的重復(fù)調(diào)用問(wèn)題,降低代碼復(fù)雜度。

5.2 可視化功能設(shè)計(jì)

由于Echarts 的本質(zhì)是一個(gè)Javascript 的圖表庫(kù),故只要將官網(wǎng)下載的js 文件放入項(xiàng)目的工程下,利用script 標(biāo)簽就可以將圖表組件引入HTML 頁(yè)面中。繪制時(shí),調(diào)用echarts.init()函數(shù)初始化實(shí)例對(duì)象,創(chuàng)建option 數(shù)組以JSON 串的形式配置參數(shù)并導(dǎo)入需要統(tǒng)計(jì)的數(shù)據(jù),最后經(jīng)由對(duì)象調(diào)用setOption()函數(shù)顯示圖表。

可視化主要分為3 部分:①對(duì)參與政務(wù)微博討論的用戶信息進(jìn)行統(tǒng)計(jì);②政務(wù)微博與用戶間互動(dòng)信息整理;③用戶評(píng)論所體現(xiàn)出的情感傾向性分析。具體模塊如圖6所示。

Fig.6 The overall function design圖6 功能整體設(shè)計(jì)

5.3 可視化結(jié)果展示

微博用戶年齡分布如圖7 所示。該部分從年齡角度展示不同年齡階段對(duì)政府政務(wù)微博的參與程度,從“0~10歲”、“10~20 歲”到“50~60 歲”、“60 歲以上”共劃分7 個(gè)年齡階段。采用雷達(dá)圖對(duì)不同年齡群體的數(shù)量進(jìn)行統(tǒng)計(jì)和顯示,便于實(shí)現(xiàn)橫向比較。其中,各年齡段都在關(guān)注政府政務(wù)信息,這體現(xiàn)政民互動(dòng)在年齡層面上的普及性,較為明顯的是,青年群體已然成為政務(wù)微博建設(shè)過(guò)程中的主力軍。

Fig.7 Age distribution of Microblog users圖7 微博用戶年齡分布

政務(wù)微博發(fā)博數(shù)與評(píng)論數(shù)展示如圖8 所示。針對(duì)不同政務(wù)微博之間與政務(wù)微博內(nèi)部?jī)蓚€(gè)維度,采用雙柱狀圖的模式對(duì)微博發(fā)博數(shù)量和得到評(píng)論總數(shù)量進(jìn)行統(tǒng)計(jì)。通過(guò)標(biāo)簽標(biāo)記最高點(diǎn)和最低點(diǎn),從側(cè)面反映出發(fā)博數(shù)量和評(píng)論數(shù)量沒(méi)有必然聯(lián)系。政務(wù)微博是否受用戶歡迎,更多與新聞本身的內(nèi)容與質(zhì)量有關(guān)。

Fig.8 Number of government posts and comments on Microblog圖8 政務(wù)微博發(fā)博數(shù)與評(píng)論數(shù)

情感傾向性分析展示如圖9 所示。針對(duì)不同的政務(wù)媒體,統(tǒng)計(jì)微博原文下代表不同情感極性評(píng)論的各自數(shù)量及評(píng)論總數(shù)。可以看出,評(píng)論數(shù)量無(wú)論多少,3 種情感極性在各自政務(wù)微博總評(píng)論中所占比例大致相同,且大多數(shù)評(píng)論表現(xiàn)出較強(qiáng)烈的感情傾向,展示出人們對(duì)政務(wù)工作的高度參與。

Fig.9 Sentiment orientation analysis(independent)圖9 情感傾向性分析(獨(dú)立)

性別與情感分布展示如圖10-圖12 所示。該部分以性別作為分類標(biāo)準(zhǔn),統(tǒng)計(jì)參與互動(dòng)的微博用戶的情感部分。由于數(shù)據(jù)集中男女總數(shù)不同,故采用各自性別的評(píng)論總數(shù)作為比例公式中的分母,該性別的不同情感作為分子。如圖10 所示,男性和女性在與政務(wù)微博互動(dòng)時(shí),評(píng)論內(nèi)容所顯示出來(lái)的中立情感占各自群體總數(shù)的比例大致相同;而如圖11 和圖12 所示,男性群體評(píng)論所傾向的消極情感的占比遠(yuǎn)高出女性,女性群體的評(píng)論所顯示出的情感更加積極。

Fig.10 Gender and emotional distribution(neutral)圖10 性別與情感分布(中立)

Fig.11 Gender and emotional distribution(positive)圖11 性別與情感分布(積極)

Fig.12 Gender and emotional distribution(negative)圖12 性別與情感分布(消極)

6 結(jié)語(yǔ)

本文重點(diǎn)對(duì)微博評(píng)論所隱含的情感傾向性進(jìn)行分類統(tǒng)計(jì),采用基于深度學(xué)習(xí)情感分析方法中的TextCNN 模型對(duì)經(jīng)過(guò)預(yù)處理的文本進(jìn)行訓(xùn)練、評(píng)估和預(yù)測(cè),對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)庫(kù)導(dǎo)入、統(tǒng)計(jì)、分析和可視化。在MySQL 數(shù)據(jù)庫(kù)中創(chuàng)建表和視圖,方便實(shí)現(xiàn)后續(xù)對(duì)數(shù)據(jù)的查找和調(diào)用。采用Echarts 開(kāi)源可視化工具將數(shù)據(jù)嵌入到柱狀圖、雷達(dá)圖、地區(qū)分布圖等圖表進(jìn)行展示,同時(shí)通過(guò)參數(shù)更改,實(shí)現(xiàn)對(duì)組件的個(gè)性化調(diào)整。

本文不足之處在于結(jié)果是靜態(tài)化展示,而眾所周知的是,將時(shí)間劃入統(tǒng)計(jì)范疇的動(dòng)態(tài)可視化將更具有比較性和說(shuō)服力。情感傾向性分析為三分類,而顯然人類的情感不可能只有三種,未來(lái)可以考慮進(jìn)行更多分類研究,這更有利于細(xì)化輿情監(jiān)測(cè)針對(duì)公眾情感分析相關(guān)內(nèi)容,使政府收集的民情民意更加精準(zhǔn),幫助政務(wù)部門(mén)對(duì)輿論作出及時(shí)正確的引導(dǎo)。同時(shí),研究中數(shù)據(jù)集規(guī)模較小,得到的結(jié)果不足以代表全部政務(wù)微博現(xiàn)狀,并且采用的數(shù)據(jù)集僅來(lái)源于政務(wù)微博,未來(lái)還可以對(duì)微信公眾號(hào)和政務(wù)新媒體客戶端和網(wǎng)站進(jìn)行統(tǒng)計(jì),使結(jié)果更具有說(shuō)服力。

猜你喜歡
政務(wù)可視化卷積
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于CGAL和OpenGL的海底地形三維可視化
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
政務(wù)
政務(wù)
政務(wù)
晋州市| 鹤庆县| 莲花县| 繁昌县| 休宁县| 罗江县| 普陀区| 乌鲁木齐县| 乌恰县| 来宾市| 镶黄旗| 自治县| 金阳县| 天祝| 武义县| 万载县| 兰溪市| 武乡县| 吉安市| 昌平区| 湘西| 稻城县| 武威市| 祥云县| 五河县| 昌江| 云霄县| 高雄县| 黄冈市| 勃利县| 凌云县| 全椒县| 乳源| 大同市| 庆安县| 渑池县| 莫力| 乌鲁木齐县| 凤城市| 武安市| 九龙城区|