“智慧政務(wù)”中的文本挖掘應(yīng)用

2020-03-15 05:34顧偉強(qiáng)秦天劉傾源文小清

科海故事博覽·下旬刊 2020年2期

顧偉強(qiáng) 秦天劉傾源文小清

摘要近年來(lái)，隨著微信、微博等網(wǎng)絡(luò)問(wèn)政平臺(tái)逐步成為政府了解民意、匯聚民智、凝聚民氣的重要渠道，各類社情民意相關(guān)的文本數(shù)據(jù)量不斷攀升，利用自然語(yǔ)言處理和文本挖掘的方法，對(duì)社會(huì)治理創(chuàng)新發(fā)展以及提升政府的管理水平和施政效率具有極大的推動(dòng)作用。因此首先CNN[1]通過(guò)mbedding將每個(gè)詞成映射成詞向量[2]，構(gòu)成二維矩陣，通過(guò)卷積操作，選取最大值作為輸出，將輸出外接softmax做n分類。根據(jù)預(yù)測(cè)標(biāo)簽以及實(shí)際標(biāo)簽來(lái)計(jì)算損失函數(shù)和參數(shù)依次更新softmax、max-pooling、激活以及卷積核這四個(gè)函數(shù)中的參數(shù)，得到每輪相應(yīng)的精確度和損失，最后用各類的精確率，查全率和f1-score對(duì)CNN中文文本分類進(jìn)行評(píng)價(jià);接著用gensim基于文本建立詞袋模型轉(zhuǎn)換為語(yǔ)料庫(kù)，使用LsiModel模型算法[3]處理語(yǔ)料庫(kù)，將字典映射到向量空間進(jìn)行相似度計(jì)算。運(yùn)用Reddit話題排名算法[4]對(duì)話題的點(diǎn)贊反對(duì)數(shù)以及發(fā)布時(shí)間計(jì)算熱點(diǎn)問(wèn)題的熱度排序;最后對(duì)留言的答復(fù)意見(jiàn)進(jìn)行特征詞抽取，計(jì)算出答復(fù)意見(jiàn)和留言的相似性，統(tǒng)計(jì)出主題關(guān)鍵詞詞頻和回復(fù)時(shí)間間隔以及回答長(zhǎng)度，用因子分析[5]做主成分分析，最后通過(guò)建立SVM模型得到對(duì)答復(fù)信息的評(píng)價(jià)[6]。

關(guān)鍵詞卷積神經(jīng)網(wǎng)絡(luò)（CNN） Gensim Reddit排名算法 Jieba分詞，因子分析 SVM

中圖分類號(hào)：N37 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-0745（2020）02-0008-05

1 挖掘目標(biāo)

本次建模目標(biāo)是利用互聯(lián)網(wǎng)公開(kāi)來(lái)源的群眾問(wèn)政留言記錄及相關(guān)部門(mén)對(duì)部分群眾留言的答復(fù)意見(jiàn)的文本數(shù)據(jù)，使用jieba中文分詞工具對(duì)文本進(jìn)行分詞、gensim和CNN中文文本分類的方法以及Reddit的話題排名算法，達(dá)到以下3個(gè)目標(biāo)：

（1）利用中文文本分詞和文本分類的方法對(duì)留言進(jìn)行分類，建立關(guān)于留言內(nèi)容的一級(jí)標(biāo)簽分類模型，并使用 F-Score對(duì)分類方法進(jìn)行評(píng)價(jià)。

（2）根據(jù)附件將某一時(shí)段內(nèi)反映特定地點(diǎn)或特定人群?jiǎn)栴}的留言進(jìn)行歸類，定義合理的熱度評(píng)價(jià)指標(biāo)，給出評(píng)價(jià)結(jié)果，并按給定的格式制作出排名前5的熱點(diǎn)問(wèn)題表和相應(yīng)熱點(diǎn)問(wèn)題對(duì)應(yīng)的留言信息的熱點(diǎn)問(wèn)題明細(xì)表，有助于及時(shí)發(fā)現(xiàn)熱點(diǎn)問(wèn)題，相關(guān)部門(mén)進(jìn)行有針對(duì)性地處理，提升服務(wù)效率。

（3）對(duì)于附件中相關(guān)部門(mén)對(duì)留言的答復(fù)意見(jiàn)，從答復(fù)的相關(guān)性、完整性、可解釋性等多個(gè)角度對(duì)答復(fù)意見(jiàn)的質(zhì)量做分析并給出一個(gè)評(píng)價(jià)。

2 總體流程

總體流程主要包括如下步驟：

步驟一：數(shù)據(jù)預(yù)處理。給出的文本數(shù)據(jù)中，出現(xiàn)了一些特殊字符，需要在原始的數(shù)據(jù)上進(jìn)行數(shù)據(jù)清洗處理，去掉重復(fù)的信息，再將處理好的信息去除不必要的停用詞并進(jìn)行中文分詞。

步驟二：數(shù)據(jù)分析。分詞完后，對(duì)CNN模型要將詞映射成索引表示，從預(yù)訓(xùn)練的詞向量模型中讀取出詞向量，作為初始化值輸入到模型中，并將數(shù)據(jù)集分割成訓(xùn)練集和測(cè)試集;將gensim模型分詞轉(zhuǎn)換為語(yǔ)料庫(kù)，并將語(yǔ)料庫(kù)計(jì)算出Tfidf值。對(duì)信息的好壞做相關(guān)性、評(píng)價(jià)等操作并選擇特征詞，因子分析完成主成分分析。

步驟三：建立模型。面對(duì)不同的問(wèn)題和附件，對(duì)處理好的數(shù)據(jù)用CNN和gensim兩種不同的模型進(jìn)行分類，分別得到一級(jí)標(biāo)簽的分類和熱點(diǎn)問(wèn)題分類，然后計(jì)算熱點(diǎn)問(wèn)題的熱度排序;建立SVM模型對(duì)處理好的信息給出評(píng)價(jià)。

3 分析方法與過(guò)程

3.1 問(wèn)題 1 分析方法與過(guò)程

3.1.1 數(shù)據(jù)預(yù)處理

在數(shù)據(jù)中，出現(xiàn)了一些特殊字符的文本數(shù)據(jù)。例如讀取文本內(nèi)容時(shí)，留言詳情前面會(huì)有＼n＼t等轉(zhuǎn)義字符，考慮到執(zhí)行分類和運(yùn)行程序時(shí)產(chǎn)生異常錯(cuò)誤，需要用正則表達(dá)式對(duì)附件內(nèi)容的特殊字符進(jìn)行數(shù)據(jù)清洗。還有一些重復(fù)的數(shù)據(jù)，也需要去除。讀取通用停用詞表，使那些無(wú)明確的意義的語(yǔ)氣助詞、連接詞、副詞和常見(jiàn)詞“不是，一個(gè)”等詞不拆分和去除的操作，避免對(duì)有效信息造成干擾，還能讓所優(yōu)化的關(guān)鍵詞更集中、更突出并且節(jié)省存儲(chǔ)空間和提高了效率。然后采用python 的中文分詞包 jieba 進(jìn)行分詞。jieba 采用了基于前綴詞典實(shí)現(xiàn)的高效詞圖掃描，生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖（DAG），同時(shí)采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑，找出基于詞頻的最大切分組合，對(duì)于未登錄詞，采用了基于漢字成詞能力的HMM模型，使得能更好的實(shí)現(xiàn)中文分詞效果。

3.1.2 CNN模型

（1）CNN結(jié)構(gòu)?；赥ensorFlow在中文數(shù)據(jù)集上的實(shí)現(xiàn)，使用了字符級(jí)CNN對(duì)中文文本進(jìn)行分類[7]，且CNN的優(yōu)勢(shì)為：網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、使參數(shù)數(shù)目少、計(jì)算量少、訓(xùn)練速度快。圖形識(shí)別的CNN模型[8]：首先是輸入層，計(jì)算機(jī)輸入若干個(gè)矩陣;接著是卷積層（Convolution Layer），卷積層的激活函數(shù)使用的是ReLU;在卷積層后面是池化層（Pooling layer），CNN 在網(wǎng)絡(luò)結(jié)構(gòu)上沒(méi)有任何變化（甚至更加簡(jiǎn)單了）， CNN 其實(shí)只有一層卷積，一層max-pooling，最后將輸出外接softmax 來(lái)n分類，達(dá)到信息分類的作用。

（2）卷積。首先，我們?nèi)W(xué)習(xí)卷積層的模型原理，我們需要了解什么是卷積（Convolution），以及CNN中的卷積是什么樣子的。學(xué)習(xí)數(shù)學(xué)時(shí)都有學(xué)過(guò)卷積的知識(shí)，微積分中卷積的表達(dá)式為：

離散形式是：

這個(gè)式子如果用矩陣表示可以為：

其中星號(hào)表示卷積。如果是二維的卷積，則表示式為：

在CNN中，雖然我們也是說(shuō)卷積，但是我們的卷積公式和嚴(yán)格意義數(shù)學(xué)中的定義稍有不同，比如對(duì)于二維的卷積，定義為：

后面講的CNN的卷積都是指的上面的最后一個(gè)式子。其中，我們叫W為我們的卷積核，而X則為我們的輸入。如果X是一個(gè)二維輸入的矩陣，而W也是一個(gè)二維的矩陣。但是如果X是多維張量，那么W也是一個(gè)多維的張量。

（3）卷積層和池化層。要完成信息的分類，主要是卷積層和池化層，只要把卷積層和池化層的原理理解了，那么搞清楚CNN就容易很多了。

CNN中的卷積，假如是對(duì)圖像卷積，參考卷積公式5，其實(shí)就是對(duì)輸入的圖像的不同局部的矩陣和卷積核矩陣各個(gè)位置的元素相乘，然后相加得到。舉個(gè)例子，圖若輸入是一個(gè)二維的3x4的矩陣，而卷積核是一個(gè)2x2的矩陣。這里我們假設(shè)卷積是一次移動(dòng)一個(gè)像素來(lái)卷積的，那么首先我們對(duì)輸入的左上角2x2局部和卷積核卷積，即各個(gè)位置的元素相乘再相加，得到的輸出矩陣S的S00的元素，值為。接著我們將輸入的局部向右平移一個(gè)像素，現(xiàn)在是（b，c，f，g）四個(gè)元素構(gòu)成的矩陣和卷積核來(lái)卷積，這樣我們得到了輸出矩陣S的S01的元素，同樣的方法，我們可以得到輸出矩陣S的S02，S10，S11，S12的元素。

相比卷積層的復(fù)雜，池化層則要簡(jiǎn)單的多，所謂的池化，就是對(duì)輸入張量的各個(gè)子矩陣進(jìn)行壓縮。假如是2x2的池化，那么就將子矩陣的每2x2個(gè)元素變成一個(gè)元素，如果是3x3的池化，那么就將子矩陣的每3x3個(gè)元素變成一個(gè)元素，這樣輸入矩陣的維度就變小了。要想將輸入子矩陣的每n×n個(gè)元素變成一個(gè)元素，那么需要一個(gè)池化標(biāo)準(zhǔn)。常見(jiàn)的池化標(biāo)準(zhǔn)有2個(gè)，MAX或者是Average。即取對(duì)應(yīng)區(qū)域的最大值或者平均值作為池化后的元素值，降低了過(guò)擬合的風(fēng)險(xiǎn)，使參數(shù)減少，進(jìn)一步加速計(jì)算。

3.1.3 留言內(nèi)容的一級(jí)標(biāo)簽分類

用CNN模型對(duì)附件2的留言內(nèi)容進(jìn)行一級(jí)標(biāo)簽分類，步驟如下：

（1）通過(guò)embedding方式將文本中的留言內(nèi)容的每個(gè)詞映射成一個(gè)64維的詞向量，并將所有的詞向量拼接起來(lái)構(gòu)成一個(gè)二維矩陣，作為最初的輸入。

（2）通過(guò)卷積操作，將輸入的600*64的矩陣映射成一個(gè) 596*1 的矩陣，這個(gè)映射過(guò)程和特征抽取的結(jié)果很像，最后提取出256個(gè)特征。

（3）用max-pooling方法在保持主要特征的情況下，降低了參數(shù)的數(shù)目，從多個(gè)值中取一個(gè)最大值。

（4）將 max-pooling的結(jié)果拼接起來(lái)，送入到softmax當(dāng)中，得到各個(gè)類概率。

（5）根據(jù)預(yù)測(cè)標(biāo)簽以及實(shí)際標(biāo)簽來(lái)計(jì)算損失函數(shù)，通過(guò)每一輪訓(xùn)練數(shù)據(jù)，最后計(jì)算出每個(gè)類別的準(zhǔn)確率、召回率和F1值、混淆矩陣的值。

3.2 問(wèn)題 2 分析方法與過(guò)程

3.2.1 模型和算法介紹

（1）gensim模型。Gensim是一個(gè)用于從文檔中自動(dòng)提取語(yǔ)義主題的Python庫(kù)，足夠智能。Gensim可以處理原生，非結(jié)構(gòu)化的數(shù)值化文本（純文本）。Gensim里面的算法，比如潛在語(yǔ)義分析LSA、LDA、隨機(jī)投影，通過(guò)在語(yǔ)料庫(kù)的訓(xùn)練下檢驗(yàn)詞的統(tǒng)計(jì)共生模式來(lái)發(fā)現(xiàn)文檔的語(yǔ)義結(jié)構(gòu)。這些算法是非監(jiān)督的，也就是說(shuō)你只需要一個(gè)語(yǔ)料庫(kù)的文檔集。當(dāng)?shù)玫竭@些統(tǒng)計(jì)模式后，任何文本都能夠用語(yǔ)義表示來(lái)簡(jiǎn)潔的表達(dá)，并得到一個(gè)局部的相似度與其他文本區(qū)分開(kāi)來(lái)。

在gensim模型中運(yùn)用了詞袋doc2bow和LsiModel模型算法，以下是對(duì)兩種算法的簡(jiǎn)單理解：

1）詞袋模型：詞袋模型首先會(huì)進(jìn)行分詞，然后通過(guò)統(tǒng)計(jì)每個(gè)詞在文本中出現(xiàn)的次數(shù)，得到文本基于詞的特征，若將各個(gè)文本的詞與對(duì)應(yīng)的詞頻放在一起，就是將文本完成向量化。即把一篇文本想象成一個(gè)個(gè)詞構(gòu)成的，所有詞放入一個(gè)袋子里，沒(méi)有先后順序、沒(méi)有語(yǔ)義。

2）LsiModel：LSI是從文本潛在的主題來(lái)進(jìn)行分析，是概率主題模型的一種，LSI通過(guò)奇異值分解的方法計(jì)算出文本中各個(gè)主題的概率分布。假設(shè)有5個(gè)主題，那么通過(guò)LSI模型，文本向量就可以降到5維，每個(gè)分量表示對(duì)應(yīng)主題的權(quán)重。

3）TF-IDF：表示一個(gè)詞在這個(gè)文檔中的重要程度。如果詞w在一篇文檔d中出現(xiàn)的頻率高，并且在其他文檔中很少出現(xiàn)，則認(rèn)為版詞w具有很好的區(qū)分權(quán)能力，適合用來(lái)把文章d和其他文章區(qū)分開(kāi)來(lái)。

（2）Reddit的話題排名算法[9]。Reddit 是全球化最知名的 Digg 類社區(qū)，Reddit是一個(gè)社會(huì)化新聞?lì)惥W(wǎng)站，Reddit內(nèi)的用戶能對(duì)各個(gè)帖子以投票的方式進(jìn)行贊成或反對(duì)，發(fā)布時(shí)間和票數(shù)將作為一種評(píng)價(jià)關(guān)系來(lái)決定帖子的排名。第二問(wèn)的熱點(diǎn)指數(shù)就是通reddit的話題排名算法基于時(shí)間和點(diǎn)贊反對(duì)數(shù)完成的。

采用 Reddit 的話題排名算法對(duì)問(wèn)題進(jìn)話題熱度排序，其算法描述如下：

Reddi話題評(píng)價(jià)函數(shù)f（ts，y，z）數(shù)學(xué)表達(dá)式：

其中ts表示差值時(shí)間，ts=A-B（公式3.2.2）。

給出文檔發(fā)表的時(shí)間與2015年12 月 8日07：46：43 這個(gè) Reddit網(wǎng)站成立上線時(shí)刻之間經(jīng)過(guò)的時(shí)間，并用ts表示差值時(shí)間的秒數(shù)。并且X是一個(gè)表示點(diǎn)贊數(shù)U和反對(duì)數(shù)D之間的差值：X=U-D（公式3.2.3）。

在公式中，且y是對(duì)x的符號(hào)函數(shù)值y=sign（x），即：

z是一個(gè)限制最大優(yōu)化值的限制值，在x的絕對(duì)值與1之間：

其公式的具體意義可以看作為以下兩點(diǎn)： 1）新話題比舊話題更受關(guān)注，因此發(fā)布時(shí)間對(duì)排名影響大。2）話題得分隨時(shí)間衰減，且新話題評(píng)價(jià)得分更高一些。

在Reddit 的話題熱度排序中使用了對(duì)數(shù)階來(lái)限制投票反差的增長(zhǎng)，這讓算法更關(guān)注于人們的評(píng)價(jià)是否呈現(xiàn)兩極分化，而不是考慮具體差得是不是太多，讓權(quán)重的評(píng)價(jià)更加歸一化。

3.2.2 問(wèn)題2解決過(guò)程

問(wèn)題2流程詳解如下：

（1）對(duì)附件3中的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，如第一問(wèn)的3.1.1一樣，對(duì)一些含有特殊字符的、有重復(fù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗，再去除停用詞后完成jieba中文分詞。

（2）然后就是建模完成第二問(wèn)的兩張表格：

①針對(duì)熱點(diǎn)問(wèn)題明細(xì)表，開(kāi)始使用留言主題進(jìn)行分詞，但分類效果一般，后改進(jìn)為對(duì)留言詳情分詞。分完詞后通過(guò)詞袋模型的doc2bow稀疏向量，形成語(yǔ)料庫(kù)，接著運(yùn)用LsiModel模型算法，將語(yǔ)料庫(kù)計(jì)算出Tfidf值。然后獲取詞典token2id的特征數(shù)，計(jì)算稀疏矩陣相似度，建立一個(gè)索引并讀取excel行數(shù)據(jù)，通過(guò)jieba進(jìn)行分詞處理通過(guò)doc2bow計(jì)算稀疏向量，求得相似度。取相似度大于0.5的歸為一類，完成熱點(diǎn)問(wèn)題的歸類。然后計(jì)算進(jìn)行熱點(diǎn)問(wèn)題排序，將排好序的數(shù)據(jù)按照“問(wèn)題ID”，“留言編號(hào)”等一一寫(xiě)入Excel文件中，從而完成了第二張表格“熱點(diǎn)問(wèn)題明細(xì)表”。

②針對(duì)熱點(diǎn)問(wèn)題表，對(duì)留言主題進(jìn)行jieba分詞，提取特征詞，將地點(diǎn)/人群和熱點(diǎn)問(wèn)題描述的信息逐一寫(xiě)入表格中。通過(guò)相似度對(duì)熱點(diǎn)問(wèn)題歸類后，運(yùn)用Reddit的話題排名算法，統(tǒng)計(jì)出對(duì)歸類的問(wèn)題的點(diǎn)贊數(shù)和反對(duì)數(shù)，再結(jié)合3.2.1所介紹的reddit排名算法，計(jì)算出每類熱點(diǎn)問(wèn)題的熱度指數(shù)，用unix時(shí)間戳計(jì)算熱點(diǎn)問(wèn)題的時(shí)間范圍時(shí)，t的單位為秒。熱度指數(shù)計(jì)算完后就可以對(duì)熱點(diǎn)問(wèn)題進(jìn)行排序，最后將問(wèn)題ID，熱度指數(shù)和時(shí)間范圍等寫(xiě)入熱點(diǎn)問(wèn)題表”。

3.3 問(wèn)題3 分析方法與過(guò)程

3.3.1 評(píng)價(jià)方法介紹

通過(guò)已有的研究成果和參考文獻(xiàn)的基礎(chǔ)上，認(rèn)為評(píng)論可以提取回答的社會(huì)性情感、準(zhǔn)確性、完整性、相關(guān)性等方面的指標(biāo)對(duì)回答進(jìn)行評(píng)價(jià)。通過(guò)這些指標(biāo)，挖掘出對(duì)回答評(píng)價(jià)關(guān)聯(lián)程度最大的特征，并建立基于挖掘出的特征的自動(dòng)化評(píng)價(jià)模型。

通過(guò)已有資料，初步篩選答案文本和實(shí)效性作為挖掘特征，采用因子分析法對(duì)各個(gè)挖掘出答復(fù)間隔、問(wèn)答相關(guān)性、回答長(zhǎng)度、主題關(guān)鍵詞頻為主要分析因子，并對(duì)挖掘出的特征進(jìn)行主成分分析與關(guān)聯(lián)性分析。各特征向量通過(guò)數(shù)據(jù)降維后，并通過(guò)SVM進(jìn)行模型訓(xùn)練，得到評(píng)價(jià)模型。

3.3.2 信息評(píng)價(jià)過(guò)程

（1）數(shù)據(jù)預(yù)處理。通過(guò)對(duì)附件4數(shù)據(jù)的研究分析，可以找到答復(fù)間隔、問(wèn)答相關(guān)性、回答長(zhǎng)度、主題關(guān)鍵詞頻、文本情感為主要的研究特征。并通過(guò)已有的模型對(duì)特征進(jìn)行量化。下表給出各個(gè)特征的量化過(guò)程。

（2）模型構(gòu)建：①皮爾遜相關(guān)性檢驗(yàn)。需要從已有的特征矩陣進(jìn)行關(guān)聯(lián)性分析，分析選取的特征是否耦合，采用皮爾遜相關(guān)系數(shù)檢驗(yàn)法。對(duì)各個(gè)特征進(jìn)行相關(guān)性計(jì)算，得到特征相關(guān)性熱力圖。并從相關(guān)系統(tǒng)計(jì)算中可以看出各個(gè)成分之間耦合度，是否可以采用上述特征向量構(gòu)建評(píng)價(jià)模型;②因子分析[10]。確定好研究的特征之后，還需要挖掘各個(gè)特征對(duì)結(jié)果的具體影響，采用因子分析法可以對(duì)已有的特征挖掘出影響最大的因子，然后對(duì)數(shù)據(jù)進(jìn)行可視化后得到熱力圖。然后通過(guò)因子方差可以看出文本特征因子對(duì)整體方差貢獻(xiàn)率，相關(guān)性因子、時(shí)效因子次之。從整體因子分析的結(jié)果來(lái)看，判斷所選取的特征能否作為構(gòu)建評(píng)價(jià)自動(dòng)化回答評(píng)價(jià)模型的指標(biāo);③數(shù)據(jù)可視化。采用常規(guī)的高維數(shù)據(jù)可視化方法T-SNE可以將降維高維數(shù)據(jù)，并進(jìn)行可視化，從而容易觀察出數(shù)據(jù)的分布規(guī)律。對(duì)評(píng)論特征矩陣進(jìn)行降維可視化;④SVM學(xué)習(xí)模型構(gòu)建。通過(guò)降維操作聚合得到的訓(xùn)練標(biāo)簽，參與有監(jiān)督的模型訓(xùn)練，得到自動(dòng)化評(píng)價(jià)模型?？梢詫⒒卮鸱譃闈M意回答1與一般回答0。

4 結(jié)果分析

4.1 問(wèn)題1結(jié)果分析

在建立CNN模型之后，對(duì)驗(yàn)證集上的數(shù)據(jù)進(jìn)行訓(xùn)練，結(jié)果是在驗(yàn)證集上的最佳效果為87.14%。

對(duì)測(cè)試集中的數(shù)據(jù)進(jìn)行測(cè)試，在測(cè)試集上的準(zhǔn)確率達(dá)到了86.43%，與驗(yàn)證集所訓(xùn)練出的準(zhǔn)確率相差不多。對(duì)于衛(wèi)生計(jì)生類、環(huán)境保護(hù)類等類別的precision， recall和f1-score都超過(guò)了0.9，準(zhǔn)確率還是很高的，然而像商貿(mào)旅游類、城鄉(xiāng)建設(shè)類僅僅超過(guò)0.7，效果較為一般。從混淆矩陣也可以看出分類效果，商貿(mào)旅游和城鄉(xiāng)建設(shè)分類一般，其余類比較好[11]。

對(duì)于文本未能很好的關(guān)于留言內(nèi)容的一級(jí)標(biāo)簽分類，認(rèn)為有可能的原因是：

（1）數(shù)據(jù)預(yù)處理時(shí)可能未處理的好。

（2）超參數(shù)未調(diào)節(jié)到最好。

（3）影藏網(wǎng)絡(luò)層數(shù)較多。

（4）文本數(shù)據(jù)量少，未能更好地訓(xùn)練數(shù)據(jù)。

4.2 問(wèn)題 2 結(jié)果分析

問(wèn)題2是讓我們根據(jù)附件 3 將某一時(shí)段內(nèi)反映特定地點(diǎn)或特定人群?jiǎn)栴}的留言進(jìn)行歸類，定義合理的熱度評(píng)價(jià)指標(biāo)，最后按照格式保存到“熱點(diǎn)問(wèn)題表”和“熱點(diǎn)問(wèn)題留言明細(xì)表”的Excel的文件里。

按照格式用reddit排名算法通過(guò)問(wèn)題出現(xiàn)次數(shù)和總點(diǎn)贊反對(duì)數(shù)對(duì)熱點(diǎn)問(wèn)題計(jì)算出了一個(gè)熱度指數(shù)，排序后并對(duì)排名前5的提取到表中，反映交通和基層建設(shè)，商戶相關(guān)問(wèn)題等5個(gè)熱點(diǎn)問(wèn)題在一眾問(wèn)題中排名前五，并且從時(shí)間范圍可以看出，群眾對(duì)社區(qū)產(chǎn)生的問(wèn)題反映時(shí)間的跨度很大，如排名第一的熱點(diǎn)問(wèn)題，從2019/01/18至2020/01/02，將近一年的時(shí)間仍然還存在問(wèn)題，這可能代表著中途有來(lái)解決過(guò)問(wèn)題，但沒(méi)處理完善導(dǎo)致熱點(diǎn)問(wèn)題尚且存在。

通過(guò)建立熱點(diǎn)問(wèn)題表，讓相關(guān)部門(mén)利用表格清楚的了解在某一段時(shí)間內(nèi)群眾所遇到的問(wèn)題和麻煩，能盡快的處理好這件事，為人民群眾做好服務(wù)，給予百姓便利和更好的生活環(huán)境和氛圍。

對(duì)于熱點(diǎn)問(wèn)題表出現(xiàn)的問(wèn)題做以下的詳解：

（1）地點(diǎn)/人群一列，并未出現(xiàn)人群信息，有可能存在運(yùn)用jieba對(duì)主題分詞時(shí)，主題并不存在人群信息。

（2）問(wèn)題描述可能并未像題目給出的表格中將事件描述的很具體。

（3）對(duì)于問(wèn)題ID一列，由于一開(kāi)始?xì)w類是將群眾留言數(shù)量的多少來(lái)排的序，再進(jìn)行Reddit加權(quán)后，就可能不是第一了。

熱點(diǎn)問(wèn)題的留言明細(xì)：在數(shù)據(jù)預(yù)處理時(shí)，刪除特殊字符再存入表格讀取后，留言詳情看起來(lái)更為方便和清楚。通過(guò)留言明細(xì)表可以清楚的知道許多人反映了某一段時(shí)間社區(qū)產(chǎn)生的同一個(gè)問(wèn)題，群眾反映的留言詳情很充分的表達(dá)了問(wèn)題所在以及問(wèn)題帶來(lái)的影響，這些問(wèn)題在很長(zhǎng)一段時(shí)間困擾和影響著他們。例如有些留言詳情以及發(fā)送時(shí)間都相同，猜測(cè)是一個(gè)人有兩個(gè)賬號(hào)的情況，都向上級(jí)表述的最近一段時(shí)間所受到的影響，用兩個(gè)賬號(hào)來(lái)反饋事實(shí)，像此類情況希望能讓上級(jí)和相關(guān)部門(mén)注意到并及時(shí)派人解決。

對(duì)于歸類熱點(diǎn)問(wèn)題有一些不足之處，一個(gè)問(wèn)題被歸類到另一個(gè)問(wèn)題中去，產(chǎn)生這種問(wèn)題的可能有：

（1）分詞后選擇特征詞時(shí)沒(méi)有選到關(guān)鍵的詞語(yǔ)，導(dǎo)致未能有效地歸類。

（2）選擇的模型可能歸類效果并不是很好。

（3）數(shù)據(jù)預(yù)處理時(shí)未刪除相似的且不重要的詞，導(dǎo)致兩個(gè)問(wèn)題之間相似度較高從而歸類錯(cuò)誤。

4.3 問(wèn)題 3結(jié)果分析

（1）皮爾遜相關(guān)性檢驗(yàn)結(jié)果。通過(guò)相關(guān)系統(tǒng)計(jì)算中可以看出各個(gè)成分之間耦合度不高，可以采用上述特征向量構(gòu)建評(píng)價(jià)模型。

（2）因子分析結(jié)果。通過(guò)因子分析計(jì)算庫(kù)，得到數(shù)據(jù)的負(fù)荷矩陣。且在得到的三個(gè)主成分因子中，基于文本特征的主題關(guān)鍵詞頻、回答長(zhǎng)度、情感得分的文本特征因子占比較大，另外兩個(gè)因子主要為問(wèn)答相關(guān)因子和時(shí)效性因子。通過(guò)計(jì)算因子的方差信息，可以更具體得看出各個(gè)因子對(duì)結(jié)果的貢獻(xiàn)率。因子方差可以看出文本特征因子對(duì)整體方差貢獻(xiàn)率較大，相關(guān)性因子、時(shí)效因子次之。從整體因子分析的結(jié)果來(lái)看，所選取的特征能夠作為構(gòu)建評(píng)價(jià)自動(dòng)化回答評(píng)價(jià)模型的指標(biāo)。

（3）數(shù)據(jù)可視化結(jié)果。從可視化結(jié)果來(lái)看，數(shù)據(jù)分布比較集中，并且明顯呈現(xiàn)出兩邊聚合的特點(diǎn)。分別對(duì)左右兩側(cè)數(shù)據(jù)進(jìn)行抽取驗(yàn)證。在左側(cè)聚合分布部分?jǐn)?shù)據(jù)集分析如下：從兩側(cè)數(shù)據(jù)集分布來(lái)看，位于左邊的回答相較于右側(cè)較差。根據(jù)聚合的情況為不同文本特征向量添加訓(xùn)練標(biāo)簽，以訓(xùn)練學(xué)習(xí)模型。

上面三個(gè)步驟和結(jié)果皆是為了通過(guò)對(duì)回答文本特征的抓取，抓取到有效的文本特征，答復(fù)間隔、問(wèn)答相關(guān)性、回答長(zhǎng)度、主題關(guān)鍵詞頻、文本情感得分。通過(guò)相關(guān)性檢測(cè)和因子分析法確定了所研究的特征能夠較好的解釋回答的完整性、相關(guān)性、可解釋性。通過(guò)對(duì)附件4所給數(shù)據(jù)得到的文本特征數(shù)據(jù)進(jìn)行降維可視化，可以明顯看出滿意回答和一般回答呈現(xiàn)兩個(gè)集群。通過(guò)對(duì)SVM機(jī)器學(xué)習(xí)方法學(xué)習(xí)兩個(gè)集群的特征作為自動(dòng)化評(píng)價(jià)是否為滿意回答的模型，較好的基于答復(fù)意見(jiàn)給出了一套合適的評(píng)價(jià)方案。

對(duì)于集群數(shù)據(jù)的分類模型選擇仍有不足之處，由于兩個(gè)集群仍有邊界模糊的回答，產(chǎn)生問(wèn)題主要有：

（1）對(duì)特征進(jìn)行量化的過(guò)程仍然存在不精準(zhǔn)的情況，數(shù)據(jù)預(yù)處理不夠充分。

（2）可能仍有部分特征不能更好地解釋回答的相關(guān)性、可解釋性、完整性。

（3）訓(xùn)練模型對(duì)部分?jǐn)?shù)據(jù)分類情況不佳，可能是高維數(shù)據(jù)在映射到二維下丟失了部分信息導(dǎo)致。

5 結(jié)論

由于大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的發(fā)展，利用自然語(yǔ)言處理和文本挖掘的方法來(lái)整理微信、微博、市長(zhǎng)信箱等網(wǎng)絡(luò)問(wèn)政平臺(tái)所產(chǎn)生的互聯(lián)網(wǎng)公開(kāi)來(lái)源的群眾問(wèn)政留言，給以往主要依靠人工來(lái)進(jìn)行留言劃分和熱點(diǎn)整理的相關(guān)部門(mén)極大的便利，對(duì)提升政府的管理水平和施政效率具有極大的推動(dòng)作用。

對(duì)問(wèn)題一建立了一級(jí)標(biāo)簽分類模型能較好地對(duì)留言分類，且有較高的準(zhǔn)確率，減少工作量和差錯(cuò)率的同時(shí)。提高了效率;對(duì)問(wèn)題二建立歸類和熱度指數(shù)排序模型，將留言進(jìn)行歸類，定義合理的熱度指標(biāo)，最后按給定格式保存兩張表格;對(duì)于問(wèn)題三建立模型從答復(fù)的相關(guān)性、完整性、可解釋性等角度對(duì)答復(fù)意見(jiàn)給出一套較好地評(píng)價(jià)方案，保證了答復(fù)信息的質(zhì)量。

對(duì)一個(gè)問(wèn)題長(zhǎng)期反復(fù)地投訴和留言，耗費(fèi)了群眾太多的時(shí)間和精力，并且也占用了平臺(tái)過(guò)多的時(shí)間和資源，讓工作人員的工作量增加了好幾倍，對(duì)此我提出一個(gè)建議：可采取此市民監(jiān)督機(jī)制。評(píng)價(jià)欄應(yīng)分幾個(gè)內(nèi)容組成：市民投訴原因、職能部門(mén)已完成的處理結(jié)果、沒(méi)完成的原因、預(yù)期完成時(shí)限，市民對(duì)處理結(jié)果是否滿意，不滿意的原因是什么，同一類同一事件投訴設(shè)置同一編號(hào)可追溯，累計(jì)追溯投訴達(dá)三次，由各行業(yè)各部門(mén)組成的監(jiān)督管理委員會(huì)對(duì)此處理單進(jìn)行審定，如果確實(shí)是職能部門(mén)原因?qū)е聸](méi)有處理完成的將計(jì)入績(jī)效，也可視情況利用媒體進(jìn)行監(jiān)督。

政府服務(wù)是一個(gè)綜合性的事務(wù)，需要不斷轉(zhuǎn)變作風(fēng)，創(chuàng)新工作理念，改進(jìn)工作模式，進(jìn)一步研究和完善熱線管理辦法及考核機(jī)制來(lái)提高辦件的處理效率和成效，以科學(xué)有效的方式推動(dòng)該地區(qū)公共服務(wù)水平的提高，讓人民生活水平不斷得到提升，并堅(jiān)持為人民服務(wù)的根本宗旨，真正做到為人民造福。

參考文獻(xiàn)：

[1] Kalchbrenner，N.，Grefenstette，E.和&Blunsom，P.（2014）.用于句子建模的卷積神經(jīng)網(wǎng)絡(luò)，2014：655-665.

[2] 張翔，俊波趙，亞·萊卡.字符級(jí)卷積網(wǎng)絡(luò)的文本分類，2015.

[3] 李連，朱愛(ài)紅，蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J].2012.計(jì)算機(jī)應(yīng)用與軟件，2012，29（02）：1-3.

[4] 鄭忠明，江作蘇，網(wǎng)絡(luò)用戶勞動(dòng)與媒介資本價(jià)值——基于美國(guó)社交新聞媒體Reddit的案例分析[J].新聞?dòng)浾撸?015（09）：60-68.

[5] 樓海淼，孫秋碧.基于因子分析的我國(guó)各省經(jīng)濟(jì)活力評(píng)價(jià)研究[J].福州大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版），2005，19（03）：32-35.

[6] 王偉，冀宇強(qiáng)，王洪偉，鄭麗娟.中文問(wèn)答社區(qū)答案質(zhì)量的評(píng)價(jià)研究：以知乎為例[J] .國(guó)書(shū)情報(bào)工作，2017，61（22）：36-44.

[7] 侯小培，高迎.卷積神經(jīng)網(wǎng)絡(luò)CNN算法在文本分類上的應(yīng)用研究[J].微計(jì)算機(jī)信息，2019（04）：158-159.

[8] 同[2].

[9] 同[4].

[10] 同[6].

[11] 郭銳，基于LDA主題樽型的電商客戶評(píng)論情感分析[D].北京大學(xué)，2017.

1.西華大學(xué) 電氣與電子信息學(xué)院，四川成都

2.西華大學(xué) 理學(xué)院，四川成都

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

“智慧政務(wù)”中的文本挖掘應(yīng)用