顧偉強(qiáng) 秦天 劉傾源 文小清
摘 要 近年來(lái),隨著微信、微博等網(wǎng)絡(luò)問(wèn)政平臺(tái)逐步成為政府了解民意、 匯聚民智、凝聚民氣的重要渠道,各類社情民意相關(guān)的文本數(shù)據(jù)量不斷攀升,利用自然語(yǔ)言處理和文本挖掘的方法,對(duì)社會(huì)治理創(chuàng)新發(fā)展以及提升政府的管理水平和施政效率具有極大的推動(dòng)作用。因此首先CNN[1]通過(guò)mbedding將每個(gè)詞成映射成詞向量[2],構(gòu)成二維矩陣,通過(guò)卷積操作,選取最大值作為輸出,將輸出外接softmax做n分類。根據(jù)預(yù)測(cè)標(biāo)簽以及實(shí)際標(biāo)簽來(lái)計(jì)算損失函數(shù)和參數(shù)依次更新softmax、max-pooling、激活以及卷積核這四個(gè)函數(shù)中的參數(shù),得到每輪相應(yīng)的精確度和損失,最后用各類的精確率, 查全率和f1-score對(duì)CNN中文文本分類進(jìn)行評(píng)價(jià);接著用gensim基于文本建立詞袋模型轉(zhuǎn)換為語(yǔ)料庫(kù),使用LsiModel模型算法[3]處理語(yǔ)料庫(kù),將字典映射到向量空間進(jìn)行相似度計(jì)算。運(yùn)用Reddit話題排名算法[4]對(duì)話題的點(diǎn)贊反對(duì)數(shù)以及發(fā)布時(shí)間計(jì)算熱點(diǎn)問(wèn)題的熱度排序;最后對(duì)留言的答復(fù)意見(jiàn)進(jìn)行特征詞抽取,計(jì)算出答復(fù)意見(jiàn)和留言的相似性,統(tǒng)計(jì)出主題關(guān)鍵詞詞頻和回復(fù)時(shí)間間隔以及回答長(zhǎng)度,用因子分析[5]做主成分分析,最后通過(guò)建立SVM模型得到對(duì)答復(fù)信息的評(píng)價(jià)[6]。
關(guān)鍵詞 卷積神經(jīng)網(wǎng)絡(luò)(CNN) Gensim Reddit排名算法 Jieba分詞,因子分析 SVM
中圖分類號(hào):N37 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-0745(2020)02-0008-05
1 挖掘目標(biāo)
本次建模目標(biāo)是利用互聯(lián)網(wǎng)公開(kāi)來(lái)源的群眾問(wèn)政留言記錄及相關(guān)部門(mén)對(duì)部分群眾留言的答復(fù)意見(jiàn)的文本數(shù)據(jù),使用jieba中文分詞工具對(duì)文本進(jìn)行分詞、gensim和CNN中文文本分類的方法以及Reddit的話題排名算法,達(dá)到以下3個(gè)目標(biāo):
(1)利用中文文本分詞和文本分類的方法對(duì)留言進(jìn)行分類,建立關(guān)于留言內(nèi)容的一級(jí)標(biāo)簽分類模型,并使用 F-Score對(duì)分類方法進(jìn)行評(píng)價(jià)。
(2)根據(jù)附件將某一時(shí)段內(nèi)反映特定地點(diǎn)或特定人群?jiǎn)栴}的留言進(jìn)行歸類,定義合理的熱度評(píng)價(jià)指標(biāo),給出評(píng)價(jià)結(jié)果,并按給定的格式制作出排名前5的熱點(diǎn)問(wèn)題表和相應(yīng)熱點(diǎn)問(wèn)題對(duì)應(yīng)的留言信息的熱點(diǎn)問(wèn)題明細(xì)表,有助于及時(shí)發(fā)現(xiàn)熱點(diǎn)問(wèn)題,相關(guān)部門(mén)進(jìn)行有針對(duì)性地處理,提升服務(wù)效率。
(3)對(duì)于附件中相關(guān)部門(mén)對(duì)留言的答復(fù)意見(jiàn),從答復(fù)的相關(guān)性、完整性、可解釋性等多個(gè)角度對(duì)答復(fù)意見(jiàn)的質(zhì)量做分析并給出一個(gè)評(píng)價(jià)。
2 總體流程
總體流程主要包括如下步驟:
步驟一:數(shù)據(jù)預(yù)處理。給出的文本數(shù)據(jù)中,出現(xiàn)了一些特殊字符,需要在原始的數(shù)據(jù)上進(jìn)行數(shù)據(jù)清洗處理,去掉重復(fù)的信息,再將處理好的信息去除不必要的停用詞并進(jìn)行中文分詞。
步驟二:數(shù)據(jù)分析。分詞完后,對(duì)CNN模型要將詞映射成索引表示,從預(yù)訓(xùn)練的詞向量模型中讀取出詞向量,作為初始化值輸入到模型中,并將數(shù)據(jù)集分割成訓(xùn)練集和測(cè)試集;將gensim模型分詞轉(zhuǎn)換為語(yǔ)料庫(kù),并將語(yǔ)料庫(kù)計(jì)算出Tfidf值。對(duì)信息的好壞做相關(guān)性、評(píng)價(jià)等操作并選擇特征詞,因子分析完成主成分分析。
步驟三:建立模型。面對(duì)不同的問(wèn)題和附件,對(duì)處理好的數(shù)據(jù)用CNN和gensim兩種不同的模型進(jìn)行分類,分別得到一級(jí)標(biāo)簽的分類和熱點(diǎn)問(wèn)題分類,然后計(jì)算熱點(diǎn)問(wèn)題的熱度排序;建立SVM模型對(duì)處理好的信息給出評(píng)價(jià)。
3 分析方法與過(guò)程
3.1 問(wèn)題 1 分析方法與過(guò)程
3.1.1 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)中,出現(xiàn)了一些特殊字符的文本數(shù)據(jù)。例如讀取文本內(nèi)容時(shí),留言詳情前面會(huì)有\n\t等轉(zhuǎn)義字符,考慮到執(zhí)行分類和運(yùn)行程序時(shí)產(chǎn)生異常錯(cuò)誤,需要用正則表達(dá)式對(duì)附件內(nèi)容的特殊字符進(jìn)行數(shù)據(jù)清洗。還有一些重復(fù)的數(shù)據(jù),也需要去除。讀取通用停用詞表,使那些無(wú)明確的意義的語(yǔ)氣助詞、連接詞、副詞和常見(jiàn)詞“不是,一個(gè)”等詞不拆分和去除的操作,避免對(duì)有效信息造成干擾,還能讓所優(yōu)化的關(guān)鍵詞更集中、更突出并且節(jié)省存儲(chǔ)空間和提高了效率。然后采用python 的中文分詞包 jieba 進(jìn)行分詞。jieba 采用了基于前綴詞典實(shí)現(xiàn)的高效詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG),同時(shí)采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合,對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使得能更好的實(shí)現(xiàn)中文分詞效果。
3.1.2 CNN模型
(1)CNN結(jié)構(gòu)?;赥ensorFlow在中文數(shù)據(jù)集上的實(shí)現(xiàn),使用了字符級(jí)CNN對(duì)中文文本進(jìn)行分類[7],且CNN的優(yōu)勢(shì)為:網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、使參數(shù)數(shù)目少、計(jì)算量少、訓(xùn)練速度快。圖形識(shí)別的CNN模型[8]:首先是輸入層,計(jì)算機(jī)輸入若干個(gè)矩陣;接著是卷積層(Convolution Layer),卷積層的激活函數(shù)使用的是ReLU;在卷積層后面是池化層(Pooling layer),CNN 在網(wǎng)絡(luò)結(jié)構(gòu)上沒(méi)有任何變化(甚至更加簡(jiǎn)單了), CNN 其實(shí)只有一層卷積,一層max-pooling, 最后將輸出外接softmax 來(lái)n分類,達(dá)到信息分類的作用。
(2)卷積。首先,我們?nèi)W(xué)習(xí)卷積層的模型原理,我們需要了解什么是卷積(Convolution),以及CNN中的卷積是什么樣子的。學(xué)習(xí)數(shù)學(xué)時(shí)都有學(xué)過(guò)卷積的知識(shí),微積分中卷積的表達(dá)式為:
離散形式是:
這個(gè)式子如果用矩陣表示可以為:
其中星號(hào)表示卷積。如果是二維的卷積,則表示式為:
在CNN中,雖然我們也是說(shuō)卷積,但是我們的卷積公式和嚴(yán)格意義數(shù)學(xué)中的定義稍有不同,比如對(duì)于二維的卷積,定義為:
后面講的CNN的卷積都是指的上面的最后一個(gè)式子。其中,我們叫W為我們的卷積核,而X則為我們的輸入。如果X是一個(gè)二維輸入的矩陣,而W也是一個(gè)二維的矩陣。但是如果X是多維張量,那么W也是一個(gè)多維的張量。
(3)卷積層和池化層。要完成信息的分類,主要是卷積層和池化層,只要把卷積層和池化層的原理理解了,那么搞清楚CNN就容易很多了。
CNN中的卷積,假如是對(duì)圖像卷積,參考卷積公式5,其實(shí)就是對(duì)輸入的圖像的不同局部的矩陣和卷積核矩陣各個(gè)位置的元素相乘,然后相加得到。舉個(gè)例子,圖若輸入是一個(gè)二維的3x4的矩陣,而卷積核是一個(gè)2x2的矩陣。這里我們假設(shè)卷積是一次移動(dòng)一個(gè)像素來(lái)卷積的,那么首先我們對(duì)輸入的左上角2x2局部和卷積核卷積,即各個(gè)位置的元素相乘再相加,得到的輸出矩陣S的S00的元素,值為。接著我們將輸入的局部向右平移一個(gè)像素,現(xiàn)在是(b,c,f,g)四個(gè)元素構(gòu)成的矩陣和卷積核來(lái)卷積,這樣我們得到了輸出矩陣S的S01的元素,同樣的方法,我們可以得到輸出矩陣S的S02,S10,S11,S12的元素。
相比卷積層的復(fù)雜,池化層則要簡(jiǎn)單的多,所謂的池化,就是對(duì)輸入張量的各個(gè)子矩陣進(jìn)行壓縮。假如是2x2的池化,那么就將子矩陣的每2x2個(gè)元素變成一個(gè)元素,如果是3x3的池化,那么就將子矩陣的每3x3個(gè)元素變成一個(gè)元素,這樣輸入矩陣的維度就變小了。要想將輸入子矩陣的每n×n個(gè)元素變成一個(gè)元素,那么需要一個(gè)池化標(biāo)準(zhǔn)。常見(jiàn)的池化標(biāo)準(zhǔn)有2個(gè),MAX或者是Average。即取對(duì)應(yīng)區(qū)域的最大值或者平均值作為池化后的元素值,降低了過(guò)擬合的風(fēng)險(xiǎn), 使參數(shù)減少, 進(jìn)一步加速計(jì)算。
3.1.3 留言內(nèi)容的一級(jí)標(biāo)簽分類
用CNN模型對(duì)附件2的留言內(nèi)容進(jìn)行一級(jí)標(biāo)簽分類,步驟如下:
(1)通過(guò)embedding方式將文本中的留言內(nèi)容的每個(gè)詞映射成一個(gè)64維的詞向量,并將所有的詞向量拼接起來(lái)構(gòu)成一個(gè)二維矩陣,作為最初的輸入。
(2)通過(guò)卷積操作,將輸入的600*64的矩陣映射成一個(gè) 596*1 的矩陣,這個(gè)映射過(guò)程和特征抽取的結(jié)果很像,最后提取出256個(gè)特征。
(3)用max-pooling方法在保持主要特征的情況下, 降低了參數(shù)的數(shù)目,從多個(gè)值中取一個(gè)最大值。
(4)將 max-pooling的結(jié)果拼接起來(lái), 送入到softmax當(dāng)中, 得到各個(gè)類概率。
(5)根據(jù)預(yù)測(cè)標(biāo)簽以及實(shí)際標(biāo)簽來(lái)計(jì)算損失函數(shù),通過(guò)每一輪訓(xùn)練數(shù)據(jù),最后計(jì)算出每個(gè)類別的準(zhǔn)確率、召回率和F1值、混淆矩陣的值。
3.2 問(wèn)題 2 分析方法與過(guò)程
3.2.1 模型和算法介紹
(1)gensim模型。Gensim是一個(gè)用于從文檔中自動(dòng)提取語(yǔ)義主題的Python庫(kù),足夠智能。Gensim可以處理原生,非結(jié)構(gòu)化的數(shù)值化文本(純文本)。Gensim里面的算法,比如潛在語(yǔ)義分析LSA、LDA、隨機(jī)投影,通過(guò)在語(yǔ)料庫(kù)的訓(xùn)練下檢驗(yàn)詞的統(tǒng)計(jì)共生模式來(lái)發(fā)現(xiàn)文檔的語(yǔ)義結(jié)構(gòu)。這些算法是非監(jiān)督的,也就是說(shuō)你只需要一個(gè)語(yǔ)料庫(kù)的文檔集。當(dāng)?shù)玫竭@些統(tǒng)計(jì)模式后,任何文本都能夠用語(yǔ)義表示來(lái)簡(jiǎn)潔的表達(dá),并得到一個(gè)局部的相似度與其他文本區(qū)分開(kāi)來(lái)。
在gensim模型中運(yùn)用了詞袋doc2bow和LsiModel模型算法,以下是對(duì)兩種算法的簡(jiǎn)單理解:
1)詞袋模型:詞袋模型首先會(huì)進(jìn)行分詞,然后通過(guò)統(tǒng)計(jì)每個(gè)詞在文本中出現(xiàn)的次數(shù),得到文本基于詞的特征,若將各個(gè)文本的詞與對(duì)應(yīng)的詞頻放在一起,就是將文本完成向量化。即把一篇文本想象成一個(gè)個(gè)詞構(gòu)成的,所有詞放入一個(gè)袋子里,沒(méi)有先后順序、沒(méi)有語(yǔ)義。
2)LsiModel:LSI是從文本潛在的主題來(lái)進(jìn)行分析,是概率主題模型的一種,LSI通過(guò)奇異值分解的方法計(jì)算出文本中各個(gè)主題的概率分布。假設(shè)有5個(gè)主題,那么通過(guò)LSI模型,文本向量就可以降到5維,每個(gè)分量表示對(duì)應(yīng)主題的權(quán)重。
3)TF-IDF:表示一個(gè)詞在這個(gè)文檔中的重要程度。如果詞w在一篇文檔d中出現(xiàn)的頻率高,并且在其他文檔中很少出現(xiàn),則認(rèn)為版詞w具有很好的區(qū)分權(quán)能力,適合用來(lái)把文章d和其他文章區(qū)分開(kāi)來(lái)。
(2)Reddit的話題排名算法[9]。Reddit 是全球化最知名的 Digg 類社區(qū),Reddit是一個(gè)社會(huì)化新聞?lì)惥W(wǎng)站,Reddit內(nèi)的用戶能對(duì)各個(gè)帖子以投票的方式進(jìn)行贊成或反對(duì),發(fā)布時(shí)間和票數(shù)將作為一種評(píng)價(jià)關(guān)系來(lái)決定帖子的排名。第二問(wèn)的熱點(diǎn)指數(shù)就是通reddit的話題排名算法基于時(shí)間和點(diǎn)贊反對(duì)數(shù)完成的。
采用 Reddit 的話題排名算法對(duì)問(wèn)題進(jìn)話題熱度排序,其算法描述如下:
Reddi話題評(píng)價(jià)函數(shù)f(ts,y,z)數(shù)學(xué)表達(dá)式:
其中ts表示差值時(shí)間,ts=A-B(公式3.2.2)。
給出文檔發(fā)表的時(shí)間與2015年12 月 8日07:46:43 這個(gè) Reddit網(wǎng)站成立上線時(shí)刻之間經(jīng)過(guò)的時(shí)間,并用ts表示差值時(shí)間的秒數(shù)。并且X是一個(gè)表示點(diǎn)贊數(shù)U和反對(duì)數(shù)D之間的差值:X=U-D(公式3.2.3)。
在公式中,且y是對(duì)x的符號(hào)函數(shù)值y=sign(x),即:
z是一個(gè)限制最大優(yōu)化值的限制值,在x的絕對(duì)值與1之間:
其公式的具體意義可以看作為以下兩點(diǎn): 1)新話題比舊話題更受關(guān)注,因此發(fā)布時(shí)間對(duì)排名影響大。2)話題得分隨時(shí)間衰減,且新話題評(píng)價(jià)得分更高一些。
在Reddit 的話題熱度排序中使用了對(duì)數(shù)階來(lái)限制投票反差的增長(zhǎng),這讓算法更關(guān)注于人們的評(píng)價(jià)是否呈現(xiàn)兩極分化,而不是考慮具體差得是不是太多,讓權(quán)重的評(píng)價(jià)更加歸一化。
3.2.2 問(wèn)題2解決過(guò)程
問(wèn)題2流程詳解如下:
(1)對(duì)附件3中的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,如第一問(wèn)的3.1.1一樣,對(duì)一些含有特殊字符的、有重復(fù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,再去除停用詞后完成jieba中文分詞。
(2)然后就是建模完成第二問(wèn)的兩張表格:
①針對(duì)熱點(diǎn)問(wèn)題明細(xì)表,開(kāi)始使用留言主題進(jìn)行分詞,但分類效果一般,后改進(jìn)為對(duì)留言詳情分詞。分完詞后通過(guò)詞袋模型的doc2bow稀疏向量,形成語(yǔ)料庫(kù),接著運(yùn)用LsiModel模型算法,將語(yǔ)料庫(kù)計(jì)算出Tfidf值。然后獲取詞典token2id的特征數(shù),計(jì)算稀疏矩陣相似度,建立一個(gè)索引并讀取excel行數(shù)據(jù),通過(guò)jieba進(jìn)行分詞處理通過(guò)doc2bow計(jì)算稀疏向量,求得相似度。取相似度大于0.5的歸為一類,完成熱點(diǎn)問(wèn)題的歸類。然后計(jì)算進(jìn)行熱點(diǎn)問(wèn)題排序,將排好序的數(shù)據(jù)按照“問(wèn)題ID”,“留言編號(hào)”等一一寫(xiě)入Excel文件中,從而完成了第二張表格“熱點(diǎn)問(wèn)題明細(xì)表”。
②針對(duì)熱點(diǎn)問(wèn)題表,對(duì)留言主題進(jìn)行jieba分詞,提取特征詞,將地點(diǎn)/人群和熱點(diǎn)問(wèn)題描述的信息逐一寫(xiě)入表格中。通過(guò)相似度對(duì)熱點(diǎn)問(wèn)題歸類后,運(yùn)用Reddit的話題排名算法,統(tǒng)計(jì)出對(duì)歸類的問(wèn)題的點(diǎn)贊數(shù)和反對(duì)數(shù),再結(jié)合3.2.1所介紹的reddit排名算法,計(jì)算出每類熱點(diǎn)問(wèn)題的熱度指數(shù),用unix時(shí)間戳計(jì)算熱點(diǎn)問(wèn)題的時(shí)間范圍時(shí),t的單位為秒。熱度指數(shù)計(jì)算完后就可以對(duì)熱點(diǎn)問(wèn)題進(jìn)行排序,最后將問(wèn)題ID,熱度指數(shù)和時(shí)間范圍等寫(xiě)入熱點(diǎn)問(wèn)題表”。
3.3 問(wèn)題3 分析方法與過(guò)程
3.3.1 評(píng)價(jià)方法介紹
通過(guò)已有的研究成果和參考文獻(xiàn)的基礎(chǔ)上,認(rèn)為評(píng)論可以提取回答的社會(huì)性情感、準(zhǔn)確性、完整性、相關(guān)性等方面的指標(biāo)對(duì)回答進(jìn)行評(píng)價(jià)。通過(guò)這些指標(biāo),挖掘出對(duì)回答評(píng)價(jià)關(guān)聯(lián)程度最大的特征,并建立基于挖掘出的特征的自動(dòng)化評(píng)價(jià)模型。
通過(guò)已有資料,初步篩選答案文本和實(shí)效性作為挖掘特征,采用因子分析法對(duì)各個(gè)挖掘出答復(fù)間隔、問(wèn)答相關(guān)性、回答長(zhǎng)度、主題關(guān)鍵詞頻為主要分析因子,并對(duì)挖掘出的特征進(jìn)行主成分分析與關(guān)聯(lián)性分析。各特征向量通過(guò)數(shù)據(jù)降維后,并通過(guò)SVM進(jìn)行模型訓(xùn)練,得到評(píng)價(jià)模型。
3.3.2 信息評(píng)價(jià)過(guò)程
(1)數(shù)據(jù)預(yù)處理。通過(guò)對(duì)附件4數(shù)據(jù)的研究分析,可以找到答復(fù)間隔、問(wèn)答相關(guān)性、回答長(zhǎng)度、主題關(guān)鍵詞頻、文本情感為主要的研究特征。并通過(guò)已有的模型對(duì)特征進(jìn)行量化。下表給出各個(gè)特征的量化過(guò)程。
(2)模型構(gòu)建:①皮爾遜相關(guān)性檢驗(yàn)。需要從已有的特征矩陣進(jìn)行關(guān)聯(lián)性分析,分析選取的特征是否耦合,采用皮爾遜相關(guān)系數(shù)檢驗(yàn)法。對(duì)各個(gè)特征進(jìn)行相關(guān)性計(jì)算,得到特征相關(guān)性熱力圖。并從相關(guān)系統(tǒng)計(jì)算中可以看出各個(gè)成分之間耦合度,是否可以采用上述特征向量構(gòu)建評(píng)價(jià)模型;②因子分析[10]。確定好研究的特征之后,還需要挖掘各個(gè)特征對(duì)結(jié)果的具體影響,采用因子分析法可以對(duì)已有的特征挖掘出影響最大的因子,然后對(duì)數(shù)據(jù)進(jìn)行可視化后得到熱力圖。然后通過(guò)因子方差可以看出文本特征因子對(duì)整體方差貢獻(xiàn)率,相關(guān)性因子、時(shí)效因子次之。從整體因子分析的結(jié)果來(lái)看,判斷所選取的特征能否作為構(gòu)建評(píng)價(jià)自動(dòng)化回答評(píng)價(jià)模型的指標(biāo);③數(shù)據(jù)可視化。采用常規(guī)的高維數(shù)據(jù)可視化方法T-SNE可以將降維高維數(shù)據(jù),并進(jìn)行可視化,從而容易觀察出數(shù)據(jù)的分布規(guī)律。對(duì)評(píng)論特征矩陣進(jìn)行降維可視化;④SVM學(xué)習(xí)模型構(gòu)建。通過(guò)降維操作聚合得到的訓(xùn)練標(biāo)簽,參與有監(jiān)督的模型訓(xùn)練,得到自動(dòng)化評(píng)價(jià)模型??梢詫⒒卮鸱譃闈M意回答1與一般回答0。
4 結(jié)果分析
4.1 問(wèn)題1結(jié)果分析
在建立CNN模型之后,對(duì)驗(yàn)證集上的數(shù)據(jù)進(jìn)行訓(xùn)練,結(jié)果是在驗(yàn)證集上的最佳效果為87.14%。
對(duì)測(cè)試集中的數(shù)據(jù)進(jìn)行測(cè)試,在測(cè)試集上的準(zhǔn)確率達(dá)到了86.43%,與驗(yàn)證集所訓(xùn)練出的準(zhǔn)確率相差不多。對(duì)于衛(wèi)生計(jì)生類、環(huán)境保護(hù)類等類別的precision, recall和f1-score都超過(guò)了0.9,準(zhǔn)確率還是很高的,然而像商貿(mào)旅游類、城鄉(xiāng)建設(shè)類僅僅超過(guò)0.7,效果較為一般。從混淆矩陣也可以看出分類效果,商貿(mào)旅游和城鄉(xiāng)建設(shè)分類一般,其余類比較好[11]。
對(duì)于文本未能很好的關(guān)于留言內(nèi)容的一級(jí)標(biāo)簽分類,認(rèn)為有可能的原因是:
(1)數(shù)據(jù)預(yù)處理時(shí)可能未處理的好。
(2)超參數(shù)未調(diào)節(jié)到最好。
(3)影藏網(wǎng)絡(luò)層數(shù)較多。
(4)文本數(shù)據(jù)量少,未能更好地訓(xùn)練數(shù)據(jù)。
4.2 問(wèn)題 2 結(jié)果分析
問(wèn)題2是讓我們根據(jù)附件 3 將某一時(shí)段內(nèi)反映特定地點(diǎn)或特定人群?jiǎn)栴}的留言進(jìn)行歸類,定義合理的熱度評(píng)價(jià)指標(biāo),最后按照格式保存到“熱點(diǎn)問(wèn)題表”和“熱點(diǎn)問(wèn)題留言明細(xì)表”的Excel的文件里。
按照格式用reddit排名算法通過(guò)問(wèn)題出現(xiàn)次數(shù)和總點(diǎn)贊反對(duì)數(shù)對(duì)熱點(diǎn)問(wèn)題計(jì)算出了一個(gè)熱度指數(shù),排序后并對(duì)排名前5的提取到表中,反映交通和基層建設(shè),商戶相關(guān)問(wèn)題等5個(gè)熱點(diǎn)問(wèn)題在一眾問(wèn)題中排名前五,并且從時(shí)間范圍可以看出,群眾對(duì)社區(qū)產(chǎn)生的問(wèn)題反映時(shí)間的跨度很大,如排名第一的熱點(diǎn)問(wèn)題,從2019/01/18至2020/01/02,將近一年的時(shí)間仍然還存在問(wèn)題,這可能代表著中途有來(lái)解決過(guò)問(wèn)題,但沒(méi)處理完善導(dǎo)致熱點(diǎn)問(wèn)題尚且存在。
通過(guò)建立熱點(diǎn)問(wèn)題表,讓相關(guān)部門(mén)利用表格清楚的了解在某一段時(shí)間內(nèi)群眾所遇到的問(wèn)題和麻煩,能盡快的處理好這件事,為人民群眾做好服務(wù),給予百姓便利和更好的生活環(huán)境和氛圍。
對(duì)于熱點(diǎn)問(wèn)題表出現(xiàn)的問(wèn)題做以下的詳解:
(1)地點(diǎn)/人群一列,并未出現(xiàn)人群信息,有可能存在運(yùn)用jieba對(duì)主題分詞時(shí),主題并不存在人群信息。
(2)問(wèn)題描述可能并未像題目給出的表格中將事件描述的很具體。
(3)對(duì)于問(wèn)題ID一列,由于一開(kāi)始?xì)w類是將群眾留言數(shù)量的多少來(lái)排的序,再進(jìn)行Reddit加權(quán)后,就可能不是第一了。
熱點(diǎn)問(wèn)題的留言明細(xì):在數(shù)據(jù)預(yù)處理時(shí),刪除特殊字符再存入表格讀取后,留言詳情看起來(lái)更為方便和清楚。通過(guò)留言明細(xì)表可以清楚的知道許多人反映了某一段時(shí)間社區(qū)產(chǎn)生的同一個(gè)問(wèn)題,群眾反映的留言詳情很充分的表達(dá)了問(wèn)題所在以及問(wèn)題帶來(lái)的影響,這些問(wèn)題在很長(zhǎng)一段時(shí)間困擾和影響著他們。例如有些留言詳情以及發(fā)送時(shí)間都相同,猜測(cè)是一個(gè)人有兩個(gè)賬號(hào)的情況,都向上級(jí)表述的最近一段時(shí)間所受到的影響,用兩個(gè)賬號(hào)來(lái)反饋事實(shí),像此類情況希望能讓上級(jí)和相關(guān)部門(mén)注意到并及時(shí)派人解決。
對(duì)于歸類熱點(diǎn)問(wèn)題有一些不足之處,一個(gè)問(wèn)題被歸類到另一個(gè)問(wèn)題中去,產(chǎn)生這種問(wèn)題的可能有:
(1)分詞后選擇特征詞時(shí)沒(méi)有選到關(guān)鍵的詞語(yǔ),導(dǎo)致未能有效地歸類。
(2)選擇的模型可能歸類效果并不是很好。
(3)數(shù)據(jù)預(yù)處理時(shí)未刪除相似的且不重要的詞,導(dǎo)致兩個(gè)問(wèn)題之間相似度較高從而歸類錯(cuò)誤。
4.3 問(wèn)題 3結(jié)果分析
(1)皮爾遜相關(guān)性檢驗(yàn)結(jié)果。通過(guò)相關(guān)系統(tǒng)計(jì)算中可以看出各個(gè)成分之間耦合度不高,可以采用上述特征向量構(gòu)建評(píng)價(jià)模型。
(2)因子分析結(jié)果。通過(guò)因子分析計(jì)算庫(kù),得到數(shù)據(jù)的負(fù)荷矩陣。且在得到的三個(gè)主成分因子中,基于文本特征的主題關(guān)鍵詞頻、回答長(zhǎng)度、情感得分的文本特征因子占比較大,另外兩個(gè)因子主要為問(wèn)答相關(guān)因子和時(shí)效性因子。通過(guò)計(jì)算因子的方差信息,可以更具體得看出各個(gè)因子對(duì)結(jié)果的貢獻(xiàn)率。因子方差可以看出文本特征因子對(duì)整體方差貢獻(xiàn)率較大,相關(guān)性因子、時(shí)效因子次之。從整體因子分析的結(jié)果來(lái)看,所選取的特征能夠作為構(gòu)建評(píng)價(jià)自動(dòng)化回答評(píng)價(jià)模型的指標(biāo)。
(3)數(shù)據(jù)可視化結(jié)果。從可視化結(jié)果來(lái)看,數(shù)據(jù)分布比較集中,并且明顯呈現(xiàn)出兩邊聚合的特點(diǎn)。分別對(duì)左右兩側(cè)數(shù)據(jù)進(jìn)行抽取驗(yàn)證。在左側(cè)聚合分布部分?jǐn)?shù)據(jù)集分析如下:從兩側(cè)數(shù)據(jù)集分布來(lái)看,位于左邊的回答相較于右側(cè)較差。根據(jù)聚合的情況為不同文本特征向量添加訓(xùn)練標(biāo)簽,以訓(xùn)練學(xué)習(xí)模型。
上面三個(gè)步驟和結(jié)果皆是為了通過(guò)對(duì)回答文本特征的抓取,抓取到有效的文本特征,答復(fù)間隔、問(wèn)答相關(guān)性、回答長(zhǎng)度、主題關(guān)鍵詞頻、文本情感得分。通過(guò)相關(guān)性檢測(cè)和因子分析法確定了所研究的特征能夠較好的解釋回答的完整性、相關(guān)性、可解釋性。通過(guò)對(duì)附件4所給數(shù)據(jù)得到的文本特征數(shù)據(jù)進(jìn)行降維可視化,可以明顯看出滿意回答和一般回答呈現(xiàn)兩個(gè)集群。通過(guò)對(duì)SVM機(jī)器學(xué)習(xí)方法學(xué)習(xí)兩個(gè)集群的特征作為自動(dòng)化評(píng)價(jià)是否為滿意回答的模型,較好的基于答復(fù)意見(jiàn)給出了一套合適的評(píng)價(jià)方案。
對(duì)于集群數(shù)據(jù)的分類模型選擇仍有不足之處,由于兩個(gè)集群仍有邊界模糊的回答,產(chǎn)生問(wèn)題主要有:
(1)對(duì)特征進(jìn)行量化的過(guò)程仍然存在不精準(zhǔn)的情況,數(shù)據(jù)預(yù)處理不夠充分。
(2)可能仍有部分特征不能更好地解釋回答的相關(guān)性、可解釋性、完整性。
(3)訓(xùn)練模型對(duì)部分?jǐn)?shù)據(jù)分類情況不佳,可能是高維數(shù)據(jù)在映射到二維下丟失了部分信息導(dǎo)致。
5 結(jié)論
由于大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的發(fā)展,利用自然語(yǔ)言處理和文本挖掘的方法來(lái)整理微信、微博、市長(zhǎng)信箱等網(wǎng)絡(luò)問(wèn)政平臺(tái)所產(chǎn)生的互聯(lián)網(wǎng)公開(kāi)來(lái)源的群眾問(wèn)政留言,給以往主要依靠人工來(lái)進(jìn)行留言劃分和熱點(diǎn)整理的相關(guān)部門(mén)極大的便利,對(duì)提升政府的管理水平和施政效率具有極大的推動(dòng)作用。
對(duì)問(wèn)題一建立了一級(jí)標(biāo)簽分類模型能較好地對(duì)留言分類,且有較高的準(zhǔn)確率,減少工作量和差錯(cuò)率的同時(shí)。提高了效率;對(duì)問(wèn)題二建立歸類和熱度指數(shù)排序模型,將留言進(jìn)行歸類,定義合理的熱度指標(biāo),最后按給定格式保存兩張表格;對(duì)于問(wèn)題三建立模型從答復(fù)的相關(guān)性、完整性、可解釋性等角度對(duì)答復(fù)意見(jiàn)給出一套較好地評(píng)價(jià)方案,保證了答復(fù)信息的質(zhì)量。
對(duì)一個(gè)問(wèn)題長(zhǎng)期反復(fù)地投訴和留言,耗費(fèi)了群眾太多的時(shí)間和精力,并且也占用了平臺(tái)過(guò)多的時(shí)間和資源,讓工作人員的工作量增加了好幾倍,對(duì)此我提出一個(gè)建議:可采取此市民監(jiān)督機(jī)制。評(píng)價(jià)欄應(yīng)分幾個(gè)內(nèi)容組成:市民投訴原因、職能部門(mén)已完成的處理結(jié)果、沒(méi)完成的原因、預(yù)期完成時(shí)限,市民對(duì)處理結(jié)果是否滿意,不滿意的原因是什么,同一類同一事件投訴設(shè)置同一編號(hào)可追溯,累計(jì)追溯投訴達(dá)三次,由各行業(yè)各部門(mén)組成的監(jiān)督管理委員會(huì)對(duì)此處理單進(jìn)行審定,如果確實(shí)是職能部門(mén)原因?qū)е聸](méi)有處理完成的將計(jì)入績(jī)效,也可視情況利用媒體進(jìn)行監(jiān)督。
政府服務(wù)是一個(gè)綜合性的事務(wù),需要不斷轉(zhuǎn)變作風(fēng),創(chuàng)新工作理念,改進(jìn)工作模式,進(jìn)一步研究和完善熱線管理辦法及考核機(jī)制來(lái)提高辦件的處理效率和成效,以科學(xué)有效的方式推動(dòng)該地區(qū)公共服務(wù)水平的提高,讓人民生活水平不斷得到提升,并堅(jiān)持為人民服務(wù)的根本宗旨,真正做到為人民造福。
參考文獻(xiàn):
[1] Kalchbrenner,N.,Grefenstette,E.和&Blunsom,P.(2014).用于句子建模的卷積神經(jīng)網(wǎng)絡(luò),2014:655-665.
[2] 張翔,俊波趙,亞·萊卡.字符級(jí)卷積網(wǎng)絡(luò)的文本分類 ,2015.
[3] 李連,朱愛(ài)紅,蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J].2012.計(jì)算機(jī)應(yīng)用與軟件,2012,29(02):1-3.
[4] 鄭忠明,江作蘇,網(wǎng)絡(luò)用戶勞動(dòng)與媒介資本價(jià)值——基于美國(guó)社交新聞媒體Reddit的案例分析[J].新聞?dòng)浾撸?015(09):60-68.
[5] 樓海淼,孫秋碧.基于因子分析的我國(guó)各省經(jīng)濟(jì)活力評(píng)價(jià)研究[J].福州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2005,19(03):32-35.
[6] 王偉,冀宇強(qiáng),王洪偉,鄭麗娟.中文問(wèn)答社區(qū)答案質(zhì)量的評(píng)價(jià)研究: 以知乎為例[J] .國(guó)書(shū)情報(bào)工作,2017,61(22):36-44.
[7] 侯小培,高迎.卷積神經(jīng)網(wǎng)絡(luò)CNN算法在文本分類上的應(yīng)用研究[J].微計(jì)算機(jī)信息,2019(04):158-159.
[8] 同[2].
[9] 同[4].
[10] 同[6].
[11] 郭銳,基于LDA主題樽型的電商客戶評(píng)論情感分析[D].北京大學(xué),2017.
1.西華大學(xué) 電氣與電子信息學(xué)院,四川 成都
2.西華大學(xué) 理學(xué)院,四川 成都