魏川程 劉清文 王柄鈔 黃胤秋
摘 要:近年來,隨著網(wǎng)絡(luò)問政平臺逐步成為政府了解民意、匯聚民智、凝聚民氣的重要渠道,各類社情民意相關(guān)的文本數(shù)據(jù)量不斷攀升。針對傳統(tǒng)人工處理網(wǎng)絡(luò)問政平臺的群眾留言分類的工作量大、低效率和不準(zhǔn)確等問題,依據(jù)機(jī)器學(xué)習(xí)理論、深度學(xué)習(xí)理論,利用數(shù)據(jù)清洗、文本向量表示、改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)多文本分類器構(gòu)造、F-score評價(jià)等方法,確定了留言內(nèi)容以及標(biāo)簽分類模型。
關(guān)鍵詞:改進(jìn)CNN ;F-Score聚類;文本分類;政務(wù)處理
1挖掘目標(biāo)
群眾留言分類。在處理網(wǎng)絡(luò)問政平臺的群眾留言時(shí),當(dāng)前的處理方法是工作人員首先按照一定的劃分體系對留言進(jìn)行分類;然后將群眾留言分派至相應(yīng)的職能部門處理。請你們針對目前大部分電子政務(wù)系統(tǒng)還是依靠人工根據(jù)經(jīng)驗(yàn)處理中存在的工作量大、效率低、且差錯(cuò)率高等問題,根據(jù)給出的數(shù)據(jù),建立關(guān)于留言內(nèi)容的一級標(biāo)簽分類模型,并考慮用F-Score對分類方法進(jìn)行評價(jià)。
2問題分析
根據(jù)數(shù)據(jù)可知群眾留言一級分類標(biāo)簽總共為7個(gè),因此我們建立的標(biāo)簽分類模型是要解決一個(gè)文本多分類問題。因此第一問要做的工作就是,首先對給出的留言詳情數(shù)據(jù)清洗,包括去除字母、數(shù)字、漢字以外的其他字符,Jieba進(jìn)行分詞,去除停用詞等過程;隨后進(jìn)行特征向量表示,構(gòu)造文本分類器,將數(shù)據(jù)分為測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù),分別進(jìn)行模型的訓(xùn)練和測試;最后再利用F-Score、查準(zhǔn)率、查全率對分類器的留言分類效果進(jìn)行檢驗(yàn),最終評價(jià)構(gòu)造的文本分類模型的好壞。
3基于卷積神經(jīng)網(wǎng)絡(luò)的多文本分類模型的求解與評價(jià)
(1)數(shù)據(jù)清洗
在留言詳情文本中,總共清洗出9210條留言作為樣本數(shù)據(jù),再按照每類留言平均分成10等份,每次實(shí)驗(yàn)抽取各類留言的8份組成訓(xùn)練集,剩余2份組成測試集,每次實(shí)驗(yàn)訓(xùn)練集數(shù)據(jù)為7638個(gè),測試集數(shù)據(jù)為1842個(gè)。
(2)文本表示
將文本映射為詞向量,造一個(gè) M. embedding Size大小的隨機(jī)矩陣,M是字典dic的大小embedding Size詞向量的位數(shù),我們設(shè)定為128,并將隨機(jī)向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入。
(3)模型訓(xùn)練與測試
在CNN模型完成之后,再將樣本數(shù)據(jù)輸入其中進(jìn)行測試,本次數(shù)據(jù)挖掘采用十折交叉驗(yàn)證法進(jìn)行CNN模型能力評估,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用于評估模型性能,CNN參數(shù)使用默認(rèn)設(shè)置。
最終得到卷積神經(jīng)網(wǎng)絡(luò)的分類器在留言分類文本數(shù)據(jù)集上的訓(xùn)練過程,并求得各評價(jià)指標(biāo)的值,取10次實(shí)驗(yàn)結(jié)果的均值進(jìn)行評估。模型訓(xùn)練過程中的Loss曲線如圖3-1所示,ACC曲線如圖3-2所示。
在圖3-1中橫坐標(biāo)為訓(xùn)練時(shí)時(shí)長,縱坐標(biāo)為Loss絕對值,可以發(fā)現(xiàn)訓(xùn)練過程中Loss 曲線有明顯下降的趨勢,且后期開始慢慢收斂。
由圖3-2中橫坐標(biāo)為訓(xùn)練時(shí)時(shí)長,縱坐標(biāo)為ACC絕對值,ACC指標(biāo)呈快速上升趨勢??梢园l(fā)現(xiàn)隨著訓(xùn)練進(jìn)行,損失函數(shù)Loss明顯降低,而ACC則明顯上升,兩者呈明顯反比,符合預(yù)期。
為了對比CNN模型的分類效果,本次也選取了傳統(tǒng)機(jī)器學(xué)習(xí)樸素貝葉斯文本分類方法[4]做對比,最終分類效果如表3-3所示。
由表3-3可知,最終構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)多文本分類測試結(jié)果, 均值和ACC可以達(dá)到90%,且在文本預(yù)處理和特征詞項(xiàng),都一致的條件下,基于卷積神經(jīng)網(wǎng)絡(luò)模型的分類算法的分類精度略比樸素貝葉斯算法高一些,可見本次挖掘所構(gòu)建的基于卷積神經(jīng)網(wǎng)絡(luò)模型的文本分類器,不僅可行,而且有著更好的分類效果。
4總結(jié)
本文通過深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等技術(shù),使用卷積神經(jīng)網(wǎng)絡(luò)分類構(gòu)造器、DB-SCAN聚類、層次分析等方法構(gòu)造了多文本分類模型、熱點(diǎn)提取模型以及答復(fù)意見的評價(jià)系統(tǒng)來解決“智慧政務(wù)”中的文本挖掘問題,得到以下結(jié)論:
對于“智慧政務(wù)”中文本多分類問題而言,文本預(yù)處理和特征詞項(xiàng)都一致的條件下,基于卷積神經(jīng)網(wǎng)絡(luò)模型的分類算法的分類精度略比樸素貝葉斯算法高一些,可見本次挖掘所構(gòu)建的基于卷積神經(jīng)網(wǎng)絡(luò)模型的文本分類器對于“智慧政務(wù)”的文本分類有著不錯(cuò)的效果。對于詞向量生成而言,使用Skip-gram模型生成的詞向量一定程度上彌補(bǔ)了隨機(jī)向量詞之間缺乏聯(lián)系的不足,更能體現(xiàn)詞向量之間的聯(lián)系。最后我們改進(jìn)了模型,使用改進(jìn)的雙通道文本表征方式,雙通道相比單通道,輸入特征更豐富,而深度學(xué)習(xí)模型在特征提取方面有天然的優(yōu)勢,兩者得到了很好地融合。
綜上所述,我們的模型能夠高效、準(zhǔn)確地解決“智慧政務(wù)”中的文本挖掘問題,實(shí)現(xiàn)真正的智慧政務(wù)管理。
參考文獻(xiàn):
[1]白璐.基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類器的設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2018.
[2]黃鶴,荊曉遠(yuǎn),董西偉,吳飛.基于Skip-gram的CNNs文本郵件分類模型[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(06):143-147.
[3] 孫璇. 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法研究[D]. 上海: 上海師范大學(xué),2018.
作者簡介 :
魏川程(1998-),男,四川省廣安市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院軟件工程專業(yè)學(xué)生.
劉清文(1999-),女,山東省淄博市人。西南石油大學(xué)化學(xué)與化工學(xué)院化學(xué)工程與工藝專業(yè)學(xué)生.
王柄鈔(1997-),男,四川省達(dá)州市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院軟件工程專業(yè)學(xué)生.
黃胤秋(1999-),男,四川省遂寧市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院網(wǎng)絡(luò)工程專業(yè)學(xué)生.