“智慧政務(wù)”文本挖掘研究與應(yīng)用

2020-07-04 15:34:50魏川程劉清文王柄鈔黃胤秋

科學(xué)與財(cái)富 2020年14期

關(guān)鍵詞：文本分類

魏川程劉清文王柄鈔黃胤秋

摘要：近年來，隨著網(wǎng)絡(luò)問政平臺逐步成為政府了解民意、匯聚民智、凝聚民氣的重要渠道，各類社情民意相關(guān)的文本數(shù)據(jù)量不斷攀升。針對傳統(tǒng)人工處理網(wǎng)絡(luò)問政平臺的群眾留言分類的工作量大、低效率和不準(zhǔn)確等問題，依據(jù)機(jī)器學(xué)習(xí)理論、深度學(xué)習(xí)理論，利用數(shù)據(jù)清洗、文本向量表示、改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)多文本分類器構(gòu)造、F-score評價(jià)等方法，確定了留言內(nèi)容以及標(biāo)簽分類模型。

關(guān)鍵詞：改進(jìn)CNN ;F-Score聚類;文本分類;政務(wù)處理

1挖掘目標(biāo)

群眾留言分類。在處理網(wǎng)絡(luò)問政平臺的群眾留言時(shí)，當(dāng)前的處理方法是工作人員首先按照一定的劃分體系對留言進(jìn)行分類;然后將群眾留言分派至相應(yīng)的職能部門處理。請你們針對目前大部分電子政務(wù)系統(tǒng)還是依靠人工根據(jù)經(jīng)驗(yàn)處理中存在的工作量大、效率低、且差錯(cuò)率高等問題，根據(jù)給出的數(shù)據(jù)，建立關(guān)于留言內(nèi)容的一級標(biāo)簽分類模型，并考慮用F-Score對分類方法進(jìn)行評價(jià)。

2問題分析

根據(jù)數(shù)據(jù)可知群眾留言一級分類標(biāo)簽總共為7個(gè)，因此我們建立的標(biāo)簽分類模型是要解決一個(gè)文本多分類問題。因此第一問要做的工作就是，首先對給出的留言詳情數(shù)據(jù)清洗，包括去除字母、數(shù)字、漢字以外的其他字符，Jieba進(jìn)行分詞，去除停用詞等過程;隨后進(jìn)行特征向量表示，構(gòu)造文本分類器，將數(shù)據(jù)分為測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)，分別進(jìn)行模型的訓(xùn)練和測試;最后再利用F-Score、查準(zhǔn)率、查全率對分類器的留言分類效果進(jìn)行檢驗(yàn)，最終評價(jià)構(gòu)造的文本分類模型的好壞。

3基于卷積神經(jīng)網(wǎng)絡(luò)的多文本分類模型的求解與評價(jià)

（1）數(shù)據(jù)清洗

在留言詳情文本中，總共清洗出9210條留言作為樣本數(shù)據(jù)，再按照每類留言平均分成10等份，每次實(shí)驗(yàn)抽取各類留言的8份組成訓(xùn)練集，剩余2份組成測試集，每次實(shí)驗(yàn)訓(xùn)練集數(shù)據(jù)為7638個(gè)，測試集數(shù)據(jù)為1842個(gè)。

（2）文本表示

將文本映射為詞向量，造一個(gè) M. embedding Size大小的隨機(jī)矩陣，M是字典dic的大小embedding Size詞向量的位數(shù)，我們設(shè)定為128，并將隨機(jī)向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入。

（3）模型訓(xùn)練與測試

在CNN模型完成之后，再將樣本數(shù)據(jù)輸入其中進(jìn)行測試，本次數(shù)據(jù)挖掘采用十折交叉驗(yàn)證法進(jìn)行CNN模型能力評估，將數(shù)據(jù)集劃分為訓(xùn)練集和測試集，訓(xùn)練集用于模型訓(xùn)練，測試集用于評估模型性能，CNN參數(shù)使用默認(rèn)設(shè)置。

最終得到卷積神經(jīng)網(wǎng)絡(luò)的分類器在留言分類文本數(shù)據(jù)集上的訓(xùn)練過程，并求得各評價(jià)指標(biāo)的值，取10次實(shí)驗(yàn)結(jié)果的均值進(jìn)行評估。模型訓(xùn)練過程中的Loss曲線如圖3-1所示，ACC曲線如圖3-2所示。

在圖3-1中橫坐標(biāo)為訓(xùn)練時(shí)時(shí)長，縱坐標(biāo)為Loss絕對值，可以發(fā)現(xiàn)訓(xùn)練過程中Loss 曲線有明顯下降的趨勢，且后期開始慢慢收斂。

由圖3-2中橫坐標(biāo)為訓(xùn)練時(shí)時(shí)長，縱坐標(biāo)為ACC絕對值，ACC指標(biāo)呈快速上升趨勢?？梢园l(fā)現(xiàn)隨著訓(xùn)練進(jìn)行，損失函數(shù)Loss明顯降低，而ACC則明顯上升，兩者呈明顯反比，符合預(yù)期。

為了對比CNN模型的分類效果，本次也選取了傳統(tǒng)機(jī)器學(xué)習(xí)樸素貝葉斯文本分類方法[4]做對比，最終分類效果如表3-3所示。

由表3-3可知，最終構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)多文本分類測試結(jié)果，均值和ACC可以達(dá)到90%，且在文本預(yù)處理和特征詞項(xiàng)，都一致的條件下，基于卷積神經(jīng)網(wǎng)絡(luò)模型的分類算法的分類精度略比樸素貝葉斯算法高一些，可見本次挖掘所構(gòu)建的基于卷積神經(jīng)網(wǎng)絡(luò)模型的文本分類器，不僅可行，而且有著更好的分類效果。

4總結(jié)

本文通過深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等技術(shù)，使用卷積神經(jīng)網(wǎng)絡(luò)分類構(gòu)造器、DB-SCAN聚類、層次分析等方法構(gòu)造了多文本分類模型、熱點(diǎn)提取模型以及答復(fù)意見的評價(jià)系統(tǒng)來解決“智慧政務(wù)”中的文本挖掘問題，得到以下結(jié)論：

對于“智慧政務(wù)”中文本多分類問題而言，文本預(yù)處理和特征詞項(xiàng)都一致的條件下，基于卷積神經(jīng)網(wǎng)絡(luò)模型的分類算法的分類精度略比樸素貝葉斯算法高一些，可見本次挖掘所構(gòu)建的基于卷積神經(jīng)網(wǎng)絡(luò)模型的文本分類器對于“智慧政務(wù)”的文本分類有著不錯(cuò)的效果。對于詞向量生成而言，使用Skip-gram模型生成的詞向量一定程度上彌補(bǔ)了隨機(jī)向量詞之間缺乏聯(lián)系的不足，更能體現(xiàn)詞向量之間的聯(lián)系。最后我們改進(jìn)了模型，使用改進(jìn)的雙通道文本表征方式，雙通道相比單通道，輸入特征更豐富，而深度學(xué)習(xí)模型在特征提取方面有天然的優(yōu)勢，兩者得到了很好地融合。

綜上所述，我們的模型能夠高效、準(zhǔn)確地解決“智慧政務(wù)”中的文本挖掘問題，實(shí)現(xiàn)真正的智慧政務(wù)管理。

參考文獻(xiàn)：

[1]白璐.基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類器的設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué)，2018.

[2]黃鶴，荊曉遠(yuǎn)，董西偉，吳飛.基于Skip-gram的CNNs文本郵件分類模型[J].計(jì)算機(jī)技術(shù)與發(fā)展，2019，29（06）：143-147.

[3] 孫璇. 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法研究[D]. 上海：上海師范大學(xué)，2018.

作者簡介：

魏川程（1998-），男，四川省廣安市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院軟件工程專業(yè)學(xué)生.

劉清文（1999-），女，山東省淄博市人。西南石油大學(xué)化學(xué)與化工學(xué)院化學(xué)工程與工藝專業(yè)學(xué)生.

王柄鈔（1997-），男，四川省達(dá)州市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院軟件工程專業(yè)學(xué)生.

黃胤秋（1999-），男，四川省遂寧市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院網(wǎng)絡(luò)工程專業(yè)學(xué)生.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

“智慧政務(wù)”文本挖掘研究與應(yīng)用