国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“智慧政務(wù)”文本挖掘研究與應(yīng)用

2020-07-04 15:34:50魏川程劉清文王柄鈔黃胤秋
科學(xué)與財(cái)富 2020年14期
關(guān)鍵詞:文本分類

魏川程 劉清文 王柄鈔 黃胤秋

摘 要:近年來,隨著網(wǎng)絡(luò)問政平臺逐步成為政府了解民意、匯聚民智、凝聚民氣的重要渠道,各類社情民意相關(guān)的文本數(shù)據(jù)量不斷攀升。針對傳統(tǒng)人工處理網(wǎng)絡(luò)問政平臺的群眾留言分類的工作量大、低效率和不準(zhǔn)確等問題,依據(jù)機(jī)器學(xué)習(xí)理論、深度學(xué)習(xí)理論,利用數(shù)據(jù)清洗、文本向量表示、改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)多文本分類器構(gòu)造、F-score評價(jià)等方法,確定了留言內(nèi)容以及標(biāo)簽分類模型。

關(guān)鍵詞:改進(jìn)CNN ;F-Score聚類;文本分類;政務(wù)處理

1挖掘目標(biāo)

群眾留言分類。在處理網(wǎng)絡(luò)問政平臺的群眾留言時(shí),當(dāng)前的處理方法是工作人員首先按照一定的劃分體系對留言進(jìn)行分類;然后將群眾留言分派至相應(yīng)的職能部門處理。請你們針對目前大部分電子政務(wù)系統(tǒng)還是依靠人工根據(jù)經(jīng)驗(yàn)處理中存在的工作量大、效率低、且差錯(cuò)率高等問題,根據(jù)給出的數(shù)據(jù),建立關(guān)于留言內(nèi)容的一級標(biāo)簽分類模型,并考慮用F-Score對分類方法進(jìn)行評價(jià)。

2問題分析

根據(jù)數(shù)據(jù)可知群眾留言一級分類標(biāo)簽總共為7個(gè),因此我們建立的標(biāo)簽分類模型是要解決一個(gè)文本多分類問題。因此第一問要做的工作就是,首先對給出的留言詳情數(shù)據(jù)清洗,包括去除字母、數(shù)字、漢字以外的其他字符,Jieba進(jìn)行分詞,去除停用詞等過程;隨后進(jìn)行特征向量表示,構(gòu)造文本分類器,將數(shù)據(jù)分為測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù),分別進(jìn)行模型的訓(xùn)練和測試;最后再利用F-Score、查準(zhǔn)率、查全率對分類器的留言分類效果進(jìn)行檢驗(yàn),最終評價(jià)構(gòu)造的文本分類模型的好壞。

3基于卷積神經(jīng)網(wǎng)絡(luò)的多文本分類模型的求解與評價(jià)

(1)數(shù)據(jù)清洗

在留言詳情文本中,總共清洗出9210條留言作為樣本數(shù)據(jù),再按照每類留言平均分成10等份,每次實(shí)驗(yàn)抽取各類留言的8份組成訓(xùn)練集,剩余2份組成測試集,每次實(shí)驗(yàn)訓(xùn)練集數(shù)據(jù)為7638個(gè),測試集數(shù)據(jù)為1842個(gè)。

(2)文本表示

將文本映射為詞向量,造一個(gè) M. embedding Size大小的隨機(jī)矩陣,M是字典dic的大小embedding Size詞向量的位數(shù),我們設(shè)定為128,并將隨機(jī)向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入。

(3)模型訓(xùn)練與測試

在CNN模型完成之后,再將樣本數(shù)據(jù)輸入其中進(jìn)行測試,本次數(shù)據(jù)挖掘采用十折交叉驗(yàn)證法進(jìn)行CNN模型能力評估,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用于評估模型性能,CNN參數(shù)使用默認(rèn)設(shè)置。

最終得到卷積神經(jīng)網(wǎng)絡(luò)的分類器在留言分類文本數(shù)據(jù)集上的訓(xùn)練過程,并求得各評價(jià)指標(biāo)的值,取10次實(shí)驗(yàn)結(jié)果的均值進(jìn)行評估。模型訓(xùn)練過程中的Loss曲線如圖3-1所示,ACC曲線如圖3-2所示。

在圖3-1中橫坐標(biāo)為訓(xùn)練時(shí)時(shí)長,縱坐標(biāo)為Loss絕對值,可以發(fā)現(xiàn)訓(xùn)練過程中Loss 曲線有明顯下降的趨勢,且后期開始慢慢收斂。

由圖3-2中橫坐標(biāo)為訓(xùn)練時(shí)時(shí)長,縱坐標(biāo)為ACC絕對值,ACC指標(biāo)呈快速上升趨勢??梢园l(fā)現(xiàn)隨著訓(xùn)練進(jìn)行,損失函數(shù)Loss明顯降低,而ACC則明顯上升,兩者呈明顯反比,符合預(yù)期。

為了對比CNN模型的分類效果,本次也選取了傳統(tǒng)機(jī)器學(xué)習(xí)樸素貝葉斯文本分類方法[4]做對比,最終分類效果如表3-3所示。

由表3-3可知,最終構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)多文本分類測試結(jié)果, 均值和ACC可以達(dá)到90%,且在文本預(yù)處理和特征詞項(xiàng),都一致的條件下,基于卷積神經(jīng)網(wǎng)絡(luò)模型的分類算法的分類精度略比樸素貝葉斯算法高一些,可見本次挖掘所構(gòu)建的基于卷積神經(jīng)網(wǎng)絡(luò)模型的文本分類器,不僅可行,而且有著更好的分類效果。

4總結(jié)

本文通過深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等技術(shù),使用卷積神經(jīng)網(wǎng)絡(luò)分類構(gòu)造器、DB-SCAN聚類、層次分析等方法構(gòu)造了多文本分類模型、熱點(diǎn)提取模型以及答復(fù)意見的評價(jià)系統(tǒng)來解決“智慧政務(wù)”中的文本挖掘問題,得到以下結(jié)論:

對于“智慧政務(wù)”中文本多分類問題而言,文本預(yù)處理和特征詞項(xiàng)都一致的條件下,基于卷積神經(jīng)網(wǎng)絡(luò)模型的分類算法的分類精度略比樸素貝葉斯算法高一些,可見本次挖掘所構(gòu)建的基于卷積神經(jīng)網(wǎng)絡(luò)模型的文本分類器對于“智慧政務(wù)”的文本分類有著不錯(cuò)的效果。對于詞向量生成而言,使用Skip-gram模型生成的詞向量一定程度上彌補(bǔ)了隨機(jī)向量詞之間缺乏聯(lián)系的不足,更能體現(xiàn)詞向量之間的聯(lián)系。最后我們改進(jìn)了模型,使用改進(jìn)的雙通道文本表征方式,雙通道相比單通道,輸入特征更豐富,而深度學(xué)習(xí)模型在特征提取方面有天然的優(yōu)勢,兩者得到了很好地融合。

綜上所述,我們的模型能夠高效、準(zhǔn)確地解決“智慧政務(wù)”中的文本挖掘問題,實(shí)現(xiàn)真正的智慧政務(wù)管理。

參考文獻(xiàn):

[1]白璐.基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類器的設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2018.

[2]黃鶴,荊曉遠(yuǎn),董西偉,吳飛.基于Skip-gram的CNNs文本郵件分類模型[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(06):143-147.

[3] 孫璇. 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法研究[D]. 上海: 上海師范大學(xué),2018.

作者簡介 :

魏川程(1998-),男,四川省廣安市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院軟件工程專業(yè)學(xué)生.

劉清文(1999-),女,山東省淄博市人。西南石油大學(xué)化學(xué)與化工學(xué)院化學(xué)工程與工藝專業(yè)學(xué)生.

王柄鈔(1997-),男,四川省達(dá)州市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院軟件工程專業(yè)學(xué)生.

黃胤秋(1999-),男,四川省遂寧市人。西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院網(wǎng)絡(luò)工程專業(yè)學(xué)生.

猜你喜歡
文本分類
基于樸素貝葉斯的Web文本分類及其應(yīng)用
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類技術(shù)研究
文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
科技視界(2016年24期)2016-10-11 09:36:57
不同情境下中文文本分類模型的表現(xiàn)及選擇
基于內(nèi)容的英語錄音教材標(biāo)注研究與應(yīng)用
多核SVM文本分類研究
軟件(2015年5期)2015-08-22 08:02:45
大宁县| 永福县| 吉安市| 灌云县| 永康市| 阿荣旗| 融水| 湛江市| 武夷山市| 肃北| 新邵县| 临夏县| 东乡县| 唐海县| 阿城市| 陇川县| 长治县| 施秉县| 吴堡县| 且末县| 三江| 拉孜县| 华容县| 江都市| 盖州市| 克拉玛依市| 乌鲁木齐县| 扶风县| 永顺县| 武穴市| 珲春市| 且末县| 原阳县| 乐东| 罗城| 法库县| 嘉鱼县| 永寿县| 长宁县| 电白县| 武义县|