国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信訪數(shù)據(jù)的短文本挖掘及實(shí)例研究

2020-02-04 02:03:58李妹
電子技術(shù)與軟件工程 2020年20期
關(guān)鍵詞:語料庫分類器文檔

李妹

(福州職業(yè)技術(shù)學(xué)院 福建省福州市 350001)

隨著社會(huì)經(jīng)濟(jì)的發(fā)展,民眾的維權(quán)意識(shí)逐漸提高,引起了相關(guān)部門的廣泛關(guān)注。例如,2017年首都“智慧信訪”大數(shù)據(jù)分析平臺(tái)和2019年的全國信訪局會(huì)議都提及了信訪業(yè)務(wù)智能建設(shè)。信訪工作的處理過程中引入大數(shù)據(jù)技術(shù),能夠有效推動(dòng)、改進(jìn)信訪數(shù)據(jù)處理工作[1]。

信訪大數(shù)據(jù)已經(jīng)引起了國內(nèi)外研究者的關(guān)注,李青云[2]從環(huán)境信訪的角度闡述了大數(shù)據(jù)平臺(tái)對(duì)于信訪工作的必要性;李曉菊[3]討論了信訪任務(wù)在地方環(huán)保督察中的重要作用,并進(jìn)一步明確了加強(qiáng)海量信訪數(shù)據(jù)分析的必要性;丁大勇等人[4]從物聯(lián)網(wǎng)和人工智能應(yīng)用角度出發(fā),提出了一套信訪服務(wù)平臺(tái)運(yùn)行機(jī)制,有效降低了信訪工人的工作量。信訪大數(shù)據(jù)研究可應(yīng)用于信訪調(diào)查、訪情預(yù)測(cè)、績(jī)效考核管理、辦理企業(yè)決策和記載歷史[5]。研究者們關(guān)于信訪大數(shù)據(jù)的研究涉及環(huán)境、司法、反腐、民調(diào)、管理等多個(gè)方面[6-12]。陳海郎[13-14]通過構(gòu)建信訪大數(shù)據(jù)平臺(tái),對(duì)信訪量趨勢(shì)進(jìn)行分析和預(yù)測(cè),能夠有效預(yù)測(cè)各個(gè)區(qū)域的信訪量。然而,他的研究缺乏對(duì)信訪數(shù)據(jù)做更深層次的分析與挖掘。在信訪大數(shù)據(jù)平臺(tái)中,對(duì)海量數(shù)據(jù)進(jìn)行過濾并采取分類處理技術(shù)可以有效地提高信訪辦事人員的效率。然而,在真實(shí)環(huán)境中,信訪數(shù)據(jù)通常為短文本記錄,具有嚴(yán)重的稀疏性和復(fù)雜的語義,人工辨別、標(biāo)注有效的信訪數(shù)據(jù)需要耗費(fèi)大量的人力物力且效率非常低下。為此,本文將預(yù)處理之后的信訪數(shù)據(jù)通過潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)映射成統(tǒng)一維度的向量,然后送入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。為了驗(yàn)證所提出方法的有效性,本文采用了真實(shí)的文本數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明所提出的方法能有效的處理信訪數(shù)據(jù)。

1 平臺(tái)設(shè)計(jì)與分析

1.1 詞向量模型Doc2vec

在自然語言處理領(lǐng)域,如何將句子、段落或文檔類信息映射到向量空間中是一個(gè)重要的研究課題。常用的方法有詞袋模型(Bag of Visual Words,BOVW)、TF-IDF(Term Frequency-Inverse Document Frequency)、權(quán)重向量模型和LDA 主題模型等。然而,這些傳統(tǒng)的模型沒有充分考慮到單詞出現(xiàn)的順序,疏忽了單詞的語義信息。word2vec 模型考慮單詞上下文語境,可以獲取高質(zhì)量的詞向量。word2vec 是一個(gè)開源的Google 工具包,開發(fā)語言是Python。word2vec 大致分為兩種不同的模型:連續(xù)詞袋模型(Continuous Bag-of-Words,CBOW)和Skip-Gram。在CBOW 模型訓(xùn)練過程中,模型的輸入端是某個(gè)詞對(duì)應(yīng)的上下文向量,輸出是這個(gè)詞的詞向量。與CBOW 相反的是,Skip-Gram 模型的輸入端是特定詞的詞向量,輸出端是該詞對(duì)應(yīng)的上下文向量。CBOW 的模型框架如圖1所示。

圖1:CBOW 的訓(xùn)練模型框架

圖2:算法模型框架

其中,輸入層為上下文單詞的onehot 映射向量,所有onehot向量分別與共享輸入權(quán)重矩陣W 相乘,得到中間向量,然后加權(quán)平均后得到一個(gè)隱含層向量值,再將該值乘以輸出權(quán)重矩陣,經(jīng)過激活函數(shù)后得到一個(gè)關(guān)于單詞的概率分布,概率最高的詞是當(dāng)前預(yù)測(cè)的中間詞。word2vec 能夠有效提取詞向量,并且在很多任務(wù)中有著優(yōu)異的表現(xiàn),然而它無法將這些詞匯向量有效的整合成一個(gè)文檔向量。

在word2vec 基礎(chǔ)上,Mikolov 提出無監(jiān)督學(xué)習(xí)算法相關(guān)的Doc2vec(Paragraph Vector)模型。該模型沒有限定句子長(zhǎng)度,允許不同長(zhǎng)度的句子做訓(xùn)練樣本,就可以預(yù)測(cè)一個(gè)向量來表示不同的文檔。因此,該方法可以用于文本分類之前的降維處理。句向量和詞向量的訓(xùn)練算法是類似的。在Doc2vec 中,每一句話用矩陣D的某一列(向量)表示,每一個(gè)詞用矩陣W 的某一列(向量)來表示。從一句話中平滑采集固定長(zhǎng)度的詞,任意選取其中一個(gè)詞作為預(yù)測(cè)詞而其它的作為輸入詞。該模型的是輸入詞對(duì)應(yīng)的詞向量和該句話對(duì)應(yīng)的句子向量,將句子向量和詞向量累加構(gòu)成一個(gè)新的向量X 或累加后求平均值,新的向量X 就可以用來預(yù)測(cè)后續(xù)的詞。詞向量訓(xùn)練的關(guān)鍵點(diǎn)是可以根據(jù)每個(gè)單詞的上下文進(jìn)行預(yù)測(cè),而Doc2vec 也可以用同樣的方法進(jìn)行訓(xùn)練。

1.2 LDA主題模型

實(shí)際場(chǎng)景中,單條數(shù)據(jù)的維度可能成千上萬,直接對(duì)這樣的數(shù)據(jù)進(jìn)行處理會(huì)造成維數(shù)災(zāi)難,從而導(dǎo)致訓(xùn)練速度慢,影響模型的性能。因此,在數(shù)據(jù)特征維數(shù)較多(如中文語言處理分類)的情況下,研究者們通常會(huì)對(duì)原始數(shù)據(jù)進(jìn)行降維。然后,通過對(duì)降維后的數(shù)據(jù)進(jìn)行處理達(dá)到分類、聚類等目的。

LDA的核心思想是,給定一些文檔集合。其中ω 表示可觀測(cè)的變量,α和β 表示先驗(yàn)參數(shù),z、θ 和φ 是未知的隱含變量,是詞分布。按照LDA 的概率圖模型,可以推導(dǎo)出所有變量的聯(lián)合分布:

通過貝葉斯原理我們可以分析得到每個(gè)文檔上主題的后驗(yàn)分布和每個(gè)主題下的詞的后驗(yàn)表示如下:

通過LDA 主題模型計(jì)算得到每個(gè)文檔在k 個(gè)主題下的向量分布,即任何一個(gè)文檔可以映射到一個(gè)固定長(zhǎng)度為k 的向量并通過這個(gè)長(zhǎng)度為k 的向量進(jìn)行語義特征表征。此時(shí),對(duì)k 維主題向量矩陣的分類即為對(duì)文檔的分類。

1.3 算法模型框架

如圖2所示,以信訪數(shù)據(jù)中混有微博數(shù)據(jù)為例,模型框架的主要任務(wù)是通過主題模型將數(shù)據(jù)進(jìn)行降維表征,通過神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建分類器進(jìn)行訓(xùn)練,并最終實(shí)現(xiàn)信訪記錄的有效識(shí)別,具體步驟如下:

Step1:獲取語料庫數(shù)據(jù),如獲取信訪數(shù)據(jù)和微博數(shù)據(jù);

Step2:對(duì)語料庫進(jìn)行分詞,每一條文本記錄切分成多個(gè)單詞;

Step3:通過分詞后的語料庫構(gòu)建停用詞詞表;

Step4:通過停用詞詞表對(duì)分詞后的語料庫進(jìn)行停用詞過濾;

Step5:構(gòu)建LDA 主題模型或者Doc2vec 等降維模型,確定映射主題數(shù)或者文檔向量空間特征維度k;

Step6:通過吉布斯采樣進(jìn)行主題模型訓(xùn)練,并獲取到文檔-主題分布;

Step7:構(gòu)建神經(jīng)網(wǎng)絡(luò)分類器,并確定節(jié)點(diǎn)數(shù)、層數(shù)等參數(shù);

Step8:通過短文本記錄映射到固定k 維的向量表征進(jìn)行分類器訓(xùn)練;

Step9:通過測(cè)試集進(jìn)行測(cè)試;

Step10:指標(biāo)評(píng)估,結(jié)束。

圖3:信訪記錄主題分布

圖4:結(jié)果對(duì)比圖

分類器部分可以選擇的部分有很多,如決策樹,隨機(jī)森林,樸素貝葉斯,神經(jīng)網(wǎng)絡(luò)等。以神經(jīng)網(wǎng)絡(luò)為例,每個(gè)神經(jīng)元都包含權(quán)重值、偏置值和激活函數(shù),將輸入信號(hào)進(jìn)行加權(quán)處理之后經(jīng)過激活函數(shù)可以得到輸出信號(hào)。通過神經(jīng)網(wǎng)絡(luò)構(gòu)建分類器可以有效地學(xué)習(xí)到特征的關(guān)系并對(duì)數(shù)據(jù)進(jìn)行擬合,通過設(shè)置、調(diào)節(jié)節(jié)點(diǎn)個(gè)數(shù)及層數(shù)、激活函數(shù)類型、學(xué)習(xí)率等可以加快識(shí)別率。在得到每一個(gè)文檔的向量表征之后,通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型可以進(jìn)行分類器訓(xùn)練,有效的過濾掉非信訪數(shù)據(jù)。

2 實(shí)例研究

2.1 數(shù)據(jù)預(yù)處理

通過某市從2017年7月26日到2019年5月31日的在線申請(qǐng)信訪數(shù)據(jù)(共計(jì)35 萬條),并采樣等量微博數(shù)據(jù),在信訪數(shù)據(jù)中抽取信訪內(nèi)容字段,微博數(shù)據(jù)中抽取微博文本內(nèi)容(忽略數(shù)據(jù)集中的時(shí)間、地點(diǎn)等信息),構(gòu)成實(shí)驗(yàn)語料庫。通過收集得到的數(shù)據(jù)進(jìn)行整理之后得到語料庫,對(duì)語料庫進(jìn)行分詞,語料庫中包含幾十萬不同的單個(gè)詞語,分詞得到的文本記錄數(shù)據(jù)由一個(gè)個(gè)的單詞組成,即任意一條文本信息可以映射成多維單詞構(gòu)成的向量。此時(shí),文本中混有一些不規(guī)則單詞,如不規(guī)則單詞(‘sss’,‘a(chǎn)aa’等)常用詞以及不包含具體信息的單詞(如‘你’,‘我’,‘我們’,‘去’等),統(tǒng)一稱為停用詞,并依據(jù)單詞詞頻進(jìn)行停用詞詞表構(gòu)建(共計(jì)30 萬停用詞)。

表1:降維方法分類效果對(duì)比

表2:多分類準(zhǔn)確率

表3:fastText 實(shí)驗(yàn)結(jié)果

停用詞詞表構(gòu)建完成之后,通過將文本語料分詞得到的數(shù)據(jù)進(jìn)行停用詞過濾,得到新的語料數(shù)據(jù),但此時(shí)文本語料的單詞數(shù)目仍然較大,不能直接構(gòu)建特征并采用傳統(tǒng)數(shù)據(jù)挖掘方法進(jìn)行分析挖掘,故引進(jìn)主題模型方法。在對(duì)文本進(jìn)行聚類的同時(shí)得到每條文本數(shù)據(jù)在低維空間的投射。信訪記錄映射到k 維空間中的主題分布如圖3所示。

從圖3 中可以觀查到,每個(gè)主題都具有一定的含義,如主題一(Topic 0)更傾向于工作人員的回復(fù)、答復(fù),主題6(Topic 5)更傾向于體現(xiàn)學(xué)校相關(guān)的語義等等。

2.2 二分類

本文收集信訪數(shù)據(jù)20 萬條、微博數(shù)據(jù)20 萬條進(jìn)行處理之后,進(jìn)行類別標(biāo)注。通過LDA 模型可以獲取每個(gè)文本在隱藏空間的一個(gè)映射向量,通過獲取的向量特征對(duì)模型進(jìn)行訓(xùn)練(隨機(jī)選取60%的數(shù)據(jù)作為訓(xùn)練集,剩下40%作為測(cè)試集)。訓(xùn)練好的模型可以對(duì)微博數(shù)據(jù)和信訪數(shù)據(jù)進(jìn)行分類。具體的實(shí)驗(yàn)結(jié)果如圖4所示。

將Doc2word 映射后的向量和LDA 降維后的向量分別輸入給分類器,從表1 的具體數(shù)值結(jié)果可以得出當(dāng)前語料庫下LDA 表現(xiàn)更好。

2.3 多分類

在實(shí)際應(yīng)用場(chǎng)景中,判定完有效信訪信息后,需要進(jìn)一步將信訪信息進(jìn)行歸類,這一過程涉及到多個(gè)類別,通過文本挖掘手段可以有效的加速這一任務(wù),即文本多分類任務(wù)。本文在信訪數(shù)據(jù)中抽樣得到35 萬多條樣本數(shù)據(jù),共計(jì)包含12 個(gè)類別,分為測(cè)試集和訓(xùn)練集進(jìn)行多分類任務(wù)。同樣地,先將文本語料進(jìn)行空間映射,然后進(jìn)行多分類。在映射空間維度D=10 的情況下,結(jié)果如表2。

2.4 快速文本

文本分類問題中,相比深度網(wǎng)絡(luò)的訓(xùn)練方法,快速文本方法在精度相同的情況下,可以大量介紹訓(xùn)練時(shí)間。為了進(jìn)一步優(yōu)化信訪數(shù)據(jù)和微博數(shù)據(jù)二分類任務(wù)以及信訪數(shù)據(jù)多分類任務(wù),本文比較了快速文本方法和LDA+分類器方法。實(shí)驗(yàn)結(jié)果如表3。

其中,LDA+分類器的結(jié)果均選取對(duì)應(yīng)分類任務(wù)的最優(yōu)結(jié)果,從結(jié)果中我們可以看出,不論在信訪數(shù)據(jù)或者微博數(shù)據(jù)的二分類任務(wù)上還是信訪數(shù)據(jù)的多分類任務(wù)上,快速文本的性能更優(yōu)。

3 結(jié)束語

有效識(shí)別、過濾信訪記錄并且及時(shí)對(duì)輿情進(jìn)行分析對(duì)于了解并解決民眾生活中難點(diǎn)具有重大意義。針對(duì)短文本記錄的特殊性,本文提出了基于LDA 主題模型和神經(jīng)網(wǎng)絡(luò)分類器構(gòu)成的模型框架。通過LDA 進(jìn)行文本數(shù)據(jù)降維,可以有效解決信訪數(shù)據(jù)的稀疏性和語義復(fù)雜性問題。通過神經(jīng)網(wǎng)絡(luò)分類器可以有效的學(xué)習(xí)降維后的數(shù)據(jù),到達(dá)對(duì)原始數(shù)據(jù)記錄的過濾和分析。然后,通過快速文本對(duì)文本挖掘方法進(jìn)行進(jìn)一步的優(yōu)化。通過對(duì)真實(shí)世界中信訪數(shù)據(jù)與微博數(shù)據(jù)進(jìn)行驗(yàn)證,所提出模型可以有效的識(shí)別出信訪數(shù)據(jù)。

猜你喜歡
語料庫分類器文檔
有人一聲不吭向你扔了個(gè)文檔
《語料庫翻譯文體學(xué)》評(píng)介
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
濮阳市| 江油市| 顺平县| 安国市| 商都县| 临澧县| 康平县| 石河子市| 广宁县| 扎囊县| 买车| 常熟市| 常德市| 射洪县| 天峻县| 天气| 商都县| 南投县| 稷山县| 土默特右旗| 雷山县| 德格县| 抚松县| 开远市| 曲靖市| 闽清县| 武邑县| 荣昌县| 静安区| 小金县| 新河县| 东阳市| 石林| 五寨县| 鹿邑县| 靖边县| 玉龙| 伊吾县| 盐边县| 郓城县| 绥芬河市|