武光華 李洪宇 劉二剛 柳長發(fā) 李倩
摘 要:為了提高95595工單智能分類的準(zhǔn)確率,提出了基于LDA (Latent Dirichlet Allocation)的改進(jìn)TFIDF算法。先對文本提取特征詞,然后采用K-means算法進(jìn)行聚類處理。構(gòu)建LDA模型,獲得概率分布函數(shù)θ和φ,求取語義影響力SI(semantic influence, SI) 作為特征詞的權(quán)重,該改進(jìn)算法記作SI-TFIDF(semantic influence-term frequency inverse document frequency, SI-TFIDF)。將SI-TFIDF算法與傳統(tǒng)的TFIDF算法在sougou的數(shù)據(jù)庫進(jìn)行特征詞提取,并采用K-means算進(jìn)行聚類,對比結(jié)果顯示,采用SI-TFIDF算法提取的特征詞聚類效果優(yōu)于TFIDF,驗證了所提出方法的可靠性。在95598投訴工單上進(jìn)行仿真實驗,SI-TFIDF算法的投訴工單聚類準(zhǔn)確率高于傳統(tǒng)的TFIDF算法,驗證了SI-TFIDF更適用于處理工單投訴的分類研究。
關(guān)鍵詞:95598; 投訴工單; Latent dirichlet allocation; term frequency inverse document frequency
中圖分類號: TM73
文獻(xiàn)標(biāo)志碼: A
Abstract:In order to improve the accuracy of intelligent classification of 95595 work order, an improved TFIDF algorithm based on LDA (Latent Dirichlet allocation) is proposed. The text feature words are extracted and then the K-means algorithm is used for clustering processing. The probability distribution functions θ and φ are obtained by constructing the LDA, and semantic influence (SI) is obtained as the weight of feature words. The improved algorithm is denoted as the semantic influence-term frequency inverse document frequency (SI-TFIDF). SI-TFIDF algorithm and the traditional TFIDF algorithm are used to extract feature words in Sougou database, and K-means algorithm is used for clustering. The comparison results show that the feature words extracted by SI-TFIDF algorithm is better than TFIDF, which verifies the reliability of the method proposed in this paper. Simulation experiments on 95598 complaint work order shows that the clustering accuracy of the complaint work order of SI-TFIDF algorithm is higher than that of the traditional TFIDF algorithm, which verifies that SI-TFIDF is more suitable for the classification research of handling complaint work order.
Key words:95598; Complaint sheets; Latent Dirichlet allocation; Term frequency inverse document frequency
0 引言
隨著人們對電的需求量越來越大,人們對電的質(zhì)和量兩方面的關(guān)注也越來越高,相關(guān)監(jiān)管部門在此背景下迫切需要提升居民用電服務(wù)質(zhì)量,要充分了解用電消費者對電力的各方面需求[1]。電力客戶服務(wù)熱線95598是架設(shè)在電力企業(yè)和電力客戶之間的一個很好溝通的橋梁,通過95598工單受理內(nèi)容,電力企業(yè)可以了解用戶的訴求,更加接近民生民意[2]。同時,通過95598客服人員,又能解決用戶訴求,提升用戶用電感知與電力企業(yè)的效益。但難點在于95598工單量巨大,用戶的訴求又存在差異性和重復(fù)訴求,無法快速查詢到每個用戶的訴求和訴求熱點。面對大量的客戶訴求,需要運用合理的數(shù)據(jù)分析方法來完善和閉環(huán)各項工單的處理工作,聚焦用戶的熱點問題,以保證用戶的訴求能夠及時有效的解決[3]?;诖髷?shù)據(jù)挖掘分析技術(shù),可對95598工單受理內(nèi)容短文本數(shù)據(jù)提取主題,進(jìn)而實現(xiàn)自動分類,工作人員可快速查詢用戶的不同訴求類型及共同的訴求熱點,從而能夠有針對、有重點的提出解決辦法[4]。
如何提高投訴工單處理水平,提高客戶服務(wù)水平,針對95598的工單分類問題的研究還比較少。文獻(xiàn)[5]采用TF-IDF方法提取工單的關(guān)鍵詞,再將詞匯擴展到情感測點,實現(xiàn)本文分類,該方法的工單分析方法具有更高的準(zhǔn)確率[5]。文獻(xiàn)[6]對95598的投訴工單采用自動分類方法,建立快速精準(zhǔn)的分類模型,實現(xiàn)了電力工單的分析挖掘[6]。文獻(xiàn)[7]將成本矩陣引入到C4.5,結(jié)合Adaboost方法建立95598工單分類模型,提高了質(zhì)檢效率,降低了漏檢率[7]。文獻(xiàn)[8]采用LDA方法對投訴工單進(jìn)行數(shù)據(jù)挖掘,實現(xiàn)了電力工單的分類篩選,便簽判斷和初步歸因[8]。
上述研究都是采用傳統(tǒng)的語義聚類方法,聚類效果不盡人意,本文基于LDA的主題概念,對TFIDF算法進(jìn)行了改進(jìn),提高了算法的聚類效果,最終實現(xiàn)95598工單的智能分類。
1 基于LDA的改進(jìn)TFIDF
1.1 LDA算法
LDA (Latent Dirichlet Allocation, LDA) 模型是由Blei D M在2003年提出的,是一種概率生成模型,能夠?qū)φZ料庫進(jìn)行建模,達(dá)到對文檔降維的效果[9]。LDA的概率模型圖如圖1所示。
從圖3和表4的對比結(jié)果可以看出,SI-TFIDF提取的關(guān)鍵詞聚類的時候效果優(yōu)于TFIDF。查全率R提高了20%;查準(zhǔn)率P提高了17%。F值由0.601上升到了0.783 7。上述仿真結(jié)果驗證了SI-TFIDF提取的特征詞更利于文本分類。SI-TFIDF比TFIDF算法聚類效果更好,證明了本文所提方法的有效性。
從表6可以看出,SI-TFIDF算法比TFIDF算法提取的特征詞具有更好的聚類結(jié)果,驗證了本文所提的SI-TFIDF算法更適用于95598工單聚類分析。
從圖4可以看出,采用IS-TFIDF提取特征詞的平均聚類準(zhǔn)確率為0.997 9,而采用TFIDF方法提取特征詞的平均聚類準(zhǔn)確率為0.953 6,驗證了改進(jìn)后的TFIDF算法提取的特征詞更適用于95598工單分類處理。SI-TFIDF算法提高了分類器的準(zhǔn)確性。
3 總結(jié)
增加了SI(semantic influence,SI)語義影響力對TFIDF算法進(jìn)行了改進(jìn),實驗對比結(jié)果驗證了SI-TFIDF算法比傳統(tǒng)的TFIDF算法提取的特征詞具有更高的分類效果。在處理95598工單時,SI-TFIDF算法具有更高的聚類效果及投訴工單聚類準(zhǔn)確率,驗證了本文所提方法的有效性。
參考文獻(xiàn)
[1] 朱君,程雅夢.電力工單文本數(shù)據(jù)分析挖掘模型研究[J].電力需求側(cè)管理,2017,19(S1):87-89.
[2] 楊鵬,劉揚,楊青.基于層次語義理解的電力系統(tǒng)客服工單分類[J].計算機應(yīng)用與軟件,2019,36(7):231-235.
[3] 吳剛勇,張千斌,吳恒超,等.基于自然語言處理技術(shù)的電力客戶投訴工單文本挖掘分析[J].電力大數(shù)據(jù),2018,21(10):68-73.
[4] 林溪橋,嚴(yán)旭,黃蔚.基于主成分分析法的95598客戶服務(wù)工單分類優(yōu)化[J].廣西電力,2017,40(4):10-12
[5] 顧斌,彭濤,車偉.基于詞典擴充的電力客服工單情感傾向性分析[J].現(xiàn)代電子技術(shù),2017,40(11):163-166.
[6] 鄒云峰,何維民,趙洪瑩,等.文本挖掘技術(shù)在電力工單數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(17):149-152.
[7] 劉建,趙加奎,楊維,等.電力95598客戶服務(wù)質(zhì)檢抽樣算法研究[J].電網(wǎng)技術(shù),2015,39(11):3163-3168.
[8] 劉興平,章曉明,沈然,等.電力企業(yè)投訴工單文本挖掘模型[J].電力需求側(cè)管理,2016,18(2):57-60.
[9] 路榮.基于隱主題分析和文本聚類的微博客中新聞話題發(fā)現(xiàn)[J].模式識別與人工智能,2012,25(3):382-387.
[10] 張建娥.基于TFIDF和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J].情報科學(xué),2012,30(10):1542-1544.
[11] 孫鴻飛,侯偉.改進(jìn)TFIDF算法在潛在合作關(guān)系挖掘中的應(yīng)用研究[J].現(xiàn)代圖書情報技術(shù),2014(10):84-92.
(收稿日期: 2019.10.21)