張聰慧
【摘 要】針對電信客戶數(shù)據(jù)量龐大的特點(diǎn),采用基于python語言的樸素貝葉斯分類算法,對電信客戶的投訴內(nèi)容進(jìn)行分類,以便在更短的時間內(nèi)對客戶的投訴意見作出有效的處理,從而提高客戶的滿意度。
【關(guān)鍵詞】貝葉斯分類;多項(xiàng)式模型;高斯模型;伯努利模型
中圖分類號: TP23 文獻(xiàn)標(biāo)識碼: A 文章編號: 2095-2457(2019)02-0122-002
【Abstract】In view of the huge amount of data of telecom customers, the naive Bayesian classification algorithm based on Python language is adopted to classify the complaints of telecom customers, so as to effectively deal with the complaints of customers in a shorter time, thereby improving customer satisfaction.
【Key words】Bayesian classification; Polynomial model; Gauss model; Bernoulli model
0 引言
樸素貝葉斯(Nave Bayes)是一種簡單但是實(shí)用性很強(qiáng)的分類模型,其構(gòu)造基礎(chǔ)是貝葉斯理論。樸素貝葉斯模型有較強(qiáng)的特征條件獨(dú)立假設(shè),被廣泛應(yīng)用于海量文本分類任務(wù)。本文首先簡述貝葉斯分類算法的原理和常用的三種模型,然后基于Python編程語言和sklearn自帶的貝葉斯分類器對電信客戶的投訴內(nèi)容進(jìn)行分類,計(jì)算分類的準(zhǔn)確率,并輸出投訴內(nèi)容的分類結(jié)果,進(jìn)而提高客戶的滿意度。
1 樸素貝葉斯分類算法原理簡述
1)樸素貝葉斯分類算法是貝葉斯分類算法的一種,它基于一個實(shí)例在給定類別值的條件下各特征屬性值間是相互獨(dú)立的,利用類別的先驗(yàn)概率和樣本信息通過貝葉斯公式計(jì)算未知文本屬于某一類別的后驗(yàn)概率,最大的后驗(yàn)概率即為文本分類的判別結(jié)果。
2)樸素貝葉斯分類的原理:
3)樸素貝葉斯分類器是基于樸素貝葉斯理論的分類器,通常有三種實(shí)現(xiàn)方式,分別是基于多項(xiàng)式模型實(shí)現(xiàn)、基于高斯模型實(shí)現(xiàn)和基于伯努利模型實(shí)現(xiàn)。其中多項(xiàng)式模型主要用于文本的主題分類,會考慮單詞在文檔中出現(xiàn)的次數(shù),而伯努利模型不考慮詞頻,只考慮這個單詞有沒有出現(xiàn),假設(shè)詞是等權(quán)重的,主要用于文本情緒分析。
(1)多項(xiàng)式模型
使用多項(xiàng)式模型進(jìn)行分類,假設(shè)N是樣本總數(shù),k是總的類別個數(shù),n是特征的維數(shù),NYK是類別為yk的樣本的個數(shù),N是類別為yk的樣本中第i維特征的值為xi的樣本的個數(shù)。多項(xiàng)式模型在計(jì)算先驗(yàn)概率P和條件概率時P(x|y),會做一些平滑處理,設(shè)α是平滑值,則:
(2)高斯模型
高斯模型適用于輸入特征是連續(xù)值的隨機(jī)變量的情況,假設(shè)每一維特征都服從高斯分布(正態(tài)分布)。在高斯模型中,假設(shè):y~Bernoulli(φ)=pφp1-φ
(3)伯努利模型
在伯努利模型中,每個特征的取值是布爾型的,即true和false,或者1和0。以文本分類為例,某個單詞在文檔中出現(xiàn)過,則其特征值為1,否則為0。當(dāng)特征值為1時,條件概率的計(jì)算公式為:
2 程序設(shè)計(jì)
2.1 文本分類步驟包括
(1)文本預(yù)處理:對于中文文本分類來說,主要是分詞、去停用詞,然后隨機(jī)抽取部分文本作為訓(xùn)練數(shù)據(jù),剩余部分作為測試數(shù)據(jù);(2)文本特征提取:特征權(quán)重計(jì)算,并保存特征化后的特征提取對象;(3)訓(xùn)練分類器:建立分類器對象,并調(diào)整模型參數(shù),利用經(jīng)特征提取的訓(xùn)練數(shù)據(jù)對分類器訓(xùn)練、評估并保存;(4)待分類文本預(yù)處理:加載特征提取對象;(5)加載分類器,對測試樣本進(jìn)行分類,輸出分類預(yù)測結(jié)果。
下面以基于多項(xiàng)式模型的python語言為例,對72243條電信客戶投訴文本進(jìn)行分類。隨機(jī)抽取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集,進(jìn)行文本特征提取,訓(xùn)練分類器,進(jìn)行評分并保存。
部分實(shí)現(xiàn)代碼如下:
2.2 實(shí)驗(yàn)結(jié)果輸出
2.2.1 分類器評估
分類器評估結(jié)果輸出如圖1所示,分類的準(zhǔn)確率可達(dá)到91.1%,后續(xù)將增大訓(xùn)練樣本空間,優(yōu)化分類器參數(shù),分類器的準(zhǔn)確率可獲得進(jìn)一步提高;
2.2.2 分類結(jié)果及應(yīng)用
分類器的部分輸出結(jié)果如圖2所示,將客戶口語化的投訴內(nèi)容,轉(zhuǎn)換成某種業(yè)務(wù)投訴分類的標(biāo)準(zhǔn)化類別,根據(jù)投訴內(nèi)容對故障現(xiàn)象進(jìn)行分類。基于樸素貝葉斯分類算法可準(zhǔn)確分類的能力,配合前端語音識別系統(tǒng),可在客戶服務(wù)系統(tǒng)中實(shí)現(xiàn)投訴內(nèi)容的識別與預(yù)分類,從而按分類結(jié)果自動反饋處理建議,在提升用戶體驗(yàn)和投訴處理效率的同時,也可節(jié)約人力成本;
3 結(jié)束語
基于樸素貝葉斯理論的貝葉斯分類器是一種常用的分類器,分類器利用已標(biāo)注好的訓(xùn)練文本訓(xùn)練得到,然后對測試文本進(jìn)行測試,求得文本屬于某個類別的概率。本來利用python語言和sklearn庫,實(shí)現(xiàn)了電信客戶投訴文本的自動分類,分類過程實(shí)現(xiàn)比較簡單,分類效果良好,能在較短的時間內(nèi)對客戶的投訴作出處理,從而提高客戶的滿意度。
【參考文獻(xiàn)】
[1]蔣盛益,李霞,鄭琪著.數(shù)據(jù)挖掘原理與實(shí)踐[M].北京:電子工業(yè)出版社.2013.