羅 欣,張 爽
(國(guó)網(wǎng)浙江省電力公司電力科學(xué)研究院,杭州 310014)
深度學(xué)習(xí)在電力潛在投訴識(shí)別分類中的應(yīng)用
羅 欣,張 爽
(國(guó)網(wǎng)浙江省電力公司電力科學(xué)研究院,杭州 310014)
隨著用戶對(duì)用電服務(wù)的要求及維權(quán)意識(shí)的不斷提高,供電企業(yè)需開展海量客戶訴求分析,從而實(shí)現(xiàn)供電業(yè)務(wù)薄弱點(diǎn)的發(fā)現(xiàn)和改進(jìn)。因此,提出基于深度學(xué)習(xí)的電力疑似投訴工單識(shí)別分類技術(shù)應(yīng)用,通過深度學(xué)習(xí)建模、投訴特征標(biāo)簽提煉、模型學(xué)習(xí)訓(xùn)練、疑似投訴識(shí)別,優(yōu)化投訴風(fēng)險(xiǎn)預(yù)警與管理工作,緩解一線工作人員服務(wù)壓力。
95598;投訴;文本分類;深度學(xué)習(xí)
如何減少用戶的投訴量,提高用戶的滿意度成為目前供電企業(yè)關(guān)注的焦點(diǎn)。對(duì)投訴的有效分析管理,可以提高客戶的滿意度和忠誠(chéng)度,實(shí)現(xiàn)對(duì)供電業(yè)務(wù)薄弱點(diǎn)的發(fā)現(xiàn)與改進(jìn),對(duì)提升供電企業(yè)的服務(wù)品質(zhì),提升企業(yè)形象具有重要的意義。
從95598來電分析,大量客戶雖未直接投訴,或者客服專席誤判非投訴,但是通過咨詢、意見和建議等表達(dá)對(duì)供電服務(wù)的不滿,若處理不當(dāng)或不及時(shí),可能升級(jí)為客戶投訴。全省年話務(wù)量高達(dá)八百萬通,采用傳統(tǒng)抽樣錄音質(zhì)檢模式,由人工進(jìn)行逐一反復(fù)聽取錄音,工作效率低,無法準(zhǔn)確、高效地提取客戶的投訴點(diǎn)、不滿意點(diǎn)。據(jù)不完全統(tǒng)計(jì)僅疑似投訴質(zhì)檢常態(tài)任務(wù)年投入工時(shí)為3 456人,而這在未來全面客戶訴求挖掘工作中占比不足1%。
通過基于深度學(xué)習(xí)的電力疑似投訴工單識(shí)別技術(shù),可有效優(yōu)化質(zhì)量監(jiān)督管理工作,強(qiáng)化服務(wù)問題防控,減輕基層投訴壓力。
如圖1所示,1956年達(dá)特茅斯會(huì)議上提出了AI(人工智能)的概念,人工智能的目的是讓計(jì)算機(jī)能夠像人一樣思考。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新領(lǐng)域,推動(dòng)了機(jī)器學(xué)習(xí)的發(fā)展,拓展了人工智能的領(lǐng)域范圍。近兩年開源深度學(xué)習(xí)技術(shù)日趨成熟,具有代表深度學(xué)習(xí)框架有Tensor-Flow,DL4J等。
深度學(xué)習(xí)使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個(gè)處理層(神經(jīng)網(wǎng)絡(luò))對(duì)數(shù)據(jù)進(jìn)行高層抽象的算法,其動(dòng)機(jī)在于建立模擬人腦分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦來解釋數(shù)據(jù)(例如圖像,聲音和文本)。深度學(xué)習(xí)過程分為訓(xùn)練和推理,通過訓(xùn)練獲得數(shù)據(jù)模型,然后用于推理新的數(shù)據(jù)。
圖1 人工智能發(fā)展歷程
以下選用DL4J深度學(xué)習(xí)技術(shù)進(jìn)行投訴的識(shí)別和分類,DL4J是基于Java開源的分布式深度學(xué)習(xí)框架。如圖2所示,深度學(xué)習(xí)技術(shù)應(yīng)用主要分為模型選型定義、機(jī)器學(xué)習(xí)訓(xùn)練、模型優(yōu)化提升3部分內(nèi)容。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)主要包含輸入層、隱藏層和輸出層,圖2右邊是對(duì)應(yīng)的分層的實(shí)現(xiàn)代碼。模型學(xué)習(xí)和訓(xùn)練的算法選擇決定最終的結(jié)果,結(jié)合投訴文本特征處理與識(shí)別分類,選擇采用貪婪無監(jiān)督的逐層訓(xùn)練方法。
圖2 深度學(xué)習(xí)應(yīng)用示意
貪婪無監(jiān)督特征學(xué)習(xí)算法(L)使用訓(xùn)練集樣本并返回編碼器或特征函數(shù)f。原始輸入數(shù)據(jù)是X, 每行 1 個(gè)樣本, 并且 f(1)(X)是第一階段編碼器關(guān)于X的輸出。在執(zhí)行精調(diào)的情況下,使用學(xué)習(xí)者T、初始函數(shù)f、輸入樣本X以及在監(jiān)督精調(diào)情況下關(guān)聯(lián)的目標(biāo)Y,返回細(xì)調(diào)好的函數(shù)。階段數(shù)為m。實(shí)現(xiàn)代碼如下:
目前,95598工單中存在一定數(shù)量的投訴錯(cuò)派工單,工單內(nèi)容是以非結(jié)構(gòu)化的文本形式記錄存儲(chǔ)的,然而深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型識(shí)別的模式是通過向量中的數(shù)值形式體現(xiàn)。因此,首先利用FudanNLP中文分詞技術(shù)實(shí)現(xiàn)工單非結(jié)構(gòu)化文本分詞,通過DL4J的DataVec類實(shí)現(xiàn)向量化。利用DataVec向量化及表達(dá)式模板庫(DL4J工具包)實(shí)現(xiàn)數(shù)據(jù)提取、轉(zhuǎn)換和ETL(加載)處理。通過用已標(biāo)記的數(shù)據(jù)集定型,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)才能實(shí)現(xiàn)對(duì)數(shù)據(jù)的系統(tǒng)分類。
如圖3所示,利用深度學(xué)習(xí)技術(shù)對(duì)某公司2015—2017年的投訴工單進(jìn)行投訴樣本分析、投訴特征標(biāo)簽提煉、深度學(xué)習(xí)建模、模型學(xué)習(xí)訓(xùn)練、疑似投訴識(shí)別等一系列工作,實(shí)現(xiàn)疑似投訴工單深度學(xué)習(xí)智能識(shí)別與分類。
圖3 總體思路設(shè)計(jì)
投訴特征標(biāo)簽提煉首先是對(duì)歷史投訴樣本工單受理內(nèi)容進(jìn)行DataVec類處理,結(jié)合百度詞庫進(jìn)行分詞,提取投訴特有向量標(biāo)簽詞,再將這些標(biāo)簽詞在原有樣本工單內(nèi)容進(jìn)行系統(tǒng)標(biāo)注,然后將個(gè)別標(biāo)簽詞進(jìn)行重組提煉,最后對(duì)投訴樣本進(jìn)行分詞和去停用詞,從而得到投訴格式化樣本數(shù)據(jù)。具體過程如圖4所示。
圖4 投訴特征標(biāo)簽提煉流程
模型學(xué)習(xí)訓(xùn)練過程的核心內(nèi)容就是解決投訴文本數(shù)值轉(zhuǎn)譯表述,采用向量空間模型。將文本分為若干的特征項(xiàng),通過特定的手段計(jì)算出每個(gè)特征項(xiàng)在該文本中的權(quán)重,進(jìn)而將整個(gè)文本用以特征項(xiàng)的權(quán)重為分量的向量來表示,將文本用特征向量的方式表示為數(shù)學(xué)模型,然后基于投訴樣本向量分組進(jìn)行迭代學(xué)習(xí),具體過程如圖5所示。
通過對(duì)疑似投訴工單識(shí)別模型實(shí)現(xiàn)人工實(shí)時(shí)監(jiān)督再學(xué)習(xí)或者非人工模式下自學(xué)習(xí),同時(shí)通過學(xué)習(xí)訓(xùn)練進(jìn)度窗口展現(xiàn)后臺(tái)對(duì)模型深度學(xué)習(xí)過程與學(xué)習(xí)輸出。
疑似投訴識(shí)別則通過文本相似度判斷進(jìn)行疑似投訴識(shí)別與分類。一旦文檔分詞采用空間向量表述,文本之間的語義相似度就可以通過空間中的這2個(gè)向量間的幾何關(guān)系來度量。經(jīng)過模型訓(xùn)練評(píng)估相似度設(shè)置70%,則投訴識(shí)別準(zhǔn)確率達(dá)到91.5%左右。具體實(shí)現(xiàn)過程如圖6所示,基于上述已學(xué)習(xí)的模型成果對(duì)所有95598來電受理工單進(jìn)行逐一判定識(shí)別。
圖5 模型學(xué)習(xí)訓(xùn)練實(shí)現(xiàn)流程
如表1所示,對(duì)投訴樣本進(jìn)行一級(jí)分類訓(xùn)練測(cè)試,選取2017年7月28日浙江公司國(guó)網(wǎng)下發(fā)3 396張工單進(jìn)行應(yīng)用成果驗(yàn)證。
表1投訴樣本選取數(shù)量件
如表2所示,系統(tǒng)潛在投訴識(shí)別準(zhǔn)確率達(dá)到94.73%。如果將研究成果投入實(shí)際應(yīng)用中,據(jù)不完全統(tǒng)計(jì),以往2~3萬張工單的核查任務(wù),需要6人連續(xù)工作6天,而用了這項(xiàng)成果后只需1人花1 h即可。
圖6 疑似投訴識(shí)別實(shí)現(xiàn)流程
表2 潛在投訴識(shí)別與分類結(jié)果準(zhǔn)確性統(tǒng)計(jì)
通過深度學(xué)習(xí)技術(shù)預(yù)測(cè)未來潛在投訴行為和供電業(yè)務(wù)薄弱點(diǎn),從所有工單中高效地提取客戶訴求價(jià)值,識(shí)別潛在投訴風(fēng)險(xiǎn),提升服務(wù)風(fēng)險(xiǎn)監(jiān)督管控能力,將投訴處理從原來的“事后彌補(bǔ)”變?yōu)椤笆虑翱刂啤?,供電企業(yè)在處理投訴問題時(shí)由被動(dòng)變?yōu)橹鲃?dòng),從而大幅度地降低用戶投訴率,提升電力優(yōu)質(zhì)服務(wù)水平。
[1]洪健山,劉歡.基于電力客戶投訴行為分析的差異化服務(wù)策略研究[J].電力需求側(cè)管理,2015,17(6)∶42-46.
[2]陸家發(fā),張國(guó)明,陳安琪.基于深度學(xué)習(xí)的疾病診斷[J].醫(yī)學(xué)信息學(xué)雜志,2017,38(4)∶39-42.
[3]周文杰,嚴(yán)建峰,楊璐.基于深度學(xué)習(xí)的用戶投訴預(yù)測(cè)模型研究[J].計(jì)算機(jī)應(yīng)用研究,2017,34(5)∶1428-1432.
[4]李倩,趙振宇.淺析如何提升服務(wù)質(zhì)量避免電力客戶投訴率[J].電力訊息,2017(3)∶222-223.
[5]陳亮,王震,王剛.深度學(xué)習(xí)框架下LSTM網(wǎng)絡(luò)在短期電力負(fù)荷預(yù)測(cè)中的應(yīng)用[J].電力信息與通信技術(shù),2017,15(5)∶8-11.
[6]董潔,程鵬,李玲玲.深度學(xué)習(xí)算法在電力系統(tǒng)短期負(fù)荷預(yù)測(cè)中的應(yīng)用[J].自動(dòng)化系統(tǒng),2017(2)∶82-84.
[7]胡俊,擺亮,呂志泉.一種基于深度學(xué)習(xí)的層次化釣魚網(wǎng)站檢測(cè)方法[J].通信技術(shù),2017,50(5)∶1025-1028.
[8]呂淑寶,王明月,翟祥,等.一種深度學(xué)習(xí)的信息文本分類算法[J].哈爾濱理工大學(xué)學(xué)報(bào),2017,22(2)∶105-111.
[9]李濟(jì)漢,陳博.面向電信客戶投訴和建議的智能分析模型[J].現(xiàn)代電信科技,2013(5)∶105-111.
[10]李靜,劉思濤.基于文本挖掘技術(shù)的95598重復(fù)投訴分析[J].消費(fèi)導(dǎo)刊,2016(12)∶277-278.
[11]吳亮,張潮,陳瓊.用電信息系統(tǒng)運(yùn)行數(shù)據(jù)的統(tǒng)計(jì)與分析[J].浙江電力,2017,36(4)∶56-59.
[12]龍厚印,劉衛(wèi)東,黃錦華,等.基于業(yè)擴(kuò)報(bào)裝的月度負(fù)荷預(yù)測(cè)[J].浙江電力,2016,35(12)∶11-14.
[13]丁麒,劉興平.提升客戶滿意度的閉環(huán)問題管理模型分析[J].浙江電力,2016,35(8)∶63-66.
[14]袁偉.95598全業(yè)務(wù)集中后客戶服務(wù)風(fēng)險(xiǎn)分析[J].企業(yè)技術(shù)開發(fā),2016,35(24)∶151-152.
[15]張慧,于珂,杜瑾.客戶投訴業(yè)務(wù)工單的訴求分析[J].電力需求側(cè)管理,2017,19(2)∶57-59.
2017-08-24
羅 欣(1980),女,技師,主要從事95598客戶訴求分析工作。
(本文編輯:張 彩)
Application of Deep Learning in Identification and Classification of Potential Complaints of Electric Power
LUOXin,ZHANGShuang
(State Grid Zhejiang Electric Power Research Institute,Hangzhou 310006,China)
With the uses′increased requirements on power consumption and improved awareness of right,power supply enterprises need to carry out massive customer demands analysis to discover and improve weak points in power supply services.Therefore,the paper puts forward application of potential complaints work sheet identification and classification based on deep learning.By deep learning modeling,complaint character tag abstracting, model learning and training, potential complaints identification and complaint risk warning and management optimization,service loads of frontline workers are greatly reduced.
95598; complaints; text classification; deep learning
10.19585/j.zjdl.201710016
1007-1881(2017)10-0083-04
TP311.521
B