王 騰 袁 萍 王 璞 孔令琪 陳新民
1.中國(guó)電信股份有限公司江蘇分公司;2.浙江省公眾信息產(chǎn)業(yè)有限公司
為加快推進(jìn)網(wǎng)絡(luò)強(qiáng)國(guó)、數(shù)字中國(guó)的建設(shè),踐行“以客戶(hù)為中心”的服務(wù)理念,全面實(shí)施云改數(shù)轉(zhuǎn)戰(zhàn)略,通過(guò)對(duì)客戶(hù)投訴行為的分析提煉,了解客戶(hù)的負(fù)面感知,精準(zhǔn)預(yù)警客服熱點(diǎn)問(wèn)題,精確修復(fù)客戶(hù)不滿(mǎn)意因素,全力提升客戶(hù)滿(mǎn)意度,已經(jīng)成為運(yùn)營(yíng)商客戶(hù)服務(wù)的一項(xiàng)重要工作。
投訴是服務(wù)問(wèn)題的重要反饋窗口,一般由話(huà)務(wù)員通過(guò)語(yǔ)音應(yīng)答進(jìn)行處理,而語(yǔ)音記錄具有占用大量存儲(chǔ)空間、難以通過(guò)語(yǔ)義識(shí)別進(jìn)行批量歸類(lèi)與分析的問(wèn)題,導(dǎo)致實(shí)際應(yīng)用中不能通過(guò)全量工單分析來(lái)精準(zhǔn)預(yù)警客服熱點(diǎn)問(wèn)題。隨著語(yǔ)音識(shí)別技術(shù)在客戶(hù)服務(wù)領(lǐng)域的廣泛應(yīng)用,投訴處理錄音轉(zhuǎn)換成了文本形式的投訴辦結(jié)單,解決了工單存儲(chǔ)問(wèn)題,但工單的歸類(lèi)仍然停留在由話(huà)務(wù)員一單一單地進(jìn)行人工處理的階段,具有以下三大不足:(1)受話(huà)務(wù)員業(yè)務(wù)能力、理解能力、責(zé)任心等主客觀因素影響,歸類(lèi)準(zhǔn)確度難以保證;(2)話(huà)務(wù)員手工點(diǎn)選辦結(jié)原因,每單平均額外耗時(shí)約69.8 秒,降低了工單處理效率;(3)語(yǔ)音轉(zhuǎn)換成的文本,在實(shí)際生產(chǎn)工作中沒(méi)有得到充分使用,一定程度上浪費(fèi)資源。
本研究旨在探討建立一套系統(tǒng),利用文本挖掘技術(shù)和機(jī)器學(xué)習(xí)等人工智能的方法,挖掘客戶(hù)投訴熱點(diǎn),對(duì)產(chǎn)品、套餐和營(yíng)銷(xiāo)活動(dòng)進(jìn)行服務(wù)預(yù)警,對(duì)客戶(hù)不滿(mǎn)意因素進(jìn)行精準(zhǔn)派單修復(fù)。
系統(tǒng)設(shè)計(jì)的關(guān)鍵點(diǎn)就是要通過(guò)文本挖掘技術(shù)對(duì)投訴辦結(jié)單的語(yǔ)意進(jìn)行精確識(shí)別、精確歸類(lèi)并最終應(yīng)用于解決客戶(hù)服務(wù)中的熱點(diǎn)問(wèn)題。
首先,要對(duì)投訴辦結(jié)單進(jìn)行智能分詞,并結(jié)合專(zhuān)有名詞、社會(huì)用語(yǔ)形成通用的熱點(diǎn)詞庫(kù),再通過(guò)模型訓(xùn)練將熱點(diǎn)詞庫(kù)轉(zhuǎn)換成規(guī)范的投訴工單六級(jí)分類(lèi),之后,根據(jù)生產(chǎn)應(yīng)用過(guò)程中的實(shí)際情況,通過(guò)設(shè)定預(yù)判規(guī)則,分析形成投訴熱點(diǎn)問(wèn)題,最終將這些熱點(diǎn)問(wèn)題進(jìn)行預(yù)警、派單與統(tǒng)計(jì)。系統(tǒng)總體設(shè)計(jì)如圖1 所示。
圖1 系統(tǒng)流程總體設(shè)計(jì)圖
電信運(yùn)營(yíng)商在運(yùn)營(yíng)過(guò)程中會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)以結(jié)構(gòu)化的形式存儲(chǔ)在各類(lèi)運(yùn)營(yíng)系統(tǒng)的數(shù)據(jù)庫(kù)中。電信投訴工單中也包含著大量的信息,這些信息多為用戶(hù)語(yǔ)言表述,以語(yǔ)音轉(zhuǎn)文本的非結(jié)構(gòu)化形式記錄在投訴處理系統(tǒng)中。要對(duì)投訴工單進(jìn)行準(zhǔn)確分類(lèi)與應(yīng)用,就要結(jié)合結(jié)構(gòu)化數(shù)據(jù)對(duì)非結(jié)構(gòu)化文本進(jìn)行文本挖掘。文本挖掘的過(guò)程,首先要對(duì)文本進(jìn)行分詞,再利用模型反復(fù)訓(xùn)練,形成有效的熱詞庫(kù)。
一是對(duì)知識(shí)庫(kù)系統(tǒng)、BSS 銷(xiāo)售品系統(tǒng)、VSOP 增值業(yè)務(wù)系統(tǒng)等電信運(yùn)營(yíng)系統(tǒng)中的專(zhuān)有名詞進(jìn)行提取,主要包括產(chǎn)品名稱(chēng)、套餐名稱(chēng)、營(yíng)銷(xiāo)活動(dòng)名稱(chēng)等,如5G 暢享融合399 元套餐、橙分期5G 終端讓利/200 元/24 個(gè)月-202009 等。
二是從百度、搜狐、谷歌等搜索引擎中捕獲出適用于電信行業(yè)常用的服務(wù)、行為、心理等社會(huì)用語(yǔ),如AI、5G、區(qū)塊鏈、機(jī)器人、工業(yè)物聯(lián)網(wǎng)、云服務(wù)器、產(chǎn)業(yè)智能化、電信詐騙、AI 反詐、AI 換聲等。
電信專(zhuān)有名詞和社會(huì)用語(yǔ)都屬于結(jié)構(gòu)化詞匯,形式與內(nèi)容一定時(shí)期內(nèi)都相對(duì)固定。
三是對(duì)歷史投訴工單進(jìn)行智能分詞??蛻?hù)的自然表述是非結(jié)構(gòu)化的,其中有方言、有俗稱(chēng)、有俚語(yǔ),甚至還有情緒化表達(dá),這就需要從文本中將詞匯分離出來(lái),再進(jìn)行反復(fù)機(jī)器訓(xùn)練使其成為結(jié)構(gòu)化熱詞。
為了適應(yīng)不同的詞語(yǔ)性質(zhì)在算法中占有的權(quán)重不同,將對(duì)詞庫(kù)進(jìn)行結(jié)構(gòu)化分類(lèi),分為三主四輔。主運(yùn)營(yíng)詞庫(kù):電信專(zhuān)有名詞、同義詞、停用詞。擴(kuò)充詞庫(kù):銷(xiāo)售品名詞、地點(diǎn)名詞、機(jī)構(gòu)名詞、人員名詞。
投訴的分類(lèi)有兩種,一種是按投訴現(xiàn)象進(jìn)行分類(lèi),根據(jù)客戶(hù)描述的現(xiàn)象分類(lèi)后派往相關(guān)單位進(jìn)行處理;一種是按投訴原因進(jìn)行分類(lèi),這是對(duì)處理好的投訴找出具體原因后進(jìn)行的分類(lèi),更有利于促進(jìn)源頭整改。我們要探討的就是這種分類(lèi)。
目前,中國(guó)電信的投訴原因分類(lèi)是六級(jí)2104 條。其中,第一級(jí)投訴分類(lèi)有移動(dòng)業(yè)務(wù)、寬帶業(yè)務(wù)、固話(huà)業(yè)務(wù)、智慧家庭、物聯(lián)網(wǎng)、翼支付、互聯(lián)網(wǎng)及增值業(yè)務(wù)、電子渠道、ICT、用戶(hù)權(quán)益與關(guān)懷、信息安全及專(zhuān)項(xiàng)、5G 業(yè)務(wù)、其他。以第一級(jí)分類(lèi)的5G 業(yè)務(wù)為例,第二級(jí)分類(lèi)有個(gè)人移動(dòng)業(yè)務(wù)、家庭業(yè)務(wù)、政企業(yè)務(wù)。以第二級(jí)分類(lèi)的個(gè)人移動(dòng)業(yè)務(wù)為例,第三級(jí)分類(lèi)有網(wǎng)絡(luò)質(zhì)量、業(yè)務(wù)開(kāi)通/退訂、基本費(fèi)用爭(zhēng)議、增值業(yè)務(wù)費(fèi)用爭(zhēng)議、規(guī)則政策類(lèi)、流量服務(wù)、營(yíng)業(yè)廳/代理商渠道服務(wù)、終端。部分三級(jí)分類(lèi)之后還有四級(jí)、五級(jí)、六級(jí)分類(lèi),不一一詳述。
根據(jù)投訴管控的需要,在系統(tǒng)中建立多維度的分析、預(yù)警和派單功能。從時(shí)間維度可分為日、周、月、季、年等任意周期;從業(yè)務(wù)角度可按照統(tǒng)一的投訴目錄,在移動(dòng)業(yè)務(wù)、寬帶業(yè)務(wù)、固化業(yè)務(wù)、增值業(yè)務(wù)等一級(jí)目錄下,細(xì)分到第6 級(jí)共2104 個(gè)業(yè)務(wù)小類(lèi),為了便于聚類(lèi)分析,日常多用第三級(jí)目錄進(jìn)行監(jiān)控展示和預(yù)警;從地域和單位角度,既可以按照責(zé)任單位分類(lèi)(分公司、省直屬單位/專(zhuān)業(yè)公司、省公司、集團(tuán)公司等),也可以按照用戶(hù)歸屬地分類(lèi)(全省各地市),必要時(shí)還可細(xì)分到區(qū)縣;從投訴關(guān)鍵指標(biāo)角度可分為省內(nèi)投訴、集團(tuán)投訴、省管局申訴、工信部申訴、有效申訴、5G 申訴等。全省相關(guān)部門(mén)和單位均可按需自主多維度查看和查詢(xún)有關(guān)數(shù)據(jù)及其對(duì)應(yīng)的投申訴清單。
系統(tǒng)會(huì)根據(jù)設(shè)定的預(yù)警條件按綠、橙、紅三個(gè)級(jí)別進(jìn)行預(yù)警,并可通過(guò)發(fā)送短信派單到相關(guān)人員,提示需重點(diǎn)關(guān)注,及時(shí)采取有效措施解決問(wèn)題。
文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識(shí)的過(guò)程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息以便將來(lái)參考。首先利用切分技術(shù),抽取文本特征,將文本數(shù)據(jù)轉(zhuǎn)化為能描述文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),然后利用基于leader-follower 算法的文本增量聚類(lèi)技術(shù)、基于邏輯回歸的文本分類(lèi)技術(shù)和關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù),形成結(jié)構(gòu)化文本,并根據(jù)該結(jié)構(gòu)發(fā)現(xiàn)新的概念。
(1)文本挖掘的流程
系統(tǒng)建設(shè)過(guò)程中的文本挖掘過(guò)程由投訴分類(lèi)、模型訓(xùn)練和生產(chǎn)應(yīng)用三個(gè)階段構(gòu)成,如圖2 所示。
圖2 文本挖掘流程圖
(2)投訴分類(lèi)梳理過(guò)程
電信運(yùn)營(yíng)商依托完善的客戶(hù)投訴處理流程積累了大量的數(shù)據(jù),并對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行了結(jié)構(gòu)化數(shù)據(jù)標(biāo)注。依托著電信集團(tuán)的投訴原因分類(lèi),快速便捷地完成算法分類(lèi)標(biāo)簽的設(shè)計(jì)以及人工分類(lèi)樣本的提供。結(jié)合指定規(guī)則進(jìn)行樣本的初步處理,去除無(wú)意義的或分類(lèi)有誤的數(shù)據(jù),形成可以供算法學(xué)習(xí)的訓(xùn)練樣本集。
(3)模型訓(xùn)練的流程
首先,進(jìn)行數(shù)據(jù)的準(zhǔn)備,以投訴六級(jí)分類(lèi)為基礎(chǔ)選取過(guò)去半年內(nèi)有用戶(hù)相關(guān)投訴的891 個(gè)分類(lèi)作為投訴模型的標(biāo)簽。模型訓(xùn)練樣本選用六級(jí)分類(lèi)下的83599 條投訴工單中的80%作為訓(xùn)練集。
其次,進(jìn)行文本的預(yù)處理。中國(guó)電信的投訴原因分類(lèi)涉及2104 個(gè)小類(lèi),業(yè)務(wù)覆蓋十分全面,在這些分類(lèi)中有投訴的熱點(diǎn)分類(lèi),也有投訴量發(fā)生比較少的分類(lèi),從圖3 可知,選取的三個(gè)分類(lèi)的訓(xùn)練樣本的數(shù)量呈現(xiàn)出明顯的分化。
圖3 樣本不平衡示例
類(lèi)不平衡的情況易造成模型無(wú)法正確地判別產(chǎn)生投訴量比較少的分類(lèi)。本課題中,數(shù)據(jù)選擇過(guò)程會(huì)采用smote 算法這種過(guò)采樣技術(shù)來(lái)處理訓(xùn)練樣本在訓(xùn)練集中的類(lèi)別分布不均的情況,解決不同投訴分類(lèi)學(xué)習(xí)樣本差距過(guò)大的問(wèn)題。根據(jù)預(yù)定的分詞過(guò)濾邏輯進(jìn)行文本分詞處理,對(duì)文本進(jìn)行過(guò)濾停用詞,計(jì)算同義詞,提取電信專(zhuān)有名詞等一系列操作。
最后,采用貝葉斯加權(quán)平均算法建立模型,對(duì)處理過(guò)的內(nèi)容進(jìn)行算法的自動(dòng)計(jì)算,特征向量的提取。計(jì)算出詞頻(TF)、逆向文檔頻率(IDF)以及分詞對(duì)各個(gè)分類(lèi)的貢獻(xiàn)度TF-IDF 值。以5G 業(yè)務(wù)為例,其模型分類(lèi)規(guī)則如圖4 所示。
圖4 模型分類(lèi)規(guī)則示例
模型訓(xùn)練結(jié)束后,采用邏輯回歸的思想進(jìn)行分類(lèi)模型的預(yù)測(cè),使用訓(xùn)練集中的未參與訓(xùn)練的20%的數(shù)據(jù)進(jìn)行模型的檢測(cè),以評(píng)估模型訓(xùn)練質(zhì)量。
系統(tǒng)中算法的實(shí)際應(yīng)用場(chǎng)景主要包括模型的使用、模型準(zhǔn)確度測(cè)試以及模型的運(yùn)營(yíng)和優(yōu)化。
模型經(jīng)過(guò)初始的評(píng)估達(dá)到上線(xiàn)標(biāo)準(zhǔn)后,還要經(jīng)過(guò)實(shí)際應(yīng)用場(chǎng)景的測(cè)試。算法模型在客戶(hù)投訴處理的閉環(huán)流程中每日為1300 多個(gè)投訴工單進(jìn)行分類(lèi)自動(dòng)標(biāo)注,一線(xiàn)話(huà)務(wù)員可以對(duì)標(biāo)注錯(cuò)誤的投訴分類(lèi)進(jìn)行人工修改,從而達(dá)到了為一線(xiàn)話(huà)務(wù)員減負(fù)、提升運(yùn)營(yíng)效能的目標(biāo)。同時(shí)這些新的業(yè)務(wù)數(shù)據(jù)為算法的自動(dòng)學(xué)習(xí)提供了新的學(xué)習(xí)語(yǔ)料,為算法模型提供了基礎(chǔ)的優(yōu)化運(yùn)營(yíng)。
良好的技術(shù)應(yīng)用離不開(kāi)完善的運(yùn)營(yíng)策略,系統(tǒng)在算法模型的優(yōu)化運(yùn)營(yíng)上做了相關(guān)的研究。算法模型運(yùn)營(yíng)初期,算法的準(zhǔn)確率維持在50%左右,經(jīng)過(guò)一系列的運(yùn)營(yíng)優(yōu)化過(guò)后達(dá)到了80%以上的標(biāo)注準(zhǔn)確率,在每日出現(xiàn)頻次超過(guò)10 次的分類(lèi)條件下,準(zhǔn)確率達(dá)到了每日保持在90%以上的效果。模型的優(yōu)化過(guò)程如表1 所示。
表1 模型優(yōu)化流程圖
本系統(tǒng)通過(guò)文本挖掘模型,實(shí)現(xiàn)了客戶(hù)投訴工單中的非結(jié)構(gòu)化數(shù)據(jù)文本的自動(dòng)分類(lèi),并應(yīng)用于投訴熱點(diǎn)分析、預(yù)警與派單。為進(jìn)一步提升模型準(zhǔn)確率,還可以從樣本、工具和算法3 個(gè)方面對(duì)模型進(jìn)行不斷優(yōu)化,運(yùn)營(yíng)商也可以建立一套有效的運(yùn)營(yíng)機(jī)制,加強(qiáng)工單錯(cuò)誤分類(lèi)的人工分析力度,不斷調(diào)整,實(shí)現(xiàn)更高水平的人工智能,更好地服務(wù)客戶(hù)。