[蔣燕 程浩輝 何丹]
隨著5G網(wǎng)絡(luò)普及發(fā)展,通信網(wǎng)絡(luò)架構(gòu)日趨復(fù)雜化,通信業(yè)務(wù)種類也越來越豐富;同時(shí),隨著各種即時(shí)通信、視頻和游戲等實(shí)時(shí)性要求高的應(yīng)用的普及,用戶對通信網(wǎng)絡(luò)的質(zhì)量要求越來越高,運(yùn)營商面臨的投訴種類也變得多樣化。傳統(tǒng)通過人工進(jìn)行投訴預(yù)處理和分揀的處理方式,難以適應(yīng)問題多樣化、訴求復(fù)雜化的業(yè)務(wù)場景及發(fā)展趨勢的要求。因此,結(jié)合大數(shù)據(jù)、機(jī)器學(xué)習(xí)等技術(shù),通過智能算法實(shí)現(xiàn)投訴的智能分類和處理對提升通信投訴處理效率、增加網(wǎng)絡(luò)用戶滿意度有著重大意義。
通信運(yùn)營商正逐步實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、ICT轉(zhuǎn)型[1],通信投訴處理智能化是大勢所趨[2~4]。目前,針對大數(shù)據(jù)或機(jī)器學(xué)習(xí)算法在投訴處理領(lǐng)域應(yīng)用,已有不少研究與探索,探討了大數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)算法在投訴預(yù)測、分析等方面的可行性[5~10]。文獻(xiàn)[5]提出了基于用戶畫像的標(biāo)簽體系,利用機(jī)器學(xué)習(xí)分類算法反復(fù)迭代實(shí)現(xiàn)投訴問題自動和智能化的定界和定位。文獻(xiàn)[7]利用機(jī)器學(xué)習(xí)中的相關(guān)性分析技術(shù),建立客戶投訴與故障發(fā)生的關(guān)系模型,構(gòu)建基于故障的投訴預(yù)測模型,對潛在的客戶投訴進(jìn)行預(yù)測。文獻(xiàn)[8]提出了一種基于深度學(xué)習(xí)的用戶投訴預(yù)測模型。通過深層網(wǎng)絡(luò)特征學(xué)習(xí)單元從電信用戶原始數(shù)據(jù)中自動學(xué)習(xí)到適合分類器分類的高層非線性組合特征,并將這些高層特征輸入到傳統(tǒng)分類器中來提高模型的精度。文獻(xiàn)[10]建立了一種基于大數(shù)據(jù)技術(shù)的投訴分析與預(yù)測系統(tǒng),基于底層信令的全量分析,可有效定位故障原因,實(shí)施基于歷史投訴樣本庫的投訴預(yù)測,并提前進(jìn)行干預(yù)。
本文結(jié)合投訴處理流程,針對在短時(shí)間內(nèi)難以根據(jù)大量投訴描述文字進(jìn)行準(zhǔn)確分類及派發(fā)的痛點(diǎn),提出了一種基于BERT的通信投訴智能處理方法。該方法針對投訴描述為非結(jié)構(gòu)化長文本的特性,通過數(shù)據(jù)標(biāo)注、模型訓(xùn)練,形成針對投訴文本識別及分類的BERT模型,將該模型應(yīng)用于投訴受理及調(diào)度流程,通過模型輸出結(jié)果實(shí)現(xiàn)投訴智能分類、智能流轉(zhuǎn),達(dá)到提升通信投訴處理效率的效果。
BERT的全稱為Bidirectional Encoder Representation from Transformers,是一個預(yù)訓(xùn)練的語言表征模型,它采用新的掩蓋語言模型MLM(masked language model)訓(xùn)練策略,通過無需標(biāo)注的數(shù)據(jù)預(yù)訓(xùn)練模型,提取語句的雙向上下文特征,在具體任務(wù)上根據(jù)具體數(shù)據(jù)微調(diào)學(xué)習(xí),就能獲得極好的效果[11]。
BERT采用遷移學(xué)習(xí)(Transfer Learning)模式,上游進(jìn)行語言模型的預(yù)訓(xùn)練,下游微調(diào)并應(yīng)用到具體業(yè)務(wù)中。在架構(gòu)上,大量使用遷移模型Transformer編碼器堆疊而成[12],如圖1所示。
圖1 BERT算法模型架構(gòu)
圖1中,嵌入層E提取文本詞向量、段向量和位置向量三個維度的特征進(jìn)入編碼層,Transformer編碼器Tm基于雙向 Transformer 的特殊結(jié)構(gòu)和自注意力(self-attention)機(jī)制,學(xué)習(xí)上下文的語義信息。
BERT 基于獨(dú)特的訓(xùn)練策略來得到預(yù)訓(xùn)練模型:掩蓋預(yù)測MLM和下句預(yù)測NSP(next sentence prediction)。掩蓋預(yù)測訓(xùn)練隨機(jī)遮蔽部分詞,通過未遮蔽掉的詞提供上下文來預(yù)測,使BERT對上下文有著更深刻的感知。下句預(yù)測通過訓(xùn)練使模型學(xué)習(xí)語序,理解語句間的邏輯關(guān)系,使模型能夠預(yù)測句子間在順序上是否有邏輯關(guān)系。通過這樣的訓(xùn)練,模型不僅能學(xué)習(xí)句內(nèi)信息,還能清楚地捕捉到句間邏輯,這種獨(dú)特的學(xué)習(xí)模式使其在問答系統(tǒng)、閱讀理解等問題上有出色的發(fā)揮。
通信投訴類別主要包括上網(wǎng)類、語音類、短信類、國際漫游類、家庭寬帶類以及集團(tuán)客戶類等,種類多、投訴單量大、投訴描述復(fù)雜等因素均制約著人工分類的準(zhǔn)確性,分類不準(zhǔn)確則影響投訴的準(zhǔn)確定界和工單準(zhǔn)確下達(dá)。通過BERT算法對投訴工單內(nèi)容實(shí)現(xiàn)文本語義識別及智能分類,能夠智能快速對投訴進(jìn)行分類,進(jìn)而實(shí)現(xiàn)投訴工單智能定界及流轉(zhuǎn),主要實(shí)現(xiàn)方法如圖2所示。
圖2 基于BERT算法的投訴智能處理方法
工單系統(tǒng)調(diào)用基于BERT的智能處理AI服務(wù),輸入投訴描述信息(非結(jié)構(gòu)化長文本),AI服務(wù)基于BERT算法通過實(shí)體識別、關(guān)鍵語句提取、短文本分類3種下游調(diào)度任務(wù)實(shí)現(xiàn)投訴關(guān)鍵信息提取及智能分類,將算法輸出結(jié)果返回工單系統(tǒng)。工單系統(tǒng)根據(jù)AI服務(wù)返回結(jié)果,調(diào)用投訴定界系統(tǒng)執(zhí)行相應(yīng)類別的定界預(yù)案,獲取預(yù)案輸出結(jié)果。最后,工單系統(tǒng)將無法遠(yuǎn)程解決的投訴工單,根據(jù)投訴類別、升級投訴意向等信息派發(fā)相應(yīng)責(zé)任單位處理。
投訴智能處理AI服務(wù)通過分別構(gòu)建相應(yīng)的BERT模型完成實(shí)體識別、關(guān)鍵語句提取、短文本分類任務(wù),解決非機(jī)構(gòu)化長文本直接分類訓(xùn)練樣本數(shù)量級要求高、分類準(zhǔn)確率低的難題,完成結(jié)構(gòu)化關(guān)鍵信息提取、智能分類的目的。具體實(shí)現(xiàn)過程如圖3所示。
圖3 基于BERT的智能處理AI服務(wù)實(shí)現(xiàn)
圖3中,實(shí)體識別BERT模型主要實(shí)現(xiàn)從投訴文本中識別投訴地址等信息。關(guān)鍵語句提取BERT模型主要實(shí)現(xiàn)從非結(jié)構(gòu)化投訴長文本中提取關(guān)鍵語句內(nèi)容,關(guān)鍵語句包括用戶的投訴問題、升級投訴意向等。最后,短文本分類BERT模型實(shí)現(xiàn)對關(guān)鍵語句提取任務(wù)的輸出結(jié)果進(jìn)行智能分類,輸出投訴類別的判定結(jié)果,三部分下游任務(wù)的輸出形成AI服務(wù)的輸出結(jié)果,如圖4所示。
圖4 基于BERT算法的投訴智能處理AI服務(wù)輸出示例
BERT模型構(gòu)建基于BERT-based-chinese 進(jìn)行數(shù)據(jù)標(biāo)注、模型訓(xùn)練、參數(shù)調(diào)優(yōu)等步驟構(gòu)建。實(shí)體識別BERT模型通過標(biāo)注地址數(shù)據(jù)訓(xùn)練、構(gòu)建;關(guān)鍵語句提取BERT模型以投訴問題為例,采用問答模式進(jìn)行關(guān)鍵語句數(shù)據(jù)標(biāo)注,通過提取不同類別業(yè)務(wù)異常相關(guān)問題對進(jìn)行訓(xùn)練實(shí)現(xiàn)。短文本分類BERT模型通過將關(guān)鍵語句標(biāo)注投訴分類形成訓(xùn)練數(shù)據(jù)構(gòu)建實(shí)現(xiàn)。
數(shù)據(jù)標(biāo)注數(shù)量級使用千條級別,各部分的數(shù)據(jù)標(biāo)注樣例如圖5所示。
圖5 各下游任務(wù)BERT模型數(shù)據(jù)標(biāo)注樣例
模型訓(xùn)練采用pytorch框架實(shí)現(xiàn),模型訓(xùn)練過程如圖6所示。
本文中AI服務(wù)算法模型采用Flask框架部署,構(gòu)建的BERT模型包括3層:編碼層(Encoding Layer)讓機(jī)器分別閱讀問題和文檔,使用編碼器對問題和文檔的每個詞進(jìn)行建模,得到每個單詞的向量表示;匹配層(Matching Layer)利用注意力機(jī)制,將問題中的詞匯與文章中的詞匯進(jìn)行匹配,從而篩選出能夠有效回答問題的信息;預(yù)測層(Prediction Layer)在問題和文檔匹配信息融合的基礎(chǔ)上,利用PointerNetwork找出最可能的答案開始和結(jié)束位置。3層模型如圖7所示。
圖7 BERT應(yīng)用于投訴分類的三層模型
本文的實(shí)驗(yàn)環(huán)境:操作系統(tǒng)為CentOS 7;CPU為Intel(R) Xeon(R) Gold 5118 CPU @ 2.30GHz;
GPU為NVIDIA V100單卡;內(nèi)存為32G;Python版本為3.6.5;PyTorch版本為1.6.0。
本文實(shí)驗(yàn)數(shù)據(jù)均為實(shí)際用戶投訴文本數(shù)據(jù),模型訓(xùn)練數(shù)據(jù)共計(jì)950條,模型驗(yàn)證數(shù)據(jù)7萬條。依據(jù)前文所述數(shù)據(jù)處理方式,對訓(xùn)練數(shù)據(jù)進(jìn)行地址數(shù)據(jù)標(biāo)注、問答關(guān)鍵信息標(biāo)注、分類標(biāo)注,實(shí)現(xiàn)不同類別業(yè)務(wù)異常相關(guān)問題的實(shí)時(shí)分類。實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)如表1所示。
表1 各類投訴數(shù)據(jù)集
本文采用預(yù)訓(xùn)練加下游任務(wù)微調(diào)模式,對標(biāo)注和訓(xùn)練數(shù)據(jù)要求較少、對訓(xùn)練資源和輪次要求較少,僅需2~4輪即可達(dá)到較好效果。
在訓(xùn)練樣本數(shù)量級不超千條、訓(xùn)練輪次為4次的條件下,投訴智能分類準(zhǔn)確率能達(dá)到90%以上,且投訴分類可在1秒內(nèi)自動完成。各類投訴智能分類準(zhǔn)確率如表2所示。
表2 各類投訴智能分類準(zhǔn)確率
通過系統(tǒng)實(shí)際運(yùn)行,該方法能有效提升投訴分類準(zhǔn)確性、提升投訴處理效率。相比該方案部署前,解決人工分類效率低、準(zhǔn)確率不高的問題,投訴分類準(zhǔn)確率從原來人工分類的50%提升至90%以上;解決投訴工單分類不準(zhǔn)無法準(zhǔn)確直達(dá)處理單位問題,大幅減少工單流轉(zhuǎn)及處理時(shí)長,投訴工單處理耗時(shí)從原來人工處理、流轉(zhuǎn)的30分鐘/單下降到5分鐘/單;通過智能提取升級投訴意向,提高相關(guān)投訴工單處理優(yōu)先級,提升用戶滿意度。
本文針對通信投訴處理流程中人工難以在短時(shí)間內(nèi)根據(jù)大量投訴描述文字進(jìn)行投訴準(zhǔn)確分類及投訴工單準(zhǔn)確派發(fā)的痛點(diǎn),提出了一種基于BERT的通信投訴智能處理方法。該方法運(yùn)用BERT模型完成投訴關(guān)鍵信息識別和智能分類,實(shí)現(xiàn)投訴智能定界和工單準(zhǔn)確派送,能有效提升投訴分類準(zhǔn)確性、提升投訴處理效率,同時(shí)自動識別有升級意向投訴提升處理優(yōu)先級。
本文基于BERT的智能投訴處理方法對標(biāo)注數(shù)據(jù)數(shù)量要求較少、對訓(xùn)練資源和輪次要求較少,具有一定的推廣意義,但算法在標(biāo)注數(shù)據(jù)方法及分類準(zhǔn)確率提升上仍存在不少可優(yōu)化之處,接下來將進(jìn)一步研究提升。