仇建飛
(中國移動通信集團天津有限公司 天津市 300000)
電信運營商通常有各種營銷渠道,在面對一線客戶咨詢或是業(yè)務(wù)營銷推薦時,時常會遇到各種各樣的問題,如業(yè)務(wù)查詢、系統(tǒng)故障、系統(tǒng)異常、投訴問題或是疑難問題,需要快速尋求咨詢和支持,急需支撐營業(yè)一線人員重要運營場景,傳統(tǒng)客服系統(tǒng)應(yīng)運而生。但是傳統(tǒng)客服系統(tǒng)存在些固有問題。
由于運營商的業(yè)務(wù)點細多繁雜,內(nèi)部用戶的輸入具備口語化、多樣化的特性,傳統(tǒng)客服系統(tǒng)面臨“智能應(yīng)答不準、搜索感知差、知識散落未整合、投訴工單質(zhì)量不可控”等痛點。因此急需引入先進的AI 方法,對每條投訴、事件、問題數(shù)據(jù)進行“分析、跟蹤、關(guān)系梳理”,并根據(jù)邏輯關(guān)系進行聚合,打造“面向客戶,敏捷智能”的知識圖譜,提升面向業(yè)務(wù)一線的服務(wù)水平。
本文的課題目標定位于“智能互聯(lián)網(wǎng)支撐一線客服”,旨在利用當前人工智能發(fā)展的重要組成部分知識圖譜技術(shù),來實現(xiàn)傳統(tǒng)業(yè)務(wù)的互聯(lián)網(wǎng)化和智能化發(fā)展,通過知識圖譜等AI 方法手段,來解決過去企業(yè)的知識庫不全,知識點散亂、搜索目的效果不好、智能應(yīng)答不準確、提升投訴工單質(zhì)量、業(yè)務(wù)流轉(zhuǎn)工單質(zhì)量,利用知識圖譜豐富的邏輯、關(guān)系能力提升機器人智能感知,提供一線客服更加人性的應(yīng)答互動體驗。
知識圖譜實際上是一種語義網(wǎng)絡(luò),是基于圖構(gòu)建數(shù)據(jù)結(jié)構(gòu),是語義搜索、智能問答、決策支持等智能服務(wù)的基礎(chǔ)技術(shù)之一。知識圖譜最常用的語義關(guān)系包括:“實體-關(guān)系-實體”,“實體-屬性-屬性值”。知識圖譜采用三元組描述事實, 所使用的描述語言大多是已研發(fā)的本體語言, 如 RDFS、OWL 等。它由兩層結(jié)構(gòu)組成,一部分是data layer 數(shù)據(jù)層,另一部分是schema layer。模式層是一個概念邏輯模型,定義數(shù)據(jù)層規(guī)則和約束條件。在數(shù)據(jù)層,是由基本三元組構(gòu)成一個圖形網(wǎng)狀關(guān)系網(wǎng),其中結(jié)點代表實體(entity)或者概念(concept),邊代表實體(entity)或者概念(concept)之間的各種語義關(guān)系。構(gòu)建知識圖譜是需要從大量開放的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)源中,抽取實體(概念、人、事物)和關(guān)系,經(jīng)過幾個步驟,數(shù)據(jù)清洗、實體識別、關(guān)系識別、數(shù)據(jù)聚合處理等逐步構(gòu)建而成。知識圖譜當前比較常用于語義搜索、智能問答、個性化推薦等幾個領(lǐng)域。
面向企業(yè)客服的B 域數(shù)據(jù)源來自三個方向,首先主要來源是從BOMC 投訴工單系統(tǒng)和在線客服日志獲得的非結(jié)構(gòu)化數(shù)據(jù),稱為業(yè)務(wù)數(shù)據(jù)源;第二個是業(yè)務(wù)新詞和術(shù)語,需要獲得B 域?qū)I(yè)術(shù)語、詞典、操作術(shù)語等等,對非結(jié)構(gòu)化知識進行分析時,需要利用這些數(shù)據(jù)提高語義分析時準確度,稱為基礎(chǔ)數(shù)據(jù)源;第三個來自以原子化知識庫中的固有內(nèi)容,以無監(jiān)督、有監(jiān)督兩種模式自動構(gòu)建面向企業(yè)業(yè)務(wù)服務(wù)的知識圖譜。數(shù)據(jù)來源如圖1 所示。
本次知識圖譜系統(tǒng)是面向運營商B 域場景的知識圖譜自動構(gòu)建,是基于B 域業(yè)務(wù)場景出發(fā),由于企業(yè)業(yè)務(wù)場景知識圖譜屬于特定領(lǐng)域知識圖譜,所涉及的技術(shù)要求,架構(gòu)設(shè)計,問題難點都與通用領(lǐng)域的情況不同。知識圖譜自動構(gòu)建流程方案,是按照模式設(shè)計、數(shù)據(jù)清洗、實體識別、關(guān)系識別、知識融合等流程來進行。
在對數(shù)據(jù)源進行下一步處理之前,要先定義一個Schema,就是知識圖譜的模型設(shè)計,相當于一個領(lǐng)域內(nèi)的數(shù)據(jù)模型,Schema是用來規(guī)范知識圖譜的領(lǐng)域與描述對象,起到管理知識圖譜的作用,我們從B 域業(yè)務(wù)場景的服務(wù)訴求出發(fā),基于現(xiàn)有事件單、BOMC投訴單、異常單數(shù)據(jù),從一線客服實際工作出發(fā)點角度思考,客服人員關(guān)注邏輯點和常問一些問題,比如:工單異常怎么解決?發(fā)票無法打印怎么辦?某個套餐怎么訂購不了呢?等等作為思路,設(shè)計出一套B 域運維領(lǐng)域的知識圖譜Schema,作為圖譜自動抽取的框架進行語義分析。
現(xiàn)階段,我們對于運維域里面的對象,重點關(guān)注B 域故障受理場景,相對比較關(guān)注“故障原因”、“故障內(nèi)容”、“解決方案”的實體,和“導(dǎo)致”、“解決”的關(guān)系,知識圖譜系統(tǒng)設(shè)計成以業(yè)務(wù)垂直領(lǐng)域的場景為應(yīng)用拓展,基于深度學(xué)習(xí)框架為每個場景分配唯一標識機制,以ID 為標識進行數(shù)據(jù)導(dǎo)入、模型訓(xùn)練、能力獲取,不同場景間進行邏輯隔離,確保邏輯模型不沖突,提升解決知識圖譜解決更多一般性查詢和多樣化問題等能力。
來自BOMC 投訴工單、事件單等業(yè)務(wù)數(shù)據(jù)源,以及運營商領(lǐng)域?qū)I(yè)詞典等數(shù)據(jù),這些數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù),存在很多無效、空值、重復(fù)數(shù)據(jù),需要進行數(shù)據(jù)處理,在數(shù)據(jù)處理前,安排初步數(shù)據(jù)提取,為了更有效的抽取各個不同源的數(shù)據(jù)中知識圖譜核心需要的部分內(nèi)容,比如:針對事件單數(shù)據(jù),我們更關(guān)注故障標題、服務(wù)請求類別、處理日志、投訴現(xiàn)象等部分;針對故障周/月報數(shù)據(jù),我們只關(guān)注故障原因部分。
針對運營商領(lǐng)域數(shù)據(jù)集的獲取與標注語料環(huán)境,運營商領(lǐng)域知識圖譜的要求數(shù)據(jù)量相對較小,知識密度相對較大、知識質(zhì)量較高。由于知識實體與關(guān)系的是相對嚴格限定,所以無法使用很多的開放領(lǐng)域?qū)嶓w識別和關(guān)系抽取算法和業(yè)界已有數(shù)據(jù)集。
實體識別是知識圖譜語義分析的關(guān)鍵第一步。將套餐、區(qū)域等實體作為標注數(shù)據(jù)輸入模型進行訓(xùn)練,算法核心邏輯是先通過采用向量空間進行詞句的建模,最大程度的保留詞句的上下文關(guān)系,再通過LSTM 在傳統(tǒng)RNN 的基礎(chǔ)上采用門結(jié)構(gòu),使得模型能夠?qū)W習(xí)到更遠的上下文關(guān)系,最后使用條件隨機場CRF 層來更多識別實體特征,最終得到實體識別模型,根據(jù)模型對海量BOMC 投訴工單數(shù)據(jù)進行實體識別預(yù)測,將自然語言中涉及到的相關(guān)實體提取出來作為關(guān)系理解的目標,如飛享套餐、家庭寬帶、全球通、魔百盒、等業(yè)務(wù)名詞(實體),為下一步知識圖譜構(gòu)建語義網(wǎng)絡(luò)提供實體節(jié)點。
關(guān)系識別是對非結(jié)構(gòu)化文檔處理的重要環(huán)節(jié),自然語言中對事件的描述往往會以多個子句的形式存在,且多句之間具有相關(guān)性,關(guān)系識別需要對投訴工單數(shù)據(jù)的上下文,進行依存句法相關(guān)性分析,從而找出實體間存在哪種關(guān)系,以及關(guān)系周邊的實體分別是什么,例如運維場景中“A 導(dǎo)致B”,“C 的解決方案是D”,面向運維場景的關(guān)系識別是構(gòu)建RDF 三元組的基礎(chǔ)。
知識圖譜在進行知識抽取時所使用的數(shù)據(jù)源是多樣化的, 存在知識重復(fù)、知識間關(guān)系不明確等問題。知識融合可消除實體、關(guān)系、屬性等與事實對象間的歧義, 使不同來源的知識能夠得到規(guī)范化整合。本系統(tǒng)對抽取出的三元組內(nèi)容進行二次分析,將根據(jù)詞性及依存句法抽取出的實體進行聚類,將涉及同類內(nèi)容的實體進行融合,目的是達到運維知識圖譜內(nèi)容在B 域客服領(lǐng)域具備通用性。
知識圖譜的質(zhì)量取決于實體與關(guān)系抽取的準確性,也就是系統(tǒng)自動構(gòu)建的RDF 三元組的質(zhì)量,直接影響客戶感知,決定了智能應(yīng)答質(zhì)量、知識庫檢索效率。本次課題的運維知識圖譜,是由實體提取和關(guān)系識別后產(chǎn)生近5000 個RDF 三元組,存入圖數(shù)據(jù)庫后,增加的知識圖譜可視化顯示功能。
三元組是知識圖譜感知的核心,預(yù)測是否準確,分類是否正確,均取決于構(gòu)建精度。通過歷史投訴數(shù)據(jù)構(gòu)建完畢后,在模型構(gòu)建流程中的增加測試、驗證機制,確保三元組圖數(shù)據(jù)庫質(zhì)量符合要求。模型生產(chǎn)發(fā)布之前,可以調(diào)用測試集數(shù)據(jù)進行測試,確保實體和關(guān)系抽取準確,對遺漏的邏輯進行補充。生產(chǎn)環(huán)境下,新業(yè)務(wù)規(guī)則、新數(shù)據(jù)、新模型構(gòu)建均可能導(dǎo)致圖譜識別不準,通過增加驗證集,不斷驗證生產(chǎn)環(huán)境下元數(shù)據(jù)的質(zhì)量,增強系統(tǒng)運維健壯性。
基于非結(jié)構(gòu)化數(shù)據(jù)進行標注時,需要先根據(jù)圖譜schema 定義標注內(nèi)容。運維知識圖譜中最重要的就是“故障原因”“故障現(xiàn)象”“解決方案”的關(guān)系信息,標注數(shù)據(jù)也是從這三個重要實體著手進行標注?!肮收显颉薄肮收犀F(xiàn)象”“解決方案”的關(guān)系信息是運營重點標注的數(shù)據(jù)對象,力求標注精度,以實現(xiàn)分類準確,降低模型對數(shù)據(jù)量的依賴。
“工單號”“日志”兩列都是經(jīng)過數(shù)據(jù)清洗后的、原始的非結(jié)構(gòu)化數(shù)據(jù);“故障原因”“故障現(xiàn)象”“解決方案”三列,從源數(shù)據(jù)列中抽取到的對應(yīng)故障的描述;“故障原因分類”“故障現(xiàn)象分類”“解決方案分類”三列是對故障對應(yīng)的人工總結(jié)歸類。
人工干預(yù)標注要求準確,每次標注都應(yīng)該保證標注內(nèi)容的準確性,如果模棱兩可或者拿不準的可以不標注,隨機標注時,盡量能覆蓋多種分類,如果同一個類型的問題已經(jīng)標過很多次了,也可以跳過不標。
知識圖譜作為智慧中臺中AI 中臺的重要模塊,通過智能機器人協(xié)同實現(xiàn)智能客服、多輪對話、知識庫、工單處理和服務(wù)預(yù)測功能,當用戶在知識庫中搜索相關(guān)故障時,根據(jù)用戶咨詢問題檢索圖譜實體,將檢索到的實體在圖譜中進行可視化展現(xiàn)。
此次課題本階段以基于一年工單及事件單等近2 萬條數(shù)據(jù)數(shù)據(jù)源,系統(tǒng)目前已抽取出400 多個故障現(xiàn)象,50 多種解決方案,階段性生成5000 多個關(guān)系三元組,存入Neo4j 圖數(shù)據(jù)庫,通過在知識首頁可以查詢構(gòu)建好的知識庫,具體根據(jù)搜索的內(nèi)容去展現(xiàn)的相應(yīng)實體節(jié)點和關(guān)系圖譜。通過多輪次Schema 模型迭代,形成運維知識圖譜的數(shù)據(jù)內(nèi)核和知識心臟。高精度標注工單數(shù)據(jù)持續(xù)更新中。
當一線人員在智能機器人界面中輸入問題時,知識圖譜會根據(jù)用戶的描述進行故障現(xiàn)象分類,進而通過知識圖譜關(guān)系找到當前用戶詢問的問題的解決方案。目前已完成特定內(nèi)容返回,后續(xù)待優(yōu)化模型及匹配邏輯。
本課題從設(shè)計、運維到運營角度,都達到預(yù)期目標,關(guān)于本課題的不足,主要還是集中在圍繞知識圖譜構(gòu)建技術(shù)上,例如,當前運維知識圖譜實體提取的困難,數(shù)據(jù)源信息的不足,需要大量人工標注的問題,實體間關(guān)系的錯綜復(fù)雜,整體故障分類的長尾效應(yīng)等等,遇到很多難題,都需要在接下來的工作中,逐步進行優(yōu)化和提升。
接下來的工作,需要持續(xù)優(yōu)化訓(xùn)練模型,當模型基本穩(wěn)定后,數(shù)據(jù)源由當前的2019 年的業(yè)務(wù)源范圍,擴展到18 年及以前的歷史數(shù)據(jù)范圍,也有可能會加入更多省數(shù)據(jù),來嘗試發(fā)現(xiàn)更多實體及關(guān)系,建立更龐大、更有效的知識圖譜。
在知識圖譜未來自動化模型構(gòu)建的過程中,隨著未來接入數(shù)據(jù)源量增加,業(yè)務(wù)負荷增加,對知識庫檢索效率和智能應(yīng)答質(zhì)量要求會不斷提高,人工標準的工作量會相應(yīng)增加,基于“少量人工標注+大量模型預(yù)測”的原則,打造智能標注,人工負責(zé)邏輯構(gòu)建、少量數(shù)據(jù)標注,為減少人工標注工作量,在環(huán)節(jié)數(shù)據(jù)處理之后,增加預(yù)標注環(huán)節(jié),在進行人工標注前,先使用通用領(lǐng)域命名實體識別標注工具進行數(shù)據(jù)預(yù)標注,針對目前比較常用的命名實體識別工具,比如:thulac 、LTP 、NLP IR 、jieba,后續(xù)將會做一些調(diào)研和比對工作。