胡 宏
江蘇號(hào)百信息服務(wù)有限公司
通過撥打運(yùn)營(yíng)商特服號(hào)碼進(jìn)行業(yè)務(wù)受理退定、積分兌換、預(yù)約掛號(hào)等業(yè)務(wù)是運(yùn)營(yíng)商給市民提供的便捷線上電話受理服務(wù),這種方式給市民提供了一條直接的溝通渠道。然而在實(shí)際使用中,我們發(fā)現(xiàn)了一些問題,老年客戶群體在使用電話進(jìn)行業(yè)務(wù)辦理時(shí),往往使用不是非常順暢。其焦點(diǎn)問題在于業(yè)務(wù)受理退定、積分兌換、預(yù)約掛號(hào)等業(yè)務(wù)通常需要輸入服務(wù)密碼,老年客戶群體往往記不住自己密碼或不知道服務(wù)密碼是什么,因此在業(yè)務(wù)受理時(shí),話務(wù)員通常要花很多時(shí)間對(duì)老年客戶群體進(jìn)行輔導(dǎo)和確認(rèn),服務(wù)效率大為降低。面對(duì)老年客戶群體,如何在提升服務(wù)質(zhì)量的同時(shí)提高服務(wù)效率,成為擺在運(yùn)營(yíng)商面前的新課題。
近幾年來,智能語音技術(shù)發(fā)展迅速,其中語音識(shí)別、聲紋識(shí)別兩項(xiàng)核心技術(shù)進(jìn)步速度尤為突出。利用語音識(shí)別技術(shù)將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀信息的輸入,在很多人機(jī)交互場(chǎng)景中得到廣泛應(yīng)用。語音識(shí)別技術(shù)在電信運(yùn)營(yíng)商內(nèi)部的應(yīng)用也愈發(fā)廣泛成熟,各大運(yùn)營(yíng)商的客服熱線均使用了此技術(shù),隨著語音識(shí)別率的提升,客戶體驗(yàn)感越來越好。聲紋技術(shù)則是智能語音技術(shù)的另一項(xiàng)重要分支,又稱為說話人識(shí)別,即通過聲音來辨別誰在說話,其核心技術(shù)是根據(jù)語音信號(hào)中說話人的個(gè)性化信息來識(shí)別說話人生物信息。隨著聲紋識(shí)別技術(shù)的大幅進(jìn)步,在電話信道中識(shí)別出說話人是否為本人,已經(jīng)具備可能性。語音識(shí)別技術(shù)和聲紋識(shí)別技術(shù)各有所長(zhǎng),兩者結(jié)合應(yīng)用可以產(chǎn)生很好的作用。
基于運(yùn)營(yíng)商電話語音通道,語音識(shí)別技術(shù)和聲紋識(shí)別技術(shù)可以成為運(yùn)營(yíng)商在適老化服務(wù)領(lǐng)域破題的關(guān)鍵鑰匙。通過建立“智能采集+聲紋識(shí)別+語音識(shí)別”為內(nèi)核的智能適老化語音系統(tǒng),形成智能化適老化服務(wù)體系,提供真正意義上的適老化便捷服務(wù)。
智能適老化語音系統(tǒng)的總體框架如圖1所示。
系統(tǒng)分為3層,分別是話務(wù)接口層、鑒別能力層和應(yīng)用層。話務(wù)接口層主要應(yīng)用運(yùn)營(yíng)商的話務(wù)能力,提供外呼錄音采集和實(shí)時(shí)電話鏡像及提醒服務(wù)。鑒別能力層主要提供了聲紋識(shí)別和語音/語義識(shí)別能力。而綜合管理模塊則提供了數(shù)據(jù)服務(wù)、統(tǒng)計(jì)服務(wù)和其他各項(xiàng)能力。
智能適老化語音系統(tǒng)的運(yùn)轉(zhuǎn)流程如圖2所示,具體流程如下:(1)通過智能語音外呼進(jìn)行錄音預(yù)采集,并通過語音語義識(shí)別輔助判斷音頻有效性,建立客戶錄音庫;(2)轉(zhuǎn)化電話錄音到聲紋特征庫;(3)通話實(shí)時(shí)鏡像采集,啟動(dòng)聲紋實(shí)時(shí)采集并判斷;(4)推送判斷結(jié)果至話務(wù)系統(tǒng),輔助話務(wù)員進(jìn)行鑒權(quán)操作。
圖2 智能適老化語音系統(tǒng)場(chǎng)景實(shí)現(xiàn)
智能適老化語音系統(tǒng)核心模塊為語音語義識(shí)別模塊、聲紋識(shí)別模塊。語音語義識(shí)別模塊采用國(guó)際領(lǐng)先的語音識(shí)別引擎,可根據(jù)智能客服領(lǐng)域常用詞匯構(gòu)建語言模型和聲學(xué)模型,從而將語音識(shí)別為最終對(duì)應(yīng)的文本內(nèi)容。語義理解采用先進(jìn)的語義匹配算法,能夠?qū)崿F(xiàn)機(jī)器人按照既定邏輯進(jìn)行AI交互,簡(jiǎn)潔的圖形化配置UI大大降低了AI配置門檻。
聲紋識(shí)別管理模塊,核心功能模塊包含聲紋采集、聲紋注冊(cè)、聲紋確認(rèn)、聲紋辨認(rèn)等,通過標(biāo)準(zhǔn)服務(wù)輸出能力。利用被動(dòng)與主動(dòng)式聲紋注冊(cè),無感式聲紋識(shí)別,當(dāng)老年客戶群體致電時(shí),系統(tǒng)能夠準(zhǔn)確判斷是否為本人。
智能適老化語音系統(tǒng)實(shí)現(xiàn)的前提條件是對(duì)客戶有效錄音的采集。錄音的采集分為兩個(gè)步驟,第一個(gè)步驟是通過智能語音的方式對(duì)客戶進(jìn)行外呼,獲取客戶聲音文件;第二個(gè)步驟為通過語音語義識(shí)別進(jìn)行輔助判斷,來確定獲取的客戶聲音文件是否是可以有效生成聲紋的文件。
在進(jìn)行智能語音外呼采集前需先進(jìn)行智能語音采集流程的模型建立。通常來講,語音采集需要客戶跟讀3-5段話,每段話盡量簡(jiǎn)單,每段話有效字?jǐn)?shù)盡量長(zhǎng),圖3為示例模板。
圖3 智能適老化語音系統(tǒng)電話匯報(bào)流程圖
智能語音外呼錄音采集的子步驟分為2步:
(1)聲紋采集授權(quán):客戶通過公眾號(hào)、網(wǎng)頁等方式進(jìn)入聲紋注冊(cè)頁面,閱讀聲紋采集說明之后對(duì)聲紋采集行為進(jìn)行客戶授權(quán)。
(2)通話注冊(cè):客戶授權(quán)后,由平臺(tái)發(fā)起聲紋注冊(cè)電話,智能機(jī)器人引導(dǎo)客戶跟讀若干句對(duì)話,后臺(tái)對(duì)對(duì)話進(jìn)行錄音,通話結(jié)束后,客戶的個(gè)人信息和對(duì)話錄音將被綁定映射送往語音語義識(shí)別輔助判斷子模塊進(jìn)行處理。
錄音采集后,進(jìn)入語音語義輔助判斷模塊,如圖4所示。語音語義輔助判斷模塊的主要方法有語音識(shí)別(ASR)輔助篩選、錄音時(shí)長(zhǎng)判斷、語速判斷等等,語音語義識(shí)別輔助判斷主要有以下4個(gè)步驟:
圖4 語音語義識(shí)別輔助判斷流程
(1)源數(shù)據(jù)準(zhǔn)備,在客戶被告知的情況下對(duì)客戶的電話通話錄音進(jìn)行獲取并處理,每位客戶留存一條以客戶的號(hào)碼命名的通話錄音,并且本條通話錄音是只包含客戶對(duì)話聲音的單通道文件,將通話錄音格式轉(zhuǎn)為wav文件。
(2)靜音和底噪切除,對(duì)錄音進(jìn)行靜音檢測(cè)(VAD)操作,去除每段通話錄音中大段的靜音;檢測(cè)錄音中小于閾值且持續(xù)超過一定時(shí)長(zhǎng)的底噪錄音,將該部分切除。接著將去除靜音和底噪的錄音進(jìn)行合并。
(3)時(shí)長(zhǎng)檢測(cè),檢測(cè)去靜音去噪音后的錄音時(shí)長(zhǎng)t_wav,檢測(cè)通話錄音時(shí)長(zhǎng)是否超過閾值τ,保證樣本的長(zhǎng)度,時(shí)長(zhǎng)不滿足需求的直接篩除,時(shí)長(zhǎng)滿足閾值要求則進(jìn)入下一步。
(4)對(duì)上一步篩選的通話錄音進(jìn)行ASR輔助檢測(cè),主要對(duì)錄音的語速和內(nèi)容進(jìn)行檢測(cè)。
通過4個(gè)步驟的錄音則被認(rèn)定為可以做聲紋采集入庫的有效錄音。
想要對(duì)客戶進(jìn)行聲紋鑒權(quán),除了獲取客戶的錄音,還需要三個(gè)模塊,首先是包含客戶注冊(cè)聲紋信息的聲紋庫;其次是需要識(shí)別模型,還需要根據(jù)聲紋樣本對(duì)識(shí)別模型進(jìn)行優(yōu)化迭代訓(xùn)練,保證識(shí)別算法的泛化性;最后是封裝了聲紋識(shí)別模型的身份鑒別模塊。當(dāng)有客戶需要進(jìn)行身份鑒別,根據(jù)客戶映射關(guān)系,調(diào)動(dòng)聲紋庫的相關(guān)聲紋特征,和待鑒別聲紋一起輸入算法,進(jìn)行相似度計(jì)算,然后根據(jù)閾值判定身份,再將結(jié)果同步給前端。因此,根據(jù)功能上的需求,本模塊包括聲紋庫模塊、模型訓(xùn)練優(yōu)化子模塊以及身份鑒別子模塊,如圖5所示。
圖5 聲紋庫及識(shí)別模型構(gòu)建模塊和聲紋身份鑒別模塊
聲紋庫構(gòu)建子模塊主要負(fù)責(zé)注冊(cè)語音以及注冊(cè)信息的映射存儲(chǔ)。當(dāng)收到客戶的注冊(cè)請(qǐng)求并采集到客戶的注冊(cè)語音后,聲紋庫構(gòu)建子模塊將注冊(cè)相關(guān)信息取出,與注冊(cè)錄音映射存儲(chǔ)起來。接著對(duì)獲取的注冊(cè)錄音進(jìn)行處理,獲得聲紋特征之后根據(jù)再映射關(guān)系存入到聲紋庫中,具體操作如圖6所示。
圖6 聲紋庫構(gòu)建子模塊
(1)信息錄入建立映射:客戶通過公眾號(hào)、網(wǎng)頁等注冊(cè)方式提起聲紋注冊(cè)請(qǐng)求之后,客戶的個(gè)人信息以及客戶的注冊(cè)錄音將傳入本模塊,聲紋庫構(gòu)建模塊對(duì)二者構(gòu)建映射,通過身份證等唯一信息標(biāo)識(shí)存儲(chǔ)到聲紋信息庫中。
(2)處理注冊(cè)錄音:注冊(cè)錄音中可能存在靜音、噪聲等干擾段,聲紋處理后臺(tái)首先對(duì)錄音信息進(jìn)行預(yù)處理,去除噪聲、靜音、按鍵音等干擾音,保證錄音的質(zhì)量。
(3)聲紋特征提?。簩?duì)預(yù)處理后的聲音進(jìn)行梅爾倒譜系數(shù)(MFCC)變換和通用背景模型高斯(UBM-GMM)變換,提取成數(shù)字序列,并存入到聲紋庫中。后續(xù)通過身份證或者手機(jī)號(hào)等唯一信息標(biāo)志可以直接取出對(duì)應(yīng)的聲紋進(jìn)行進(jìn)一步的比對(duì)工作。
(4)返回注冊(cè)結(jié)果:將注冊(cè)結(jié)果返回給請(qǐng)求端。
身份鑒別子模塊主要負(fù)責(zé)識(shí)別模型生成和客戶身份鑒別。模型生成主要是采集通話信道的錄音,進(jìn)行聲紋識(shí)別算法迭代訓(xùn)練;來電客戶身份鑒別在通話流程開展,后臺(tái)獲取對(duì)話錄音后自動(dòng)調(diào)用算法進(jìn)行聲紋識(shí)別。得到結(jié)果后異步更新數(shù)據(jù)庫,客服人員后續(xù)可以在前臺(tái)頁面上看見本次通話是否是本人,如果發(fā)現(xiàn)異??梢约皶r(shí)處理,其流程如圖7所示。
圖7 模型訓(xùn)練優(yōu)化子模塊
模型訓(xùn)練優(yōu)化子模塊主要負(fù)責(zé)對(duì)識(shí)別算法的構(gòu)建和迭代優(yōu)化。模型主要針對(duì)聲紋庫中的聲紋特征不斷進(jìn)行迭代訓(xùn)練和優(yōu)化,保證模型的準(zhǔn)確性和泛化性,具體訓(xùn)練優(yōu)化步驟如下所示:
(1)數(shù)據(jù)采集:前期暫無真實(shí)通話數(shù)據(jù)的階段,主要收集公共數(shù)據(jù)集,共計(jì)2000條,來進(jìn)行算法訓(xùn)練,作為基準(zhǔn)訓(xùn)練數(shù)據(jù)(項(xiàng)目開始后用真實(shí)通話錄音進(jìn)行算法迭代),該數(shù)據(jù)的80%用來訓(xùn)練,20%用來測(cè)試。
(2)數(shù)據(jù)預(yù)處理:將每條錄音經(jīng)過靜音檢測(cè)技術(shù)(VAD),獲取去靜音的聲音片段,接著再對(duì)其進(jìn)行去噪、去按鍵音、語音增強(qiáng)等步驟,對(duì)錄音中的有效片段進(jìn)行提取。
(3)訓(xùn)練ubm、ivector:調(diào)整參數(shù),將數(shù)據(jù)送入聲紋模型,迭代訓(xùn)練ubm和ivector,直至算法模型收斂。
(4)模型測(cè)試:用測(cè)試數(shù)據(jù)集對(duì)收斂模型進(jìn)行準(zhǔn)確率測(cè)試,重復(fù)以上步驟直至算法準(zhǔn)確度達(dá)到標(biāo)準(zhǔn)。
(5)模型封裝:將訓(xùn)練好的模型封裝成調(diào)用方法,以便聲紋對(duì)比時(shí)調(diào)用。
身份鑒別子模塊主要負(fù)責(zé)客戶身份鑒別??蛻舻纳矸蓁b別在通話流程開展,后臺(tái)獲取對(duì)話錄音后自動(dòng)調(diào)用算法進(jìn)行聲紋識(shí)別。得到結(jié)果后同步更新數(shù)據(jù)庫,通話流程控制端則根據(jù)反饋的鑒別結(jié)果來控制是否為通話者提供免鑒權(quán)服務(wù),流程如圖8所示。
圖8 身份鑒別子模塊
(1)識(shí)別錄音采集:客戶按照對(duì)話腳本進(jìn)行對(duì)話,在對(duì)話過程中,碰到需要鑒權(quán)的步驟,后臺(tái)主動(dòng)獲取通話的單聲道錄音,并將對(duì)身份鑒別模塊發(fā)起身份識(shí)別請(qǐng)求。
(2)數(shù)據(jù)預(yù)處理:身份鑒別后臺(tái)獲取錄音后對(duì)其進(jìn)行VAD、去按鍵音、降噪等預(yù)處理工作,接著對(duì)聲音進(jìn)行MFCC變換和UBM-GMM變換,初步提取待鑒別聲音特征。
(3)i-vector提?。簩⑻幚砗玫淖?cè)聲音特征信息和待比對(duì)聲音特征信息送入訓(xùn)練好的聲紋模型中,提取i-vector特征。
(4)聲紋識(shí)別:根據(jù)兩段錄音的i-vector信息對(duì)兩段錄音的相似度進(jìn)行plda打分,如果高于閾值則識(shí)別為同一個(gè)人,如果低于閾值則不是同一個(gè)人。
(5)比對(duì)結(jié)果更新:將比對(duì)結(jié)果同步返回給通話流程端,通話流程根據(jù)鑒別結(jié)果來判斷是否為通話者提供免鑒權(quán)服務(wù)。
智能適老化語音系統(tǒng)使用場(chǎng)景為在話務(wù)員和老年客戶通話時(shí),可以給話務(wù)員進(jìn)行是否是本人的鑒權(quán)提示,此功能在通話中應(yīng)是無感知的,因此需要無感地在通話過程中采集客戶的聲音流信息。實(shí)時(shí)電話鏡像并解析的方法是實(shí)現(xiàn)此功能的最佳辦法,其技術(shù)方法步驟如下:
(1)呼叫中心服務(wù)器上聯(lián)交換口鏡像抓包(SIP信令)。當(dāng)話務(wù)員和客戶建立通話時(shí),啟動(dòng)鏡像抓包程序,使用TCPDUMP工具對(duì)信令傳輸網(wǎng)口進(jìn)行全時(shí)段抓包操作,然后對(duì)數(shù)據(jù)包中的SIP信令執(zhí)行過濾、保存操作。
(2)數(shù)據(jù)包解析。對(duì)抓取到的SIP數(shù)據(jù)包進(jìn)行解析,獲取主叫、被叫和時(shí)間戳基本信息、主叫媒體傳輸端口、被叫媒體傳輸端口等信息,保存主被叫實(shí)時(shí)音頻流信息。
(3)與當(dāng)前通話主被叫信息進(jìn)行對(duì)比,并傳送當(dāng)前主叫音頻流(客戶)數(shù)據(jù)送至聲紋識(shí)別模塊。
(4)獲取聲紋對(duì)比結(jié)果,以websocket方式將結(jié)果推送至話務(wù)員界面。
通過以上操作,可以無感地給話務(wù)員推送當(dāng)前客戶身份聲紋鑒權(quán)結(jié)果,方便話務(wù)員進(jìn)行后期操作。
智能適老化語音系統(tǒng)在積分兌換業(yè)務(wù)試點(diǎn)市率先使用,該市積分兌換每日辦理業(yè)務(wù)通話呼入量平均約140通,訓(xùn)練有素的話務(wù)員每班有3人,每日話務(wù)中,老年人來電約占36%,采用智能適老化語音系統(tǒng)作為輔助服務(wù)前后,話務(wù)接通率、人工話務(wù)接聽數(shù)、業(yè)務(wù)完結(jié)率及平均話務(wù)耗時(shí)等參數(shù)變化如表1所示。
表1 采用智能適老化語音系統(tǒng)前后的對(duì)比
智能適老化語音系統(tǒng)結(jié)合電信總機(jī)業(yè)務(wù),為運(yùn)營(yíng)商特服號(hào)碼提供了便利老年人的服務(wù)渠道,疫情期間,線下業(yè)務(wù)辦理受阻,線上業(yè)務(wù)需求增多,在話務(wù)員不足的情況下,智能客服提供了高質(zhì)量的輔助服務(wù),確保增多的話務(wù)量能得到及時(shí)承接,提高了話務(wù)接通率,加快了單項(xiàng)業(yè)務(wù)的辦理速度,減輕了特服號(hào)碼話務(wù)員的工作,方便老年客戶群體在信息化智能服務(wù)中獲得簡(jiǎn)單便捷的輔助服務(wù)。