段瑞霞 張海東
摘要:利用語音識別、語義理解、聲紋識別等技術(shù),準(zhǔn)確識別用戶意圖,可以實現(xiàn)語音轉(zhuǎn)文字、智能質(zhì)檢、智能檢索等功能,大大提升工作效率。該文基于呼叫中心的智能語音需求,研究如何搭建語音訓(xùn)練平臺和語音識別系統(tǒng),實現(xiàn)訓(xùn)練模型可復(fù)用、服務(wù)統(tǒng)一、優(yōu)化流程角色、安全運(yùn)行監(jiān)控化,根據(jù)用戶業(yè)務(wù)需求快速開展定制化模型開發(fā),實現(xiàn)對傳統(tǒng)呼叫中心的純?nèi)斯し?wù)向人機(jī)協(xié)作的語音資源利用方式升級,最大化利用語音資源,減少人員投入,提升呼叫中心服務(wù)質(zhì)量。
關(guān)鍵詞:語音識別;訓(xùn)練平臺;智能語音
中圖分類號:TP311? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)15-0094-00
1 概述
1.1 現(xiàn)狀及背景
傳統(tǒng)呼叫中心完全由人工進(jìn)行接聽電話、處理工單,定期由專人進(jìn)行電話錄音檢查,核查有問題錄音,查找問題,每年業(yè)務(wù)量約20萬電話,被抽檢進(jìn)行語音檢查的不足2%??头藛T所需技術(shù)不強(qiáng)、人員工資較低、人員流動較大、經(jīng)驗無法有效傳授,由此造成培訓(xùn)成本增高、不易管理。
智能機(jī)器人全天候工作取代30%的人工客服,智能質(zhì)檢不僅可以使用質(zhì)檢合格的語音不斷進(jìn)行學(xué)習(xí)提升準(zhǔn)確性,而且可以形成知識庫,實現(xiàn)由人工質(zhì)檢向機(jī)器質(zhì)檢過渡,幫助呼叫中心更高效提供服務(wù)。
當(dāng)前大部分語音應(yīng)用系統(tǒng),根據(jù)不同業(yè)務(wù)的需求,各自構(gòu)建陣地,雖然取得了部分成績,但存在“煙囪式”開發(fā),重復(fù)建設(shè),成本高、不易集成,模型研發(fā)缺乏標(biāo)準(zhǔn)指導(dǎo)、參與角色眾多,模型訪問方式各異,調(diào)用關(guān)系錯綜復(fù)雜,缺乏編排優(yōu)化、缺乏協(xié)同、效率有限,缺少統(tǒng)一的模型運(yùn)行、監(jiān)控平臺、服務(wù)管理接口及更新、維護(hù)機(jī)制等問題[1]。
1.2 研究必要性
基于呼叫中心的業(yè)務(wù),將智能語音識別技術(shù)和人工客服相結(jié)合,建設(shè)一套語音識別系統(tǒng),采用人機(jī)協(xié)作模式,可以提供呼叫中心的服務(wù)質(zhì)量和效率,提升用戶體驗。
建設(shè)語音識別系統(tǒng)必不可少的是語音模型訓(xùn)練,進(jìn)行語音模型訓(xùn)練建議搭建一個語音識別訓(xùn)練平臺。語音識別訓(xùn)練平臺可實現(xiàn)人工智能的能力可復(fù)用化、服務(wù)統(tǒng)一化、流程角色優(yōu)化、運(yùn)行監(jiān)控化和資源管控化,根據(jù)業(yè)務(wù)需求快速提供訓(xùn)練模型,實現(xiàn)用戶需求。通過語音識別訓(xùn)練平臺的深度學(xué)習(xí)和加載語音智能分析,提供對語音需求的迅速實現(xiàn)和靈活試錯功能,完成由傳統(tǒng)呼叫中心的純?nèi)斯し?wù)向人機(jī)協(xié)作的語音資源利用方式升級,研究探索服務(wù)電話錄音的精準(zhǔn)感知、問題錄音的主動發(fā)現(xiàn);基于運(yùn)行數(shù)據(jù)積累及數(shù)據(jù)價值與關(guān)聯(lián)應(yīng)用,完成智能質(zhì)檢工作的高效處理,科學(xué)預(yù)警預(yù)測,防患于未然,最大化利用語音資源,為呼叫中心帶來新的工作模式,從而提升企業(yè)的人工智能創(chuàng)新能力。
1.3 研究目標(biāo)
1)挖掘語音深度應(yīng)用
融合當(dāng)前業(yè)內(nèi)成熟可用的語音識別技術(shù),結(jié)合呼叫中心需求,利用語音資源結(jié)合語音分析算法實現(xiàn)對智能質(zhì)檢、智能會議等應(yīng)用落地,形成一套智能語音應(yīng)用解決方案,為其他智能語音項目建設(shè)與應(yīng)用提供指導(dǎo)。
2)拓展傳統(tǒng)客服業(yè)務(wù)能力
通過對原有客服系統(tǒng)、設(shè)備進(jìn)行智能語音賦能,在傳統(tǒng)客服工作上進(jìn)行算法快速迭代,減少人工投入,提升工作效率和用戶體驗,提升企業(yè)的信息化應(yīng)用水平。
1.4 研究內(nèi)容
本文重點(diǎn)研究將人類的聲音信號轉(zhuǎn)化為文字或者指令的語音識別技術(shù),搭建一套語音訓(xùn)練平臺,進(jìn)行相關(guān)語音訓(xùn)練,實現(xiàn)呼叫中心的相關(guān)語音可通過語音識別系統(tǒng)進(jìn)行應(yīng)用和配置。
2 系統(tǒng)架構(gòu)
2.1 整體原則
系統(tǒng)最大限度地滿足呼叫中心在人工智能語音識別方面的需求,充分結(jié)合現(xiàn)有成熟完善的技術(shù),遵循以下四個原則。
1)標(biāo)準(zhǔn)化與一體化原則
嚴(yán)格遵循呼叫中心數(shù)據(jù)管理相關(guān)規(guī)范與標(biāo)準(zhǔn),基于現(xiàn)呼叫中心業(yè)務(wù)系統(tǒng)整體架構(gòu),融合先進(jìn)的語音識別技術(shù),提供標(biāo)準(zhǔn)化應(yīng)用接口,支撐智能會議應(yīng)用、智能客服應(yīng)用、智能調(diào)度應(yīng)用等應(yīng)用場景,與其他人工智能技術(shù)模塊實現(xiàn)一體化設(shè)計原則。
2)可擴(kuò)展性原則
采用通用開發(fā)平臺,提供標(biāo)準(zhǔn)化數(shù)據(jù)接口供其他應(yīng)用系統(tǒng)進(jìn)行集成與二次開發(fā);相關(guān)配套硬件配置支持平滑擴(kuò)展;支持業(yè)務(wù)的靈活重組,提供二次開發(fā)與訓(xùn)練的開放接口。
3)兼顧實用性與先進(jìn)性
充分考慮多種現(xiàn)有成熟的主流技術(shù)的綜合,搭建語音識別訓(xùn)練平臺,結(jié)合呼叫中心實際業(yè)務(wù),找出應(yīng)用效果顯著的業(yè)務(wù)場景,實現(xiàn)業(yè)務(wù)模式升級和服務(wù)優(yōu)化。
4)安全性原則
惡意軟件的入侵、黑客攻擊、個人隱私泄露等信息安全問題較為常見。隨著大數(shù)據(jù)、人工智能等新一代信息技術(shù)的廣泛應(yīng)用,對信息安全提出了新的需求和挑戰(zhàn)。我國政府高度重視信息安全,領(lǐng)導(dǎo)并規(guī)劃了一系列信息化發(fā)展和信息安全的保障措施[2]。呼叫中心有大量客戶數(shù)據(jù)、客戶交互會話等敏感數(shù)據(jù),系統(tǒng)安全性顯得尤為重要。在建設(shè)中充分考慮信息的秘密性、完整性和可用性;在設(shè)備安全、網(wǎng)絡(luò)安全、操作系統(tǒng)安全、數(shù)據(jù)庫安全、行為安全等方面做好相關(guān)措施,確保系統(tǒng)長期穩(wěn)定、安全、可靠、高效地運(yùn)行,業(yè)務(wù)數(shù)據(jù)不會泄露[3]。
2.2? 功能架構(gòu)
總體功能架構(gòu)包括四層,架構(gòu)圖見圖1。
開放接口層:提供C++ SDK / App SDK / Java SDK / Restful等標(biāo)準(zhǔn)接口方式,實現(xiàn)與其他業(yè)務(wù)的集成。
終端接入:支持呼叫中心系統(tǒng)實時話務(wù)8K語音流、麥克風(fēng)/鵝頸麥等硬件拾音設(shè)備實時16K語音流、錄制語音流接入等多種終端接入。
邊緣計算:語音分析服務(wù)器支持對語音進(jìn)行智能分析,訓(xùn)練平臺支持語音采集、標(biāo)注、模型訓(xùn)練和優(yōu)化等。
應(yīng)用展示:基于語音技術(shù)的各種應(yīng)用場景。
2.3? 技術(shù)架構(gòu)
總體技術(shù)架構(gòu)包括五層,滿足企業(yè)在技術(shù)先進(jìn)性、安全性、可擴(kuò)展等要求(如圖2)。
1)基礎(chǔ)支撐:支持GPU、CPU異構(gòu)計算資源池統(tǒng)一部署。
2)素材集:實現(xiàn)呼叫中心語音庫的建立,支持語音數(shù)據(jù)的導(dǎo)入/導(dǎo)出、素材標(biāo)注、素材管理等。
3)模型訓(xùn)練:提供定制化開發(fā)多場景語音識別模型,并根據(jù)使用效果進(jìn)行模型優(yōu)化、模型評估。
4)模型管理:支持模型上傳、模型下發(fā)、模型導(dǎo)出、文件上傳/下載等業(yè)務(wù)功能層。
5)接口:將完成開發(fā)的語音模型進(jìn)行API封裝,通過API網(wǎng)關(guān)層對外提供服務(wù),為上層各類業(yè)務(wù)應(yīng)用提供統(tǒng)一服務(wù)入口;提供在線識別接口等,支持外部命令行接入、SDK工具集等,提升系統(tǒng)的擴(kuò)展性能和服務(wù)管理能力[4]。
3? 語音識別系統(tǒng)設(shè)計及應(yīng)用
3.1? 關(guān)鍵技術(shù)
1)全程建模技術(shù)
在人工智能發(fā)展中,模型是開發(fā)過程中的一個不可缺少的工具。結(jié)合呼叫中心的業(yè)務(wù)需求和技術(shù)現(xiàn)狀,利用語音/聲紋識別及個性化智能模型自主訓(xùn)練等建模技術(shù),構(gòu)建一系列有序的功能模型、信息模型、數(shù)據(jù)模型、控制模型和決策模型等。通過執(zhí)行各個模型來驗證其正確性并確定后續(xù)研究方向,通過全程建模技術(shù)實現(xiàn)將模型轉(zhuǎn)到開發(fā)語言,減少翻譯轉(zhuǎn)換工作[5]。本文設(shè)計采用業(yè)界認(rèn)可的統(tǒng)一建模語言進(jìn)行軟件從業(yè)務(wù)到設(shè)計的全程建模,通過建模保證整個項目的可視化[6]。
2)容器技術(shù)
容器技術(shù)將應(yīng)用進(jìn)行打包,對服務(wù)器部署位置沒有限制,通過一行命令即可完成簡單的服務(wù)部署;再次抽象操作系統(tǒng)的資源,可以快速將打包好的服務(wù)進(jìn)行啟動;將不同服務(wù)封裝在對應(yīng)的容器中,定制化編寫腳本使所有容器按照業(yè)務(wù)需求進(jìn)行相互協(xié)作,實現(xiàn)多業(yè)務(wù)組合;容器的標(biāo)準(zhǔn)化加快交付體驗,允許對工作負(fù)載進(jìn)行遷移,避免局限于單一平臺的供應(yīng)商[7]。
3)異構(gòu)加速計算技術(shù)
由于需要針對大量的訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練,采用異構(gòu)分布式計算,基于 GPU+CPU異構(gòu)計算平臺進(jìn)行優(yōu)化,充分利用 GPU的高性能計算能力,提供高效的大數(shù)據(jù)在線/離線批處理、實時計算、交互式查詢等功能。異構(gòu)計算提供非凡的應(yīng)用程序性能,將應(yīng)用程序計算密集部分轉(zhuǎn)移到 GPU,同時仍由CPU 運(yùn)行其余程序代碼[8]。
4)訓(xùn)練任務(wù)調(diào)度技術(shù)
訓(xùn)練集群存在多租戶、多任務(wù)、多數(shù)據(jù)及多資源的復(fù)雜管理,使用訓(xùn)練任務(wù)調(diào)度的服務(wù)引擎,可以統(tǒng)一調(diào)度維持設(shè)備間IO通信、IP分配,合理協(xié)調(diào)分配訓(xùn)練資源,在任務(wù)釋放資源時及時回收用于新任務(wù)的調(diào)用,實現(xiàn)有效提高資源利用率,降低系統(tǒng)非必要功耗[9]。
3.2? 語音識別系統(tǒng)設(shè)計
語音識別系統(tǒng)包括語音識別前端、素材集和模型訓(xùn)練平臺。
1)語音識別前端
語音識別前端界面,可以是輸入錄制音頻文件進(jìn)行語音識別,也可以是按下麥克風(fēng)按鈕說話或接入呼叫系統(tǒng)進(jìn)行實時語音識別。
2)素材集
對不同業(yè)務(wù)領(lǐng)域的語音素材進(jìn)行收集、管理,包括數(shù)據(jù)的導(dǎo)入導(dǎo)出、數(shù)據(jù)標(biāo)注、數(shù)據(jù)管理等,實現(xiàn)素材數(shù)據(jù)的統(tǒng)一管理和開放共享。
3)模型訓(xùn)練平臺
根據(jù)用戶業(yè)務(wù)需求,定制化進(jìn)行語音識別核心模型開發(fā),如聲學(xué)特征提取模型、聲學(xué)模型、語言模型及語言處理等模型。根據(jù)用戶實際使用情況,對模型識別速度、識別準(zhǔn)確率等進(jìn)行評估,針對準(zhǔn)確性不滿足要求、識別速度慢的模型反饋給模型訓(xùn)練平臺進(jìn)行模型優(yōu)化與訓(xùn)練,提高識別準(zhǔn)確率和速度。
3.3 語音識別系統(tǒng)應(yīng)用
1)會議紀(jì)要智能語音轉(zhuǎn)錄
呼叫中心在會議中,通過語音識別將參會人員發(fā)言轉(zhuǎn)錄成文本,形成完整的會議記錄,減少會議記錄人的工作量。
2)智能語音機(jī)器人
呼叫中心面向用戶提供智能語音交互服務(wù),提供企業(yè)組織架構(gòu)查詢,工單查詢,業(yè)務(wù)流程查詢等智能服務(wù),建立“自動應(yīng)答+人機(jī)協(xié)作”的新模式,提升客戶智能感知,減少人員投入。
3)智能座席
呼叫中心可以給客服專員和管理人員提供智能助手服務(wù),可提供實時流程推薦、實時工程師聯(lián)系方式推薦等服務(wù),提高客服人員工作效率,縮短接聽電話時間。
4)智能語音質(zhì)檢
通過多元化的自定義規(guī)則,對呼叫中心的錄音或?qū)崟r對話內(nèi)容進(jìn)行智能語音分析,幫助呼叫中心快速發(fā)現(xiàn)服務(wù)中的問題,提升服務(wù)質(zhì)量,優(yōu)化服務(wù)策略。
4? 結(jié)束語
語音識別系統(tǒng)以呼叫中心業(yè)務(wù)需求為導(dǎo)向,依托智能語音技術(shù),采用以GPU為核心的異構(gòu)并行計算分布式架構(gòu),基于用戶提供的真實語音數(shù)據(jù),完成模型訓(xùn)練,進(jìn)行大量業(yè)務(wù)應(yīng)用,極大推動語音資源價值挖掘,賦能多樣化業(yè)務(wù)應(yīng)用,實現(xiàn)業(yè)務(wù)模式質(zhì)的改變,助力呼叫中心業(yè)務(wù)運(yùn)行的“安全、順暢、有序”,最大化實現(xiàn)人力資源釋放。
參考文獻(xiàn):
[1] 洪青陽,李琳.語音識別:原理與應(yīng)用[M].北京:電子工業(yè)出版社,2020.
[2] 郭晶,丁西,張小龍.基于微服務(wù)微應(yīng)用架構(gòu)的新一代企業(yè)門戶實現(xiàn)與應(yīng)用[J].電力信息與通信技術(shù),2021,19(2):94-98.
[3] 黃杰.信息系統(tǒng)安全[M].杭州:浙江大學(xué)出版社,2020.
[4] 李斌.企業(yè)信息安全建設(shè)與運(yùn)維指南[M].北京:北京大學(xué)出版社,2021.
[5] 李晨晗,趙志峰.基于容器技術(shù)的數(shù)字版權(quán)管理[J].廣播電視信息,2020(S1):26-28.
[6] 青潤.軟件工程之全程建模實現(xiàn)[M].北京:電子工業(yè)出版社,2004.
[7] 程寧,劉桂蘭.Docker容器技術(shù)與應(yīng)用[M].北京:人民郵電出版社,2020.
[8] [美] 胡文美(Wen-mei W.Hwu) 著,方娟,蔡旻,譯.異構(gòu)系統(tǒng)體系結(jié)構(gòu):原理、模型及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2018.
[9] 李蓀,曾然然,殷治綱.AI智能語音技術(shù)與產(chǎn)業(yè)創(chuàng)新實踐[M].北京:人民郵電出版社,2021.
【通聯(lián)編輯:聞翔軍】