沈崇德 童思木
目前,各大醫(yī)院的語音服務(wù)主要采用人工方式,用于預(yù)約診療、咨詢查詢及客戶回訪等均需要配置較多的人工座席,常出現(xiàn)信道擁堵等問題。對此,我院研究建立智能語音客戶服務(wù)系統(tǒng),借助現(xiàn)代語音信息技術(shù)發(fā)展的成果進(jìn)行創(chuàng)新研究,提高客戶服務(wù)系統(tǒng)的自動(dòng)化語音服務(wù)能力,讓患者獲得全新的就醫(yī)服務(wù),同時(shí)降低客戶服務(wù)系統(tǒng)運(yùn)行成本[1]。
醫(yī)院智能語音客戶服務(wù)系統(tǒng)是醫(yī)院服務(wù)體系的重要組成,是以高度集成的電子病歷系統(tǒng)和醫(yī)療消息系統(tǒng)為基礎(chǔ),基于語音識(shí)別和語音合成技術(shù)建立起的具備計(jì)算機(jī)自動(dòng)應(yīng)答、自動(dòng)事件處理和多信道并發(fā)的智能人機(jī)交互客戶服務(wù)系統(tǒng)。系統(tǒng)既具備上行語音識(shí)別服務(wù)功能,也具備下行語音主動(dòng)服務(wù)功能。
醫(yī)院智能語音客戶服務(wù)系統(tǒng)借鑒國際先進(jìn)的語音技術(shù)研究成果,應(yīng)用于醫(yī)院客戶語音服務(wù)。系統(tǒng)設(shè)計(jì)上按照綜合類型的服務(wù)系統(tǒng)設(shè)計(jì),選用多種協(xié)議與醫(yī)院其他信息系統(tǒng)連接[2]。采用目前業(yè)界最為流行的模型-視圖-控制器(model view controller,MVC)系統(tǒng)框架,能夠提供良好的松耦合性和易擴(kuò)展性。該系統(tǒng)以高度集成的電子病歷系統(tǒng)和醫(yī)療消息系統(tǒng)為基礎(chǔ),綜合集成了數(shù)據(jù)庫與數(shù)據(jù)倉庫技術(shù)、數(shù)據(jù)挖掘技術(shù)、在線分析處理技術(shù)等技術(shù)成果, 融入現(xiàn)代通訊技術(shù)、互聯(lián)網(wǎng)技術(shù),可以實(shí)現(xiàn)面對客戶的語音識(shí)別和與客戶進(jìn)行智能交流,從而達(dá)到服務(wù)客戶的目的[2-3]。
系統(tǒng)涉及的主要技術(shù)包括語音識(shí)別技術(shù)、語音合成技術(shù)與音頻指紋技術(shù)。語音識(shí)別技術(shù)是讓機(jī)器通過識(shí)別和理解過程使之聽懂人類語言的技術(shù)[4-5]。計(jì)算機(jī)首先對輸入的語音信號(hào)進(jìn)行分析,并抽取所需的特征,建立語音識(shí)別所需的模板[6]。識(shí)別過程將計(jì)算機(jī)中存放的語音模板與輸入的語音信號(hào)的特征進(jìn)行比較,找出一系列最優(yōu)的與輸入的語音匹配的結(jié)果。由于語音的豐富性和復(fù)雜性,語音識(shí)別率始終是技術(shù)的難點(diǎn)[7]。語音合成是將文本信息轉(zhuǎn)化為語音數(shù)據(jù)的技術(shù),又稱文語轉(zhuǎn)換技術(shù)[8]。為了合成出高質(zhì)量的語言,除了依賴語義學(xué)規(guī)則、詞匯規(guī)則和語音學(xué)規(guī)則外,還必須對自然語言有一定的理解能力[9]。文語轉(zhuǎn)換過程是先將文字序列轉(zhuǎn)換成音韻序列,再由系統(tǒng)根據(jù)音韻序列生成語音波形。文語轉(zhuǎn)換系統(tǒng)需要一套復(fù)雜的文字序列到音素序列的轉(zhuǎn)換程序,不僅需應(yīng)用數(shù)字信號(hào)處理技術(shù),而且必須有大量的語言學(xué)知識(shí)的支持。音頻指紋技術(shù)是人類音頻的個(gè)性化特征,類似與指紋一樣[9-10]?;谝纛l指紋,當(dāng)系統(tǒng)重復(fù)聽到客戶的聲音時(shí)可以在語音識(shí)別的基礎(chǔ)上實(shí)現(xiàn)客戶身份的識(shí)別。
服務(wù)系統(tǒng)主要由技術(shù)系統(tǒng)和服務(wù)中心組成。技術(shù)系統(tǒng)除服務(wù)器、客戶端外主要為智能語音軟件;服務(wù)中心主要提供系列客戶服務(wù),其中語音為基本服務(wù)功能,將智能語音服務(wù)稱之為“健康在線”智能語音服務(wù)系統(tǒng)[1]。
智能語音客戶服務(wù)系統(tǒng)軟件與醫(yī)院客戶關(guān)系管理軟件高度集成,采用.net2.0架構(gòu),操作系統(tǒng)采用Windows Server 2003。系統(tǒng)軟件涉及的核心模塊為語音識(shí)別模塊和語音合成模塊。語音識(shí)別模塊包含模型單元和譯碼器2個(gè)主要部分[4-5]。模型單元又可以細(xì)分為聲學(xué)模型、詞匯模型及語言模型。譯碼器對聲波經(jīng)過特征參數(shù)抽取比對[11]。該模塊在智能語音系統(tǒng)中扮演著重要角色,相當(dāng)于給計(jì)算機(jī)系統(tǒng)安裝上“耳朵”,使其具備“能聽”的功能。語音合成模塊解決的主要問題是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,即讓機(jī)器像人一樣“開口說話”[8]。主要為可分為人名合成、話語合成2部分。人名合成時(shí)各種類的音節(jié)從各自發(fā)音位置的數(shù)據(jù)庫中取出,合成所需要的人名[12]。話語合成是在預(yù)設(shè)的話語之中插入變動(dòng)的信息,如日期、科別及醫(yī)生名等等。日期、科別和醫(yī)生名等變動(dòng)信息和固定話術(shù)都可以全部事先預(yù)錄形成模板。
語音客戶賬號(hào)與電子個(gè)人健康檔案一致,使用患者唯一的ID號(hào)。在此基礎(chǔ)上語音賬戶另有一段音頻指紋特征碼,由計(jì)算機(jī)自動(dòng)記錄,用于語音自動(dòng)客戶身份識(shí)別。系統(tǒng)功能包括技術(shù)功能與應(yīng)用功能。
(1)技術(shù)功能包括上行語音識(shí)別、下行語音合成、多信道并發(fā)和管理功能。上行語音識(shí)別,對接入的語音電話自動(dòng)識(shí)別內(nèi)容,并具備普通話和方言識(shí)別功能、性別識(shí)別功能、客戶再次呼入的身份識(shí)別功能、電話換手等待功能等;下行語音合成,能夠以自然語言應(yīng)答呼入內(nèi)容,能夠基于時(shí)間或事件自動(dòng)觸發(fā)、自動(dòng)撥打電話并應(yīng)答,撥打電話能夠核對接聽人身份等,重要事件能轉(zhuǎn)換語氣重復(fù)核對;多信道并發(fā),實(shí)現(xiàn)了能夠同時(shí)接入或撥打數(shù)十門甚至更多電話;管理功能,具備客戶基本信息、服務(wù)信息和語音信息管理功能,統(tǒng)計(jì)分析功能,知識(shí)庫維護(hù)功能等[13]。
(2)應(yīng)用功能包括預(yù)約診療、復(fù)診提醒、其他提醒服務(wù)、危急值報(bào)告、滿意度調(diào)查、查詢咨詢、其他服務(wù)如自動(dòng)催收賬款等。未來可用于居家、慢性病關(guān)懷等服務(wù)領(lǐng)域。
目前,語音信息化領(lǐng)域仍然屬于具有較高技術(shù)壁壘和難度的領(lǐng)域,專家們普遍認(rèn)為,語音技術(shù)將帶來信息產(chǎn)業(yè)界的又一次革命,也將迎來一個(gè)快速發(fā)展期[5,14]。語音客戶服務(wù)系統(tǒng)在其他行業(yè)也有應(yīng)用,但大都通過數(shù)字按鍵輸入來實(shí)現(xiàn)電腦對客戶輸入信息的識(shí)別,只能用于簡單服務(wù),智能化程度很低。
我院于2009年開始研發(fā),在后臺(tái)建立了較為龐大的語音模板庫,進(jìn)行了較長時(shí)間的磨合調(diào)整,于2011年3月正式運(yùn)行。服務(wù)內(nèi)容在開始階段以預(yù)約診療為主,能同時(shí)接聽和應(yīng)答36門電話,極大緩解了語音服務(wù)的瓶頸問題,并實(shí)現(xiàn)24 h服務(wù),服務(wù)效率顯著提高,其功能正進(jìn)行逐步拓展。系統(tǒng)普通話識(shí)別率達(dá)到了98%,處于國際先進(jìn)水平,且客戶沒有與機(jī)器對話的感覺,體驗(yàn)評價(jià)良好。該系統(tǒng)的嘗試應(yīng)用受到醫(yī)護(hù)人員和患者的一致好評,并得到了業(yè)內(nèi)專家的高度評價(jià)。
數(shù)字智能語音客戶服務(wù)系統(tǒng)有如下特點(diǎn):①時(shí)時(shí)在線,能提供24 h全天候自動(dòng)應(yīng)答服務(wù),突破了時(shí)間限制;②多路并發(fā),能在同一時(shí)間為36名甚至更多客戶提供在線語音服務(wù);③自動(dòng)轉(zhuǎn)接,對系統(tǒng)無法聽懂或不能解決的問題,電話將自動(dòng)轉(zhuǎn)入人工接聽服務(wù);④方言識(shí)別和音頻指紋技術(shù)的拓展,系統(tǒng)本身將具備自動(dòng)記憶功能,對第一次通話的客戶,能自動(dòng)辨識(shí),主動(dòng)應(yīng)答。這些優(yōu)勢將以往電話線路擁堵、話務(wù)人員缺乏、無法時(shí)時(shí)在線為患者提供服務(wù)等難題迎刃而解。
本項(xiàng)目實(shí)現(xiàn)了諸多創(chuàng)新:①技術(shù)創(chuàng)新,把先進(jìn)的語音技術(shù)成果應(yīng)用于醫(yī)療行業(yè),通過人機(jī)的智能化交互、多信道并發(fā),提高客戶服務(wù)工作效率;②服務(wù)創(chuàng)新,突破傳統(tǒng)服務(wù)方法的時(shí)空局限,在給予患者提供更多的方便快捷、更好的人文體驗(yàn)的同時(shí),降低了醫(yī)院人工語音服務(wù)帶來的服務(wù)成本;③模式創(chuàng)新,對預(yù)約診療服務(wù)及醫(yī)院客戶服務(wù)模式進(jìn)一步革新。
醫(yī)院客戶服務(wù)體系的建立與完善是醫(yī)院提升服務(wù)水平的必由之路,醫(yī)院智能語音客戶系統(tǒng)是重要的組成部分[15-16]。該系統(tǒng)的建立是將語音技術(shù)方面的研究成果轉(zhuǎn)化為智能語音運(yùn)用的成功實(shí)例,具有智能化程度高、服務(wù)功能強(qiáng)、服務(wù)模式獨(dú)特以及客戶體驗(yàn)逼真等特點(diǎn),在行業(yè)內(nèi)外均具有良好的應(yīng)用前景。
[1]沈崇德,申俊龍.數(shù)字化條件下醫(yī)院客戶服務(wù)體系構(gòu)建的總體構(gòu)想與實(shí)現(xiàn)策略[J].中華醫(yī)院管理,2012,28(5):364-367.
[2]沈崇德.新型客戶服務(wù)系統(tǒng)——“醫(yī)患通”系統(tǒng)的研究與應(yīng)用[J].醫(yī)療衛(wèi)生裝備,2008,29(11):48-50.
[3]沈崇德,王彬夫.醫(yī)院數(shù)字化客戶關(guān)系管理平臺(tái)的研究與應(yīng)用[J].中華醫(yī)院管理,2008,24(12):816-818.
[4]管紅,張帥,類紅樂.語音機(jī)器人的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2011,7(30):7498-7500.
[5]王敏妲.語音識(shí)別技術(shù)的研究與發(fā)展[J].微型機(jī)與應(yīng)用,2009(23):1-6.
[6]呂勇,吳鎮(zhèn)揚(yáng).基于矢量泰勒級(jí)數(shù)的魯棒語音識(shí)別[J].天津大學(xué)學(xué)報(bào),2011,29(3):231-233.
[7]姜瑩,俞一彪.基于語音結(jié)構(gòu)化模型的數(shù)字語音識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(4):1482-1484.
[8]胡郁,凌震華,王仁華.基于聲學(xué)統(tǒng)計(jì)建模的語音合成技術(shù)研究[J].中文信息學(xué)報(bào),2011(6):53-55.
[9]關(guān)耀鏵,申凌,吳云.音頻指紋搜索中數(shù)據(jù)預(yù)處理的改進(jìn)算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(21):145-148.
[10]李偉,李曉強(qiáng),陳芳.數(shù)字音頻指紋技術(shù)綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2008,29(11):2124-2130.
[11]王碩,劉文.并行化語音識(shí)別系統(tǒng)的研究與設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(11):71-73.
[12]朱維彬,呂士楠.基于語義的語音合成——語音合成技術(shù)的現(xiàn)狀及展望[J].北京理工大學(xué)學(xué)報(bào),2008,27(5):36-38.
[13]劉東華.智能語音技術(shù)在12121中的應(yīng)用[J].信息系統(tǒng)工程,2012(2):53-55.
[14]徐冬,陶石,劉雨生.基于語音云的電子病歷研究與實(shí)踐[J].中國數(shù)字醫(yī)學(xué),2012,7(3):26-28.
[15]汪鵬,李剛榮,熊志勇,等.“醫(yī)事通”短信系統(tǒng)在數(shù)字化醫(yī)院中的應(yīng)用[J].中國醫(yī)療設(shè)備,2009,24(1):60-62.
[16]沈崇德.醫(yī)院病房數(shù)字化客戶服務(wù)平臺(tái)的研究應(yīng)用[J].中華醫(yī)院管理雜志,2009,25(4):226-228.