李晉
【摘要】 手機是我們?nèi)粘I钪凶畛J褂玫墓ぞ咧?,但在通話過程中的語音技術(shù)還沒有相對成熟的解決方案,可智能識別通話過程中涉及的數(shù)字,地點,人名等關(guān)鍵信息,來自動判斷你所需要的信息和安排你的行程,并可應用于語音聊天、視頻通話甚至在語音聊天、視頻聊天中與云端大數(shù)據(jù)整合。
【關(guān)鍵詞】 語音識別 通話 大數(shù)據(jù) 互聯(lián)網(wǎng)
該文主要致力于解決通話中的語音識別技術(shù),長期可推廣至QQ語音聊天等即時聊天軟件中,相較于目前大多數(shù)語音識別軟件需要手動打開更為主動,讓用戶感覺不到軟件的存在,將該技術(shù)深度整合到系統(tǒng)或QQ服務中在通話結(jié)束后針對通話中涉及的電話號碼、地點、時間等關(guān)鍵信息進行信息的推送,大大提高了效率,并對聽力有障礙的人士有更為重要的意義。
一、語音識別基本原理
語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),包括特征提取、模式匹配、參考模式庫等三個基本單元,未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端,首先經(jīng)過預處理,再根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板,然后根據(jù)此模板的定義,通過查表就可以給出計算機的識別結(jié)果。 [1]
二、通話中語音識別技術(shù)
2.1技術(shù)原理:
1、基本架構(gòu):Smartalk通話系統(tǒng)基于“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務,并加以對手機GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對之進行處理和交換。Smartalk架構(gòu)分為4個部分:客戶端、語音視頻服務、語音識別服務、云數(shù)據(jù)處理分析。利用“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務可將用戶在通話中涉及的地點、人名、電話號碼等關(guān)鍵詞提取出來并加以分析對行程和下一步操作提供幫助。
2、基本平臺:本系統(tǒng)基于APIcloud開發(fā),兼容云端和第三方SDK,可跨平臺(Android、IOS、Windows等)使用,采用標準的c++語言實現(xiàn)。
2.2功能實現(xiàn):
1、基于“云之訊”開放平臺的通話系統(tǒng):云之訊融合通訊開放平臺為企業(yè)及個人開發(fā)者提供各種通訊服務,包括在線語音服務、短信服務、視頻服務、會議服務等,開發(fā)者通過嵌入云通訊API在應用中輕松實現(xiàn)各種通訊功能。
2、基于“科大訊飛”開放平臺的語音識別系統(tǒng):。訊飛開放平臺使用戶可通過互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng),使用任何設備方便的介入訊飛開放平臺提供的“聽、說、讀、寫”等全方位的人工智能服務。目前開放平臺向開發(fā)者提供語音合成、語音識別、語音喚醒、語義理解、移動應用分析等多項服務。
3、語音識別與云端大數(shù)據(jù)結(jié)合分析:。利用基于“云之訊”通話系統(tǒng)和“科大訊飛”語音識別系統(tǒng)實現(xiàn)了實時的語音識別,加以云端大數(shù)據(jù)的結(jié)合,和實時的分析用戶當前的需求和問題,及時的跟用戶產(chǎn)生交流反饋,并根據(jù)用戶長期的使用時間分析智能提前推送相關(guān)信息。
2.3未來展望:
基于大數(shù)據(jù)和互聯(lián)網(wǎng)+技術(shù)的日益發(fā)展與完善,并隨著通信傳輸速度的逐漸提高,可在實時的條件下分析與推送更多豐富的內(nèi)容,加以與即時聊天軟件的結(jié)合,將該技術(shù)深度整合到系統(tǒng)或QQ服務中在通話結(jié)束后針對通話中涉及的電話號碼、地點、時間等關(guān)鍵信息進行信息的推送,并對聽力有障礙的人士有更為重要的意義,未來的市場前景廣闊。
三、語音識別技術(shù)應用
3.1 語音指令控制在汽車上的應用:
語音控制人員只需要用嘴說出命令控制字,就可以實現(xiàn)對系統(tǒng)的控制。在汽車上,可用于汽車導航、控制車載設備。如車燈、音響、天窗、座椅、雨刮器等。
3.2語音識別技術(shù)在醫(yī)療系統(tǒng)中的應用:
醫(yī)療語音識別技術(shù),已有廠商開發(fā)了基于云平臺的語音識別系統(tǒng),可直接內(nèi)嵌到醫(yī)院電子病歷系統(tǒng)中,讓醫(yī)生通過語音輸入病人信息,填寫醫(yī)療記錄,下達醫(yī)囑信息。
四、相關(guān)市場調(diào)研
1、國內(nèi)外市場分析:2015年全球智能語音產(chǎn)業(yè)規(guī)模達到61.2億美元,較2014年增長34.2%。其中,中國智能語音產(chǎn)業(yè)規(guī)模達到40.3億元,較2014年增長增長41.0%,遠高于全球語音產(chǎn)業(yè)增長速度預計到2016年,中國語音產(chǎn)業(yè)規(guī)模預計達到59億元。[2]
2、相關(guān)應用發(fā)展:拉斯維加斯消費電子展(CES)上展示的MindMeld。在通話中,如果參與者點擊應用的一個按鈕,那么MindMeld將利用Nuance的語音識別技術(shù),分析此前15至30秒對話。隨后,MindMeld將確定對話中的關(guān)鍵詞,以及其他多個信息來源,查找具有相關(guān)性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]
參 考 文 獻
[1] 吳堅.基于web的salt語音識別技術(shù)應用研究[D].湖北工業(yè)大學, 2006
[2] 武勤.2015中國智能語音產(chǎn)業(yè)發(fā)展白皮書.計算機與網(wǎng)絡2016,42(8)
[3] 能監(jiān)聽語音通話的智能語音助理MindMeld 新浪科技 2013,1