通話中的語音識別技術(shù)

2017-01-06 13:55:48李晉

中國新通信 2016年21期

李晉

【摘要】手機是我們?nèi)粘Ｉ钪凶畛Ｊ褂玫墓ぞ咧?，但在通話過程中的語音技術(shù)還沒有相對成熟的解決方案，可智能識別通話過程中涉及的數(shù)字，地點，人名等關(guān)鍵信息，來自動判斷你所需要的信息和安排你的行程，并可應用于語音聊天、視頻通話甚至在語音聊天、視頻聊天中與云端大數(shù)據(jù)整合。

【關(guān)鍵詞】語音識別通話大數(shù)據(jù) 互聯(lián)網(wǎng)

該文主要致力于解決通話中的語音識別技術(shù)，長期可推廣至QQ語音聊天等即時聊天軟件中，相較于目前大多數(shù)語音識別軟件需要手動打開更為主動，讓用戶感覺不到軟件的存在，將該技術(shù)深度整合到系統(tǒng)或QQ服務中在通話結(jié)束后針對通話中涉及的電話號碼、地點、時間等關(guān)鍵信息進行信息的推送，大大提高了效率，并對聽力有障礙的人士有更為重要的意義。

一、語音識別基本原理

語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng)，包括特征提取、模式匹配、參考模式庫等三個基本單元，未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端，首先經(jīng)過預處理，再根據(jù)人的語音特點建立語音模型，對輸入的語音信號進行分析，并抽取所需的特征，在此基礎上建立語音識別所需的模板，然后根據(jù)此模板的定義，通過查表就可以給出計算機的識別結(jié)果。 [1]

二、通話中語音識別技術(shù)

2.1技術(shù)原理：

1、基本架構(gòu)：Smartalk通話系統(tǒng)基于“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務，并加以對手機GPS位置、通訊錄、社交軟件信息的分析，在“云”的輔助下對之進行處理和交換。Smartalk架構(gòu)分為4個部分：客戶端、語音視頻服務、語音識別服務、云數(shù)據(jù)處理分析。利用“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務可將用戶在通話中涉及的地點、人名、電話號碼等關(guān)鍵詞提取出來并加以分析對行程和下一步操作提供幫助。

2、基本平臺：本系統(tǒng)基于APIcloud開發(fā)，兼容云端和第三方SDK，可跨平臺（Android、IOS、Windows等）使用，采用標準的c++語言實現(xiàn)。

2.2功能實現(xiàn)：

1、基于“云之訊”開放平臺的通話系統(tǒng)：云之訊融合通訊開放平臺為企業(yè)及個人開發(fā)者提供各種通訊服務，包括在線語音服務、短信服務、視頻服務、會議服務等，開發(fā)者通過嵌入云通訊API在應用中輕松實現(xiàn)各種通訊功能。

2、基于“科大訊飛”開放平臺的語音識別系統(tǒng)：。訊飛開放平臺使用戶可通過互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)，使用任何設備方便的介入訊飛開放平臺提供的“聽、說、讀、寫”等全方位的人工智能服務。目前開放平臺向開發(fā)者提供語音合成、語音識別、語音喚醒、語義理解、移動應用分析等多項服務。

3、語音識別與云端大數(shù)據(jù)結(jié)合分析：。利用基于“云之訊”通話系統(tǒng)和“科大訊飛”語音識別系統(tǒng)實現(xiàn)了實時的語音識別，加以云端大數(shù)據(jù)的結(jié)合，和實時的分析用戶當前的需求和問題，及時的跟用戶產(chǎn)生交流反饋，并根據(jù)用戶長期的使用時間分析智能提前推送相關(guān)信息。

2.3未來展望：

基于大數(shù)據(jù)和互聯(lián)網(wǎng)+技術(shù)的日益發(fā)展與完善，并隨著通信傳輸速度的逐漸提高，可在實時的條件下分析與推送更多豐富的內(nèi)容，加以與即時聊天軟件的結(jié)合，將該技術(shù)深度整合到系統(tǒng)或QQ服務中在通話結(jié)束后針對通話中涉及的電話號碼、地點、時間等關(guān)鍵信息進行信息的推送，并對聽力有障礙的人士有更為重要的意義，未來的市場前景廣闊。

三、語音識別技術(shù)應用

3.1 語音指令控制在汽車上的應用：

語音控制人員只需要用嘴說出命令控制字，就可以實現(xiàn)對系統(tǒng)的控制。在汽車上，可用于汽車導航、控制車載設備。如車燈、音響、天窗、座椅、雨刮器等。

3.2語音識別技術(shù)在醫(yī)療系統(tǒng)中的應用：

醫(yī)療語音識別技術(shù)，已有廠商開發(fā)了基于云平臺的語音識別系統(tǒng)，可直接內(nèi)嵌到醫(yī)院電子病歷系統(tǒng)中，讓醫(yī)生通過語音輸入病人信息，填寫醫(yī)療記錄，下達醫(yī)囑信息。

四、相關(guān)市場調(diào)研

1、國內(nèi)外市場分析：2015年全球智能語音產(chǎn)業(yè)規(guī)模達到61.2億美元，較2014年增長34.2%。其中，中國智能語音產(chǎn)業(yè)規(guī)模達到40.3億元，較2014年增長增長41.0%，遠高于全球語音產(chǎn)業(yè)增長速度預計到2016年，中國語音產(chǎn)業(yè)規(guī)模預計達到59億元。[2]

2、相關(guān)應用發(fā)展：拉斯維加斯消費電子展（CES）上展示的MindMeld。在通話中，如果參與者點擊應用的一個按鈕，那么MindMeld將利用Nuance的語音識別技術(shù)，分析此前15至30秒對話。隨后，MindMeld將確定對話中的關(guān)鍵詞，以及其他多個信息來源，查找具有相關(guān)性的信息，并在屏幕上向用戶提供圖片和鏈接地址。[3]

參考文獻

[1] 吳堅.基于web的salt語音識別技術(shù)應用研究[D].湖北工業(yè)大學， 2006

[2] 武勤.2015中國智能語音產(chǎn)業(yè)發(fā)展白皮書.計算機與網(wǎng)絡2016，42（8）

[3] 能監(jiān)聽語音通話的智能語音助理MindMeld 新浪科技 2013，1

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

通話中的語音識別技術(shù)