李夢(mèng)瑤 向卓元
摘要:隨著人工智能中語(yǔ)音識(shí)別技術(shù)的快速發(fā)展,以及Android手機(jī)的普及,加上中央近期提出“互聯(lián)網(wǎng)+”計(jì)劃,語(yǔ)音與文本及時(shí)、快速、準(zhǔn)確的轉(zhuǎn)換以及信息的即時(shí)傳輸將緩解紙質(zhì)資源浪費(fèi)現(xiàn)狀,突破傳統(tǒng)會(huì)議局限性,提高工作、生活效率。將語(yǔ)音識(shí)別技術(shù)與Android平臺(tái)相結(jié)合,構(gòu)建移動(dòng)全能語(yǔ)音秘書平臺(tái),利用基于線性預(yù)測(cè)特征的語(yǔ)音識(shí)別算法實(shí)現(xiàn)語(yǔ)音模式匹配,提高語(yǔ)音識(shí)別率,實(shí)現(xiàn)工作生活智能化、無(wú)紙化。
關(guān)鍵詞:語(yǔ)音識(shí)別技術(shù);Android;移動(dòng)全能秘書;互聯(lián)網(wǎng)+;線性預(yù)測(cè)特征模型
DOIDOI:10.11907/rjdk.151595
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2015)008012702
0 引言
隨著地球資源的日益減少,加上人們環(huán)境意識(shí)的逐步增強(qiáng),辦公無(wú)紙化、生活無(wú)紙化逐漸得以實(shí)現(xiàn)。當(dāng)前辦公環(huán)境下,會(huì)議記錄需要秘書通過(guò)人工錄入方式將會(huì)議信息錄入電腦中,大大降低了辦事效率,增加了人力成本。并且由于人工輸入速度與語(yǔ)速不成正比,記錄的真實(shí)性也有待提高[1]。鑒于此,本文基于語(yǔ)音識(shí)別技術(shù)設(shè)計(jì)移動(dòng)秘書平臺(tái)。該系統(tǒng)主要功能如下:用戶通過(guò)注冊(cè)擁有自己的賬號(hào),在生活模式下,通過(guò)個(gè)人語(yǔ)音直接錄音以記錄自己的生活瑣事,系統(tǒng)將錄音轉(zhuǎn)換為文本存入本機(jī)中形成備忘錄或者個(gè)人日記;工作模式下,可以通過(guò)系統(tǒng)邀請(qǐng)?jiān)诰€好友進(jìn)行語(yǔ)音會(huì)議,錄音會(huì)及時(shí)轉(zhuǎn)換為文字,做到即時(shí)通信,最終形成完整會(huì)議記錄,并通過(guò)郵件發(fā)送給參會(huì)的每一個(gè)人。
1 語(yǔ)音識(shí)別與即時(shí)通信技術(shù)
1.1 語(yǔ)音識(shí)別——語(yǔ)音轉(zhuǎn)文本
語(yǔ)音識(shí)別即自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),其目標(biāo)是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入內(nèi)容。語(yǔ)音識(shí)別包括語(yǔ)音合成、語(yǔ)音聽寫、語(yǔ)音翻譯[2]。
一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)可大致分為3部分:①語(yǔ)音信號(hào)預(yù)處理與特征提?。虎谀J狡ヅ?;③語(yǔ)言模型與語(yǔ)言處理。
語(yǔ)音轉(zhuǎn)文本通過(guò)語(yǔ)音識(shí)別第一階段得到機(jī)器識(shí)別的內(nèi)容之后再進(jìn)行模型匹配,查找詞典中高頻詞組并進(jìn)行前后語(yǔ)意分析,得出最終轉(zhuǎn)化的文本。
1.2 即時(shí)通信——移動(dòng)會(huì)議室(Android平臺(tái))
移動(dòng)互聯(lián)網(wǎng)成為了人們生活中必不可少的部分,而傳統(tǒng)會(huì)議室對(duì)空間的要求限制了人們的行動(dòng)。會(huì)議移動(dòng)化,與會(huì)者可以通過(guò)智能手機(jī)端在會(huì)前、會(huì)中或者會(huì)后瀏覽會(huì)議相關(guān)文檔,以及會(huì)議時(shí)間、會(huì)議主題、會(huì)議記錄等會(huì)議相關(guān)信息。智能化、標(biāo)準(zhǔn)化、集成化將是辦公會(huì)議系統(tǒng)的發(fā)展趨勢(shì)。
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)即時(shí)通信也在向移動(dòng)化擴(kuò)張,與此同時(shí),Android系統(tǒng)的開放性及其強(qiáng)大的通信功能,以及在手機(jī)和平板電腦等移動(dòng)設(shè)備的普遍應(yīng)用,使得移動(dòng)會(huì)議室能夠得以實(shí)現(xiàn)。
根據(jù)2014Q2中國(guó)智能手機(jī)市場(chǎng)操作系統(tǒng)分布狀況可知,Android市場(chǎng)占有率達(dá)78.6%,ios占比為13.7%,Windows、BlackBerryOS以及其它操作系統(tǒng)占比較小。由此可以看出,Android平臺(tái)市場(chǎng)應(yīng)用廣泛,這為系統(tǒng)的兼容性打下了堅(jiān)實(shí)基礎(chǔ)。
2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
2.1 總體架構(gòu)設(shè)計(jì)
移動(dòng)全能秘書系統(tǒng)總體架構(gòu)設(shè)計(jì)如圖1所示,其采用成熟穩(wěn)定的數(shù)據(jù)庫(kù)設(shè)計(jì)模式:客戶機(jī)/服務(wù)器(Client/Server)模式。客戶機(jī)端為移動(dòng)手機(jī)端,手機(jī)端使用目前最流行的Android操作系統(tǒng),服務(wù)器端使用Windows Server 2003。這種設(shè)計(jì)在當(dāng)前更具有代表性和普遍性。
本系統(tǒng)分前端和后端,系統(tǒng)前端包括客戶端和系統(tǒng)后臺(tái)??蛻舳酥饕鞘謾C(jī)端,這里采用普及最廣的Android系統(tǒng)作為平臺(tái),用于向用戶提供整個(gè)服務(wù)。同時(shí)本系統(tǒng)采用熱門的語(yǔ)音識(shí)別技術(shù),移動(dòng)端和語(yǔ)音云之間采用HTTP協(xié)議交互信息,以提高整個(gè)系統(tǒng)的數(shù)據(jù)傳輸效率,完成各種業(yè)務(wù)需求。平臺(tái)管理員PC端則用于維護(hù)系統(tǒng)信息并完成前臺(tái)信息對(duì)接工作,采用.net框架進(jìn)行開發(fā),用C#實(shí)現(xiàn)。移動(dòng)端和管理員后臺(tái)端,都采用TCP通信協(xié)議,以保障通信的穩(wěn)定與快速。
后端采用Windows+Http+Servlet+sqlsever的組合,首先Http網(wǎng)絡(luò)協(xié)議可提高整個(gè)系統(tǒng)數(shù)據(jù)傳輸效率, sqlsever的開源性和極快的響應(yīng)速度使得系統(tǒng)在成本上能夠得到控制,并且Servlet經(jīng)典的客戶端和服務(wù)器數(shù)據(jù)傳輸模式與json數(shù)據(jù)傳輸類型保證了語(yǔ)音轉(zhuǎn)化為文本數(shù)據(jù)傳輸過(guò)程的完整性,也能夠?qū)崿F(xiàn)更好的用戶體驗(yàn)。后端為平臺(tái)數(shù)據(jù)庫(kù)及Android本地sqlite數(shù)據(jù)庫(kù),會(huì)議記錄保存在后臺(tái)服務(wù)器端,保證了記錄的不可篡改性與安全性。而備忘錄保存在本地則提高了用戶對(duì)系統(tǒng)的體驗(yàn)度,減輕了對(duì)服務(wù)器端數(shù)據(jù)的堆積。整個(gè)后端既能滿足系統(tǒng)所有的業(yè)務(wù)需求,同時(shí)也保證了用戶信息的私有化。前端為Android移動(dòng)端,都采用TCP通信協(xié)議,保障了通信的穩(wěn)定與快速。
圖1 系統(tǒng)總體架構(gòu)設(shè)計(jì)
2.2 Android系統(tǒng)語(yǔ)音識(shí)別設(shè)計(jì)
本系統(tǒng)在個(gè)人語(yǔ)音、在線會(huì)議環(huán)節(jié)利用語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)快速語(yǔ)音錄制及聲音轉(zhuǎn)文本功能??捎檬謾C(jī)代替現(xiàn)有的會(huì)議記錄秘書、個(gè)人日記本、個(gè)人備忘錄,實(shí)現(xiàn)會(huì)議記錄、備忘錄、個(gè)人日記的無(wú)紙化。
在Android平臺(tái)運(yùn)用語(yǔ)音識(shí)別,建立聽寫識(shí)別對(duì)象,創(chuàng)設(shè)聽寫監(jiān)聽,利用信號(hào)處理的方法對(duì)說(shuō)話人語(yǔ)音進(jìn)行檢測(cè)、降噪等預(yù)處理,以便得到最適合識(shí)別引擎處理的語(yǔ)音。將得到的音頻錄制結(jié)果通過(guò)語(yǔ)言云的SDK接口掃描到云端詞庫(kù)進(jìn)行識(shí)別,得到最適合的結(jié)果。語(yǔ)音識(shí)別基本架構(gòu)如圖2所示。
圖2 語(yǔ)音識(shí)別架構(gòu)
3 系統(tǒng)功能設(shè)計(jì)
移動(dòng)全能秘書平臺(tái)是基于語(yǔ)音識(shí)別技術(shù)、即時(shí)通信技術(shù)和Android系統(tǒng)而建立,可解決資源匱乏、信息流通延遲、傳統(tǒng)會(huì)議時(shí)空局限性等問(wèn)題,實(shí)現(xiàn)會(huì)議和生活的高效和“無(wú)紙化”。
系統(tǒng)前端為客戶端,主要分為會(huì)議模式和生活模式。會(huì)議模式下實(shí)現(xiàn)查看在線用戶、組建會(huì)議室、應(yīng)邀進(jìn)入會(huì)議室、語(yǔ)音轉(zhuǎn)文本會(huì)議錄制、結(jié)束會(huì)議并向參會(huì)人發(fā)送會(huì)議記錄、瀏覽會(huì)議記錄等功能。生活模式下實(shí)現(xiàn)個(gè)人備忘錄語(yǔ)音轉(zhuǎn)文本錄制、瀏覽備忘錄等功能。后端為平臺(tái)管理員端,可進(jìn)行會(huì)議記錄管理、用戶管理。其功能結(jié)構(gòu)如圖3所示。
圖3 用戶APP功能
4 語(yǔ)音模式匹配實(shí)現(xiàn)
語(yǔ)音會(huì)議與個(gè)人日記中的關(guān)鍵點(diǎn)在于如何實(shí)現(xiàn)模式匹配,以及如何查詢最高頻的文字,做到模塊匹配。查閱資料發(fā)現(xiàn),線性預(yù)測(cè)編碼(LPC)及動(dòng)態(tài)規(guī)劃技術(shù)算法,能夠很好地解決模板匹配中遇到的模板與待識(shí)別語(yǔ)音時(shí)間長(zhǎng)度不一致的問(wèn)題,可顯著提高識(shí)別率。線性預(yù)測(cè)特征的基本原理是建立在語(yǔ)音的數(shù)字模型基礎(chǔ)上,為估計(jì)數(shù)字模型中的參數(shù),線性預(yù)測(cè)法提供了一種可靠精確的有效方法[3]。
將自回歸信號(hào)模型(AR模型)作為語(yǔ)音信號(hào)處理的常用模型。此時(shí)H(z)可寫為:
H(z)=S(z)[]U(z)=z[]1-p[]i=1aiz-i(1)
語(yǔ)音抽樣信號(hào)s(n)和激勵(lì)信號(hào)之間的關(guān)系可用下列差分方程來(lái)表示:
s(n)=p[]i=1ais(n-i)+Gu(n)(2)
所以預(yù)測(cè)誤差濾波器A(z)和H(z)的逆濾波器,有下式成立:
H(z)=G[]A(z)(3)
H(z)稱為合成濾波器。
線性預(yù)測(cè)誤差濾波相當(dāng)于一個(gè)逆濾波過(guò)程或逆逼近過(guò)程,當(dāng)調(diào)整濾波器A(z)的參數(shù)使輸出e(n)逼近一個(gè)白噪聲序列u(n)時(shí),A(z)和H(z)是等效的,而按最小均方誤差準(zhǔn)則求解線性預(yù)測(cè)系數(shù)正是使輸出e(n)白化的過(guò)程。
通過(guò)語(yǔ)音數(shù)據(jù)采集,集合線性預(yù)測(cè)過(guò)濾誤差聲波,再通過(guò)語(yǔ)音云中有海量中文高頻詞的詞典,查找與模式匹配庫(kù)中相匹配的最高頻的字詞進(jìn)行文本翻譯,為用戶提供準(zhǔn)確率較高的語(yǔ)意翻譯。
5 結(jié)語(yǔ)
本系統(tǒng)所提供的功能可以在很大程度上突破傳統(tǒng)會(huì)議局限,解決文檔保存、紙資源浪費(fèi)、打字困擾等問(wèn)題,用戶借助該軟件可以提高工作效率,其生活也更加便捷。目前,人工智能技術(shù)逐漸滲透到人們的日常生活與工作中,且中央近期提出“互聯(lián)網(wǎng)+”,“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃重點(diǎn)在于促進(jìn)計(jì)算機(jī)信息技術(shù)與生活及其它行業(yè)的融合創(chuàng)新,本系統(tǒng)正好響應(yīng)此計(jì)劃,為人們的工作與生活提供了極大方便。及時(shí)推送與語(yǔ)音識(shí)別技術(shù)的緊密結(jié)合,也將為本系統(tǒng)打開廣闊的應(yīng)用前景。
參考文獻(xiàn):
[1] 倪崇嘉,劉文舉,徐波.漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào),2009(1):112123.
[2] 高新濤,陳乖麗.語(yǔ)音識(shí)別技術(shù)的發(fā)展現(xiàn)狀及應(yīng)用前景[J].甘肅科技縱橫,2007(4):13.
[3] 高翔.計(jì)算機(jī)語(yǔ)音錄入系統(tǒng)中準(zhǔn)確性問(wèn)題的研究[J].自動(dòng)化與儀器儀表,2015(2):103104.
[4] 蔡敏.基于多特征組合優(yōu)化的漢語(yǔ)數(shù)字語(yǔ)音識(shí)別研究[J].電子器件,2013(2):282284.
(責(zé)任編輯:孫 娟)