牛洪波 王婉君 劉華楠
摘要:語音識別作為一種輸入手段,應用范圍越來越廣,從手機輸入到車輛遠程控制都會使用語音識別。本文通過對語音識別相關的專利數(shù)據(jù)進行統(tǒng)計分析,梳理了語音識別相關技術成果,對申請量、主要申請人、關鍵專利技術進行了分析,以期為該領域的相關研究提供建議。
關鍵詞:語音識別;關鍵技術;專利分析
中圖分類號:TN912.34 文獻標識碼:A 文章編號:1003-5168(2019)24-0059-03
Overview of Patent Technology for Speech Recognition
NIU Hongbo? WANG Wanjun? LIU Huanan
(Patent Examination Cooperation Henan Center of the Patent Office,CNIPA,Zhengzhou Henan 450018)
Abstract: Speech recognition, as an input method, has been applied widely, eg, mobile phone input,vehicle remote control. Based on the statistical analysis of patent data related to speech recognition, this paper reviews the achievements of speech recognition technology from different perspectives, and analyses the application volume, main applicants and key patent technologies.
Key words: speech recognition; key technology; patent analysis
1 語音識別技術概述
語音識別是利用計算機識別人們所說的自然語言。由于方言、說話習慣的影響,高效、正確的識別語音是各個公司、高校研究的重點。1952年AT&T貝爾實驗室開發(fā)出來世界上第一個語音識別系統(tǒng)Audrey,雖然這個系統(tǒng)只能識別10個英文數(shù)字,但是它開啟了語音識別的先河;到了80年代,隱馬爾可夫鏈(HMM)以及人工神經(jīng)網(wǎng)絡(ANN)的引入,使得語音識別的準確性和效率有了大幅提升[1-2]。
現(xiàn)在我們身邊都有很多語音識別的應用,相比于其他輸入方式,語音識別可以解放人們的雙手,提高輸入效率,廣泛應用在汽車駕駛、家電控制、手機輸入等。經(jīng)過幾十年的發(fā)展,全球范圍內(nèi)有大量語音識別的專利申請。本文對語音識別相關專利申請進行分析,梳理其發(fā)展脈絡、發(fā)現(xiàn)重要申請人的專利布局,以期為相關研究奠定基礎。
2 語音識別技術專利申請現(xiàn)狀
2.1 國內(nèi)外申請量趨勢以及主要分布區(qū)域
本文在DWPI數(shù)據(jù)庫中利用語音識別關鍵詞以及分類號進行檢索,以檢索得到截止到2018年9月公開的專利文獻為樣本,分析了語音識別的年申請量、分布區(qū)域、主要申請人,并在CNABS中針對國內(nèi)的申請人進行了分析。
圖1示出了語音識別在全球和中國申請量的趨勢,全球的申請量從1993年開始明顯增長,2001年已經(jīng)到達1200多件,雖然由于2008年金融危機的影響,2008、2009年申請量有所下降,但是此后,繼續(xù)保持增長的勢頭。
國內(nèi)的申請最早起步于1985年,是由清華大學申請的公開號為CN85100083A、發(fā)明名稱為“一種語音特征的提取和識別方法”的申請。此后幾年,申請量維持在個位數(shù)。從2009年開始,國內(nèi)申請有了顯著增加,2017年申請量已經(jīng)達到913件,占到全球申請量的65.6%,這和國內(nèi)互聯(lián)網(wǎng)的發(fā)展趨勢相吻合。
圖2示出了語音識別全球申請分布情況。研究語音識別的公司主要分布在美國,包括谷歌、IBM、微軟在內(nèi)的科技公司以及美國的科研院所申請了大量專利,到目前為止,語音識別相關的專利在美國的申請量位居世界首位。此外,日本的申請量也比較大,重要的申請人有索尼、松下等。檢索發(fā)現(xiàn),這些公司不僅在日本布局專利,還通過PCT或巴黎公約的方式向美國、歐洲以及中國提交了相關申請,積極利用專利布局海外市場。在語音識別發(fā)展前期,國內(nèi)的申請量較少,但是隨著我國國力以及創(chuàng)新能力的發(fā)展,近年來,中國的專利申請量有了明顯提升,2017年的申請量已經(jīng)是2001年的近8倍,已經(jīng)達到了900多件。
2.2 國內(nèi)外主要申請人
對語音識別技術相關的專利申請人進行統(tǒng)計分析,在全球范圍內(nèi),申請量最多的前十位如圖3所示。這些申請人集中在專業(yè)公司以及大型公司。例如,Nuance作為專業(yè)的語音識別研發(fā)公司,投入了大量的研發(fā)力量,研發(fā)了目前世界最先進的語音識別軟件。此外,國外的主要申請人還有微軟、NEC、松下、索尼、三菱、佳能、三星、西門子以及IBM等。
國內(nèi)申請人主要有百度、聯(lián)想、科大訊飛、上海能感物聯(lián)網(wǎng)、中興、騰訊、歐珀、樂視等,其申請的專利大多和自己的業(yè)務相關,例如CN101441869A是聯(lián)想在2007年申請的利用語音驗證用戶身份進而實現(xiàn)開關機,CN102385619A是百度在2011年申請的以語音識別為基礎的信息搜索。
3 語音識別關鍵技術及專利
最初是利用與模板匹配進行語音識別,但是當語料太多時,不僅處理速度開始下降,而且準確率也達不到預期效果?;谀0宓淖R別方式雖然在短時間內(nèi)對語音識別有了突破,但是眾多缺點限制了其應用的發(fā)展。鑒于基于模板的識別方法缺陷顯著,人們開始從其他角度進行突破,AT&T貝爾實驗室將馬爾科夫鏈應用到了語音識別,而且隨著訓練樣本的增加,語音識別的準確度有了大幅提升。目前使用較多也最為有效的語音識別技術主要有基于時間規(guī)整的語音識別技術、基于隱馬爾科夫的語音識別技術以及基于人工神經(jīng)網(wǎng)絡的語音識別技術。
3.1 基于時間規(guī)整的語音識別技術(DTW)
時間規(guī)整的語音識別技術最早由來自RCA實驗室的Martin在20世紀60年代提出。后來,來自蘇聯(lián)的Vintsyuk進一步提出了采用動態(tài)規(guī)劃實現(xiàn)動態(tài)時間規(guī)整的方法。動態(tài)時間規(guī)整通常用于識別單獨的詞,一般聯(lián)合小量詞匯表使用。動態(tài)時間規(guī)整的原理是提取語音的特征矢量,通過歐幾里得距離計算和參考模板的距離,顯然,距離越近越有可能是用戶真實的語音。早期基于動態(tài)時間規(guī)整的語音識別專利申請有US4918733A、US5073939A等,現(xiàn)在基于動態(tài)時間規(guī)整的語音識別技術發(fā)展相對成熟。目前的研究主要集中在將動態(tài)時間規(guī)整和其他語言識別技術整合,例如高通公司申請的US2002143540A,該申請將時間規(guī)整和隱馬爾科夫模型結合,提供了一種語音識別精確度更高的方案。
3.2 基于隱馬爾科夫鏈的語音識別技術(HMM)
1982年AT&T貝爾實驗室申請了基于馬爾科夫鏈的語音識別專利US4587670A,并以此專利為基礎,陸續(xù)申請了語音識別相關的其他專利,如US5946656A、US5963906A。隨著隱含馬爾可夫鏈在人工智能等領域的應用,出現(xiàn)了很多以改進隱含馬爾可夫鏈為基礎的語音識別專利申請,例如為了克服由于噪聲變化導致語音識別精確度低的問題,JP2004279466A提出了一種根據(jù)噪聲選擇最優(yōu)語音識別模型的自適應語音識別系統(tǒng)。隱馬爾科夫模型是現(xiàn)在語音識別系統(tǒng)的基礎,主流語音識別系統(tǒng)基本都是基于隱馬爾科夫模型的,例如GMM-HMM、DNN-HMM。
3.3 基于人工神經(jīng)網(wǎng)絡的語音識別技術(ANN)
神經(jīng)網(wǎng)絡在語音識別中的研究應用起始于20世紀80年代,利用人工神經(jīng)網(wǎng)絡建立的語音識別模型,除了對輸入信號的改進外,更多的是對神經(jīng)網(wǎng)絡的學習過程的改善,例如JPH0962644A是對學習過程的改進。基于神經(jīng)網(wǎng)絡的語音識別技術起步相對基于時間規(guī)整和馬爾科夫鏈的語音識別技術較晚,但是發(fā)展迅速,在最近幾年的申請量已經(jīng)超過基于隱馬爾科夫鏈的語音識別的申請量。由于神經(jīng)網(wǎng)絡在語音識別中突出表現(xiàn),后來人們又將卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)以及深度神經(jīng)網(wǎng)絡(DNN)應用在了語音識別,例如US2018166067A1、CN107993651A等。
4 結語
語音識別正在逐步改變我們的生活,隨著人工智能的發(fā)展,語音識別在未來也會發(fā)揮更加重要的作用。本文從申請量、主要申請人以及關鍵專利等角度,對語音識別方面的專利進行了梳理,現(xiàn)在的專利申請主要集中在語音識別在各領域的應用,特別是隨著物聯(lián)網(wǎng)、車聯(lián)網(wǎng)的發(fā)展,出現(xiàn)了很多通過語音控制設備的申請。語音識別已經(jīng)逐步成熟,但是語音識別還面臨著諸如模糊音的識別、噪聲干擾、說話者感情識別以及方言識別等問題,相關企業(yè)、高??梢钥紤]從這些方面對語音識別進行改進。
參考文獻:
[1] 于俊婷,劉伍穎,易綿竹,等.國內(nèi)語音識別研究綜述[J].計算機光盤軟件與應用,2014.
[2] 息曉靜,林坤輝,周昌樂,等.語音識別關鍵技術研究[J].計算機工程與應用,2006.