么旭君 安 飛
語音識別中的特征提取技術(shù)相關(guān)申請始于20世紀80年代,并從19 86年開始,該領(lǐng)域有了持續(xù)的專利申請。圖1顯示了從19 86年至2016年的申請量按最早申請日/優(yōu)先權(quán)日的年度分布的情況。
從圖中可以看出,語音識別領(lǐng)域的特征提取技術(shù)自19 86年開始萌芽。最先提出相關(guān)申請的有美國和日本的申請人,使用的特征提取技術(shù)包括L P C線性預測編碼、基于字典的方法等,且申請量在此后一直呈逐漸上升趨勢;從19 9 7年開始,隨著語音識別技術(shù)的大規(guī)模興起,特征提取技術(shù)的專利年申請量開始持續(xù)增長,并于2000年突破120件;2004~2007年申請量有所回落,保持在100件左右,這可能和技術(shù)發(fā)展的遇到瓶頸有關(guān);2008年之后,隨著語音識別技術(shù)飛速發(fā)展,全球申請量有了持續(xù)的大規(guī)模漲幅,從2008年的132件達到2016年的年申請量235件。
圖1 全球?qū)@暾埩磕甓茸兓瘓D
1.產(chǎn)出地專利布局
圖2為全球?qū)@暾埉a(chǎn)出地分布圖??梢钥闯?,我國在語音識別領(lǐng)域的特征提取技術(shù)上非?;钴S,申請量近千件,接近居于第二位的美國和第三位的日本的申請量之和,居世界首位。美國和日本在特征提取技術(shù)上的申請量也較多,申請量都超過了500件。而產(chǎn)自韓國、德國以及英國的申請量偏低,韓國不足兩百件,德國、英國不足100件。
2.產(chǎn)出地申請趨勢
可以看出,美國在語音識別領(lǐng)域的特征提取技術(shù)上起步較早,在19 9 8~2004期間處于領(lǐng)先地位,申請量保持在25件左右,于2004年~2006年期間申請量略有下滑,于2007年開始有所回升,并于2007~2009年再次保持在年申請量25件左右,2009~2014年申請量有所增加,至2014年達到申請量的頂峰,為52件。日本在該領(lǐng)域研發(fā)也較早,發(fā)展規(guī)律與美國類似,在19 9 8~2015年期間年申請量一直保持在25件左右,只于2004年和2007年略有波動。我國在該領(lǐng)域起步較晚,2004年之前的年申請量處于10件以下,在2004~2007年有所增長,2007年達到18件,并于2007年之后呈現(xiàn)出快速增長趨勢,年申請量遠超其他國家,于2016年達到年申請量212件??傮w上,美國、韓國、日本的申請量在2012年之前都保持基本穩(wěn)定,在2012年至今申請量取得了一個小幅度上升,而我國的專利申請量從2008年開始呈增長趨勢并遠超其他國家,此外,近三年的申請量則受到公開滯后因素的影響。
圖2 全球?qū)@暾埉a(chǎn)出地分布圖
圖3 全球主要產(chǎn)出地近20年申請量年度變化圖
3.產(chǎn)出地專利布局
表1 主要產(chǎn)出地的專利布局區(qū)域分布
表1是主要產(chǎn)出地的專利布局區(qū)域分布情況。語音識別領(lǐng)域的特征提取技術(shù)主要產(chǎn)出地為日本、美國、韓國和中國,各產(chǎn)出地普遍重視在本國和美國進行專利布局,可見美國是語音識別領(lǐng)域最重要的市場之一。此外,我國的大多數(shù)申請都集中在本國,向國外申請的專利數(shù)量較少,需要更加重視在國外進行專利布局。
4.目的地申請趨勢
圖4為全球?qū)@暾埬康牡胤植紙D。其中將我國作為目的地的專利申請占比最高,達到26.5%,可見各國申請人對我國市場的重視程度。此外,美國申請量也較多,與中國相差并不大,可見美國市場也是語音識別領(lǐng)域的重要市場。這樣的分布除反映市場的受重視程度外,另一方面,申請量受到該國本國申請人以及技術(shù)水平的影響,上文已經(jīng)分析過,我國產(chǎn)出量在近10年顯著增長,并且以本國為目的地的申請占據(jù)了大部分比重,這也是我國作為全球?qū)@暾埬康牡卣急茸罡叩囊粋€因素。因此,上述國家和地區(qū)中,市場競爭主要集中在本國和處于市場主導地位的美國,我國作為新興市場,也已經(jīng)成為各國申請人進行專利布局的主要地區(qū)。
圖4 全球?qū)@暾埬康牡胤植紙D
1.主要申請人分布
圖5為全球主要申請人分布。在排名前20的申請人中,有6位中國申請人,6位日本申請人,4為美國申請人,3位韓國申請人和1位荷蘭申請人。日本申請人數(shù)量最多,并且申請人的申請量排名靠前,東芝公司的申請量居于首位,為65件,索尼公司申請量為53件,都遠超其他申請人,可見日本在語音識別領(lǐng)域的研究較為深入。中國的6位申請人中,包括聯(lián)想、華為、中興三家公司和中科院等三家科研院所,這體現(xiàn)了我國企業(yè)和高校對技術(shù)研發(fā)方面的發(fā)展程度和對專利申請的重視。此外,中國申請量排名第1位的聯(lián)想公司在全球申請人中排名第8位,可見我國申請人數(shù)雖然較多,但是在數(shù)量上距離世界先進水平仍有差距,存在一定的提升空間。
圖5 全球主要申請人分布
2.主要申請人申請趨勢
表2 主要申請人申請趨勢單位/件
表2示出了全球重要申請人微軟、東芝、韓國電研、聯(lián)想、索尼這五位申請人的申請趨勢情況。可以看出,在2004年之前,我國的聯(lián)想公司的申請量一直處于領(lǐng)先地位,19 9 9~2000的申請量為2~3件,2003年增長至5件,2005年之后聯(lián)想公司的申請量有所下降,2006至2016年的申請量0~2件波動,申請量不大,這可能與該公司的主要研究方向有關(guān)。韓國電研起步較晚,從2001年開始申請量從0逐步增加至2007~2008年的7件,于2010年降至1件,2011年回升至5件,此后的2012~2016年申請量在0~2件波動,可能不再側(cè)重特征提取領(lǐng)域的研究。微軟公司的申請量波動較大,19 9 8~2000年起步期間的申請量為1~2件,2001年申請量為0,2002~2003年逐漸增加至4件,2005~2006年申請量下降為1件,并于2007~2008年逐漸增長至6件,2008~2010年逐漸下降為1件,并于2011年申請量再次增加至4件,2012年申請量為0,2013~2014年再次增加至4件,這樣的波動可能是由于其技術(shù)研發(fā)周期長或有多項技術(shù)同時研發(fā)造成的。東芝公司起步也較晚,2005年之前為其起步期,申請量在2件以內(nèi),2005~2009年逐步增加至5~6件,2009~2013年降至2~3件,并于2013~2015年維持在1件。各公司2016年申請量較少與其研究重點和技術(shù)布局有關(guān),也可能與專利尚未公開有關(guān)。
1.專利申請趨勢
圖6 中國專利申請量年度變化圖
圖6顯示了我國語音識別領(lǐng)域的特征提取技術(shù)專利申請量的年度變化情況。從圖中可以看出,從圖中可以看出,在2000年之前,我國的語音識別領(lǐng)域的特征提取專利年申請量很小,都在60件以下,從2002年開始,年申請量開始有所增加,其中以國外來華申請為主。從2010年開始,年申請量開始迅速增加,2012年至2014年申請量穩(wěn)定在160件左右,2016年增長至180件。從國內(nèi)申請量和國外在華申請量對比來看,2008年以前,我國的語音識別領(lǐng)域的特征提取專利主要以國外來華申請為主,國內(nèi)申請比重較小。2008年國內(nèi)申請量首次超過國外在華申請量,并從2012年開始搖搖領(lǐng)先于國外來華申請。可以說,2010年之后我國語音識別領(lǐng)域的特征提取專利數(shù)量的迅速增長主要來自于國內(nèi)申請的迅速增長。
2.專利授權(quán)趨勢
圖7 中國專利授權(quán)趨勢圖
圖7展示了語音識別領(lǐng)域特征提取技術(shù)相關(guān)專利的授權(quán)趨勢圖。由圖可知,2010年之前我國授權(quán)量較低,雖略有波動但一直不足10件,2010年之后有了顯著增長,2011年增長至33件,2012~2013授權(quán)量略有下降,分別為25件和23件,2014年再次增長至36件,2015年下降至27件,并于2016~2017年逐漸上升至36件。授權(quán)量在2010年的大幅度增長與該領(lǐng)域的申請量在2008年之后迅速增長有關(guān),其后的授權(quán)量波動也與申請量的波動有關(guān)??傮w上,授權(quán)量在2010年之后大幅度提高,這與該領(lǐng)域技術(shù)的發(fā)展和申請量的趨勢一致。
1.國外來華申請國家分析
圖8顯示了國外來華申請人區(qū)域分布情況??梢钥闯?,日本申請人所占比例最大,達到38%,美國僅次于日本,占27%,韓國占9%,說明日本、美國和韓國比較重視中國市場,這也與這三個國家在語音識別領(lǐng)域的研發(fā)實力相統(tǒng)一。
圖8 國外來華申請人區(qū)域分布圖
2.國內(nèi)申請省市分析
圖9顯示了國內(nèi)申請人的省市分布情況??梢钥闯?,北京所占比例最高,達25%,反映出北京在語音識別領(lǐng)域特征提取技術(shù)方面研發(fā)實力最強,這也與大量相關(guān)企業(yè)、高校和科研院所位于北京有關(guān)。接下來分別是廣東、江蘇和上海,分別位于我國長三角和珠三角,這兩個地區(qū)科技發(fā)展速度快,研發(fā)實力也比較強,集中了國內(nèi)有優(yōu)勢的高校如浙江大學、華南理工大學等,代表了國內(nèi)語音識別領(lǐng)域特征提取技術(shù)的整體實力。
圖9 國內(nèi)申請人省市分布圖
1.法律狀態(tài)(授權(quán)、駁回、視撤、在審、終止)
圖10 中國專利申請的法律狀態(tài)
圖10展示了申請人在華專利申請中發(fā)明專利申請的法律狀態(tài)。從圖中可以看出,授權(quán)專利在處理中的專利申請占比最高,占比39%;其次是處理中的專利申請,占比33%;權(quán)利終止的專利申請在13%左右,其余各種失效狀態(tài)的占比較少。
2.申請類型
圖11顯示了國內(nèi)申請的申請類型分析情況。從圖中可以看出,對于語音識別特征提取技術(shù)領(lǐng)域的專利申請中,發(fā)明專利申請所占比重極大,為9 9%,實用新型專利申請僅占1%。
圖11 申請類型分布
1.申請人類型
如圖12所示,大專院校和企業(yè)的申請占據(jù)了申請量的絕大部分,其中專利申請人中大專院校所占比例最大,為55%,代表了我國高校在語音識別領(lǐng)域特征提取技術(shù)上的科研實力。其次是企業(yè)申請,占比41%,證明了我國企業(yè)的科研實力和對專利權(quán)保護的重視。之后是科研單位和個人申請等,差距量不大,占比在6%~8%。
圖12 申請人的類型分布
2.申請人排名
表3 中國專利申請的主要申請人排名
表3列出了中國專利申請的前15位申請人的分布情況。其中中國申請人11位、日本申請人3位,美國申請人1位。中國的11位申請人中有6位高校及科研院所申請人和5位企業(yè)申請人,體現(xiàn)了我國企業(yè)和高校對技術(shù)進步、專利保護的重視程度;國外申請人中微軟公司的申請量最多,為12件,其次是日本的松下電器產(chǎn)業(yè)株式會社和索尼公司,申請量都為9件,這在一定程度上反映了國外申請人對我國市場的重視。前15位申請人的申請總量占全部中國專利申請總量的28.8%,還有大量申請分布在中小企業(yè)和高校及科研院所,這反映了還有大量中小企業(yè)和科研院所處在研發(fā)的起步期,我國申請人在語音識別領(lǐng)域特征提取技術(shù)上還有進步空間。
3.申請人申請趨勢
納入標準:(1)患者肝、腎等功能正常。(2)患者有焦慮癥狀,SAS評分>50分。(3)有正常語言表達和理解能力。
表4 主要申請人申請趨勢
中國申請的重要申請人以我國申請人為主,表4選取了重要申請人進行分析,示出了聯(lián)想控股、清華大學、華為公司、中國科學院自動化研究所四位申請人的申請趨勢情況??梢钥闯觯?005年之前,四位申請人的申請量都在0~3件,我國在語音識別領(lǐng)域特征提取技術(shù)上還處于萌芽階段。從2005年開始,我國在該領(lǐng)域有了初步發(fā)展,申請量有所增加,每位申請人的申請量維持在每年2~3件。從2011年開始,我國在該領(lǐng)域進入蓬勃發(fā)展階段,除表中所示的四位申請人之外,還有一批中小型企業(yè)和高校的申請量也值得一提,如安徽科大訊飛公司在2012年的申請量為8件,華南理工大學在2013年的申請量為6件,雖然這些申請人的總申請量還不高,但已經(jīng)體現(xiàn)了其科研實力和知識產(chǎn)權(quán)保護意識,也為該領(lǐng)域的進步做出了一定的貢獻。而上表中的幾位申請人在近幾年的申請量總體呈下降趨勢,這可能也和該公司的研究方向有關(guān)。
通過對我國語音識別中的特征提取技術(shù)專利分析可知,目前常見的特征參數(shù)包括基于線性預測編碼系數(shù)(Linear Predictive Coding,LPC)、線性預測倒譜系數(shù)(Liner Predictive Cepstrum Coefficient,LPCC)和基于人耳聽覺原理的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient,MFCC),以上參數(shù)都能夠獲得很好的語音個性特征,根據(jù)特性不同,分別用于不同的系統(tǒng)中。同時,LPC、LPCC 和MFCC 還有著技術(shù)上的遞進順序,其中MFCC 是目前語音識別中廣泛使用的特征參數(shù)之一。MFCC 是在80 年代由Steven.B.Davis 提出的,它是將信號短時頻譜先在頻域?qū)㈩l率軸變換為梅爾頻率刻度,再變換到倒譜域得到的。當前很多類型的聲音辨識是采用MFCC、MFCC的差量(一階變化量)以及MFCC 的次差量(二階變化量)的組合,或上述值的線性變換為特征參數(shù),因此具有可觀的研究價值。
在探究MFCC的技術(shù)發(fā)展路線之前,需要進一步理解MFCC參數(shù)的計算過程。MFCC是基于人耳聽覺模型建立的倒譜系數(shù),人的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),它響應不同頻率信號的靈敏度是不同的,通常是一個對數(shù)關(guān)系。也就是說,人耳對不同頻率的語音具有不同的感知能力,聲音的物理頻率表示單位是梅爾(Mel )。Mel刻度表示了人耳對于頻率感知的非線性特性,根據(jù)人類聽力的臨界帶效應,設(shè)計若干個具有三角形或者正弦型的帶通濾波器,然后把語音處理成能量譜,再輸入到該濾波器組。通過取對數(shù),作離散余弦變換,就能得到MFCC系數(shù)。具體如圖13所示:
圖13 MF C C參數(shù)的計算過程
具體可以解釋為:
(1)將語音信號,即時域信號進行傅里葉變化(DFT),求出線性頻譜;
(2)將得到的線性頻譜經(jīng)過梅爾濾波器組形成Mel頻譜;
(3)然后經(jīng)過對數(shù)能量處理,得到對數(shù)頻譜;
(4)將對數(shù)頻譜經(jīng)過離散余弦變換((DCT)得到倒譜頻域,即可得到Mel頻譜倒譜系數(shù),即MFCC參數(shù)。
近些年,在特征提取領(lǐng)域MFCC是最常用的特征參數(shù),因此下面將針對MFCC的技術(shù)發(fā)展路線分析其技術(shù)重點和研究方向。
2012年,國際商業(yè)機器公司提出了一種聲音特征量提取方法(CN 1024839 16A),該申請針對傅里葉變換后的頻譜信息,使用線性域的差分作為聲音的差量特征量及次差量特征量,以此計算MFCC參數(shù),通過該方法可提取較先前技術(shù)更能抗回音及噪音的特征量,且其結(jié)果可改善聲音辨識的正確率。該方法具體為獲取輸入聲音信號的各頻率的頻譜,對于各幀,對上述各頻率算出前后的幀間的頻譜的差分,作為差量頻譜;通過將上述各頻率的差量頻譜除以該頻率的總發(fā)音即平均頻譜的函數(shù)而正規(guī)化,將輸出設(shè)為差量特征量,最終計算出MFCC參數(shù)。
對于輸入端進行改進的還有2016年聯(lián)想公開的一種MFCC提取方法及裝置(CN 105513587A)。該申請是針對現(xiàn)有技術(shù)里,在提取MFCC的過程中,無論語音數(shù)據(jù)幀的大小,均采用固定的量化位數(shù)對每一幀語音數(shù)據(jù)幀進行定點化處理(包括放大處理),而對于能量較小的語音數(shù)據(jù)幀,即使放大后,數(shù)據(jù)范圍還是很小,因此,在通過后續(xù)各處理步驟的累積后,形成的誤差依然不可忽視。因此,該發(fā)明依據(jù)語音數(shù)據(jù)幀的范圍,確定第一處理參數(shù),并使用所述第一處理參數(shù),放大經(jīng)過預處理后的語音數(shù)據(jù)幀,隨后提取放大后的語音數(shù)據(jù)幀的MFCC,也就是說,在進行MFCC提取之前,先將數(shù)據(jù)幀進行放大,并且因為第一處理參數(shù)與所述預處理后的語音數(shù)據(jù)幀的數(shù)據(jù)范圍反相關(guān),即語音數(shù)據(jù)幀的數(shù)據(jù)范圍越小,第一處理參數(shù)越大,所以,對于能量較小的語音數(shù)據(jù)幀,在進行定點化時,比能量大的數(shù)據(jù)幀放大的程度更大,因此大數(shù)據(jù)幀比小數(shù)據(jù)幀更能抵消定點化帶來的誤差,提高從小能量的語音數(shù)據(jù)幀中提取到的MFCC的精度。
圖14 MF C C技術(shù)發(fā)展路線圖
針對梅爾濾波器的設(shè)置方式,2009年,北京中星微電子有限公司公開了一種語音信號的MFCC系數(shù)提取方法、裝置及一種Mel濾波方法(C N 101577116A),該發(fā)明為解決H T K的MFCC系數(shù)提取方法中子代數(shù)量不匹配的問題,特地在進行Mel濾波時,增加Mel濾波器組的子帶數(shù)量,在頻率范圍內(nèi)進行Mel濾波,得到對應每條子帶的Mel濾波輸出;然后,將高頻范圍內(nèi)的子帶數(shù)量進行聚合,得到聚合后相應子帶數(shù)量的Mel濾波輸出;隨之繼續(xù)對低頻范圍和聚合后高頻范圍的Mel濾波輸出進行非線性變換和離散余弦變換,最終提取出MFCC系數(shù)。該發(fā)明既保證了低頻信號有足夠的頻率分辨精度,同時,又將高頻范圍內(nèi)的子帶數(shù)量進行聚合,提高了高頻的抗干擾能力,從而優(yōu)化了提取的MFCC系數(shù),能夠語音識別的準確率。
在隨后的2013年,百度提出了一種MFCC特征的提取方法及裝置(CN 10339 0403A),從其他角度優(yōu)化了MFCC參數(shù)的計算方法。該方法為通過令Mel濾波器組中包括高頻段Mel濾波器,對經(jīng)過預處理的音頻信號進行過濾處理,以生成Mel域高頻分量,進而對所述Mel域高頻分量進行離散余弦變換,以生成每個所述Mel域高頻分量的變換特征,使得能夠根據(jù)每個所述Mel域高頻分量的變換特征,獲得所述音頻信號的MFCC特征,由于利用Mel濾波器組中所包括的高頻段Mel濾波器,對經(jīng)過預處理的音頻信號進行過濾處理,可以獲得Mel域高頻分量。該方法能夠去掉容易受環(huán)境影響的Mel域低頻分量,使得從測試數(shù)據(jù)中提取的MFCC特征與從訓練數(shù)據(jù)中提取的MFCC特征不會存在較大差異,從而提高了MFCC特征的魯棒性,是我國申請人在特征提取技術(shù)上作出的又一項改進。
接著,2015年聯(lián)想公開了一種語音特征信息的提取方法及電子設(shè)備(CN 1049 00227A)。該發(fā)明獲取與語音信息對應頻率寬度中的信息分布參數(shù),基于所述信息分布參數(shù),確定三角帶通濾波器組在頻譜上的分布系數(shù),根據(jù)分布系數(shù),將三角帶通濾波器組分布在頻譜上進行濾波,獲取Mel頻譜,基于所述Mel頻譜,獲取Mel頻率倒譜系數(shù)MFCC。由于三角帶通濾波器組是根據(jù)所述信息分布參數(shù)來所述頻譜上進行分布的,使得所述頻譜中攜帶信息量多的頻帶設(shè)置較多的三角帶通濾波器組,以及攜帶信息量少的頻帶設(shè)置較少的三角帶通濾波器組,從而解決了現(xiàn)有的電子設(shè)備在獲取語音特征信息時,存在不能根據(jù)實際情況自動調(diào)整三角帶通濾波器組的分布的技術(shù)問題。
針對得到對數(shù)頻譜后再進一步進行處理的申請包括:2014年,華南理工大學提出了一種結(jié)合局部與全局信息的語音情感特征提取方法(C N 103531206A)。該發(fā)明針對忽略Mel濾波器內(nèi)部能量分布信息以及每一幀不同濾波器結(jié)果之間的局部分布信息造成的對噪音敏感的問題,提出了以下改進:(1)將語音信號分幀;(2)對每一幀進行傅立葉變換;(3)使用Mel濾波器對傅立葉變換結(jié)果濾波,對濾波結(jié)果求能量,并對能量取對數(shù);(4)對取得的對數(shù)結(jié)果使用局部H u運算,獲得第1類特征;(5)對局部H u運算后的每一幀進行離散余弦變換,獲得第2類特征;(6)對第3步計算的對數(shù)結(jié)果進行差分運算,然后對差分結(jié)果的每一幀進行離散余弦變換獲得第3類特征。該發(fā)明可快速有效地表達各類情感的語音,應用范圍包括語音檢索、語音識別、情感計算等領(lǐng)域。該申請的發(fā)明構(gòu)思為:在語音情感不同時,發(fā)音清晰度、基音變化程度、發(fā)音強度、語速都會發(fā)生相應的變化,這些變化將改變語譜圖能量的集中程度,如發(fā)音比較清晰、發(fā)音強度高時語譜圖能量比較集中。而H u的一階矩恰好能夠評價數(shù)據(jù)能量集中到數(shù)據(jù)重心的程度,這樣能夠很好的提取語音情感變化時導致語譜圖上能量集中度發(fā)生的變化。另外情感發(fā)生變化時會改變語音信號的頻率分布,從而在語譜圖的頻率軸上發(fā)生變化,所以該發(fā)明使用頻率軸上的導數(shù)來提取這些變化。
隨后,河海大學2017年還公開了一種基于對數(shù)譜信噪比加權(quán)的魯棒特征提取方法(C N 106373559 A)。該發(fā)明首先對輸入語音進行聲學預處理、短時譜估計和Mel濾波,得到每一幀的短時Mel子帶譜;再利用改進的對數(shù)函數(shù)對Mel子帶譜進行非線性變換,得到對數(shù)譜,同時從Mel子帶譜中估計輸入語音的對數(shù)譜域信噪比;然后,利用估得的對數(shù)譜域信噪比對輸入語音的對數(shù)譜進行加權(quán),得到加權(quán)對數(shù)譜;最后,對加權(quán)對數(shù)譜進行離散余弦變換并作時域差分,得到輸入語音的特征參數(shù)。該發(fā)明提高了噪聲環(huán)境中提取的特征參數(shù)的環(huán)境魯棒性,減小加性噪聲對語音識別系統(tǒng)的影響。
當前,對于MFCC參數(shù)計算過程中對于特征的二次提取也備受申請人關(guān)注。2017年,電子科技大學公開了一種基于基音周期和MFCC的融合特征參數(shù)提取方法(C N 106782500A)。該發(fā)明通過增加Mel倒譜參數(shù)的維度來提高聲紋識別效率,具體為通過每一幀語音數(shù)據(jù)獲得該幀語音的Mel倒譜參數(shù),Mel倒譜參數(shù)的一階差分參數(shù),二階差分參數(shù)以及該幀的說話人基音周期參數(shù),將這四個參數(shù)結(jié)合成一個(3L+1)維的特征矢量,這樣更逼近語音的動態(tài)特征和人體的生理結(jié)構(gòu),可以提高聲紋識別的效率。
2017年,重慶郵電大學公開了一種基于融合特征M GFCC的說話人二次特征提取方法(C N 107274887A)。該發(fā)明首先利用Mel濾波器對說話人語音進行處理得到MFCC特征;其次,同時利用Gammatone濾波器對說話人語音進行處理得到GFCC特征;然后,對兩種特征在噪聲環(huán)境下的各維特征區(qū)分度進行計算;接著,統(tǒng)計兩種特征的每一維特征處于最大F R值的次數(shù);隨之根據(jù)兩種特征在噪聲背景下的最大次數(shù)的不同進行特征融合;最后對融合特征進行微分和重組得到二次提取特征。該發(fā)明可以在復雜噪聲環(huán)境下依然有較好的識別,并且較強的魯棒性,能夠進一步提取出說話人的隱藏特征,在較大程度上提升了說話人識別系統(tǒng)的性能。
2017年,蘇州大學公開了一種用于語音測謊系統(tǒng)中的稀疏譜特征提取方法(C N 10729 3302A)。該發(fā)明首先提取語音信號的梅爾頻率譜系數(shù)、小波包頻帶倒譜系數(shù),并融合所述梅爾頻率譜系數(shù)和小波包頻帶倒譜系數(shù)構(gòu)成倒譜特征;其次,采用K-奇異值分解算法對倒譜特征進行訓練得到混合過完備表示字典;然后,在混合過完備表示字典上,采用正交匹配追蹤算法對倒譜特征進行稀疏編碼,獲取稀疏譜特征。該發(fā)明一方面可以彌補傳統(tǒng)梅爾頻率譜系數(shù)提供中高頻段信息存在的不足,另一方面可以解決非線性融合參數(shù)集的冗余問題,降低分類模型的計算復雜度。
綜上所述,在對特征參數(shù)選擇的問題上,目前主流的研究熱點是基于人耳聽覺特性的梅爾倒譜系數(shù)(MFCC),并且對于提取MFCC參數(shù)的改進基本集中在對于輸入端數(shù)據(jù)的過濾、對于濾波器的設(shè)置個數(shù)和位置、計算過程中對于特征的二次提取方式。分析表明,我國高校對于特征提取技術(shù)有著持續(xù)的關(guān)注,且近幾年能夠不斷提出價值較高的技術(shù)方案。同時,百度和聯(lián)想等涉及人工智能領(lǐng)域的國內(nèi)大公司也對特征提取技術(shù)保持著研究。
通過以上對于語音識別技術(shù)中特征提取技術(shù)的專利分析,可知我國在該領(lǐng)域高校的研究熱情較高,且其專利價值也較為客觀。同時,我國涉及人工智能的大公司也對其保持著持續(xù)的研究和關(guān)注,但鮮有在國外的專利布局。因此,結(jié)合我國的技術(shù)現(xiàn)狀給出如下企業(yè)建議:
(1)宏觀上講,國內(nèi)公司應當加強校企合作,從技術(shù)和人員儲備、產(chǎn)品研發(fā)等環(huán)節(jié),與涉及研究特征提取技術(shù)的高校合作;積極拓展全國知名高校的合作意向和研究領(lǐng)域,以高校技術(shù)為依托,企業(yè)加強資金投入和產(chǎn)品研制,在全國建立多個技術(shù)研究的研發(fā)中心。盡可能地把科研成果轉(zhuǎn)化為可以帶來經(jīng)濟效益的生產(chǎn)力,同時提高教學質(zhì)量和科研水平,在實踐中培養(yǎng)高科技人才,促進學校、企業(yè)和社會的共同進步為目標,在優(yōu)勢互補、平等合作、互惠互利、共同發(fā)展的基礎(chǔ)上建立全面的校企合作關(guān)系。
從技術(shù)方面來說,通過上述分析,企業(yè)應該吸取高校對于特征提取研究中涉及多算法融合技術(shù)的相關(guān)技術(shù)方案。高校科研工作通常擅長算法研究和模擬仿真,對于提高特征提取精度、魯棒性,提高計算效率、降低復雜度,所提出的方法通常是十分有效,因此具有客觀的借鑒價值。
(2)企業(yè)應當培養(yǎng)專業(yè)的科研型人才,企業(yè)創(chuàng)新的快速發(fā)展離不開對專業(yè)人才的培養(yǎng)。首先,可以加強與國外人才的交流與合作,借鑒歐美發(fā)達國家的先進經(jīng)驗,培養(yǎng)具有創(chuàng)新精神的研發(fā)人才,引進高水平的研發(fā)管理系統(tǒng),在積累企業(yè)先進技術(shù)的同時解決技術(shù)研發(fā)過程中遇到的問題。
(3)鼓勵對外專利申請,加快走出去的步伐。近年來,我國在該領(lǐng)域的申請數(shù)量連年上升,但在國外專利申請上競爭力仍顯得較為薄弱。未來,我國申請人應當考慮目標市場、國際同行等多種因素進行布局,在布局時不拘泥于現(xiàn)有市場和格局,而是著眼于長遠,適當先于市場,注重海外專利布局能力,利用創(chuàng)新型企業(yè)強大的科研實力,搶占國外發(fā)達國家專利申請的領(lǐng)域。
語音識別的研究工作對于信息化社會的發(fā)展和人民生活水平的提高等方面有著深遠的意義。本文通過對語音識別領(lǐng)域特征提取技術(shù)的相關(guān)專利進行分析,對我國企業(yè)的研究方向和專利布局給出了建議。未來語音識別技術(shù)將會取得更多重大突破,特征提取技術(shù)的研究也會更加深入,是值得我國申請人關(guān)注和研究的重點。