王 雯
(國家新聞出版廣電總局 成都監(jiān)測臺,四川 成都 611130)
對音頻信號的自動分析和處理能夠為新聞工作者提供許多有用信息。例如,在新聞廣播中,音頻自動分析與處理任務包括聲音識別、說話者分辨、錨點檢測、角色檢測、故事場景邊界檢測、頻道質量評估、與聲音相關的事件檢測、非語言類聲音檢測與分類、音頻特征分類、靜音檢測、廣告檢測、語種識別、語音情感識別等。而語音識別技術是所有上述任務的工作基礎,通常作為上述任務的前端技術被采用。
要分析音頻信號,首先需要對信號進行預處理并提取音頻特征。最后,所提取的音頻特征經由模式識別算法處理而得到分析或識別的結果。
常用的音頻信號特征包括時域特征與頻域特征。零交叉率與梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,簡稱“MFCC”)為最常用的時域與頻域特征。其他常用特征還包括音高、感知線性預測系數(shù)、諧波噪聲比率、線性預測編碼系數(shù)、色度特征、自相關性等。
在模型識別階段,各種概率性和判別性的機器學習算法相繼被提出。高斯混合模型(Gaussian Mixture Model,簡稱“GMM”)與隱馬爾可夫模型(Hidden Markov Model,簡稱“HMM”)為音頻模式識別中最常用的模式識別算法。其他被廣泛采用的機器學習算法還包括支持向量機、人工神經網絡、最鄰近分類器、決策樹、遺傳算法、模糊邏輯算法等。
圖1 語音識別系統(tǒng)總體架構
以下列舉機器學習在語音智能識別方面的一些應用。語音識別系統(tǒng)的總體架構大體如圖1所示。
輸入的音頻信號首先通過前端處理單元,該單元對信號進行預處理并提取類頻譜特征。此后,這些特征被輸入模式識別算法用于估算屬于不同音素的概率。得到的音素概率結果將結合隱馬爾科夫模型、語言模型、詞典等共同作用對音頻進行解碼(如圖1所示),推導出該音頻對應的文本內容。值得一提的是,模式識別與隱馬爾科夫模型都屬于機器學習范疇。
自動語音識別系統(tǒng)已經被應用在許多商業(yè)工作中,但系統(tǒng)仍然存在很多問題亟待解決。多年來,各種機器學習相關技術被運用在自動語音識別系統(tǒng)的語音建模中。其中,用隱馬爾科夫模型來預測問題是被大部分人所熟知的?,F(xiàn)實中,采用機器學習算法得到的結果往往不能綁定馬爾科夫模型的某一特定狀態(tài),但是可以給出屬于不同狀態(tài)的概率程度,因而催生了隱馬爾科夫模型。20世紀70年代以來,在許多關于自動語音識別系統(tǒng)的評估中,隱馬爾科夫模型被公認為語音識別技術中變化最大的框架遷移,因此其被認為是語音識別技術中重要的里程碑。談到隱馬爾科夫模型,不得不提到與之相關的三個典型問題,即評估(前向算法)、解碼(維特比算法)以及訓練。給定模型和某一觀察序列(結果),確定該模型生成此序列的概率為評估過程,該算法也被稱為前向算法;確定出現(xiàn)某結果最可能的狀態(tài)序列被稱為解碼,通常采用的是維特比(Viterbi)算法。更新模型參數(shù)使得產生某結果的可能性最大化被稱為訓練,一般采用Baum-Welch算法。
然而,隱馬爾科夫模型也有自身的局限性,一是該模型需要通過大量訓練數(shù)據(jù)來防止由于測試和訓練條件間的不匹配所導致的模型性能下降。一般情況下,混合高斯模型可以估算出這些隱馬爾科夫模型的輸出概率密度。而采用混合高斯模型與隱馬爾科夫模型的系統(tǒng)是目前自動語音識別系統(tǒng)中最杰出的生成式學習方法。盡管如此,人們一直在尋找能夠替代隱馬爾科夫模型的方法,因此在20世紀80年代末90年代初催生了各種基于人工神經網絡(Artifical Neural Network,簡稱“ANN”)的語音識別技術,許多工作者提出使用ANN或者特殊的多層感知器來估算語音識別中的概率問題。此外,另一種可選的概率估計手段是支持向量機(Support Vector Machine,簡稱“SVM”)算法。值得一提的是,前面提到的隱馬爾科夫模型是一種生成式模型,即最終決策由生成模型對當前模式輸出的似然概率來確定。相比之下,支持向量機是區(qū)分式模型。區(qū)分式模型與生成式模型可相互補充,因此催生了一種混合支持向量機與隱馬爾科夫模型的系統(tǒng),該系統(tǒng)類似隱馬爾科夫模型與多層感知機的混合系統(tǒng)。由于支持向量機具有強大的泛化能力,有助于提高自動語音識別的魯棒性,近期的趨勢之一是在噪聲魯棒的語音識別系統(tǒng)中采用結構化的支持向量機算法。以下分析語音識別系統(tǒng)中常用的機器學習算法,包括人工神經網絡、支持向量機、混合高斯模型以及近幾年興起的深度學習。
在人工神經網絡中,每個音素都與多層感知機輸出層中特定輸出單元對應。兩種常用神經網絡類型是時間延遲神經網絡(time-delay neural networks,TDNNs)和遞歸神經網絡(recurrent neural networks)。雖然人工神經網絡能夠為自動語音識別解決許多問題,但仍然存在以下幾點不足急需改進:第一,人工神經網絡無法模擬語音信號的時變性。第二,在為混合模型設計最佳網絡結構方面存在一定的困難。第三,目前缺乏聯(lián)合的訓練方式來同時訓練隱馬爾科夫模型和人工神經網絡模型。第四,對大型多層感知機的訓練較為困難。
支持向量機(SVM)是一種二類非線性分類器,能夠預測輸入向量值屬于類一還是類二。雖然在處理分類問題上,SVM是目前最先進的工具,其應用在語音識別上也有著優(yōu)缺點,進而促使語音領域的研究者不斷對其進行研究。SVM用于ASR具有以下優(yōu)點:第一,支持向量機魯棒性較好,因此適合在嘈雜的環(huán)境中進行語音識別。第二,因為采用了核化手段(kernel trick),只需考慮核矩陣(kernel matrix)參與優(yōu)化,因此SVM已能處理應對“維度災難”,處理上千維度的輸入特征。
它的不足之處在于:第一,許多SVM算法的實現(xiàn)需要將所有輸入樣本(數(shù)量表示為n)之間的核矩陣進行存儲,復雜度為O(n2),這是SVM的主要缺點。第二,SVM的輸出取決于所用核函數(shù)類型,對于給定的任務,無法明確哪種核函數(shù)是最優(yōu)的。第三,SVM的輸入向量需要具有固定的大小,然而在語音識別中,每個語音序列有著不同的持續(xù)長度。
混合高斯模型(GMM)用于對連續(xù)的分布函數(shù)進行參數(shù)化概率建模(采用高斯或正態(tài)分布),整個數(shù)據(jù)的分布則可以使用這些分布函數(shù)或高斯模型的混合模型來逼近?;旌细咚鼓P驮谄交拼笠?guī)模樣本的分布方面非常有效?;贕MM的隱馬爾科夫模型或者是混合高斯/隱馬爾科夫模型是目前自動語音識別中最常用的機器學習方法。
采用高斯模型待解決的問題如下:第一,需要對模型的方差設置合適的下限,可改進泛化性能并防止方差變得極小。第二,使用GMM增加了計算的復雜性,因為需要一系列對數(shù)加法來計算GMM的似然概率。解決方法之一是僅選取對總概率值有相當貢獻的高斯成分而舍棄其他權值很小的高斯成分;另一種方法是僅取所有高斯成分中最大的概率值來近似總概率值。第三,確定系統(tǒng)中每個狀態(tài)對應的高斯成分數(shù)量是一個問題。第一種方法是假設對所有狀態(tài)使用相同的成分數(shù)量,并在數(shù)據(jù)的幫助下確定該數(shù)量;第二種方法是使用常用的貝葉斯準則;第三種方法是將高斯成分的數(shù)量設計為與該狀態(tài)中觀測值數(shù)量相關的函數(shù)。第四,GMM建立在條件獨立性假設之上。
另外,HMM / GMM系統(tǒng)的成功和普及源于以下原因:第一,歸因于高效的Baum-Welch算法,受其啟發(fā)催生了期望最大化(Expectation Maximization,簡稱“EM”)算法,用于學習GMM和HMM模型。第二,生成式GMM / HMM模型已經被證實能夠在有噪聲的語音環(huán)境下成功地將噪聲與語音信息分離。值得一提的是,在識別嘈雜的語音時,其表現(xiàn)甚至可能超越人類。
2006年,Hinton等人提出了一種新穎的機器學習框架,即深度學習或層次化學習。最近通過實驗發(fā)現(xiàn),深度學習算法已在包括自動語音識別在內的許多應用中得到了極大的性能提升。在深度學習中,研究者開發(fā)了包含多處理層的層次化結構,技術的關鍵為對這些層的無監(jiān)督預訓練以及有監(jiān)督反向誤差回傳進行模式學習與分類。
深度學習的興起與流行有以下兩個重要原因:第一,計算硬件(如GPU等)成本的顯著下降。第二,計算硬件(如GPU)等芯片處理能力的極大提升。
所謂深度神經網絡(DNN),其實是具有許多隱藏層的傳統(tǒng)MLP?;谏疃壬窠浘W絡的語音模型在大詞匯連續(xù)語音識別(LVCSR)上的首次應用案例出現(xiàn)于2012年。該案例利用了微軟Bing語音搜索數(shù)據(jù)庫,使用5個預訓練的神經元層(每層包含2048個神經元)將具有11個音素的語音上下文窗口分為可能的761種上下文狀態(tài)。該系統(tǒng)在測試集上獲得了69.6%的準確率,而作為比較基準的GMM / HMM的準確率為63.8%。此外,該案例的研究者還發(fā)現(xiàn)綁定三音素作為上下文狀態(tài)比僅使用單音素作為上下文狀態(tài)效果更好。
語音識別技術和機器學習技術相輔相成,而自動語音識別和深度學習間有著深厚的關聯(lián),在最近幾年里,彼此的研究成果呈現(xiàn)互補狀態(tài)。語音識別中的深度學習由基于人工神經網絡的語音識別器開啟,隨后發(fā)展為隱馬爾科夫與人工神經網絡的混合模型,然而研究勢頭后來由于所采用的學習方法中的難點而受阻??上驳氖牵罱d起的深度學習克服了這些困難。因此,隱馬爾科夫與混合高斯模型的結合正在慢慢被深度神經網絡與隱馬爾科夫的混合模型所替代。設計高效的深度學習網絡結構與魯棒的可應對大規(guī)模、不確定、不完整數(shù)據(jù)的學習算法極具挑戰(zhàn)性,是未來要深入研究的方向。