曾招華 景新幸 楊海燕
(桂林電子科技大學,廣西 桂林 541004)
用改進的遺傳算法實現(xiàn)語音特征矢量的矢量量化
曾招華 景新幸 楊海燕
(桂林電子科技大學,廣西 桂林 541004)
矢量量化作為一種數(shù)據(jù)壓縮技術(shù)在語音識別中占有重要的地位,傳統(tǒng)的LBG算法收斂速度快,但易陷入局部最優(yōu);而傳統(tǒng)的遺傳算法雖能得到全局最優(yōu)碼本,但收斂速度慢。文章結(jié)合它們各自的優(yōu)點,對遺傳算法進行改進,得到一種改進的碼本設計方法。實驗結(jié)果表明,提出的算法性能優(yōu)于傳統(tǒng)的遺傳算法,不僅收斂速度快,而且失真測度小。
矢量量化;GA;收斂速度;失真測度
矢量量化是20世紀70年代后期發(fā)展起來的一種數(shù)據(jù)壓縮和編碼技術(shù),目前已廣泛應用于語音編碼、語音合成、語音識別和說話人識別等領(lǐng)域。矢量量化的關(guān)鍵問題是如何獲取VQ碼本,通常采用的是LBG算法,盡管其收斂速度快,但極易陷入局部最優(yōu),往往只能獲取局部最優(yōu)碼本。遺傳算法具有良好的全局搜索能力,可以快速地將解空間中的全體解搜索出,而不會陷入局部最優(yōu)解的快速下降陷進。傳統(tǒng)的遺傳算法由于初始種群中的個體都是隨機產(chǎn)生的,收斂速度比較慢。本文提出一種改進的遺傳算法,將語音特征矢量集進行 LBG聚類,生成一個碼本作為初始種群的其中一個個體,其他個體仍是隨機產(chǎn)生的,這樣不僅可以有效加快算法的收斂速度,而且提高了種群的平均適應度值,即降低了平均失真測度。本文首先描述了改進的遺傳算法,然后敘述了實驗步驟和流程圖,最后給出了實驗結(jié)果分析和結(jié)論。
由于遺傳算法的整體搜索策略和優(yōu)化搜索方法在計算時不依賴于梯度信息或其它輔助知識,而只需要影響搜索方向的目標函數(shù)和相應的適應度函數(shù),所以遺傳算法提供了一種求解復雜系統(tǒng)問題的通用框架,它不依賴于問題的具體領(lǐng)域,對問題的種類有很強的魯棒性,因而其基本原理與方法是一樣的。
本文遺傳算法的實現(xiàn)涉及四個方面:參數(shù)的編碼和初始群體的設定,適應度函數(shù)的設計,遺傳操作,算法控制參數(shù)的設定。
遺傳算法中的個體采用二進制位串表示,對應生物遺傳中的染色體,是算法的操作對象。本文個體采用不同的碼本長度,碼矢為24階MFCC系數(shù)構(gòu)成,每個語音特征參數(shù)又由m=10位(這里m的選擇取決于具體問題的精度要求)的二進制碼串構(gòu)成。假設一個特征矢量為n為矢量維數(shù),二進制位串的長度為m,它與xij之間的映射關(guān)系為:
其中bi,ai分別為Xi的最大值和最小值,M為二進制位串編碼對應的十進制數(shù)。實驗中采用部分隨機生成種群個體與LBG聚類生成的一個碼本所構(gòu)成的種群作為初始種群,對傳統(tǒng)遺傳算法采用全部隨機生成種群個體的方法進行改進,以實現(xiàn)遺傳算法種群平均適應度的快速收斂,同時達到提高收斂后種群的適應度值的目的。
個體的適應度函數(shù)如下:
遺傳操作包括選擇、交叉、變異三個基本遺傳算子。選擇又稱復制,是在群體中選擇生命力強的個體產(chǎn)生新的群體的過程,個體 j被選中的概率與其適應度成比例,即:遺傳算法中使用交叉算子來產(chǎn)生新的個體,是生物遺傳和進化過程中的一個主要環(huán)節(jié);變異操作也是遺傳算法中重要的繁殖操作,它通過個體的突變以產(chǎn)生更優(yōu)秀的后代。
遺傳算法中的控制參數(shù)選擇非常關(guān)鍵,控制參數(shù)的不同選取會對遺傳算法的性能產(chǎn)生較大的影響,甚至影響到整個算法的收斂性。這些參數(shù)包括群體規(guī)模、終止進化代數(shù)、二進制編碼長度、交叉概率cP和變異概率Pm等。
1.確定訓練語音參數(shù)集中特征矢量的個數(shù)和維數(shù),并設定最大進化代數(shù);
2.對訓練語音矢量集進行參數(shù)編碼和初始化種群;
3.評價當前代種群:首先對當前代的各個體進行位串解碼、其次計算各個體的適應度,最后對適應值進行調(diào)整,若滿足迭代終止條件則結(jié)束循環(huán),否則,進行遺傳操作;
4.更新種群,輸出適應度最大的個體即為最優(yōu)碼本。
實驗流程如圖1所示,其中虛線部分為改進部分:
圖1 碼本設計流程圖
實驗中的訓練矢量為從自建語音庫中選擇的若干語音經(jīng)過預處理和參數(shù)分析得到的24階MFCC系數(shù)構(gòu)成的語音特征矢量。圖2和圖3分別為遺傳算法優(yōu)化前和優(yōu)化后的種群平均適應度變化曲線圖。圖中可以看到,優(yōu)化前和優(yōu)化后種群平均適應度值在前50代都增長很快,之后增長較為緩慢,但優(yōu)化前還有繼續(xù)增長的趨勢,而優(yōu)化后則基本保持不變,即實現(xiàn)收斂,平均適應度值達到550,高出優(yōu)化前的470。因此,采用LBG算法聚類特征矢量作為初始種群中的一個碼本可以有效加快收斂速度,并提高了種群的適應度值,即降低了種群平均失真測度。
圖2 優(yōu)化前
圖3 優(yōu)化后
傳統(tǒng)遺傳算法和優(yōu)化后遺傳算法不同碼本長度失真測度對比,如下圖4所示:
圖4 優(yōu)化前和優(yōu)化后的失真測度對比
本文比較研究了傳統(tǒng)遺傳算法和改進的遺傳算法用于語音特征矢量的VQ碼本設計,給出了具體的實驗步驟和方法。從實驗結(jié)果可以看出,采用改進的遺傳算法不僅可以有效地改進遺傳算法的收斂速度,而且提高了種群的平均適應度,即降低了種群平均失真測度。
[1]趙立.語音信號處理[M].北京:機械工業(yè)出版社, 2009.5.
[2]雷英杰,等.MATLAB 遺傳算法工具箱及應用[M].西安:西安電子科技大學出版社,2005.
[3]Chavan, P.U.,Chavan, P.P.,Dandawate, Y.H. Codebook Optimization in Vector Quantization using Genetic Algorithm.IEEE International Conference on Computer and Electrical Engineering.12/28/2009 to 12/30/2009,Dubai.Page(s):280-283.
TP301.6
A
1008-1151(2011)04-0059-02
2011-01-20
國家自然科學基金(609661002)
曾招華(1984-),男,江西吉安人,桂林電子科技大學碩士,研究方向為語音識別。