呂蘭蘭
摘要:針對直接采用MFCC作為歌曲中歌聲識別的特征參數(shù)存在數(shù)據(jù)量大、且所包含的歌手歌唱特征較少的問題,提出一種基于MFCC特征聚類變換的歌曲中歌聲的識別方法。通過對MFCC特征進(jìn)行GMM聚類變換,以各個高斯分布的均值作為SVM分類器的特征參數(shù),利用GMM數(shù)據(jù)描述能力強的特點,突出歌手的歌唱特征,降低特征參數(shù)的數(shù)據(jù)量。實驗結(jié)果表明,該方法在歌曲中歌聲識別上的平均識別率較標(biāo)準(zhǔn)GMM方法略有提高,且數(shù)據(jù)處理量減少了65.8%。
關(guān)鍵詞:歌曲中歌聲的識別;MFCC;特征聚類變換;高斯混合模型
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)31-0170-02
Abstract: Using MFCC directly as feature parameters for singing voice detection in songs leads to large amount of feature parameters and insufficient singers singing characteristics. Aim to this, an approach based on clustering and transform of MFCC is proposed in this paper. After GMM clustering of MFCC, the mean of each individual Gaussian distribution is adopt as the new feature for the SVM classifier. The new feature utilizes GMMs great ability of data description, so as to highlight singers singing characteristics and reduce the amount of feature parameters. The experimental results show that the approach proposed in this paper performs a little well than the combination of MFCC and standard GMM, along with the decreasing amount of processing data .
Key words:singing voice detection;MFCC;feature clustering and transform
1 引言
歌曲中歌聲識別的任務(wù)是,在歌曲中定位歌手開始歌唱以及持續(xù)的片段[1]。歌曲從結(jié)構(gòu)上通??梢詣澐譃楦枋盅莩糠趾图儼樽嗖糠郑渲懈枋盅莩糠滞ǔJ侨寺暸c伴奏音樂的疊加,而純伴奏部分則不含人聲、純粹由伴奏樂器的聲音構(gòu)成。目前在歌曲中歌聲識別方法中,常用的聲學(xué)特征參數(shù)有:線性預(yù)測系數(shù)(Linear Predict Coefficients,LPC)[1]、感知線性預(yù)測系數(shù)(Perpetual Linear Predict Coefficients,PLPC)[2]、梅爾頻率倒譜系數(shù)(Mel - Frequency Cepstral Coefficients,MFCC)[3][4]、對數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients,LFPC)[5]等。而目前在歌曲中歌聲識別方法中,常用的分類器包括:隱馬爾科夫模型(HMM)[1]、高斯混合模型(GMM)[3][4]、支持向量機(jī)(SVM)[6]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[7]等。文獻(xiàn)[8]的研究結(jié)果表明,在使用同一分類器對各種聲學(xué)特征進(jìn)行歌曲中的歌聲識別時,MFCC的識別效果最好。同時,研究表明,GMM具有較強的數(shù)據(jù)描述能力,但分類能力較弱,而SVM的數(shù)據(jù)描述能力較弱,但分類效果更好[9-10]。因此,本文嘗試采用MFCC作為聲學(xué)特征,提出使用GMM和SVM相結(jié)合的方法來對歌曲中的歌唱部分和純伴奏部分進(jìn)行區(qū)分。
MFCC特征參數(shù)不僅可用于話者識別,還用于語音識別、語種識別等,是因為MFCC特征參數(shù)中不僅包含說話人信息,還包含豐富的語義信息、語種信息等多種信息。因此,直接采用MFCC作為歌曲中歌聲識別的特征參數(shù),將會導(dǎo)致特征參數(shù)中含有大量冗余信息、存在數(shù)據(jù)量大的問題。同時,特征參數(shù)中包含歌手的演唱特征較少,需要收集大量歌曲樣本,即包含各種歌手演唱的歌曲樣本,才能表征出歌手的演唱特征。同時,訓(xùn)練歌唱GMM模型和伴奏GMM模型都需要較多的訓(xùn)練數(shù)據(jù)。以上這些因素都會導(dǎo)致數(shù)據(jù)處理量很大。
針對上述問題,本文提出一種對MFCC特征進(jìn)行聚類變換的歌曲中的歌聲識別方法。通過對MFCC特征進(jìn)行GMM聚類變換,得到各個單高斯分布的均值作為SVM分類器的特征參數(shù)。既利用了GMM數(shù)據(jù)描述能力強的特點,突出歌手歌唱的個性特征,降低特征參數(shù)的數(shù)據(jù)量;同時也利用了SVM分類能力強的優(yōu)勢。
2 對MFCC特征的聚類變換
2.1 MFCC特征的提取
使用經(jīng)過人工標(biāo)注的歌曲作為訓(xùn)練數(shù)據(jù),經(jīng)過預(yù)加重,加漢明窗分幀處理,本文采用的幀長為20ms。對每一幀提取13維MFCC及其一階和二階差分作為特征參數(shù),共計39維。
2.2 基于GMM聚類的特征變換
根據(jù)高斯混合模型(Gaussian Mixture Model, GMM)的定義可知,高斯混合模型是用M個單高斯分布的概率密度函數(shù)的線性加權(quán)組合來對一個特征數(shù)據(jù)集的統(tǒng)計分布進(jìn)行描述的。其中,每個單高斯分布的概率密度函數(shù)可用均值、協(xié)方差及權(quán)重來表述(m=1,2,...,M)。因此,可以把GMM中的每個單高斯分布看成一個類別,那么均值描述了該類數(shù)據(jù)的平均大小,反映了不同特征向量在在特征空間的相對位置,協(xié)方差描述了數(shù)據(jù)分布的密集程度,權(quán)重描述了屬于該類的數(shù)據(jù)的多少。所以,對一個特征數(shù)據(jù)集進(jìn)行GMM的訓(xùn)練過程,也可以看成是對該特征數(shù)據(jù)集進(jìn)行GMM聚類的過程。因此,也可使用GMM聚類對MFCC特征進(jìn)行特征變換。本文直接采用各個單高斯類的均值作為GMM聚類后的變換特征。本文采用的高斯混合數(shù)m為256。
3基于SVM的歌曲歌唱部分檢測
3.1 SVM的訓(xùn)練
根據(jù)人工標(biāo)注將提取出的MFCC特征參數(shù)分為歌唱MFCC特征和純伴奏MFCC特征兩類,分別融合在一起得到歌唱MFCC特征數(shù)據(jù)集和純伴奏MFCC特征數(shù)據(jù)集。首先,對歌唱MFCC特征數(shù)據(jù)集進(jìn)行GMM聚類,將得到的變換特征向量序列記為{, , ...,},其中,s代表singing,即歌唱部分。并且,將該變換特征向量序列對應(yīng)的類別全部標(biāo)記為+1。然后,對純伴奏MFCC特征數(shù)據(jù)集進(jìn)行GMM聚類,將得到的變換特征向量序列記為{, , ...,},其中,i代表instrumental,即純伴奏部分。并且,將該變換特征向量序列對應(yīng)的類別全部標(biāo)記為-1。最后,用這些數(shù)據(jù)對SVM進(jìn)行訓(xùn)練,得到支持向量和最優(yōu)分類超平面。本文采用的SVM核函數(shù)是徑向基內(nèi)核。
3.2基于SVM的歌聲/純伴奏的識別
對測試歌曲中的歌聲片段進(jìn)行識別時,首先對其分幀,假設(shè)共有T幀,每一幀提取MFCC特征向量,這樣得到一個初始的MFCC特征向量序列{x1, x2, ..., xT}。對得到的MFCC特征向量序列{x1, x2, ..., xT}進(jìn)行GMM聚類,將得到的變換特征向量序列記為{, , ...,}。利用前面訓(xùn)練好的SVM進(jìn)行分類,設(shè)分類結(jié)果為{w1,w2,...,wM},其中wm={+1, -1},m=1,2,...,M。以w1為例,如果w1=+1,則意味著所代表的類別中的所有初始MFCC對應(yīng)的幀均識別為歌聲幀;如果w1=-1,則意味著所代表的類別中的所有初始MFCC對應(yīng)的幀均識別為純伴奏幀。
4 實驗結(jié)果及分析
實驗中使用的音頻數(shù)據(jù)庫由60段英文流行歌曲組成,每段長度為15秒。對這60段歌曲的歌聲片段和純伴奏片段分別進(jìn)行了手工標(biāo)注,并將標(biāo)注結(jié)果保存在對應(yīng)的*.lab文件中。具體來說,將歌曲的歌聲片段標(biāo)注為singing,而將純伴奏片段標(biāo)注為non-singing。測試方法為留一交叉檢驗。采用基于幀的識別率來評價識別效果,計算公式如下:
表1給出了使用MFCC特征結(jié)合GMM模型和使用MFCC聚類變換特征結(jié)合SVM的識別結(jié)果。從表1中可以看到,使用MFCC聚類變換特征結(jié)合SVM進(jìn)行識別,平均識別率略有提高。同時,平均處理數(shù)據(jù)量大大降低,僅為聚類變換之前的34.2%。
5 結(jié)論
本文采用對MFCC特征經(jīng)過GMM聚類后的變換特征,即各個單高斯分布的均值,作為新的特征參數(shù),并采用SVM作為分類器,進(jìn)行歌曲中歌聲的識別研究。相對初始的MFCC特征,變換特征利用GMM數(shù)據(jù)描述能力強的特點,突出了歌手歌唱的個性特征。且變換特征的數(shù)據(jù)量相對于初始MFCC特征的數(shù)據(jù)量減少了65.8%,有利于提升識別速度。同時,采用SVM作為分類器,利用了SVM分類能力強的優(yōu)勢,彌補了GMM區(qū)分能力較弱的不足,實驗結(jié)果表明平均識別率略有提高。
參考文獻(xiàn):
[1] Berenzweig A L, Ellis D P W. Locating singing voice segments within music signals[C]. IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics, 2001:119-122.
[2] Berenzweig A, Ellis D P W. Using Voice Segments to Improve Artist Classification of Music[J]. Proc Aes, 2002:1-8.
[3] Tsai W H, Wang H M. Automatic singer recognition of popular music recordings via estimation and modeling of solo vocal signals[J]. IEEE Transactions on Audio Speech & Language Processing, 2006, 14(1):330-341.
[4] 鄭能恒, 張亞磊, 李霞. 基于模型在線更新和平滑處理的音樂分割算法[J]. 深圳大學(xué)學(xué)報(理工版), 2011, 28(3):271-275.
[5] T. L. Nwe, A. Shenoy, and Y. Wang, “Singing voice detection in popular music,” in Proc. 12th Annu. ACM Int. Conf. Multimedia, 2004, pp.324-327.
[6] Maddage N C, Wan K, Xu C, et al. Singing voice detection using twice-iterated composite Fourier transform[C]. IEEE International Conference on Multimedia and Expo. 2004:1347-1350 Vol.2.
[7] Tzanetakis G. Song-specific bootstrapping of singing voice structure[C]. IEEE International Conference on Multimedia and Expo. IEEE, 2004:2027-2030 Vol.3
[8] M. Rocamora and P. Herrera. Comparing audio descriptors for singing voice detection in music audio files. in Proc. of Brazil-ian Symposium on Computer Music, 11th. San Pablo, Brazil, volume 26, page 27-30, 2007.
[9] Wu F, Sun S, Zhang J, et al. Singing voice detection of popular music using beat tracking and SVM classification[C]// Ieee/acis, International Conference on Computer and Information Science. IEEE, 2015:525-528.
[10]王天江,陳剛,劉芳. 一種按節(jié)拍動態(tài)分幀的歌曲有歌唱部分檢測新方法[J]. 小型微型計算機(jī)系統(tǒng), 2009, 30(8): 1561-1564.