李 鏘,秦媛媛
(天津大學(xué)電子信息工程學(xué)院,天津 300072)
一種基于MFCC與PCP聯(lián)合特征的和弦識(shí)別方法
李 鏘,秦媛媛
(天津大學(xué)電子信息工程學(xué)院,天津 300072)
結(jié)合樂(lè)理理論和信號(hào)處理理論,針對(duì)傳統(tǒng)和弦識(shí)別僅考慮音高特性的音級(jí)輪廓特征PCP(pitch class profile)造成正確識(shí)別率較低的問(wèn)題,提出一種以反映聽覺特性的MFCC(mel frequency cepstral coefficent)與PCP的聯(lián)合特征和稀疏表示分類器(sparse representation classification,SRC)的和弦識(shí)別方法.通過(guò)對(duì)兩特征矢量的疊加構(gòu)成新的和弦特征,然后利用SRC進(jìn)行和弦識(shí)別.實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方法的識(shí)別率相比,本方法的識(shí)別率大幅提高.
和弦識(shí)別;MFCC;PCP;MFCC+PCP;稀疏表示分類器
音樂(lè)信號(hào)處理是近年來(lái)人工智能與模式識(shí)別領(lǐng)域的研究熱點(diǎn),和弦作為音樂(lè)信號(hào)重要的中層特征之一,是由3個(gè)或3個(gè)以上的不同音按照一定規(guī)則組合并同時(shí)發(fā)音形成的.不同和弦組成的和弦序列通過(guò)音符之間的和諧程度及高低差別表征不同的旋律,充分表達(dá)了一段音樂(lè)的內(nèi)容和特征[1],對(duì)于實(shí)現(xiàn)音樂(lè)信息檢索、樂(lè)曲分割與匹配以及歌曲自動(dòng)翻唱具有重要作用.因此,和弦識(shí)別的研究具有很廣泛的應(yīng)用價(jià)值.音樂(lè)和弦識(shí)別主要包括和弦特征提取和識(shí)別模型的確定.比較有代表性的研究工作是Brown[2]首次將音樂(lè)識(shí)別與音樂(lè)理論結(jié)合,提出恒Q變換;Fujishima[3]在1999年率先提出12維音級(jí)輪廓(pitchclassprofile,PCP),將音樂(lè)信號(hào)能量映射到12個(gè)音級(jí)上,重建音級(jí)譜,最后利用模板匹配法識(shí)別和弦,取得了一定效果.Gomez[4]在此基礎(chǔ)上提出HPCP(harmonic PCP)特征用于和弦識(shí)別的鍵估計(jì)系統(tǒng)中并取得了66.7%的正確鍵估計(jì);Lee[5]使用諧波產(chǎn)物譜(harmonic product spectrum,HPS)提出一種增強(qiáng)型的PCP特征,與傳統(tǒng)的PCP特征相比,增強(qiáng)型PCP對(duì)具有相同根音的和弦具有更高的識(shí)別率.Sheh和Ellis[6]提出將統(tǒng)計(jì)學(xué)方法即隱馬爾可夫模型(hidden markov model,HMM)模型運(yùn)用于和弦的分割與識(shí)別.Wang[7]結(jié)合人耳聽覺特性和音樂(lè)理論提出了新的識(shí)別特征MPCP(Mel PCP),克服了PCP特征在低頻段特征模糊和峰值處容易發(fā)生混倄的缺陷,但采用了條件隨機(jī)場(chǎng)分割方法,運(yùn)行時(shí)間長(zhǎng);文獻(xiàn)[8]則采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行和弦識(shí)別,可以有效避免噪聲對(duì)和弦識(shí)別率的影響,但該方法能識(shí)別的音頻數(shù)量較小.稀疏表示[9]是最小一范數(shù)[10]的優(yōu)化方法,在模式識(shí)別領(lǐng)域的相關(guān)研究中取得了很多可觀的成果.本文將稀疏表示方法引入和弦識(shí)別模型學(xué)習(xí)與分類.傳統(tǒng)的PCP特征沒有考慮到人耳聽覺特性,在低頻段比較模糊,而MFCC[11]特征恰好能夠彌補(bǔ)這一缺陷,充分描述了和弦旋律的低頻段.本文將傳統(tǒng)恒Q變換的PCP特征與梅爾倒譜系數(shù)(MFCC)相結(jié)合,提出一種基于MFCC與PCP的聯(lián)合特征,并引入稀疏表示分類器,根據(jù)最小一范數(shù)實(shí)現(xiàn)對(duì)待測(cè)和弦的類型識(shí)別.
本文和弦識(shí)別算法的特征提取部分包括:MFCC和PCP特征提取.和弦的具體識(shí)別過(guò)程如圖1所示.
圖1 基于MPCP特征的和弦識(shí)別流程圖Fig.1 Flow chart of chord recognition based on MPCP
對(duì)訓(xùn)練樣本和測(cè)試樣本的每個(gè)和弦音頻均提取MFCC和PCP 2種特征,然后對(duì)2種特征向量相加得到訓(xùn)練樣本特征集和測(cè)試樣本特征集的MFCC+PCP特征,再將2特征集矩陣輸入到SRC分類器中,得到和弦識(shí)別結(jié)果.
1.1 和弦的特征提取
1.1.1 MFCC特征提取
Mel頻率倒譜系數(shù)(MFCC)由Davis和Mermelstein[10]于1980年基于人耳聽覺特性和語(yǔ)音生成原理提出,MFCC特征被廣泛的應(yīng)用到語(yǔ)音識(shí)別研究中.
對(duì)于音頻信號(hào)而言,MFCC特征具體的計(jì)算步驟如下.
第1步:將時(shí)域離散和弦音樂(lè)信號(hào)進(jìn)行預(yù)加重,分幀和加窗處理.預(yù)加重濾波器是一階的,系統(tǒng)函數(shù)為H(z)=1-uz-1;取幀長(zhǎng)為N,幀移為N/2;所加窗的窗函數(shù)類型為漢明窗(Hamming).
第2步:經(jīng)過(guò)快速傅里葉變換(FFT)轉(zhuǎn)化為頻域信號(hào),得到其頻譜X(k).計(jì)算其能量譜
第3步:用M個(gè)Mel頻率帶通濾波器Hm(k)進(jìn)行濾波;濾波器輸出值為Pm(k),m=1,2,…,M.
第4步:將每個(gè)濾波器的輸出值Pm(k)取自然對(duì)數(shù),得到Mm(k),m=1,2,…,M.
第5步:對(duì)第4步所得的結(jié)果作離散余弦變換(DCT),對(duì)于每一幀信號(hào),得到M個(gè)MFCC系數(shù).
第6步:Mel濾波器的通道個(gè)數(shù)設(shè)置為M個(gè),每個(gè)和弦樣本得到的MFCC系數(shù)矩陣的大小為M*L,L為幀數(shù).對(duì)每一幀第m(1≤m≤M)個(gè)濾波器的輸出值MFCCm取平均值,公式為:
其中MFCCm(l)代表第l幀第m個(gè)濾波器的輸出值.這樣得到的每個(gè)和弦的MFCC統(tǒng)計(jì)平均值的大小為M×1.
1.1.2 PCP特征提取
音級(jí)輪廓(PCP)特征是由Fujishima[3]于1999年提出,將頻譜重建為音級(jí)譜,然后將音樂(lè)信號(hào)能量映射到12個(gè)音級(jí)上.由于FFT和STFT估計(jì)音階頻率時(shí)的頻率線是按線性分布的,所以兩者頻率點(diǎn)不能完全對(duì)應(yīng),致使某些音階頻率的估計(jì)值產(chǎn)生錯(cuò)誤.因此在時(shí)頻變換階段采用了一種譜線頻率與音階頻率具有相同指數(shù)分布規(guī)律的視頻變換方法—CQT(Const-Q Transform,恒Q變換)[2].將經(jīng)過(guò)CQT變換的PCP特征作為新的PCP特征,該特征包含豐富的音樂(lè)諧波結(jié)構(gòu).
PCP統(tǒng)計(jì)平均值特征的步驟如下.
第1步:時(shí)域離散和弦音樂(lè)信號(hào)x(m)分幀,加窗,進(jìn)行恒Q(品質(zhì)因數(shù))變換(Constant Q Transform,CQT)將時(shí)域變換到頻域.取幀長(zhǎng)為N,幀移為N/2,所加窗的類型為漢明窗(hamming).
式(6)表示第n幀十二平均律中第k個(gè)半音的頻譜,故通常M值為12.式中:x(m)為輸入的時(shí)域離散和弦音樂(lè)信號(hào);Nk=Qfs/fk表示第k個(gè)半音對(duì)應(yīng)的窗長(zhǎng);fs表示采樣頻率;fk表示第k個(gè)半音的頻率;wNk[m]表示窗長(zhǎng)Nk為的hamming窗.
第2步:頻譜映射.將頻譜Xncqt(k)映射為音級(jí)域的p(k),它由12維向量組成,每維向量代表一個(gè)半音音級(jí)強(qiáng)度.按照樂(lè)理知識(shí)中的十二平均律以對(duì)數(shù)方式將頻率映射到音級(jí)上,Xncqt(k)中的k被映射為PCP中的p,映射公式如下:
式中:f0=130.8 Hz為參考頻率;fs為采樣率;mod12為對(duì)12的求余運(yùn)算.
第3步:通過(guò)累加所有與某一特定音級(jí)相對(duì)應(yīng)的頻率點(diǎn)的頻率幅度平方值,得到每一幀信號(hào)的各個(gè)PCP分量的值.具體公式如下:
第4步:經(jīng)過(guò)上面的計(jì)算得到一個(gè)12*L的矩陣音色圖(chromagram),其中L代表幀數(shù).計(jì)算每一個(gè)音級(jí)(行)的均值,公式如下:
經(jīng)過(guò)上面的計(jì)算,得到一個(gè)12*1維的矢量,這就是所求的每個(gè)和弦樣本的PCP統(tǒng)計(jì)平均值.
以大E和弦為例,其音色圖和PCP圖如圖2所示.
圖2 大E和弦的音色圖和PCP圖Fig.2 Chromagram and PCP of E major
1.1.3 MPCP特征提取
MFCC作為和弦特征,雖然考慮了人耳聽覺特性,但由于沒有考慮到樂(lè)理知識(shí)、計(jì)算量和精度要求高,抑制了音高(pitch)信息,其識(shí)別效果并不好.
音級(jí)輪廓(PCP)作為和弦特征,雖然體現(xiàn)了音樂(lè)理論,但是沒有充分考慮到人耳特性,在低頻段特征比較模糊,在峰值附近容易發(fā)生混淆影響了識(shí)別效率.所以本文將M維MFCC統(tǒng)計(jì)平均值和12維PCP統(tǒng)計(jì)平均值連接,得到一個(gè)M+12維聯(lián)合和弦特征值.和弦特征提取的具體流程如圖3所示.
在物理實(shí)驗(yàn)的操作中,因?yàn)楦鞣矫娴脑?,出現(xiàn)數(shù)據(jù)偏差,實(shí)驗(yàn)現(xiàn)象與教材不符的幾率非常的高,這些都是無(wú)法避免的。教師不應(yīng)該“諱疾忌醫(yī)”,而應(yīng)該正視這些“意外”,在課堂上巧妙的應(yīng)對(duì)實(shí)驗(yàn)誤差和失敗。當(dāng)實(shí)驗(yàn)操作過(guò)程中,出現(xiàn)與課本不符的內(nèi)容時(shí),教師要改變既定方案,利用差錯(cuò),生成更高價(jià)值的教學(xué)資源,培養(yǎng)學(xué)生的科學(xué)精神和科學(xué)態(tài)度。
1.2 基于稀疏表示的和弦識(shí)別
圖3 提取和弦特征的流程圖Fig.3 Flow chart of feature extraction
稀疏表示分類方法是在最小一范數(shù)基礎(chǔ)上提出的,是模式識(shí)別領(lǐng)域熱點(diǎn)研究課題,其分類思想是:在訓(xùn)練數(shù)據(jù)空間足夠大的情況下,測(cè)試數(shù)據(jù)可以由訓(xùn)練數(shù)據(jù)空間中同類數(shù)據(jù)線性組合,找到最佳的稀疏向量.
在理想情況下,如果測(cè)試數(shù)據(jù)是訓(xùn)練數(shù)據(jù)中的某一類,則這個(gè)測(cè)試數(shù)據(jù)的線性組合就只能包含該類訓(xùn)練數(shù)據(jù),即稀疏系數(shù)中只有一小部分是非零值.本文利用稀疏表示分類模型實(shí)現(xiàn)和弦識(shí)別.
1.2.1 稀疏表示模型
(1)稀疏表示方法.假設(shè)第i類訓(xùn)練樣本的數(shù)據(jù)Ai=[vi,1,vi,2,…,vi,ni]∈Rm×ni,其中表示第i類樣本數(shù).完備訓(xùn)練樣本數(shù)據(jù)矩陣A是由g類訓(xùn)練樣本組成:
例如一個(gè)待測(cè)樣本y屬于訓(xùn)練樣本的第k類,則由訓(xùn)練矩陣A構(gòu)成的線性空間表示為
式中:x0=[0,…,0,ak,1,ak,2,…,ak,nk,0,…,0]T∈Rn為稀疏系數(shù)向量.在理想的情況下,除了該測(cè)試樣本所屬類別的系數(shù)不為零,其余的系數(shù)均為零.
(2)利用最小一范數(shù)求稀疏解.由壓縮感知理論和稀疏表示[11]研究表明,若x0是稀疏的,則利用l1最小化范數(shù)求解式(11)可得
(3)基于稀疏表示的分類算法.通常情況下,由于存在噪聲和建模誤差,除k類以外,1在的其他類上的映射系數(shù)也會(huì)出現(xiàn)少量非零值.這時(shí)需要建立一個(gè)非零元素成分僅與和1第i類相關(guān)的新的向量來(lái)準(zhǔn)確判斷y的類別.所以,判斷y的類別公式為
1.2.2 基于稀疏表示的和弦識(shí)別
本文提出的基于稀疏表示分類器的和弦識(shí)別算法分為如下5個(gè)步驟:①建立含有g(shù)類和弦的訓(xùn)練特征矩陣A=[A1,A2,…,Ag]∈Rm×n,其中Ai為第i類和弦的特征矩陣,m為特征個(gè)數(shù),n為樣本個(gè)數(shù);②y∈Rm為待識(shí)別和弦樣本的特征矢量,求出滿足y=Ax,并使||x||1最小的解,其中=[1,2,…,K]T,i與Ai對(duì)應(yīng),i= 1,2,…,K;③分別保留K個(gè)和弦對(duì)應(yīng)的系數(shù)i,構(gòu)建K個(gè)矢量δi(1)=[0,…,0,i,0,…,0]T,i=1,2,…,K,矢量啄i(1)的維數(shù)與相同;④計(jì)算冗余值,即二范數(shù)為ri(y)=‖y-Aδi(1)‖2,i=1,2,…,k;⑤由最小冗余值對(duì)應(yīng)的i確定y所對(duì)應(yīng)的和弦.
以大E和弦為例,其最小一范數(shù)解和冗余值的求解過(guò)程,如圖4所示.
圖4 和弦類型識(shí)別的全過(guò)程Fig.4 Whole process of chord recognition
2.1 實(shí)驗(yàn)數(shù)據(jù)
本文選用的數(shù)據(jù)庫(kù)是Beatles樂(lè)隊(duì)的13部專輯的180首歌曲,Harte等[12]已經(jīng)對(duì)這些歌曲中的和弦做了正確標(biāo)注.實(shí)驗(yàn)中,輸入的音樂(lè)文件格式是采樣率為11 025 Hz,16 bit,單聲道的wav格式.然后按所標(biāo)注的和弦邊界和類型從這180首歌中截取所需的大三和弦和小三和弦共24類,1 152個(gè)樣本組成訓(xùn)練數(shù)據(jù),288個(gè)樣本組成測(cè)試數(shù)據(jù),數(shù)據(jù)幾乎涵蓋了該樂(lè)隊(duì)的所有演奏風(fēng)格.
2.2 結(jié)果分析
本文實(shí)驗(yàn)先對(duì)所截取的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分別提取MFCC、PCP、MFCC+PCP聯(lián)合特征,然后將特征分別輸入到SRC識(shí)別模型中,并與經(jīng)典的統(tǒng)計(jì)模型隱馬爾可夫(hidden markov model,HMM)的識(shí)別方法作對(duì)比,實(shí)驗(yàn)結(jié)果表明,提取的MFCC+PCP特征與SRC模型結(jié)合效果最好,識(shí)別結(jié)果對(duì)比如表1所示.
表1 識(shí)別結(jié)果對(duì)比Tab.1 Contrast result
通過(guò)對(duì)表1的和弦識(shí)別結(jié)果分析發(fā)現(xiàn),MFCC+ SRC與MFCC+HMM組合模型識(shí)別率最低,由于MFCC沒有考慮音樂(lè)樂(lè)理特征,抑制了音頻的音高(Pitch)信息,導(dǎo)致和弦識(shí)別率低;PCP+SRC與PCP+ HMM識(shí)別模型雖然比MFCC+SRC與MFCC+HMM模型識(shí)別率高出40%左右,但識(shí)別率也只有69%和67%左右,因?yàn)镻CP特征無(wú)法識(shí)別空和弦與具有相同根音和弦的情況,所以識(shí)別率不高;MFCC+PCP+SRC識(shí)別模型充分考慮了人耳聽覺特性和音樂(lè)樂(lè)理特征,能夠達(dá)到85.07%的識(shí)別效果,同時(shí)從表1中可以得出SRC模型要比HMM識(shí)別率高2%~3%左右,因?yàn)镾RC可以有效地避免由于增加數(shù)據(jù)特征集而影響和弦識(shí)別率的問(wèn)題.
本文提出一種基于MFCC與PCP聯(lián)合特征和SRC分類器的和弦識(shí)別方法.實(shí)驗(yàn)結(jié)果表明,MFCC與PCP聯(lián)合特征既符合人耳聽覺特性,又符合和弦樂(lè)理上的特性,與傳統(tǒng)基于MFCC和PCP單一特征和弦識(shí)別高出近20%和60%方法.同時(shí),對(duì)于分類器的選擇,SRC比HMM的識(shí)別率高出3%左右.下一步將研究如何融入更加豐富的樂(lè)理知識(shí)來(lái)進(jìn)一步提高和弦識(shí)別率.
[1] 董麗夢(mèng),關(guān)欣,李鏘.基于稀疏表示分類器的和弦識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(29):133-219.
[2]BROWN J.Calculation of a constant Q spectral transform[J].J Acoust Soc Amer,1991,89(1):425-434.
[3]FUJISHIMA T.Realtime chord recognition of musical sound:A system using common lisp music[C]//ICMC.1999:464-467.
[4]GOMEZ E,HERRERA P.Automatic extraction of tonal metadata from polyphonic audio recordings[R]//London:Audio Engineering Society,2004.
[5]LEE K.Automatic chord recognition from audio using enhancedpitchclassprofile[C]//ProcIntComputMusicConf(ICMC). New Orleans:LA,2006.
[6]SHEH A,ELLIS D.Chord segmentation and recognition using EM-trained hidden Markov models[C]//Proc Int Conf Music Inf Retrieval(ISMIR).Baltimore:MD,2003:185-191.
[7]WANG Feng,ZHANG Xueying,LI Bingnan.Research of Chord Recognition based on MPCP[C]//Proc The 2nd International Conference on Computer and Automation Engineering(ICCAE).IEEE Press,2010:76-79.
[8]HUMPHREY Eric J,BELLO Juan P.Rethinking Automatic Chord Recognition with Convolutional Neural Networks[C]// Proc The IEEE 11th International Conference on Machine Learning and Applications(ICMLA).Washington,DC,2012:357-362.
[9]DUAN GangLong,WEI Long,LI Ni.A multiple sparse representation classification approach based on weighted residuals [C]//The IEEE Ninth International Conference on Natural Computation(ICNC).2013:995-999.
[10]徐星.基于最小一范數(shù)的稀疏表示音樂(lè)流派與樂(lè)器分類算法研究[D].天津:天津大學(xué),2011.
[11]王峰.美爾音級(jí)輪廓特征在音樂(lè)和弦識(shí)別算法中的應(yīng)用研究[D].太原:太原理工大學(xué),2010.
[12]DAVIS B,MERMELSTEIN P.Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences [C]//IEEE Transactionson Acoustics,Speech,and Signal Processing.1980:357-366.
[13]DONOHO D.For most large underdetermined systems of linear equations the minimal-norm solution is also the sparsest solution[J].Comm on Pure and Applied Math,2006,59(6):797-829.
[14]HARTE C,SANDLER M,ABDALLAH S,et al.Symbolic representation of musical chords:A proposed syntax for text annotations[C]//Proc Int Conf Music Inf Retrieval(ISMIR).2005: 66-71.
A chord recognition method based on joint feature of MFCC and PCP
LI Qiang,QIN Yuan-yuan
(School of Electronic Information Engineering,Tianjin University,Tianjin 300072,China)
Combined with music and signal process theory,the paper proposes a new chord recognition approach which utilizes the MFCC (Mel Frequency Cepstral Coefficent)reflecting auditory perception properties jointly with the traditional PCP(Pitch Class Profile)as the combined feature and SRC(Sparse Representation classification)to improve the recognition rate.The experimental results show that the recognition rata of the new method is much better in average than that of the traditional methods.
chord recognition;MFCC;PCP;MFCC+PCP;sparse representation classification
TP391.4
A
1671-024X(2015)01-0050-05
2014-11-07
國(guó)家自然科學(xué)基金項(xiàng)目(61471263,61101225,60802049);天津大學(xué)自主創(chuàng)新基金(60302015)
李 鏘(1974—),男,博士,教授,主要研究方向?yàn)橐魳?lè)信號(hào)處理、模式識(shí)別、醫(yī)學(xué)圖像處理.E-mail:liqiang@tju.edu.cn