胡耀文 龍華 孫俊 周濤 邵玉斌
摘 要:針對現(xiàn)有樂器分類研究中存在的使用特征量過多、分類準確率有待提高等問題,提出了一種特征量少、準確度高的樂器分類方法?;赗elief算法的主成分特征提取方法,計算出各特征量的權(quán)重,設(shè)計3層的神經(jīng)網(wǎng)絡(luò)分類器。根據(jù)所提算法和分類器,使用8項音頻特征與傳統(tǒng)的24項MFCC特征,分別對中西方9種樂器進行了分類實驗,并分別使用權(quán)重最高的4、5、6項特征進行分類實驗。結(jié)果表明,所提出的音頻特征相比于傳統(tǒng)MFCC特征對樂器分類的平均準確率更高,達到94.84%,且特征量更少,說明基于Relief算法的主成分特征提取方法能有效減小低相關(guān)性特征對分類準確率的影響。
關(guān)鍵詞:樂器分類;音頻特征;MFCC;Relief算法;特征提取
DOI:10.11907/rjdk.172983
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2018)006-0017-05
Abstract:To solve the problems in musical instrument classification studies like using too many features,lowclassification accuracy,etc,we proposed a musical instrument classification method with less features and high accuracy.We calculate the weight of each characteristics using the principal component feature extraction method based on Relief algorithm,and design three-layer neural network classifier.According to the proposed algorithm and classifier,we conduct the classification experiment between eight features proposed in this paper and traditionally twenty-four MFCC features,which include nine musical instruments consist of Chinese and western musical instrument,and accomplish the classification experiment by using the fourth,fifth and sixth characteristics with highest weight respectively.Results show that features proposed in this paper is fewer than MFCC features,and can get higher average accuracy which reached 94.84%.We can draw a conclusion that the principal component feature extraction method based on Relief algorithm can reduce the influence of low correlation characteristics on classification accuracy effectively.
Key Words:musical instrument classification; audio feature; MFCC; Relief algorithm; feature extraction
0 引言
樂器自動分類是音頻檢索的重要組成部分,如何使用計算機分析和檢索多媒體數(shù)據(jù)中大量的音頻數(shù)據(jù)成為研究熱點。Zhu Liu 等 [1]通過對特征空間的簇間和簇內(nèi)距離分析,確定了包括幅值標準差、基因周期、能量比等12項特征的有效特征集,通過神經(jīng)網(wǎng)絡(luò)分類器實現(xiàn)對5種電視節(jié)目的分類。JD Deng等 [2]將基于特征分析的經(jīng)驗學(xué)習(xí)用于古典樂器識別,使用機器學(xué)習(xí)技術(shù)對提取的特征集進行選擇和評估,使用選出的17項特征將樂器分為銅管樂器、木管樂器、弦樂器、鋼琴4類,平均準確率達到96.5%。Xueyuan Zhang等 [3]從頻譜中提取音高、音色及信號的非諧部分,提出了基于譜波分解的音頻特征集,使用主成分分析法(PCA)對特征向量進行刪減,對包括男聲、女聲、鳥叫聲等13種音頻進行分類測試,平均準確率達到了84.1%。Mangal Joshi和Sharmila Nadgir[4]提取了音頻信號中的時域、頻域、倒譜域和小波域中的不同特征,將印度樂器分為弦樂器、銅管樂器、打擊樂器、木管樂器、鍵盤共5大類。張奇、蘇洪根[5]以樂器的MFCC系數(shù)及其一階導(dǎo)數(shù)為聲學(xué)特征,提出了一種基于支持向量機的樂器識別方法,對大提琴、長笛、小號等6種樂器的平均識別準確率達到96.7%。田莎莎等 [6]在MFCC參數(shù)的基礎(chǔ)上,提出了BMFCC特征參數(shù),通過大量實驗表明MFCC特征參數(shù)各個分量對音頻的表征能力是不同的。陳卓[7]在Eeka平臺上使用由不同維度MFCC特征參數(shù)構(gòu)成的特征集,對古箏、琵琶、鋼琴等樂器進行了分類實驗,結(jié)果表明,基于隨機森林的分類器最優(yōu)識別率可達到95.7%。郅逍遙等 [8]提出了一種基于相空間和柔性神經(jīng)樹的新的樂器分類方法,對圓號、鋼琴、喇叭、長笛的分類平均正確率大于86%。華斌等 [9]對經(jīng)典MFCC系數(shù)進行了分析,提出了基于熵值法加權(quán)的MFCC系數(shù),提高了音頻檢索的識別率。
這些研究中使用的特征量大多為30個以上,即使對特征量進行了刪減,刪減后的特征量也超過16個[2],無疑增加了分類復(fù)雜度和處理時間;參與分類的樂器大多是國外樂器,如歐美樂器[5]、馬來西亞樂器[10]、巴基斯坦樂器[11],對中國樂器的分類研究較少[7-8],分類類別較少,分類準確率也有待提高;大多數(shù)研究僅注重了不同特征量搭配對分類結(jié)果的影響,忽視了各特征量自身對分類結(jié)果的影響程度。
本文提出8項特征量,結(jié)合神經(jīng)網(wǎng)絡(luò)分類器完成了對9種樂器的分類,還使用基于Relief算法的主成分特征提取方法,將特征量進一步減少到6項,平均分類準確率達到94.84%。
1 特征提取
特征提取是將原始輸入數(shù)據(jù)轉(zhuǎn)化為數(shù)字表示的特征集的過程,其目的是從原始的大量數(shù)據(jù)中提取出有代表性的信息,用少量特征數(shù)據(jù)替代原始數(shù)據(jù)完成目標任務(wù)[10]。通常使用的特征量包括頻域特征和時域特征,文獻[2-4]都表明頻域特征與時域特征的結(jié)合使用對提高音頻分類準確率至關(guān)重要。本文從已有研究中選取部分基本且重要的時域和頻域特征,與能熵比、倒譜等能夠反映音頻深層信息的特征共同組成新的特征集。本文使用的特征集包括表1中的前8項特征,另有包含24項特征的MFCC特征集用于對比試驗。
設(shè)信號第i幀中第n個點的幅值為u-i(n),分幀后的總幀數(shù)為f-n,分幀的幀長為L,第m個音頻段的信號幅值序列為x-m,延遲量為k。各特征量詳細描述如下:
(1)短時平均幅度U-i,也是一幀語音信號能量大小的表征,它與短時能量的區(qū)別在于計算時不會因采樣值大小取二次方而造成較大差異。
其中,f是以Hz為單位的實際頻率。MFCC(Mel-scale Frequency Cepstral Coefficients,即梅爾倒譜系數(shù))是在Mel標度頻率域提取出來的倒譜參數(shù)。MFCC參數(shù)分析是基于人的聽覺機理,即依據(jù)人的聽覺實驗結(jié)果分析語音的頻譜。下面分別對8個特征和傳統(tǒng)的MFCC 24項參數(shù)進行樂器分類實驗。
2 分類器設(shè)計與主成分特征提取
2.1 分類器構(gòu)建
本文使用MATLAB設(shè)計3層BP(Backward Propagation)神經(jīng)網(wǎng)絡(luò)分類器[12],如圖1所示。BP算法是一種監(jiān)督式的機器學(xué)習(xí)算法,在建立預(yù)測模型時,利用監(jiān)督式學(xué)習(xí)建立一個學(xué)習(xí)過程,將預(yù)測結(jié)果與“訓(xùn)練數(shù)據(jù)”的實際結(jié)果進行比較,不斷調(diào)整預(yù)測模型,直到模型的預(yù)測結(jié)果達到一個預(yù)期的準確率。預(yù)測模型確立后,使用測試數(shù)據(jù)對其進行檢驗。
2.2 主成分特征提取
為了分析各特征對樂器分類的相關(guān)程度,減少相關(guān)度低的特征量對分類準確率的影響,本文使用Relief算法[13]計算分類器中各項特征所占的權(quán)重,具體如下:①從訓(xùn)練集D中隨機選擇一個樣本R;②從與R同類的樣本集中找到R的最近鄰樣本H,從與R不同類的樣本集中找到R的最近鄰樣本M;③求權(quán)重:若某個特征在R和H間的距離小于R和M間的距離,則該特征對分類是有益的,增加該特征權(quán)值,反之,則該特征對分類是有害的,降低其權(quán)值,如式(14)所示。各特征權(quán)值在所有特征總權(quán)值中所占比重即為各特征的權(quán)重,如式(15)所示。
其中,W為特征權(quán)值向量,W-0為特征權(quán)值向量的初始值,本文設(shè)為零向量,diff(R,H)表示R和H各特征向量的距離,diff(R,M)表示R和M各特征向量的距離,w-i表示各特征權(quán)重的向量。特征權(quán)重越大,表示該特征的分類性能越好,反之越差。
3 實驗設(shè)置
3.1 音頻數(shù)據(jù)集建立
數(shù)據(jù)集是設(shè)計和改進分類系統(tǒng)的關(guān)鍵之一,不同的作者獲取和處理音頻數(shù)據(jù)的方法不盡相同,但大多是基于使用音頻段長度、分幀長度、音頻格式、音頻種類、采樣率和濾波技術(shù)等方面的不同。文獻[14]從采樣率為44.1kHz的6種樂器音頻中提取300個音頻段,每個音頻段長度為20s。文獻[15]從音頻中提取出5286個樣本用于29種西方管弦樂器分類,使用漢明窗,固定幀移為幀長的25%時,分別對幀長為20ms和40ms時的分幀進行測試。文獻[16]將音頻段長度設(shè)為0.1s~10s,使用漢明窗,幀長為256,幀移為幀長的50%。文獻[10]采樣率為22.1kHz,對幀長為256和1024的分幀進行測試。文獻[11]將音頻段長度設(shè)為10s,每種音頻樣本數(shù)為120個,采樣率為16kHz。這些實驗使用的各種參數(shù)表明,目前對如何確定用于建立數(shù)據(jù)集的最優(yōu)參數(shù)沒有基準可循[10]。
對180min的音頻樣本進行特征提取,音頻文件均統(tǒng)一為WAV格式,采樣率為8 000Hz,位數(shù)為16位,音頻段長度均為4s,分幀使用海寧窗,幀長200,幀移80,樂器種類及其提取出的樣本個數(shù)如表2所示。
3.2 全特征實驗
首先,根據(jù)本文所提8項特征組成的特征集1和由24項MFCC特征組成的特征集2,分別劃分出訓(xùn)練數(shù)據(jù)1、2和測試數(shù)據(jù)1、2;然后,將訓(xùn)練數(shù)據(jù)1、2分別輸入設(shè)計好的三層神經(jīng)網(wǎng)絡(luò)分類器進行訓(xùn)練;最后,將測試數(shù)據(jù)1、2分別輸入由訓(xùn)練數(shù)據(jù)1、2訓(xùn)練好的分類器中,得到分類結(jié)果。
為了分析不同訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)對實驗結(jié)果的影響,對每種分類器分別使用訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)數(shù)量比例(訓(xùn)測比)為1∶1、1∶2、2∶1的數(shù)據(jù)集進行實驗。
3.3 主成分特征實驗
基于Relief算法的主成分特征提取方法,計算出本文所提特征集中各特征量的權(quán)重,使用權(quán)重最大的4、5、6個特征量,按照特征集1的實驗方法分別進行分類實驗。
4 分類結(jié)果分析
分類器的分類結(jié)果通過平均準確率P進行對比:
不同訓(xùn)測比下的分類器分類結(jié)果見圖2、圖3、圖4。
從圖2、圖3、圖4可以看出,本文提出的8項特征分類性能比傳統(tǒng)的24項MFCC特征更穩(wěn)定。使用MFCC特征分類時,在不同訓(xùn)測比試驗中均出現(xiàn)無法正確分類的情況,如圖2中GT-SKS(吉他-薩克斯)、GT-SN(吉他-嗩吶)、WB-PP(烏巴-琵琶)分類的平均準確率只有50%。
本文提出的特征集與MFCC特征集在各訓(xùn)測比下分類平均準確率如表3所示。在訓(xùn)測比為1∶1和1∶2時,本文提出的特征準確率更高,而在訓(xùn)測比為2∶1時,表現(xiàn)比MFCC特征集稍差,這可能是由于本文所提的特征集存在與分類相關(guān)性較小的特征項,影響了分類準確率。因此,基于Relief算法的主成分特征提取進行實驗,對提取的權(quán)重最大的4、5、6個特征量重新進行分類實驗。
不同分類實驗中各特征量所占權(quán)重的部分值見表4,實驗結(jié)果見圖5??梢?,基于Relief算法的主成分特征提取能有效減少較小相關(guān)性特征項對分類準確率的影響。本文提出的特征集比MFCC特征集使用的特征量更少,且對文中9種樂器的分類準確率更高,達到94.84%。
5 結(jié)語
針對過去樂器分類研究使用特征量過多、復(fù)雜度高、分類準確率較低的問題,提出了一種特征量少、準確率高的樂器分類方法。將提取的8項特征量和傳統(tǒng)24項MFCC特征量分別輸入神經(jīng)網(wǎng)絡(luò)分類器進行試驗,對包括中國樂器和西方樂器的9種樂器的分類結(jié)果表明,在訓(xùn)測比為1∶1和1∶2時,本文提出的特征準確率更高,分別為93.87%和92.75%,而在訓(xùn)測比為2∶1時,MFCC特征集表現(xiàn)較好,為94.14%。使用基于Relief算法的主成分特征提取方法,對從8項特征中提取出的權(quán)重最高的4、5、6項特征分別進行分類實驗,結(jié)果表明,使用權(quán)重最高的6項特征進行分類的平均準確率比使用8項特征時有所提高,達到了94.84%,說明本文提出的基于Relief算法的主成分特征提取方法能夠有效降低權(quán)重較小的特征量對分類準確率的影響。
參考文獻:
[1] LIU Z,WANG Y, CHEN T.Audio feature extraction and analysis for scene segmentation and classification[J].Kluwer Academic Publishers.1998,20(1-2):61-79.
[2] DENG J D,IMMERMACHER C S,CRANEFIELD S.A study on feature analysis for musical instrument classification[J].IEEE Transactions on Systems,Man and Cyberntics,2008,38(2):429-439.
[3] ZHANG X Y, SU Z, LIN P, et al. An audio feature extraction scheme based on spectral decomposition[C].International Conference on Audio,Language and Image Processing,2014:730-733.
[4] JOSHI M,NADGIR S. Extraction of feature vectors for analysis of musical instruments[J].International Conference on Advances in Electronics, Computers and Communications,2015,25(27):1-6.
[5] 張奇,蘇洪根.基于支持向量機的樂器識別方法[J].計算機工程與應(yīng)用,2004,40(18):99-101.
[6] 田莎莎,唐菀,佘緯.改進MFCC參數(shù)在非特定人語音識別系統(tǒng)中的研究[J].科技通報,2013,29(3):139-142.
[7] 陳卓.基于多種分類器的樂器識別[D].昆明:云南大學(xué),2014:31-43.
[8] 郅逍遙,李臨生,郭哲喆,等.基于相空間和柔性神經(jīng)樹的樂器分類[J].計算機工程與應(yīng)用,2015,32(2):159-162.
[9] 華斌,張麗超,趙富強.基于加權(quán)MFCC的音頻檢索[J].計算機工程與應(yīng)用,2015,51(8):200-204.
[10] SENAN N,IBRAHIM R,MOHD N NAWI,et al.Feature Extraction for traditional malay musical instruments classification system[C].2009 International Conference of Soft Computing and Pattern Recognition.2009:454-459.
[11] LASHARI S,IBRAHIM R,SENAN N.Soft set theory for automatic classification of traditional pakistani musical instruments sounds[C]. 2012 International Conference on Computer and Information Science,2012:94-99.
[12] 胡耀文,孫俊,方芳,等.基于BP神經(jīng)網(wǎng)絡(luò)的接收信號強度的檢測方法[J].云南大學(xué)學(xué)報,2017,39(4):534-538.
[13] 黃莉莉,湯進,孫登第,等.基于多標簽ReliefF的特征選擇算法[J].計算機應(yīng)用,2012,32(10):2888-2890.
[14] BENETOS E,KOTTI M,KOTROPOULUS C.Musical Instrument Classification using non-negative matrix factorization algorithms and subset feature selection[C].IEEE International Conference on Acoustics, Speech and Signal Processing.2006.
[15] ERONEN A.Comparison of features for musical instrument recognition[C].IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics,2002:19-22.
[16] LIU M,WAN C.Feature selection for automatic classification of musical instrument sounds[C].ACM/IEEE-CS Joint Conference on Digital Libraries,2001:247-248.
(責(zé)任編輯:杜能鋼)