趙慶磊 邵峰晶 孫仁誠 隋毅
摘要:樂器識別領域中,傳統(tǒng)降采樣或全局映射方法得到的特征對輸入表達不夠準確且判別能力不足。為此借鑒圖像領域聚合局部特征的思想,提出一種結合頻譜特征和圖像領域特征聚合策略的方法??紤]涉及中國傳統(tǒng)樂器的研究較少,建立了包含12種中國傳統(tǒng)樂器的獨奏音樂數(shù)據(jù)集。為適應頻譜圖輸入,對ResNet34的變體網絡模型進行了修改,在建立的數(shù)據(jù)集上分別針對樂器識別和驗證任務對不同特征和聚合策略的9種組合模型進行了性能對比。實驗結果表明,基于短時幅度譜和GhostVLAD的組合模型,在樂器識別任務中達到93.3%的準確率,優(yōu)于其他模型,且收斂速度最快。
關鍵詞:中國傳統(tǒng)樂器;樂器識別;卷積神經網絡;特征聚合策略;性能評估
中圖分類號:J62;TP183
文獻標志碼:A
收稿日期:2020-12-04
基金項目:
國家自然科學基金青年基金(批準號:41706198)資助。
通信作者:
孫仁誠,男,博士,教授,主要研究方向為大數(shù)據(jù)分析。E-mail: qdsunstar@163.com
隨著深度學習理論的發(fā)展,深度學習方法在圖像、音頻、視頻等處理和分析中得到廣泛應用。樂器識別(musical instrument recognition,MIR)作為音樂信息檢索和音樂數(shù)據(jù)分析的一部分,是獲得音樂信號高級信息的關鍵任務[1]。準確的樂器識別可以使許多相關任務受益。例如,獲得樂器類型可以輔助生成音樂播放列表,聲音場景分類,體育音頻分類等[2-4]。在過去的幾十年里,樂器識別任務的問題之一就是為給定的識別任務選擇最佳的特征。何蓉等[5-6]通過對音樂文件使用短時傅里葉轉換和梅爾變換生成對應頻譜圖,對音樂中的樂器等信息進行識別,分別搭建出了符合用戶偏好的音樂推薦系統(tǒng)和基于頻譜圖的音樂流派分類模型。Yu等[7]從音樂中提取梅爾頻譜圖、梅爾頻率倒譜系數(shù)(MFCC)和其他五種特征,基于樂器的發(fā)作類型和家族構建了帶有輔助分類的樂器識別模型。Ashwini等[8-9]分別通過從建立的新穎印度和波斯音樂數(shù)據(jù)集中提取MFCC等多種特征,實現(xiàn)對多種印度和波斯樂器的識別。王飛等[10]利用從不同類型的樂器中提取的聽覺譜圖,提出了基于改進卷積神經網絡與聽覺譜圖的樂器識別模型。在識別任務中,不僅特征提取是關鍵,特征聚合策略的應用也頗為重要。早期的研究主要包括平均池化和最大池化,對鄰域內的特征點求平均或取最大,在保持圖像不變性的同時減少特征和參數(shù)數(shù)量。而Lin等[11]基于平均池化提出全局平均池化,將特征圖中所有的像素值相加之后求平均,得到一個可以表示對應特征圖的數(shù)值,通常用于替換分類器中的全連接層。最近的圖像領域研究中,Arandjelovi等[12]提出NetVLAD結構,將傳統(tǒng)的局部聚合向量(VLAD)結構嵌入到CNN網絡中,使得網絡可以更加有效地利用特征,提高對同類別圖像的表達能力和針對分類任務的區(qū)分能力。而Zhong等[13]在此基礎上進一步提出GhostVLAD結構,幫助神經網絡丟棄對最終分類結果貢獻度較小,即鑒別性不足的特征,大幅改進了基于圖像集合的識別方法。盡管最近幾年在樂器識別方面進行了許多研究,但大多數(shù)研究對從音樂中提取的特征直接進行降采樣或全局映射,聚合得到的特征往往對輸入的表達不夠準確且判別能力不足。同時現(xiàn)有研究大多針對西方樂器,對中國傳統(tǒng)樂器的研究相對較少。本文借鑒圖像領域聚合局部特征的思想,提出了將音樂頻譜特征與圖像領域的特征聚合策略組合使用的方法,在新建立的中國傳統(tǒng)樂器音樂數(shù)據(jù)集上,與使用傳統(tǒng)聚合策略的方法進行對比實驗,使用準確率、收斂速度和等錯誤率對模型性能進行對比討論模型的性能差異,包括特征和聚合策略本身的影響以及不同類型樂器的影響。
1 模型方法介紹
本文建立了針對樂器識別任務且可以擴展到樂器驗證任務的CNN模型,模型使用從原始音樂片段直接提取的頻譜圖進行訓練,而無需對音樂數(shù)據(jù)進行其他預處理(例如,消除靜音、聲音活動檢測等)。首先使用CNN網絡從音樂數(shù)據(jù)中提取幀級頻譜特征,然后基于應用于圖像領域的特征聚合策略對提取到的局部特征進行聚合,以獲得對輸入表達更加準確和鑒別性更強的樂器嵌入,提高識別和驗證任務的準確率,最后對整個模型進行端到端訓練。
1.1 輸入特征
盡管將原始音樂信號用作網絡的輸入可以減少對專業(yè)音樂知識和預處理技術的依賴,但是經過提取的特征可以提高識別精度[14]。本文分別考慮了將音樂數(shù)據(jù)經過短時傅里葉變換、梅爾變換得到的對應頻譜圖和MFCC作為整個網絡的輸入特征。
(1) 短時幅度譜,對經過短時傅里葉變換獲得的音頻特征求幅值得到的幅度頻譜圖。假設音樂信號為x(t),其短時傅里葉變換(STFT)[6]為
STFTx(τ,ω)=∫∞-∞w(t-τ)x(t)e-jωtdt(1)
其中,x(t)代表音樂信號;w(t)代表窗函數(shù),通常是以0為中心的漢明窗函數(shù)(Hamming Function),τ和ω分別代表時間和頻率指數(shù)。
(2) 梅爾頻譜,輸入音樂數(shù)據(jù)在梅爾標度頻率上的幅度頻譜圖。梅爾標度(Mel scale)[15]是一種基于人類聽覺感知定義的非線性頻率標度。梅爾頻譜圖是通過對短時傅里葉頻譜圖的頻率軸應用非線性變換,將普通的頻率標度轉化成梅爾標度獲得的。將普通頻率f轉換為梅爾頻率的公式[16]為
Mel(f)=2595log101+f700(2)
(3) MFCC[17],一種廣泛用于自動語音和說話者識別以及自動音樂識別的特征,是在梅爾頻率上獲得的頻率倒譜系數(shù),簡稱MFCC。
1.2 網絡結構
ResNet[18]網絡結構已經被證明對于多種視覺任務(例如,圖像識別、目標檢測和圖像分割)和聽覺任務(例如,說話人識別、音樂流派分類和樂器識別)非常有效。ResNet網絡與標準的多層CNN類似,但是其由殘差單元塊組成,使用殘差連接[19]學習輸入和輸出之間的映射,使得各網絡層可以將殘差添加到通道輸出的身份映射中。這種方法消除了身份映射時梯度消失的問題,為梯度通過網絡提供了清晰的途徑。
本文使用包含更少網絡參數(shù)的ResNet34變體網絡來進行所有的實驗,將原始ResNet34網絡中包含2個3×3卷積核的殘差單元塊替換為包含2個1×1和1個3×3卷積核的殘差單元塊,并根據(jù)頻譜圖輸入的需要對網絡層進行修改。最終的網絡模型結構如圖1所示。
1.3 特征聚合策略
聚合策略在由數(shù)據(jù)特征驅動的CNN訓練中起著重要的作用,負責對網絡層提取的特征進行聚合,以獲得音頻級別的樂器嵌入。本文嘗試了三種聚合策略網絡層:全局平均池化層,基于NetVLAD層的可訓練的聚合層,以及基于NetVLAD層改進的GhostVLAD聚合層。
(1) 平均池化聚合。對于網絡層輸出的每一個通道的特征圖的所有像素計算一個平均值。在聚合特征時,沿時間軸的全局平均池化層可以使得網絡對于時間位置具有不變性,這對于屬于時序數(shù)據(jù)的音頻數(shù)據(jù)而言是理想的。此外,全局平均池化層還使得經過聚合后的輸出特征與原始的完全連接層的輸出特征具有相同的尺寸,同時也減少了網絡中的參數(shù)數(shù)量,避免模型出現(xiàn)過擬合現(xiàn)象。
(2) NetVLAD聚合。CNN網絡結構將輸入頻譜圖映射到幀級別的輸出特征,并經過降采樣處理得到T×D局部特征圖。然后,NetVLAD層將其作為輸入并產生一個K×D維的全局特征矩陣V,其中K代表所選擇的簇的數(shù)量,D代表每個簇的維數(shù)。全局特征矩陣V[12]
V(k,j)=∑Tt=1ewTkxt+bk∑Kk'=1ewTk'xt+bk'xt(j)-ck(j)(3)
其中,wk,bk和ck是可訓練的參數(shù);wk和bk分別代表濾波器和偏置;xt(j)和ck(j)分別代表第t個局部特征和第k個聚類中心的第j個特征值,k∈K,j∈D。式(3)中第一項對應于聚類類別k的輸入向量xt的軟分配權重,第二項計算向量xt與聚類中心ck之間的殘差。然后對全局特征矩陣V中的每一行,即每個簇的殘差進行L2歸一化,最后通過將該矩陣展平為長向量(即將行向量進行串聯(lián))來獲得最終輸出。為了保持較低的計算和內存要求,使用全連接層進行降維,輸出維度為512。
(3) GhostVLAD聚合。GhostVLAD聚合層基于NetVLAD聚合層進行改進,使某些被聚類到一起的簇不包含在最終的串聯(lián)長向量中,因此這些簇不會對最終的輸出表示有所影響,被稱為“幽靈簇(ghost clusters)”(使用1個)。由于在對幀級特征進行聚合時,音頻片段中嘈雜和不理想的部分,以及對最終結果貢獻較小的特征的大部分權重已經分配給了“幽靈簇”,因此對正常VLAD簇和最終結果的影響將有效降低。
2 實驗設置
2.1 概述/實驗流程圖
基于CNN進行特征和聚合策略性能評估的訓練和測試框架如圖2所示。在訓練時的每個輪次中,經過所有批次的訓練數(shù)據(jù)訓練后學習到的網絡權重,用于計算模型在訓練數(shù)據(jù)集上的分類分數(shù)和準確率。然后,在經過所有輪次的訓練之后,對于樂器識別任務,訓練后的模型用于預測測試數(shù)據(jù)的類別,并根據(jù)預測類別與真實類別計算得到測試準確率。而對于樂器驗證任務,訓練后的模型用于提取成對測試數(shù)據(jù)的特征嵌入,并計算它們之間的余弦相似度,作為測試數(shù)據(jù)對的輸出分數(shù),最終再經過計算得到模型在測試數(shù)據(jù)集上的EER。
2.2 數(shù)據(jù)集及評價指標
2.2.1 數(shù)據(jù)集 通過收集整理得到包含12種中國傳統(tǒng)樂器的137首音樂數(shù)據(jù),每種樂器平均有11首樂曲,根據(jù)發(fā)作類型可分為吹管、拉弦和彈撥樂器。其中吹管樂器根據(jù)樂器材質又分為簧管和竹管。樂器種類如表1所示。
收集到的音樂數(shù)據(jù)為采樣率44.1 kHz,16 bit單聲道的數(shù)字信號,總時長約為10小時。根據(jù)模型和實驗需要,以3 s的單位時間長度對原始音樂數(shù)據(jù)進行平均切割,得到12 347個樣本,其中每首樂曲的平均樣本數(shù)量為90。各種樂器的音樂樣本數(shù)量分布如圖3所示。
根據(jù)音樂樣本的樂器種類和數(shù)量分布情況以及實際任務需要,對原始音樂數(shù)據(jù)進行劃分,得到訓練集(Train)和用于樂器識別任務的測試集(Test),以及用于樂器驗證任務的3個測試集。其中訓練集和樂器識別任務測試集由多個音樂樣本組成,而用于樂器驗證任務的測試集是由音樂樣本組合而來的數(shù)據(jù)對組成。數(shù)據(jù)集匯總如表2所示。
訓練集和樂器識別任務測試集:根據(jù)樂器識別任務的需要,對涉及3種發(fā)作類型的4種中國傳統(tǒng)樂器:葫蘆絲、笛子、二胡和古箏的音樂數(shù)據(jù)進行隨機采樣。由于不同樂器中最少的樂曲數(shù)量為10首,每首樂曲中最少的樣本數(shù)量為30。因此實驗從每種樂器音樂數(shù)據(jù)中選擇10首樂曲,并從每首樂曲中隨機采樣30個音樂樣本,按照7∶3的比例制作訓練集和測試集,最終從4種樂器的音樂數(shù)據(jù)中采樣得到840和360個音樂樣本,分別作為訓練集和樂器識別任務的測試集。
樂器驗證任務測試集:根據(jù)樂器發(fā)作類型,并考慮到不同樂器中的最少樂曲數(shù)量以及每首樂曲中的最少樣本數(shù)量,分別對訓練集和樂器識別任務測試集之外的8種樂器音樂數(shù)據(jù)進行隨機采樣。然后根據(jù)樂器驗證任務的需要,對采樣得到的音樂樣本進行組合,最終得到分別包括434 940對、79 800對和145 530對具有相同發(fā)作類型樂器音樂數(shù)據(jù)對的3個測試集:吹管樂器測試集(Test-C)、拉弦樂器測試集(Test-L)和彈撥樂器測試集(Test-T)。
2.2.2 評價指標 不同特征和聚合策略組合下的模型通過準確率(Accuracy)和等錯誤率(EER)進行評估。Accuracy用于衡量模型識別樂器的準確程度,是被預測為正確類別的樣本數(shù)占總預測樣本數(shù)的百分比
Accuracy=TP+TNTP+FN+TN+FP(4)
其中,TP(True Positive)代表真實標簽為正例,預測標簽也為正例的樣本個數(shù);TN(True Negative)代表真實標簽為正例,預測標簽卻為負例的樣本個數(shù);FP(False Positive)代表真實標簽為負例,預測標簽卻為正例的樣本個數(shù);FN(False Negative)代表真實標簽為負例,預測標簽也為負例的樣本個數(shù)。
EER用于衡量模型驗證樂器的準確程度,是錯誤拒絕率(FR,F(xiàn)alse Rejection)等于錯誤接受率(FA,F(xiàn)alse Acceptance),即FR=FA時的值。其中FR代表在真實標簽為正例的樣本中預測標簽為負例的樣本數(shù)所占的百分比;FA代表在真實標簽為負例的樣本中預測標簽為正例的樣本數(shù)所占的百分比。
2.3 實驗環(huán)境和設置
本文所用機器的開發(fā)環(huán)境為Windows10(64位)操作系統(tǒng),內存32.00GB;Inter(R)Xeon(R)W-2133處理器;顯卡為 NVIDIA GeForce GTX 1080Ti,顯存11GB?;赑ython3.6.5在Anaconda3中的Spyder3.3平臺下進行實驗,實驗結果的可視化處理由tensorboard、matplotlib庫實現(xiàn)。
訓練過程中,從每個音樂樣本中隨機采樣,根據(jù)使用的輸入特征,對音樂樣本執(zhí)行相應的變換,得到相當于2.5秒時間長度的257×250(頻率×時間)固定大小的頻譜圖,并通過減去均值并除以單個時間步長中所有頻率分量的標準差來進行標準化,最后作為輸入對模型進行訓練。使用標準的softmax損失,初始學習率為0.01的Adam優(yōu)化器,并設置每個批次的大小為64,在每10個輪次之后將學習率降低10倍。由于考慮的所有模型在經過20個輪次的訓練后都趨于收斂,因此只對20個訓練輪次內的模型進行性能評估。
3 實驗結果分析
將不同特征和聚合策略進行組合并與softmax損失函數(shù)以及修改后的ResNet34變體網絡架構一起使用,在訓練數(shù)據(jù)集上進行訓練,分別在樂器識別測試集和樂器驗證任務的不同測試集上進行測試。將針對樂器識別任務的測試準確率和收斂速度,以及樂器驗證任務的測試EER對模型性能進行對比。
對于輸入特征,短時幅度譜能夠保留音頻數(shù)據(jù)中的大部分信息,但往往也會保留對最終識別結果貢獻較小的特征信息。梅爾頻譜削弱了以摩擦音和其他突發(fā)噪聲為主的高頻細節(jié),因此會丟失一部分特征信息[20]。而MFCC雖然保留了音頻的基本特征,但也破壞了一部分有用的特征信息[21]。
對于聚合策略,平均池化策略可以有效降低特征的維度,將特征聚合到一起,但是無法像NetVLAD聚合策略一樣根據(jù)特征信息的特點更加有效地聚合特征。而GhostVLAD聚合策略在保留大量原始特征信息的同時,往往能夠過濾掉許多噪聲或貢獻度較小的特征信息[22]。
3.1 樂器識別準確率對比
針對樂器識別任務,不同組合下的模型準確率對比如表3所示。其中stft、mel和mfcc分別代表短時幅度譜、梅爾頻譜和梅爾頻譜倒譜系數(shù),avg、vlad和gvlad分別代表全局平均池化、NetVLAD和GhostVLAD聚合策略。實驗中獲得最高準確率的是stft-gvlad組合下的模型,該模型使用短時幅度譜作為輸入特征,采用GhostVLAD聚合特征,在訓練數(shù)據(jù)集上訓練后,驗證數(shù)據(jù)集上的準確率為93.2%??芍?,對于使用短時幅度譜作為輸入特征的模型,由于短時幅度譜保留了絕大部分的特征信息,并且訓練后的GhostVLAD聚合層比全局平均池化層更加有效地對特征進行聚合,相對于NetVLAD聚合策略,可以在聚合特征的過程中過濾掉短時幅度譜本身存在的對識別結果貢獻度較小甚至會產生負面影響的特征信息,因此stft-gvlad組合下的模型在驗證集上的準確率最高。
對于使用梅爾頻譜作為輸入特征的模型,由于NetVLAD聚合策略可以將梅爾頻譜中符合人耳聽覺特點的特征信息比平均池化策略更加有效的聚合起來,且不會像GhostVLAD聚合策略一樣損失掉部分有用的特征,因此mel-vlad組合模型在梅爾頻譜模型中的準確率最高,在所有的模型中準確率對于使用MFCC作為輸入特征的模型,由于MFCC在梅爾頻譜的基礎上丟失了一部分特征信息,使用GhostVLAD聚合策略會過濾掉更多的特征信息,因此mfcc-gvlad組合模型在驗證集上的準確率最低。
3.2 樂器識別收斂速度對比
根據(jù)不同組合下的模型在樂器識別測試集上實現(xiàn)最高準確率所需的最少訓練輪次來定義收斂速度,當比較不同組合下模型的收斂速度時,觀察到與上一部分類似的結果。不同模型的收斂速度比較如表4所示。在考慮的所有模型中,stft-gvlad組合下的模型表現(xiàn)出最快的收斂速度,訓練輪次為14。
對于不同的輸入特征,實驗觀察到兩種不同的收斂速度模式。使用短時幅度譜作為輸入特征的模型與使用梅爾頻譜和MFCC特征的模型相比,收斂速度更快,收斂所需的平均輪次為16。對于不同的聚合策略,當模型使用GhostVLAD聚合策略時,能夠獲得比使用全局平均池化和NetVLAD聚合策略更快的收斂速度,平均訓練輪次為15。
3.3 樂器驗證測試EER對比
針對樂器驗證任務,不同組合下的模型在不同測試集上的EER對比見表4。當在不同的測試數(shù)據(jù)集上進行評估時,模型表現(xiàn)出不同的性能。當在吹管樂器音樂構成的Test-C數(shù)據(jù)集上進行測試時,使用梅爾頻譜作為輸入特征,并使用GhostVLAD聚合策略對特征進行聚合的模型表現(xiàn)最好,EER為22%。當使用拉弦樂器音樂構成的Test-L測試數(shù)據(jù)集時,使用MFCC特征和NetVLAD聚合策略的模型EER為4.1%,在所有的模型中表現(xiàn)最佳。當在彈撥樂器音樂測試數(shù)據(jù)集Test-T上進行測試時,使用短時幅度譜特征和NetVLAD聚合策略的模型表現(xiàn)最好,EER為27.3%。由于特定的輸入特征和聚合策略的組合,以上實驗能夠從特定發(fā)作類型的樂器音樂中獲得更多的有效特征,因此得到比其他模型更佳的EER。
綜上所述,將頻譜特征與圖像領域的聚合策略組合使用的模型能夠獲得更高的樂器識別準確率,并且收斂速度更快,驗證了該方法的有效性。同時特定的組合模型在特定類型樂器的音樂上能夠獲得更佳的樂器驗證EER,表明不同的組合模型對于特定類型樂器的音樂具有一定的偏好性。
4 結論
針對樂器識別領域中特征聚合方式簡單且涉及中國傳統(tǒng)樂器音樂較少的問題,提出了一種將樂器識別中常用的頻譜特征與圖像領域的聚合策略進行組合的方法,并應用到ResNet34變體網絡中。在新建立的中國傳統(tǒng)樂器音樂數(shù)據(jù)集上,針對樂器識別和驗證任務將所提出的方法與傳統(tǒng)方法進行了對比實驗和結果分析。實驗結果表明,該方法可以獲得對輸入表達更加準確和更具判別能力的特征,從而提升樂器識別的準確率以及降低樂器驗證的等錯誤率。后續(xù)研究將繼續(xù)優(yōu)化特征和聚合策略組合的方法,進一步提升其在樂器識別任務中的性能,并將其更廣泛地應用到其他音樂相關領域。
參考文獻
[1]DATTA A K, SOLANKI S S, SENGUPTA R, et al. Automatic musical Instrument recognition[M]. Berlin: Springer Singapore, 2017.
[2]AUCOUTURIER J J, PACHET F. Scaling up music playlist generation[C]// Proceedings IEEE International Conference on Multimedia and Expo. IEEE, 2002.
[3]MA L, MILINER B, SMITH D. Acoustic environment classification[J]. ACM Transactions on Speech and Language Processing, 2006, 3(2):1-22.
[4]XIONG Z, RADHAKRISHNAN R, DIVAKARAN A, et al. Comparing MFCC and MPEG-7 audio features for feature extraction, maximum likelihood HMM and entropic prior HMM for sports audio classification[C]// 2003 IEEE International Conference on Acoustics. Hong Kong, 2003: 628-631.
[5]何蓉. 基于卷積神經網絡的音樂推薦系統(tǒng)[D]. 南京:南京郵電大學, 2019.
[6]黃琦星. 基于卷積神經網絡的音樂流派分類模型研究[D].長春:吉林大學,2019.
[7]YU D, DUAN H, FANG J, et al. Predominant instrument recognition based on deep neural network with auxiliary classification[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28:852-861.
[8]ASHWINI, VIJAYA K V. Feature selection for Indian instrument recognition using SVM classifier[C]// 2020 International Conference on Intelligent Engineering and Management, ICIEM, 2020: 277-280.
[9]MOUSAVI S M H, PRASATH V B S. Persian classical music instrument recognition (PCMIR) using a novel Persian music database[C]// 9th International Conference on Computer and Knowledge Engineering, (ICCKE). Ferdowsi Univ Mashhad, 2019: 122-130.
[10] 王飛,于鳳芹.基于改進卷積神經網絡與聽覺譜圖的樂器識別[J].計算機工程,2019,45(1):199-205.
[11] LIN M, CHEN Q, YAN S C. Network in network[J]. Computer Science, 2013: arXiv:1312.4400.
[12] ARANDJELOVI R, GRONAT P, TORII A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1437-1451.
[13] ZHONG Y J, ARANDJELOVI R, ZISSERMAN A. GhostVLAD for set-based face recognition[C]// 14th Asian Conference on Computer Vision (ACCV). Perth, 2018, 11362:35-50.
[14] 李霞,劉征,劉遵仁,等.關于音樂可視化的研究——聲音格式到音樂格式的轉換[J].青島大學學報(自然科學版),1997,9(4):68-72.
[15] STEVENS S S. A scale for the measurement of the psychological magnitude pitch[J]. J.acoust.soc.am, 1937, 8(3):185-190.
[16] DENG J D, SIMMERMACHER C, CRANEFIELD S. A study on feature analysis for musical instrument classification[J]. IEEE Transactions on Systems Man & Cybernetics Part B-Cybernetics, 2008, 38(2):429-38.
[17] WANG Y, HAN K, WANG D L. Exploring monaural features for classification—based speech segregation[J]. IEEE Transactions on Audio Speech & Language Processing, 2013, 21(2):270-279.
[18] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Seattle, 2016,770-778.
[19] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks[J]. Computer Science, 2015, arXiv:1507.06228.
[20] 馬英,張凌飛,馮桂蓮.基于“音樂噪聲”的修正譜減法算法分析[J].青島大學學報(自然科學版),2017,30(3):25-28.
[21] 高銘,孫仁誠.基于改進MFCC的說話人特征參數(shù)提取算法[J].青島大學學報(自然科學版),2019,32(1):61-65+73.
[22] NAGRANI A, CHUNG J S, XIE W, et al. Voxceleb: Large-scale speaker verification in the wild[J]. Computer speech and language, 2020, 60(3):101027.1-101027.15.
Performance Evaluation of Spectrum Features and Aggregation Strategies for Musical Instrument Recognition
ZHAO Qing-lei, SHAO Feng-jing, SUN Ren-cheng, SUI Yi
(College of Computer Science and Technology, Qingdao University, Qingdao, 266071, China)
Abstract:In the field of musical instrument recognition, the features, which obtained by traditional down-sampling or global mapping methods, are insufficient for input expression and discriminative ability. For this reason, drawn on the idea of aggregating local features in the image field, a method of combining spectral features and image field feature aggregation strategies is proposed. At the same time, considering that there are few researches involving traditional Chinese musical instruments, a solo music data set containing 12 traditional Chinese musical instruments is established. In order to adapt to the input of the spectrogram, the variant network model of ResNet34 is modified, and the performance of 9 combination models with different features and aggregation strategies in the task of musical instrument recognition and verification tasks on the established datasets is compared. The experimental results show that the model based on the short-term amplitude spectrum and GhostVLAD achieves 93.3% accuracy in the task of musical instrument recognition, which is better than other models and has the fastest convergence speed.
Keywords:
Chinese traditional musical instrument; instrument recognition; convolutional neural network; aggregation strategy; performance evaluation