国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

音樂信息檢索下的樂器識別綜述

2023-01-29 13:11:12裴文斌王海龍裴冬梅
計算機工程與應用 2023年2期
關鍵詞:音頻頻譜樂器

裴文斌,王海龍,柳 林,裴冬梅

內蒙古師范大學 計算機科學技術學院,呼和浩特010022

從20世紀90年代開始,隨著互聯(lián)網在全世界范圍內迅速普及,人們能夠在互聯(lián)網上傳輸、下載和聆聽海量的數(shù)字音樂,這直接促使了音樂信息檢索技術(music information retrieval,MIR)的產生,其本質早已從最初狹義的對音樂進行搜索擴展到使用計算手段對數(shù)字音樂進行內容分析理解[1]。2000年,國際音樂信息檢索學術會議(International Society Music Information Retrieval,ISMIR)的建立可以視為這一領域的正式創(chuàng)建。樂器識別作為獲取音樂高級信息的關鍵手段之一,已經成為MIR領域的重要研究分支及研究熱點,受到學術界、藝術界的高度關注和重視,其目標是使計算機能夠通過智能計算對樂器聲音進行理解與分析,進而對樂器進行識別。隨著智能計算技術的快速發(fā)展,樂器識別應用正從MIR領域逐步延伸到諸如服務、教育、多媒體、制造業(yè)等眾多領域,具體的應用包括播放列表生成[2]、聲學環(huán)境分類[3-4]、樂器智能教學[5-6]和基于音頻特征的視頻場景分析注釋[7]等。

圍繞樂器識別常用的音頻特征和方法,本文試圖對樂器識別的研究成果進行梳理、分析與總結。

1 樂器識別常用音頻特征

為了使樂器識別系統(tǒng)在各種復雜的音樂環(huán)境下運行、實現(xiàn)其任務和目標,樂器識別系統(tǒng)需要找到合適的音頻特征提取方案,以獲得科學表征樂器音色的信息,進而提高樂器識別系統(tǒng)的性能。常用的音頻特征包括時頻域特征、倒譜特征、稀疏特征和概率特征等。

1.1 時域和頻域特征

時域分析與頻域分析是從兩個不同的角度對音頻信號產生的變化進行觀察,信號分析的趨勢是從時域向頻域發(fā)展。樂器識別系統(tǒng)在很大程度上依賴于音樂信號從時域到頻域的轉換,其目的是更好地進行音色分析和計算頻譜包絡。目前,已經存在諸多可應用于樂器識別系統(tǒng)的時頻域特征,以描述樂器音色的相關信息,例如起音時間、過零率、頻譜質心、頻譜通量等。圖1描述了時域和頻域特征之間的轉換和提取過程。表1詳細介紹了音頻信號中的時域特征和頻域特征。

圖1 時頻域特征簡要提取流程Fig.1 Brief extraction process of time-frequency domain features

Eronen[8]對倒譜特征、時域和頻域特征進行對比評估,時域和頻域特征包括振幅包絡和頻譜質心等,在實驗中通過卡-洛變換將特征去相關,并使用K-近鄰分類器,通過交叉驗證評估其識別性能。結果顯示,在頻域和時域特征中,頻譜質心對單音樂器的識別率最高。Deng等[9]對現(xiàn)有的大量聲學特征進行展開討論,包括過零率、頻譜質心以及帶寬等,并研究了多種特征提取方案,采用一些特征選擇方法對特征方案進行分析,并評估了多種特征提取方案的分類性能。Weese[10]首次提取出均勻最大高斯包絡(uniform max Gaussian envelope,UMAGE)來表示復音音樂信號中的頻譜結構,不同于其他頻譜包絡,UMAGE最大的優(yōu)勢在于其對高階復音音頻信號建模時可以確保音頻信號頻率不會降低,進而確保了對復音樂器音色表征的準確性。

在我國也有不少研究通過提取時頻域特征對中國民族樂器進行音色分析與識別研究。沈駿等[11]對傳統(tǒng)特征提取方法進行了改進,使用相鄰音頻信號幀的差分方法對頻譜質心和擴頻進行提取,以構造出新的特征,使新的特征值保留了相鄰音頻信號幀的時間信息,對于二胡、中胡、高胡等具有相似頻譜和音色質量的樂器來說,新的特征表現(xiàn)出了較好的分類效果;Yang等[12]使用頻譜分析對長笛音色進行系統(tǒng)分析與評價,并對不同音色質量的長笛進行分類;曠瑋等[13]對笙的簧片物理尺度與笙的音色之間的相關性進行研究,證明了起振特征與頻譜豐富性特征存在共變關系,通過改變這兩個特征能夠改變音色的明亮度和柔軟度;Tsai[14]對竹笛音色進行了聲學分析,研究了頻譜特征構成的音色空間與心理聲學的聯(lián)系。目前,對于中國民族樂器的識別研究還較少,這些研究對中國民族樂器音頻特征的提取做出了貢獻,為中國民族樂器識別提供了參考經驗。

總之,時頻域特征作為樂器識別常用的特征之一,它最大的優(yōu)勢在于可以利用提取模型從信號中直接輸出,但是它也存在兩個顯著的缺點:(1)由于大部分時頻域特征直接輸出的是數(shù)值,對于音樂等帶有語義和演奏特色的音頻信號來說,單一時頻域特征無法對其進行有效的表示,更多情況下則是采用特征融合的方法,將時頻域特征與其他的特征進行融合,組成特征向量對樂器的音色進行表達。(2)由于復音樂器的頻域出現(xiàn)重疊,對于頻域特征數(shù)值的計算會出現(xiàn)較大誤差,這就導致提取單一頻域特征對復音樂器進行識別是難以實現(xiàn)的。

1.2 倒譜特征

1.2.1 Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)

MFCC是基于Mel標度頻率域提取出來的倒譜參數(shù),是由Davis和Mermelstein在1980年首次提出[15]。在提取MFCC的過程中,需要將頻譜輸入到模仿人類聽覺系統(tǒng)響應的Mel濾波器組中,從而得到Mel頻譜圖,在Mel頻譜圖上進行倒譜分析最終得到MFCC,其更符合人耳頻率的非線性特性。作為樂器識別領域最常用的特征之一,MFCC已被證明在單個特征方案中具有最佳的識別性能,并且MFCC的加入可以有效提高對弦樂器的識別精度[9]。但在實踐中,MFCC使用單一時間分辨率進行計算,通常是以每10 ms為單位窗口進行提取,而單一時間分辨率無法區(qū)分樂器音樂信號在多時間尺度上出現(xiàn)的各種變化,例如瞬變、顫音、持續(xù)諧波等。將時域信息納入MFCC的一種方法是提取MFCC的導數(shù)。Eronen[16]通過提取MFCC及其一階導數(shù),并將兩者通過特征融合組成特征向量對7種樂器進行識別,識別效果得到提升。然而提取MFCC的導數(shù)仍然是使用了單一時間分辨率。針對這一問題,Morvidone等[17]提出了一種將時域信息納入MFCC的新方法,定義并提取了兩組新的特征,OverCs和SparCs。OverCs是通過在多個時間尺度上計算平均MFCC來生成的;SparCs的生成使用了Matching Pursuit方法和多尺度時頻字典創(chuàng)建的稀疏表示方法,它是從稀疏模型中獲得的與MFCC類似的特征。將它們的識別性能與在單一時間分辨率下計算出的MFCC識別性能進行比較,發(fā)現(xiàn)多時間尺度OverCs和SparCs特征識別效果更佳,對單音樂器的最高識別率可達86.69%,比MFCC高出2.56%。之后,Morvidone等[18]在文獻[17]的基礎上對不同時間尺度計算出的MFCC特征相結合的有效性進行研究,研究發(fā)現(xiàn)在大多數(shù)情況下可以通過整合在多個時間尺度上計算出的MFCC特征以改進樂器識別系統(tǒng)的性能。Mahanta等[19]將提取出的MFCC輸入到他們所提出的人工神經網絡中,對20種單音樂器的識別精度達到97.26%。

1.2.2 線性預測倒譜特征(linear prediction cepstrum coefficient,LPCC)

對音頻信號進行線性預測分析(linear prediction coefficients,LPC)的基本思想是,一個音頻的采樣能夠用過去若干個音頻采樣的線性組合來逼近。其基本原理是把音頻信號模型化,將音頻信號X(n)看作是由一個輸入序列u(n)激勵一個全極點的模型H(Z)而產生的輸出[20]。該模型的傳遞函數(shù)如公式(1)所示:

其中,G為常數(shù),ai為實數(shù),p為模型的階數(shù)。

LPC作為描述短時頻譜包絡的方式之一,它可以很好地對功率譜密度中具有顯著峰值的信號進行建模,但對頻率較低的信號來說,LPC頻譜包絡過于平滑,會造成峰值遺漏問題[21-22]。線性預測倒譜系數(shù)(LPCC)是線性預測在倒譜域中的表示。Eronen[23]對LPC和LPCC的識別性能進行了對比分析,結果表明LPCC的識別性能明顯優(yōu)于LPC,其原因是LPCC可以對倒譜系數(shù)進行倒譜均值減,可以有效地減小音頻信號輸入信道對特征參數(shù)的影響。雖然LPCC可以較好地對頻率倒譜進行表示,但是它對樂器聲音的共振并不敏感,而共振是決定樂器音色的重要因素。Krishna等[24]首次通過提取常用于語音識別的線譜頻率(linear spectrum frequency,LSF)作為樂器識別模型的輸入特征,LFS相比于LPCC能夠更好地對樂器聲音產生的共振進行模擬,同時,巧妙地避免了對單個音符識別時復雜的音符分割過程。在進行復音樂器識別時,LPC和LPCC必須從聲源分離后的音頻中進行提取,當然聲源分離本身就是一個非常困難的問題,特別是樂器數(shù)多于通道數(shù)的情況,這就使得在進行復音樂器識別時,LPC和LPCC難以被提取。Duan等[25]針對這一問題提出一種離散倒譜(unified discrete cepstrum,UDC)來表示復音樂器的音色,UDC可以直接從混合頻譜中的孤立頻譜點中計算(例如,諧波源的非重疊諧波),從而彌補了LPC和LPCC在混合音頻中難以被提取的缺陷。

1.3 稀疏特征和概率特征

專門設計的頻譜特征提供了高度“直觀”的信息,通常以高度濃縮的形式描述音頻信號的聽覺特征,而忽略了音頻信號的許多細節(jié)。基于稀疏特征的樂器識別方法能夠獲取更符合音樂特點的特征表示,能夠很好地捕獲樂器聲音之間的頻譜差異,從而提高樂器識別的準確率。例如,MFCC經過一系列的轉換操作將原始頻譜轉換為倒譜,它的維度通常很低,這就導致MFCC忽略了許多高頻信息,雖然高頻信息對語音識別來說可以忽略,但對樂器聲音識別就顯得尤為關鍵。Yu等[26]針對此問題提出了一種將倒譜特征和稀疏編碼相結合的樂器識別方法,該方法可以有效地保留倒譜中樂器音樂的高頻信息,采用該方法對單音樂器識別獲得最優(yōu)F1測度0.955,對復音樂器識別獲得最優(yōu)F1測度0.688,與典型的倒譜表示方法相比具有更好的識別精度。Han等[27]首次提出一種用于樂器識別的音符稀疏特征表示方法,使用稀疏編碼來學習Mel頻譜圖中的特征,對24種不同類別樂器的分類精度達到95%左右。岳琪等[28]提出了一種基于樣本重構向量稀疏性能的特征計算方法(sparse performance index,SPI),并建立多種樂器成分字典,基于這些字典提取SPI稀疏特征進行復音樂器分析和可視化,該方法不需要對混合音樂數(shù)據(jù)進行標注,對人工標注的需求量幾乎為零,實驗結果表明此稀疏特征不僅

可以提高對復音樂器的識別率,而且基于SPI稀疏特征的時域變化譜圖能夠直觀反映出音樂本身情感和內容的變化,在復音樂器識別、音樂情感識別、音樂體裁分類以及其他各類時變信號分析等領域具有顯著的應用價值。除了稀疏特征之外,概率特征的出現(xiàn)為特征提取方案的選取提供了新的選擇。Hu和Liu[29]提出一種采用概率混合模型分解的方法進行樂器識別和音高估計,在指定的音高范圍內對樂器進行識別時,實驗結果顯示出概率特征良好的識別能力,但是該模型依賴于音符起始點檢測,在生成每個音符模型時只依賴于一個樣本,這樣極易使音符起始點檢測引起的誤差影響到樂器識別系統(tǒng)的性能。郅逍遙等[30]使用概率密度函數(shù)來刻畫各個樂器在相位空間中的差異,然后將提取出的概率密度函數(shù)的參數(shù)與其他音色特征相結合,輸入到他們所提出的柔性神經樹中,對4種單音樂器的平均識別率達到

89.2%。

1.4 其他特征

除了上述四種常用的音頻特征之外,還有一些其他的特征用于樂器識別。不同樂器可以演奏出不同數(shù)目的音符,每個音符對應一個音高頻率,即基頻,基頻的整數(shù)倍頻率為諧波,確定了音符的基頻,就能夠快速捕獲諧波位置,獲取諧波結構,進而根據(jù)不同樂器信號所具有的不同諧波結構來區(qū)分樂器。但是提取諧波結構很大程度上依賴于基頻估計[31-33],且在復音音樂中提取諧波結構較為棘手且容易造成誤差,Kitahara等[34]提出了一種新的方法來識別復音音樂信號中的樂器,而不依賴于音符起始點檢測和基頻估計,該方法的關鍵思想是將起始時間和基頻可視化,作為一種類似頻譜的表示,稱為instrogram,據(jù)此進行樂器分類,同時,他們還處理了復音音樂中時域和頻域出現(xiàn)重疊的情況,根據(jù)特征被重疊影響的程度對其進行加權,雖然實驗取得了良好的結果,但是在他們的實驗中存在兩個限制,即人工輸入基頻和人工生成的混合音頻。Essid等[35]提取出八度波段信號強度特征,此特征以一種粗略的方式獲取樂器聲音不同諧波的功率分布,同樣避免了繁瑣重復的基頻估計過程。孫聰珊等[36]利用離散諧波變換(discrete harmonic transform,DHT)對樂音信號諧波結構進行提取,并通過DHT構建了描述樂器音色的DHT特征,通過提取DHT特征與MFCC、LPCC組成的融合特征向量,對25種單音樂器和10種樂器的樂曲片段進行識別,并對時頻倒譜域音色相關特征進行提取作為對照分析,實驗結果表明,相比于其他時頻倒譜域特征,采用DHT、MFCC和LPCC的特征融合向量對25種單音樂器的平均識別率可達到90.0%,對10種樂器樂曲片段進行識別得到宏觀F1測度約為0.689,為樂音信號的特征提取提供了新思路。

黃雪梅等[37]利用非線性動力學理論將不同音頻信號的時間序列以遞歸圖的形式表示,通過分析遞歸圖的稠密比例不變特征變換(scale invariant feature transform,SIFT)特征得到不同樂器之間的特性,在實驗中將基于遞歸圖SIFT特征與MFCC特征的識別效果進行比較,其識別效果相較于MFCC高出3%~4%。Chaudhary等[38]提出一種將時頻倒譜域特征與熵相結合的方法進行樂器識別,其中Gammatone頻率倒譜系數(shù)與熵結合的識別效果最佳,對5種單音樂器的識別率可以達到99%。表2詳細介紹了樂器識別中較為常見的其他特征。

表2 其他音頻特征匯總Table 2 Summary of other audio features

2 樂器識別模型及方法

目前,常用的樂器識別方法分為兩種:一種是基于機器學習的淺層樂器識別方法,另一種是基于深度學習的樂器識別方法。在最初的樂器識別研究中,研究者們主要使用的是基于機器學習的方法,此種方法在特征表示階段需要借鑒音樂理論或心理聲學的知識去手工構建特征,而使用手工構建特征集的分類系統(tǒng)需要特征處理,需要耗費大量的精力來收集和優(yōu)化所有有用的特征。隨著深度學習神經網絡的不斷發(fā)展,人工神經網絡可以看作是特征提取器和分類器的結合,可以直接從原始音頻數(shù)據(jù)或者頻譜圖中提取出特征并進行有效識別,在性能上往往優(yōu)于淺層機器學習的方法。本章對樂器識別的模型框架以及兩種方法進行詳細介紹。

2.1 樂器識別模型框架

如圖2,介紹了常用的兩種樂器識別方法的模型框架,分為以下幾個部分:

圖2 樂器識別模型框架Fig.2 Musical instrument recognition model framework

(1)預處理:將音頻信號進行預處理操作是樂器識別研究的第一步,預處理的好壞很大程度上影響著識別系統(tǒng)的整體性能??茖W的預處理技術可以充分展現(xiàn)出原始音頻信號中并未呈現(xiàn)出的與樂器音色相關的特征,為后續(xù)能夠提取出準確表達樂器音色的特征奠定基礎。對音頻進行預處理的方式包括:預加重、分幀和加窗等操作。Han等[27]對預處理操作中的幀采樣方法進行了研究,對固定隨機采樣和比例隨機采樣進行了對比實驗,實驗的目的是證明一個較長的音頻是否需要更多的幀來學習,或者是否有一定數(shù)量的幀足以在后續(xù)特征提取中提取出較高質量的特征集,實驗結果表明,采用比例隨機采樣是一個更好的選擇,并且簡單地使用更多的幀來學習并不會使系統(tǒng)的分類精度提高。

(2)特征提?。簽樗R別樂器提取出能夠準確表達樂器音色信息的特征是樂器識別的關鍵步驟之一。常用的音頻特征在文章前半部分已經做過詳細的介紹,在此不再贅述。

(3)降維:降維的目的是將高度冗余的樂器特征向量在維度降低的情況下盡可能保存樂器原始的數(shù)據(jù)信息。有多種降維方法已被提出并應用于樂器識別的研究中,例如,主成分分析(principal component analysis,PCA)、多線性主成分分析(multilinear principal component analysis,MPCA)和線性判別分析(linear discriminant analysis,LDA)等。王飛等[39]分別使用PCA和MPCA對提取出的樂器特征進行降維對比實驗,實驗結果表明使用MPCA降維比使用PCA降維識別精度高出6.43%,驗證了使用PCA降維會破壞原始數(shù)據(jù)固有的高階結構和內在相關性,不利于對張量特征的處理,而MPCA相比PCA能夠將數(shù)據(jù)投射到更易分的低維空間。

(4)訓練分類器:基于機器學習的淺層方法需要訓練分類器對樂器進行分類識別,適用于樂器識別研究的分類器包括支持向量機(support vector machine,SVM)、K近鄰(K-nearest neighbour,K-NN)、隱馬爾可夫模型(hidden Markov model,HMM)等,在下面的章節(jié)中會對機器學習的各種分類器進行詳細介紹。

(5)深度學習:卷積神經網絡(convolutional neural network,CNN)和循環(huán)神經網絡(recurrent neural network,RNN)是樂器識別中常用的兩種神經網絡,CNN和RNN可以直接從原始音頻數(shù)據(jù)或者頻譜圖中提取出特征,避免復雜的特征提取和選擇的過程,在下面的章節(jié)中會對兩種神經網絡在樂器識別中的應用進行展開論述。

2.2 基于機器學習的樂器識別方法

2.2.1 支持向量機(SVM)

利用SVM進行樂器識別的基本訓練原理是:經過數(shù)據(jù)預處理之后,用于訓練SVM模型的樂器音頻數(shù)據(jù)應該包含表征樂器種類的原始特征和樂器種類的標簽,利用SVM核函數(shù)將線性不可分離的樂器音頻數(shù)據(jù)映射到一個高維特征空間,在其中可以找到一個不同樂器數(shù)據(jù)點的線性超平面,一旦找到表示最優(yōu)線性超平面的函數(shù)參數(shù),也就確定了SVM的模型。對于待分類的樂器,將特征向量代入SVM模型,根據(jù)計算出的數(shù)值即可判斷該樂器數(shù)據(jù)點位于超平面哪側,從而確定樂器類別。

在使用SVM進行分類時,構造核函數(shù)是重要的步驟之一。采用核函數(shù)的目的是將原始空間中的不可分數(shù)據(jù)轉換為高維空間中的可分數(shù)據(jù)。目前,關于核函數(shù)的選擇通常都是在訓練前,根據(jù)參數(shù)特征來選定合適的核函數(shù),包括核函數(shù)的類型以及相應的核函數(shù)的參數(shù)。簡單常用的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)和徑向基核函數(shù)等,而對于樂器分類來說,最常用的核函數(shù)是徑向基核函數(shù),這是由于徑向基核函數(shù)對應的特征空間是無窮的,有限的樂器特征向量在該特征空間中肯定是線性可分的。

雖然經典的SVM算法只給出了二分類算法,但大多分類問題可以歸結為一系列的二分類問題,對于樂器分類而言,可以分為一對多和一對一兩類組合方法:一對多方法,對于K類待分類樂器,需要構建K個二分類器,其中每個二分類器將每個目標樂器類別作為正樣本,其余所有的樂器類別都為負樣本,待分類樂器所屬類別為最大分類函數(shù)值對應的分類器的分類結果;一對一方法,對于k個樂器類別,構造N=k(k-1)/2個SVM分類器,它們的識別結果通過投票法組合,投票選出每個分類器票數(shù)最多的來最終判別類別。一對多方法的弊端在于有新的類別加入時,需要重新訓練所有模型,使訓練效率下降;一對一方法的弊端在于需要構造和測試的分類器數(shù)量隨著類別數(shù)量的增長而呈指數(shù)級增長,使得處理速度相對較慢。Marques[40]對兩類組合方法進行了對比實驗,結果表明一對一的方法對樂器的分類準確率更高。Agostini等[41]對具體樂器和樂器家族進行分類,對SVM以及各類分類算法的分類效果進行了對比分析,研究結果表明,擁有徑向基函數(shù)的SVM對具體樂器的分類效果最佳,然而SVM似乎無法有效對低音樂器和弦樂器進行分類識別。

2.2.2K-近鄰(K-NN)

K-近鄰算法是基于實例學習的最常用算法之一。在分類任務中,K-NN算法首先存儲所有訓練實例的特征向量,然后為了對一個新實例進行分類,它在特征空間中找到一組K個最近的訓練實例,這K個實例的多數(shù)屬于某個類,就把該輸入實例分為這個類。K值的選擇會對算法的結果產生重大影響,K值較小意味著只有與輸入實例較近的訓練實例才會對預測結果起作用,容易發(fā)生過擬合;如果K值較大,優(yōu)點是可以減少學習的估計誤差,但缺點是學習的近似誤差增大,這時與輸入實例較遠的訓練實例也會對預測起作用,使預測發(fā)生錯誤。在實際應用中,K值一般選擇一個較小的數(shù)值,通常采用交叉驗證的方法來選擇最優(yōu)的K值。Krishna等[24]為了獲得最佳的分類性能,在實驗中通過6折交叉驗證尋找K-NN分類器的最優(yōu)K,結果表明,在K=1時對14種樂器的識別精度最高為87.9%。另一方面,K-NN通常是通過測試樣本與其相鄰樣本間的歐氏距離或曼哈頓距離來衡量樣本的相似性,距離越近,代表這兩個樣本越相似。

K-NN對于樂器識別研究來說存在一個缺點,由于它需要大量的內存存儲所有的訓練實例,以便為一個新實例的分類做出決定,這樣做導致在高維樂器特征數(shù)據(jù)的訓練上不占優(yōu)勢,故而在使用K-NN算法之前,需要對樂器的特征向量進行降維且保證降維后的特征向量是低冗余的。因此Gulhane等[42]利用MIR工具箱提取與音色、音調、節(jié)奏或形式等相關的音樂特征,每一個音樂特征都與音樂理論中定義的不同的音樂維度有關,在訓練模型時采用降維的手段,用混合選擇模型來降低數(shù)據(jù)量,提升訓練效率。

2.2.3 隱馬爾可夫模型(HMM)

隱馬爾可夫模型包含兩個組件:一組是無法直接從數(shù)據(jù)中觀察到的隱藏變量,即隱藏狀態(tài)序列,簡稱狀態(tài)序列,另一組序列數(shù)據(jù)是可以觀測到的,即觀測序列。該模型從可觀察的參數(shù)中確定該過程的隱含參數(shù),然后利用這些參數(shù)來作進一步的分析,推斷出最可能的隱藏狀態(tài)序列。

隱馬爾可夫模型是語音識別領域的主流統(tǒng)計模型,在2001年Casey[43]首次使用HMM建模對樂器進行分類之后,HMM越來越流行于樂器識別領域,這是因為HMM模型與其他模型相比有兩個顯著的優(yōu)點:(1)由于在預處理時對音頻片段的剪輯長短會對最終的實驗結果有著較大的影響,而HMM使用序列信息而非固定的特征向量,這與音樂音頻的特性相符,致使HMM可以不需要拘泥于定長片段的特征提取,這也意味著在使用HMM對樂器進行分類時音頻預處理和特征提取的方法和前幾種模型不同。(2)如圖3所示,大多數(shù)樂器起奏時都有一個獨特的起音階段,然后是一個穩(wěn)定的持續(xù)狀態(tài),最后是衰減,而部分樂器有起始異步的特征,這意味著某些諧波的能量比其他一些頻率的能量上升得更快,這導致在起音和穩(wěn)態(tài)階段有許多特征值是不同的,進而導致難以進行特征提取,而具有左右拓撲結構的隱馬爾可夫模型(left-right topology HMM)能夠很好地模擬樂器在起奏時隨著時間的演化。表3對各種基于機器學習的樂器識別研究進行系統(tǒng)性總結。

圖3 一個音符的時間域信息描述Fig.3 Time domain information description of first note

表3 基于機器學習的樂器識別方法研究總結Table 3 Research summary of musical instrument recognition method based on machine learning

2.3 基于深度學習的樂器識別方法

2.3.1 卷積神經網絡(CNN)

CNN基本結構一般包括輸入層、卷積層、池化層、全連接層和輸出層。每一組卷積層和池化層構成一組卷積池化層對,其中的兩個關鍵步驟是卷積運算和池化操作。CNN可以看作是特征提取器和分類器的結合,它擅長在不使用任何手工構造特征的情況下,從原始數(shù)據(jù)中提取表示抽象概念的高級特征,在圖像和語音識別領域有著很好的表現(xiàn)。近年來,CNN在音樂信息檢索領域也有了廣泛的應用,它已經被用作流派分類、音樂推薦和樂器識別等可以被建模成多類分類問題的任務?;贑NN在圖像識別領域有著明顯的優(yōu)勢,將CNN應用于樂器識別任務最常見的方法是使用頻譜圖作為輸入數(shù)據(jù),Mel頻譜圖與其他頻譜圖相比,其更符合人類的非線性聽覺特征,因此Mel頻譜圖成為大多數(shù)研究者的首選。Han等[44]提出一個ConvNet網絡框架作為基線系統(tǒng),將提取并處理后的Mel頻譜圖作為輸入數(shù)據(jù),用于實現(xiàn)復音音樂中的主要樂器識別,在實驗中對11種樂器進行識別,獲得微觀F1測度0.619和宏觀F1測度0.513,表4介紹了此ConvNet的網絡結構。俞冬妍[45]對Han等提出的ConvNet網絡結構進行改進,引入輔助分類、組合損失函數(shù)和批量歸一化層,獲得微觀F1測度0.685和宏觀F1測度0.597,相比于基線ConvNet網絡提升了10.7%和16.4%。雖然二維Mel頻譜圖可以使用二維濾波器對每個時間位置進行多次分析,為分析提供了更多的維度,但是Mel頻譜圖在提取過程中經過傅里葉變換而丟失了重要的相位信息。Park等[46]為克服頻譜圖丟失相位信息的問題提取出了包含原始輸入信號相位信息的多分辨率遞歸圖,并結合頻譜圖圖像進行互補,將互補后的圖像作為CNN的輸入,系統(tǒng)的識別性能相比在只使用頻譜圖的系統(tǒng)上有了大幅提高。王飛[47]針對目前時域頻域特征、倒譜特征、稀疏特征、概率特征對同族樂器錯分率高且對打擊樂器識別不佳的問題,提出一種接近人耳感知且包含時頻信息的聽覺譜圖,通過提取多尺度時頻調制的聽覺譜圖作為5層CNN的輸入特征,結果顯示,該特征對同族樂器和打擊樂器的識別率比時頻域特征、倒譜特征、稀疏特征和概率特征的識別率更高,對9種單音樂器的準確識別率達到96.9%。趙慶磊等[48]針對樂器識別領域中特征聚合方式簡單的問題,提出了一種將樂器識別中常用的頻譜特征與圖像領域的聚合策略進行組合的方法,并應用到CNN網絡中,該方法可以獲得對輸入表達更加準確和更具判別能力的特征,從而提升樂器識別的準確率以及降低樂器驗證的等錯誤率。Taenzer等[49]通過跨數(shù)據(jù)集實驗測試了CNN對不可見數(shù)據(jù)的識別效果,即用一個數(shù)據(jù)集對CNN進行訓練,而用另一個數(shù)據(jù)集進行測試,實驗結果表明,目前的CNN模型缺乏對不同數(shù)據(jù)集的泛化能力,因此需要應用進一步的優(yōu)化方法,如領域自適應[50]。

表4 ConvNet網絡結構描述Table 4 Description of ConvNet network structure

另一方面,有相關研究擺脫了傳統(tǒng)的頻譜圖+CNN模式,他們將原始音頻信號作為數(shù)據(jù)輸入到CNN中,其中樂器音色特征和語義解釋都可以直接從數(shù)據(jù)中進行學習,避免了繁瑣的特征提取與選擇的過程,也使系統(tǒng)更少地依賴于音頻領域專業(yè)知識和預處理過程[51-52]。但通常情況下,其性能略低于使用頻譜圖作為CNN輸入的系統(tǒng),針對此問題,文獻[53-54]系統(tǒng)地進行了論述。此外,李榮光等[55]提取音高特征和常數(shù)Q變換矩陣作為CNN的輸入特征,證明了音高特征在樂器識別中的有效性,總結了識別不同樂器族需要關注的諧波數(shù)量,以及探究了多樂器識別中各種已知經驗的有效性,對11種樂器的整體識別精度達到85.7%。Kratimenos等[56]通過使用CNN對復音樂器識別研究中單音樂器的增強技術進行了對比實驗,包括單音樂器隨機組合方法、音高同步混合方法以及節(jié)奏同步混合方法,實驗結果表明,音高同步和節(jié)奏同步混合方法表現(xiàn)出了更優(yōu)的識別效果。

許多關于圖像處理的深度學習方法也已經應用到樂器識別研究中,包括注意力機制[57-59]、Transformer[60]等。Taenzer等[59]將CNN與注意力機制相結合探索了不同的音頻特征對注意力機制分類效果的影響。Reghunath等[60]將Vision Transformer(Vi-T)和Swin Transformer(Swin-T)兩種網絡結構用于復音樂器中主要樂器的識別,并與CNN、DNN以及文獻[44]提出的ConvNet網絡結構作對比實驗,結果表明,Swin-T網絡結構得到微觀F1測度0.66,宏觀F1測度0.62,微觀和宏觀的F1測度相比于相對較好的ConvNet網絡結構分別高出3.12%和12.72%。除此之外,Shi等[61]借鑒說話者識別技術將ResNet用于樂器識別研究,探究了ResNet對不可見樂器數(shù)據(jù)識別的有效性。

2.3.2 循環(huán)神經網絡(RNN)

除了CNN之外,循環(huán)神經網絡(RNN)的應用也促進了樂器識別研究的發(fā)展。對于樂器聲音來說,其本質上是由樂音和噪聲組成的時間序列,許多音樂信息檢索任務需要從這個原始的時間序列(例如,原始音頻波形)里面提取另一個更抽象的時間序列(例如,旋律、和弦進行、調性進行、拍子點等),RNN就可以有效地捕捉其中的時序性。但提取抽象的時間序列是遠遠不夠的,RNN通常是與CNN結合進行樂器識別,即構成卷積循環(huán)神經網絡(convolutional recurrent neural network,CRNN),CRNN首先使用卷積層提取頻譜圖的深層特征,同時應用循環(huán)層捕捉頻譜圖內部的時間序列信息,最后使用轉錄層將循環(huán)層輸出轉變?yōu)樽罱K輸出,使得模型能夠在隨時間變化的頻譜中進行學習,彌補了CNN+頻譜圖傳統(tǒng)模式忽略高級時間特征的缺陷,相比于CNN,CRNN表現(xiàn)出了更為突出的識別效果[62-63]。文獻[63]使用CRNN對中國傳統(tǒng)民族復音樂器進行識別研究,并與CNN的識別效果進行了對比,結果顯示出CRNN的識別效果整體上優(yōu)于CNN,其構造的CRNN模型結構圖如圖4所示。Abe?er等[64]對CRNN、CNN以及基于注意力機制的CNN三種網絡結構進行評估,三種網絡結構在樂器識別實驗中都表現(xiàn)出了較好的識別效果,對11種樂器的識別效果最高可達到微觀F1測度0.81、宏觀F1測度0.52,實驗驗證了基于注意力機制的CNN對樂器識別的有效性。

圖4 CRNN模型結構圖Fig.4 Structure diagram of CRNN model

RNN還存在著許多的變體,包括長短期記憶網絡(long short-term memory,LSTM)、門控循環(huán)單元(gated recurrent unit,GRU)等。Lekshmi等[65]將LSTM、GUR分別與CNN進行融合構成C-LSTM和C-GRU融合網絡結構,使用兩種網絡結構對11種樂器進行識別對比實驗,結果表現(xiàn)出了C-GUR更優(yōu)的識別效果,得到了微觀F1測度0.69,宏觀F1測度0.60。表5對各種基于深度學習的樂器識別研究進行系統(tǒng)性總結。

表5 基于深度學習的樂器識別方法研究總結Table 5 Research summary of instrument recognition method based on deep learning

3 適用于樂器識別的數(shù)據(jù)集

許多可用于樂器識別的數(shù)據(jù)集都是多年發(fā)展起來的,數(shù)據(jù)集質量以及適用度在很大程度上影響著一個實驗的結果。本章對西方音樂數(shù)據(jù)集、中國民族音樂數(shù)據(jù)集以及評價指標進行簡要介紹。

3.1 西方音樂數(shù)據(jù)集

(1)RWC(real world computing)。RWC是世界上第一個為音樂信息技術研究而開發(fā)的數(shù)據(jù)庫,其中包含4個原始數(shù)據(jù)庫和2個附加組件數(shù)據(jù)庫。4個原始數(shù)據(jù)庫包括:流行音樂數(shù)據(jù)庫(100首)、免費數(shù)據(jù)庫(15首)、古典音樂數(shù)據(jù)庫(50首)和爵士音樂數(shù)據(jù)庫(50首),2個附加數(shù)據(jù)庫包含音樂流派數(shù)據(jù)庫(100個片段)和樂器數(shù)據(jù)庫(50個片段)。4個原始數(shù)據(jù)庫和音樂流派數(shù)據(jù)庫中的每首歌都包含最初錄制的原始音頻信號、相應的標準MIDI文件和歌詞文本文件。對于樂器數(shù)據(jù)庫,它以半個音階為間隔錄制50種樂器的聲音,共150段樂器演奏樣本,內容以西方管弦樂器和日本民間樂器為主,包括各種演奏風格、不同音樂家演奏的樂音、不同制造廠商的同種樂器演奏的樂音。但是樂器內容以音頻片段為主,不涉及以樂器本體出發(fā)的音階、音色、音量等可用于音域、動態(tài)范圍等測量的必要數(shù)據(jù)[66-67]。

(2)MedleyDB。MedleyDB數(shù)據(jù)集在2014年被創(chuàng)建,是一個帶注釋、免版稅的多音軌數(shù)據(jù)集。該數(shù)據(jù)集主要支持旋律提取和樂器識別研究,最初由122首歌曲組成,其中108首包括旋律注釋,其余14首沒有可辨別的旋律,之后此數(shù)據(jù)集進行過一次更新,添加了132首歌曲,使此數(shù)據(jù)集中的多軌音樂達到254首。數(shù)據(jù)集中的音樂數(shù)據(jù)來自多處:30首歌曲由不同的藝術家提供,32首歌曲在紐約大學的Dolan Recording Studio錄制,25首歌曲由Weathervane Music錄制,35首歌曲由Music Delta創(chuàng)作,大部分歌曲是在專業(yè)工作室錄制的,由經驗豐富的工程師進行混音和干燥處理,數(shù)據(jù)具有較高的質量[68-69]。

(3)IRMAS。IRMAS數(shù)據(jù)集主要由音樂音頻片段組成,包含了不同樂器類型、不同演奏者、不同發(fā)音以及不同錄制和制作風格的音樂。此數(shù)據(jù)集分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集,訓練數(shù)據(jù)包括6 705個音頻文件,其中摘錄了2 000個不同的3 s音頻片段;測試數(shù)據(jù)由2 874個長度在2 s到20 s之間的音頻文件組成。數(shù)據(jù)集中所有音頻文件均為16位立體聲,采樣率為44 100 Hz。此外,數(shù)據(jù)集中的音樂節(jié)選主要包含10種樂器和人聲,且每個節(jié)選都包含主要樂器的注釋,因此,此數(shù)據(jù)集適合對復音樂器中主要樂器的識別研究。在數(shù)據(jù)標注過程中,兩位受試者各自標注一半的數(shù)據(jù),標注完成后相互交換,以便再次檢查注釋的正確性,之后再交給第三方再進行審查,確保了數(shù)據(jù)注釋的準確性[70]。

(4)MusicNet。9MusicNet數(shù)據(jù)集是由10位作曲家為11種樂器創(chuàng)作的數(shù)百首免費授權的古典音樂唱片組成,是一個由330張古典音樂唱片組成的集合,總長約34 h。數(shù)據(jù)有超過100萬個標簽,標明每一張唱片中每個音符的精確時間、演奏每個音符的樂器以及音符在樂曲韻律結構中的位置,標簽由訓練有素的音樂家驗證,標簽錯誤率約為4%。MusicNet作為公開數(shù)據(jù)集,其中的音頻平均時長為6 min,最短的時長是55 s,最長的幾乎18 min[71-72]。

(5)OpenMic。OpenMic數(shù)據(jù)集是一個完全免費且公開的用于復音樂器識別研究的音樂數(shù)據(jù)集,它涵蓋了古典、鄉(xiāng)村、電音、民謠、嘻哈、爵士樂、流行音樂、搖滾等眾多音樂類型,包含了20 000個可共享的音樂音頻,每一個音樂示例都是10 s的音頻片段。注釋者對20種樂器類的存在與否進行了部分標記,該數(shù)據(jù)集彌補了數(shù)據(jù)規(guī)模小、標簽有偏差、不可免費獲取的不足,為進行復音樂器識別研究提供了有力的支持[73-74]。

3.2 中國民族音樂數(shù)據(jù)集

(1)中國傳統(tǒng)樂器音響數(shù)據(jù)庫(Chinese traditional instrument sound database,CTIS)。CTIS是由韓寶強教授團隊多年研發(fā)的成果,收錄了有關中國傳統(tǒng)樂器音響信息的數(shù)據(jù)庫,包括傳統(tǒng)樂器、改良樂器、少數(shù)民族樂器在內的287件中國民族樂器,大部分樂器的數(shù)據(jù)基本都包含主要的演奏技法和樂器的單音、音階等,少部分樂器數(shù)據(jù)除了包含上述的內容之外還包含了經典的樂曲片段。此數(shù)據(jù)庫利用計算機聲音分析技術實現(xiàn)自動標注體系的建立,基于內容的海量音響數(shù)據(jù)檢索,以及其他有助于自動完善數(shù)據(jù)庫功能、方便數(shù)據(jù)庫管理的方法,并專注于音響本身的質量、聲學特征、特性標注、檢索以及相應音響學上的學術應用,為進行民族樂器識別研究提供了數(shù)據(jù)保障[75]。

(2)ChMusic。ChMusic是由山東理工大學音樂學院和齊樂藝術團于2021年共同采集并發(fā)布的民族音樂數(shù)據(jù)集,其中包含11種中國常見的民族樂器,分別是二胡、琵琶、三弦、笛子、嗩吶、墜琴、中阮、柳琴、古箏、揚琴和笙。每種樂器分別演奏了5首曲目,且每種樂器都是單獨演奏,每首曲目被單獨保存為一個.wav音頻文件,每個.wav音頻采用雙聲道,采樣頻率為44 100 Hz,音頻長度介于25 s到4 min 40 s之間[76-77]。

還有許多可用于樂器識別的數(shù)據(jù)集:如Goodsounds[78]、NSynth[79]、Mixing Secrets[57]等,考慮到這些數(shù)據(jù)集在樂器識別領域的適用度和使用頻率,這些數(shù)據(jù)集就不再贅述。表6介紹了上述常用的音樂數(shù)據(jù)集的各種描述性的屬性,包括音頻數(shù)量、音頻類型、樂器種類數(shù)量、數(shù)據(jù)集的多樣性(例如音樂類型和音頻格式)、單個音頻示例是否復音、每個音頻示例是否為多標簽以及數(shù)據(jù)集是否公開。

表6 適用于樂器識別的數(shù)據(jù)集Table 6 Data sets applicable to instrument recognition

3.3 評價指標

樂器識別研究通常采用準確率(accuracy)、精確率(precision)、召回率(recall)和F-measure值作為評估模型的標準。

準確率。Acc的定義如公式(2)所示:

其中,TP(true positive)值kTP為將正類預測為正的個數(shù);FP(false positive)值kFP為將負類預測為正的個數(shù);P(positive)+N(negative)值P+N為樣本總數(shù)。準確率是最常見的概念,衡量了模型樣本總數(shù)中預測為正類的比例,但是它不總是能有效評價一個模型的好壞。

精確率。P的定義如公式(3)所示:

其中,TP(true positive)值kTP為將正類預測為正的個數(shù);FP(false positive)值kFP為將負類預測為正的個數(shù)。精確率衡量了模型所有預測為正的結果中真正為正類的比例。

召回率。R的定義如公式(4)所示:

其中,F(xiàn)N(false negative)值kFN為將正類預測為負類的個數(shù)。召回率衡量了模型將正例預測為正的比例。

F-measure值的定義如公式(5)所示:

如果只考慮精確度或者只考慮召回率都不能夠作為評價一個模型好壞的指標,則使用F-measure值來綜合考慮精確率和召回率,F(xiàn)-measure值越高說明實驗方法越有效。

此外,對于多分類任務,假設共有L個標簽,可以計算每個標簽l對應的精度、召回率以及F1測度的宏觀(macro)平均和微觀(micro)平均[80-81]。宏觀平均認為每個類具有相同的權重,每個標簽l對應的精度、召回率以及F1測度的宏觀(macro)平均值的定義分別如公式(6)~(8)所示:

微觀平均認為每個實例樣本具有相同的權重,數(shù)量最大的類影響最大。每個標簽l對應的精度、召回率以及F1測度的微觀(micro)平均值的定義分別如公式(9)~(11)所示:

4 當前研究的局限性及未來研究展望

4.1 當前研究的局限性

盡管一些樂器識別研究取得了不錯的成績,但是這項研究仍然處于前瞻性階段。一個具體的證據(jù)是:樂器識別最理想的情況是使計算機能夠像人一樣很容易識別出不同的樂器,并且能夠適應各種類型的音頻信號。然而,由于樂器演奏聲音的復雜性,當前還無法滿足對現(xiàn)實樂器演奏聲音識別的需求,目前只能夠在給定樂器種類的情況下,對特定類型音頻中的樂器進行識別。目前,單音樂器的識別率基本可以達到90%以上,然而復音樂器識別仍然是樂器識別研究中比較棘手的問題,它對樂器音頻特征提取提出了各種約束和限制,增加了音頻特征提取的復雜性。

(1)樂音多變性

理想情況下,在對復音樂器進行識別時,每類樂器的音頻特征分布在一個較窄的取值范圍內,各類樂器音頻特征的取值范圍互不重疊,在此情況下樂器識別問題容易得到解決。然而,由于樂器演奏時顫音、滑音、持續(xù)諧波等多變因素的存在,將會導致取值范圍變寬,這將大大增加各類樂器音頻特征取值范圍的重疊度。

(2)樂器音樂信號復雜性

理想情況下,樂器識別系統(tǒng)應該能夠識別各種類型的樂器,并且應該適用于各種類型的音樂信號。然而,實際音樂信號的復雜性使得迄今為止樂器識別系統(tǒng)基本被限定在特定類別的樂器以及特定類別的音樂信號上。對于獨奏樂器樂段,在提取特征之前需要對不同的音符進行分割,然而,即便在只有一種樂器的音樂信號中音符間的分割也并不容易,尤其是樂器音符切換較為平緩的情況下;對于二重奏樂段,重奏樂器可能同時演奏,兩種樂器在時間和頻率上可能會出現(xiàn)混疊現(xiàn)象,導致特征提取更具有挑戰(zhàn)性;對于多種樂器演奏樂段,其音樂信號時域上聲音的重疊度更高、復雜性更強,造成頻譜中各樂器諧波的相互重疊更加嚴重,特征提取更為困難。

除此之外,對于無明顯音高的打擊樂器來說,其諧波往往是非和諧的,缺乏合適的音頻特征能夠明顯表征無音高樂器的音色;樂器識別系統(tǒng)需要充分借助人工智能等技術,為機器能夠直接在音頻數(shù)據(jù)中提取出有效的樂器音色特征提供智能化支持。隨著樂器識別研究的不斷深入,對復雜復音多樂器識別的研究也將持續(xù)增多,樂器識別系統(tǒng)將會變得更為復雜,這勢必會對樂器識別研究提出新的挑戰(zhàn)。

4.2 未來研究展望

針對當前研究的局限性,樂器識別研究需加強以下幾個方向的研究,以進一步解決目前所面臨的挑戰(zhàn),推動樂器識別系統(tǒng)的應用與實踐。

(1)改進樂器識別研究更好的切入點可能是音頻信號的預處理。借助較好的預處理技術(例如,選取合適的比例進行音頻信號分幀)可以充分展現(xiàn)出原始音頻信號中并未呈現(xiàn)出的與樂器音色相關的特征,為后續(xù)能夠提取出準確表達樂器音色的特征奠定基礎。

(2)已經存在相關研究對模板匹配方法進行了深入討論[31,82],該方法預先對每個音符的頻譜模式進行輸入和儲存,然后為待分類樂器找到一個或多個表示模板,如果模板具有代表性,那么它們將與待分類樂器音頻的任何表示相匹配。模板匹配方法不需要進行特征提取和音符分割,可以更好地應對復雜的真實音樂環(huán)境。在未來可以嘗試通過使用模板匹配方法,為樂器找到一個或多個表示模板,從而提高對復雜真實音樂中樂器的識別率。

(3)在復音樂器識別領域,由于多種樂器可能同時演奏,多種樂器之間相互干擾,導致迄今為止對復音樂器音頻特征的提取仍較為棘手,在未來的研究中可以利用復音樂器中任一樂器音頻信號中經常會出現(xiàn)的時間和頻譜的不連續(xù)性,識別時域和/或頻域中可用于分割信號的區(qū)域,然后僅使用分割出的信號的清晰部分進行樂器識別,這意味著在時域中找到了孤立的音符,在頻域中識別互不重疊的頻譜部分。

(4)目前,已有研究證明MFCC的加入可以大幅提高對弦樂器的識別率,在未來的研究中,可以考慮構建固定的特征組合直接解決對某種或某一類樂器的識別問題,從而對這類樂器進行識別時可以直接對特定的特征組合進行提取。

(5)目前的樂器識別研究大多面向西洋樂器,對中國民族樂器的識別研究偏少。中國民族音樂的審美形態(tài)與其他民族有很多共同點,比如用節(jié)奏、音調、速度、力度以及特定的音階調式和結構構成旋律來表達音樂的情感,但由于民族文化、民族精神和審美觀念的不同,中國民族音樂與西方音樂存在著差異。西方音樂注重不同聲部的縱向組合,所有聲音部分都是一個獨立的整體,每個聲部演奏不同的音或旋律,但又渾然一體,不同聲部在縱向組合上協(xié)調一致,由此產生豐滿和諧的和聲復調效果。中國器樂則更強調不同聲部的橫向組合,同樣一支旋律,或讓全體樂員演奏,或讓不同聲部輪番演奏來主導整個演奏[83]?;谶@些差異需要考量現(xiàn)有的樂器音頻特征提取方法對中國民族復音樂器的識別研究是否適用,高效檢索識別民族樂器將會是未來研究重要的方向之一。

5 結束語

樂器識別作為獲取音樂信號高級信息最重要的“工具”之一,其自然成為音樂信息檢索領域的關鍵科學問題。如何快速高效地對樂器進行識別成為樂器識別領域共同關心的問題。近年來,樂器識別領域的研究學者圍繞這一問題開展了諸多探索和實踐,取得了一系列的研究成果。本文綜述音樂信息檢索下樂器識別的研究狀況,分別對樂器識別常用音頻特征、樂器識別模型及方法和常用數(shù)據(jù)集進行分類、梳理和評估。樂器識別尚處于起步階段,可以預見,在未來的研究中具有能夠對現(xiàn)實復雜環(huán)境中的多重奏樂器進行識別的研究成果將大量涌現(xiàn)。希望本文能夠為關注樂器識別理論與應用的研究者與實踐領域專家提供借鑒。

猜你喜歡
音頻頻譜樂器
學樂器
一種用于深空探測的Chirp變換頻譜分析儀設計與實現(xiàn)
樂器
小太陽畫報(2019年5期)2019-06-25 10:56:04
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
一種基于稀疏度估計的自適應壓縮頻譜感知算法
測控技術(2018年7期)2018-12-09 08:58:22
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
認知無線電頻譜感知技術綜述
一種基于功率限制下的認知無線電的頻譜感知模型
兰坪| 惠来县| 民县| 凉山| 黔西| 康定县| 剑河县| 乌鲁木齐县| 砀山县| 久治县| 华蓥市| 富顺县| 福建省| 凌云县| 泾源县| 苏尼特右旗| 灵石县| 莱芜市| 白河县| 饶阳县| 罗源县| 凤凰县| 邵东县| 卢氏县| 临清市| 海宁市| 项城市| 溧阳市| 丰原市| 晋城| 旺苍县| 英山县| 大兴区| 辰溪县| 启东市| 墨玉县| 绥芬河市| 鹤庆县| 平遥县| 连江县| 溧阳市|