劉興永,李 鏘,關(guān) 欣
(天津大學(xué) 電子信息工程學(xué)院,天津 300072)
基于多樣本字典的單音符實(shí)時(shí)穩(wěn)健識(shí)別算法
劉興永,李 鏘,關(guān) 欣
(天津大學(xué) 電子信息工程學(xué)院,天津 300072)
在時(shí)域線性疊加識(shí)別法原理的基礎(chǔ)上,提出多樣本字典、多樣本字典后處理等技術(shù),這些技術(shù)克服了單樣本字典中單輸入對(duì)應(yīng)單輸出權(quán)重系數(shù)α,導(dǎo)致正確識(shí)別幀數(shù)少,從而引起結(jié)果可靠性降低的缺點(diǎn),提高了音符識(shí)別正確率和穩(wěn)健度。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文音符識(shí)別算法與單樣本字典識(shí)別法相比,識(shí)別率提高了3%,穩(wěn)健度提高近2倍(尤其對(duì)于高八度區(qū)音符識(shí)別穩(wěn)健度更高),實(shí)現(xiàn)了對(duì)輸入單音符音頻實(shí)時(shí)、準(zhǔn)確的識(shí)別。
單音符;時(shí)域識(shí)別;多樣本字典;實(shí)時(shí);穩(wěn)健度
音樂(lè)轉(zhuǎn)錄是計(jì)算機(jī)自動(dòng)將實(shí)際音樂(lè)音頻轉(zhuǎn)換到音樂(lè)抽象符號(hào)的技術(shù),與人工音樂(lè)轉(zhuǎn)錄相比,可大大提高轉(zhuǎn)錄效率與質(zhì)量,是音樂(lè)信息檢索領(lǐng)域中重要且具有挑戰(zhàn)性的研究問(wèn)題之一[1]。本文主要針對(duì)單基音音樂(lè)進(jìn)行轉(zhuǎn)錄(音頻信號(hào)來(lái)源于實(shí)際鋼琴演奏的88個(gè)單基音音樂(lè)),提取音頻信號(hào)中的音符信息,即根據(jù)演奏者演奏的實(shí)際音樂(lè)音頻,確定某特定時(shí)間片段內(nèi)的聲音由哪些單音符組合而成。該技術(shù)在樂(lè)器輔助練習(xí)、計(jì)算機(jī)自動(dòng)伴奏、音樂(lè)信息檢索等相關(guān)領(lǐng)域具有廣泛的應(yīng)用價(jià)值。
早期單基音音樂(lè)音頻中音符識(shí)別方法通過(guò)分析所錄制音頻頻域信息得到音符信息[2-3],klapuri采用迭代估計(jì)、消除機(jī)制來(lái)估算音樂(lè)音頻中存在的基頻f0[4]。但由于跨八度音符的基音頻率、諧波頻率重合與時(shí)頻分辨率等問(wèn)題,音符頻域識(shí)別較為困難。Raphael采用模式識(shí)別的方法,在提取和弦序列頻域特征的基礎(chǔ)上,用隱形馬爾科夫模型來(lái)描述和弦序列,進(jìn)而實(shí)現(xiàn)音符的識(shí)別[5],RBF神經(jīng)網(wǎng)絡(luò)模型也可用于鋼琴音符的識(shí)別[6]。但是模式識(shí)別只適用于非實(shí)時(shí)識(shí)別,且計(jì)算量大。日本學(xué)者Yoshiaki Tadokoro提出采用梳狀濾波器的方法,即建立多個(gè)并行濾波器,僅濾掉或保留特定頻率的信號(hào)(88單音符所在頻率),從而判斷輸入信號(hào)的頻率即音符名,達(dá)到了較好的識(shí)別效果[7]。法國(guó)學(xué)者Juan Bello提出時(shí)域音符識(shí)別方法,建立88個(gè)獨(dú)立音符的樣本字典,將輸入數(shù)據(jù)與樣本字典中各音符樣本數(shù)據(jù)分別做互相關(guān),得出輸入信號(hào)中各單基音音符所占權(quán)重系數(shù)[8]。Juan Bello時(shí)域識(shí)別法使用單樣本字典,正確識(shí)別幀數(shù)較少,識(shí)別結(jié)果不穩(wěn)健,難以應(yīng)用到實(shí)際音符識(shí)別系統(tǒng)。
筆者在Juan Bello線性疊加時(shí)域識(shí)別法的基礎(chǔ)上,采用多樣本字典、多樣本字典后處理與能量檢測(cè)技術(shù),將正確識(shí)別率提高到98%,穩(wěn)健度提高了2倍,實(shí)現(xiàn)對(duì)鋼琴單音符實(shí)時(shí)、穩(wěn)健的識(shí)別,達(dá)到較好的實(shí)際應(yīng)用效果。
時(shí)域線性疊加模型假設(shè)任何音樂(lè)音頻都是由一個(gè)或多個(gè)單基音音符線性組合而成的,通過(guò)與事先建立的單基音音符樣本字典比較,即可得到音樂(lè)音頻中所包含的單音符音名。xi(n)為歸一化后的鋼琴單音符時(shí)域信號(hào)(i=1,2,…,M,M=88)。定義樣本字典D={xi},i=1,2,…,M,即包括88個(gè)單音符波形的數(shù)據(jù)庫(kù)。s(n)為測(cè)試輸入信號(hào)波形(n=1,2…,N,這里輸入信號(hào)時(shí)長(zhǎng)為100 ms,則N=0.1×fs,fs為音頻采樣率)。本文假設(shè)樣本庫(kù)中單音符xi(n)與其響度無(wú)關(guān),即波形與按鍵力度、速度無(wú)關(guān)。測(cè)試輸入信號(hào)s(n)是由一個(gè)或多個(gè)單音同時(shí)發(fā)聲組成的,這些單音符是線性無(wú)關(guān)的,即實(shí)驗(yàn)中忽略了單音發(fā)聲時(shí)的耦合現(xiàn)象,簡(jiǎn)化為下列線性模型:
ε.
(1)
(2)
在上述定義下,音符識(shí)別任務(wù)轉(zhuǎn)換為計(jì)算輸入信號(hào)中各音符的權(quán)重系數(shù)αi,只需通過(guò)簡(jiǎn)單的矩陣計(jì)算,即可得到權(quán)重系數(shù),即s(n)中包含的單音符的音名。樣本字典D是M×N矩陣,包括M個(gè)單音符歸一化后的波形。由于D中各行是線性無(wú)關(guān)的[8],因此M×M矩陣DDT是非奇異矩陣,即可逆。s是輸入信號(hào)s(n)的矩陣形式,因此權(quán)重系數(shù)可用下式求取:
α=(DDT)-1Ds-ε′.
(3)
其中ε′=(DDT)-1Dε.
測(cè)試輸入信號(hào)s(n)與樣本字典D中xi(n)的相位一般不同步,同時(shí)和弦s(n)中不同單音符發(fā)聲的時(shí)刻可能存在差異,因此上述算法得到的結(jié)果并不精確,必須調(diào)整二者相位,以便得到更為精確的權(quán)重系數(shù)矩陣。相位調(diào)整具體過(guò)程:輸入信號(hào)s(n)與樣本字典D中的每個(gè)xi(n)做互相關(guān)運(yùn)算,求出對(duì)應(yīng)的相位延時(shí)ti:
ti=arg max{xcorr(xi,s)}.
(4)
.
(5)
在實(shí)際應(yīng)用中,預(yù)先無(wú)法得到線性模型和輸入實(shí)際信號(hào)的差值ε′,因此還需依據(jù)特定規(guī)則(2.2規(guī)則I)對(duì)計(jì)算所得α系數(shù)矩陣進(jìn)行篩選,最終取出符合規(guī)則的α系數(shù)矩陣,其最大值對(duì)應(yīng)的midi即可轉(zhuǎn)換音符名。
2.1 構(gòu)建多樣本字典
(6)
(7)
2.2 多樣本字典后續(xù)處理
多樣本字典后續(xù)處理主要目的在于選出最優(yōu)的α矩陣。幀長(zhǎng)為100 ms的測(cè)試輸入信號(hào)s(n)分別與6個(gè)樣本字典D代入(8)式計(jì)算,得到6個(gè)權(quán)重系數(shù)α矩陣。在6個(gè)α矩陣中,實(shí)驗(yàn)只選取滿足一定規(guī)則的α(k)(k=1,2,…,6),從有效α(k)結(jié)果中得到輸入信號(hào)s所包含的音符名。不失一般性,這里假設(shè)αi(k)(i=1,2,…,88)權(quán)重系數(shù)矩陣中最大值為αi max(k),則α(k)結(jié)果有效的準(zhǔn)則I為:
1)α(k)中大于0.35×αi max(k)的個(gè)數(shù)不超過(guò)2個(gè),且其midi號(hào)相差為12或24(一個(gè)或兩個(gè)八度);
2)α(k)中大于0.25×αi max(k)的個(gè)數(shù)不超過(guò)5個(gè);
3)α(k)中大于0.15×αi max(k)的個(gè)數(shù)不超過(guò)10個(gè)。
圖1 多樣本字典權(quán)重系數(shù)
只有同時(shí)滿足上述三個(gè)條件,多樣本字典后處理部分才認(rèn)為α(k)權(quán)重系數(shù)矩陣是有效的,即α(k)矩陣中取到的最大值的midi號(hào)可作為測(cè)試輸入信號(hào)s的結(jié)果輸出。圖1是測(cè)試信號(hào)為midi 63的音符計(jì)算得到的6組α(k)。樣本字典D2,D3,D4,D5,D6所得αi(k)矩陣中最大值都為α63(k),且每個(gè)矩陣的剩余元素都符合規(guī)則I中的條件1、2、3,因此保留這四組權(quán)重系數(shù)矩陣,且midi63為識(shí)別結(jié)果。
多樣本字典后處理部分保證了在多個(gè)樣本字典條件下,結(jié)果的唯一性和準(zhǔn)確性,不僅適用于音符多樣本字典處理而且適用于單樣本字典的處理,是多樣本字典音符識(shí)別系統(tǒng)必不可少的環(huán)節(jié)。
實(shí)驗(yàn)中,測(cè)試數(shù)據(jù)一個(gè)月內(nèi)每天隨機(jī)選取時(shí)間所錄制的88單音符音頻數(shù)據(jù):data1、data2、…、data30(安靜室內(nèi)錄制88個(gè)單音符,采樣率為44.1 kHz),其中隨機(jī)取某一天所錄制數(shù)據(jù)作為樣本字典D中數(shù)據(jù)來(lái)源。對(duì)于測(cè)試數(shù)據(jù),本文方法的平均識(shí)別率為98%。在音符起始階段出現(xiàn)少數(shù)幾幀跨八度的識(shí)別錯(cuò)誤,即識(shí)別結(jié)果與正確音符相差一個(gè)八度,能量檢測(cè)算法的應(yīng)用在一定程度上遏制了這種情況的出現(xiàn)。對(duì)于單數(shù)據(jù)庫(kù)和多數(shù)據(jù)庫(kù)識(shí)別效果差異主要體現(xiàn)在對(duì)低八度區(qū)音符(midi號(hào)21~60)的識(shí)別上,因?yàn)榈桶硕葏^(qū)音符的持續(xù)時(shí)間較高八度區(qū)(midi號(hào)61~108)長(zhǎng)近400 ms。表1是Juan Bello單樣本字典與本文多樣本字典兩種方法下,88單音符的平均識(shí)別幀數(shù)。
表1 測(cè)試結(jié)果
使用多樣本字典D情況時(shí),測(cè)試輸入幀與6個(gè)樣本字典中某一樣本字典相匹配概率的較大,即對(duì)于完整測(cè)試音符,與樣本庫(kù)相匹配的概率為各幀相匹配概率P(S/Di)之和。匹配概率增大意味著存在連續(xù)多幀的正確識(shí)別結(jié)果。而單樣本字典情況下,對(duì)于一完整測(cè)試音符,只有與樣本庫(kù)中相位正好相近的少數(shù)測(cè)試幀才會(huì)出現(xiàn)匹配,此情況下,整個(gè)音符的匹配概率為max(P(S/Di)),即存在下式:
(8)
本實(shí)驗(yàn)程序在代碼優(yōu)化后,耗時(shí)有望控制在100 ms內(nèi),完全能滿足實(shí)時(shí)音符檢測(cè)。實(shí)驗(yàn)結(jié)果表明,多樣本字典比單樣本字典音符識(shí)別算法的識(shí)別率提高了3%,穩(wěn)健度提高近2倍,即相比于單樣本字典在低八度區(qū)僅1~2幀能正確識(shí)別,多樣本字典平均連續(xù)近5幀測(cè)試結(jié)果正確,結(jié)果更為可靠穩(wěn)健,且識(shí)別率達(dá)98%,更具有實(shí)用性。
本文主要討論了在音符時(shí)域識(shí)別基礎(chǔ)上,采用能量檢測(cè)和多樣本字典來(lái)提高識(shí)別率、降低計(jì)算時(shí)間以及避免單樣本字典對(duì)端點(diǎn)檢測(cè)的依賴性。在實(shí)際應(yīng)用中,基于此算法的系統(tǒng)在識(shí)別率、運(yùn)算速度與穩(wěn)健度等方面完全能滿足實(shí)時(shí)、穩(wěn)健的識(shí)別。但是,本文時(shí)域音符識(shí)別算法唯一的缺點(diǎn)就是構(gòu)建樣本字典的數(shù)據(jù)和測(cè)試數(shù)據(jù)必須來(lái)源于同一架鋼琴,這是由鋼琴的物理特性決定的。在此單音符識(shí)別基礎(chǔ)上,若要將其拓展為多音符檢測(cè)系統(tǒng),則需要對(duì)多數(shù)據(jù)庫(kù)后處理端的規(guī)則進(jìn)行調(diào)整,這個(gè)調(diào)整需要根據(jù)經(jīng)驗(yàn)值確定。
[1]Sebastian Bock, Markus Schedl.polyphonic piano transcription with recurrent neural networks[J]. IEEE 2012.
[2]M Piszczalski, B A Galler. Automatic music transcription[J]. Computer Music Journal, 1977(4):24-31.
[3]J AMoorer. On the transcription of music sound by computer[J]. Computer Music Journal, 1997,1(4):32-38.
[4]A Klapuri. T Virtanen, J M Holm.Robust multipitch estimation for the analysis and manipulation of polyphonic musical signals[C]∥ In proceedings of the COST-G6 conference on Digital Audio Effects Verona, Italy, 2000.
[5]C Raphael.Automatic transcription of piano music[C]∥In proceedings of the 3rdinternational conference on Music Information Retrieval. Paris, France, 2002.
[6]張雪英,陳潔,孫穎.改進(jìn)的HMM系統(tǒng)在英語(yǔ)語(yǔ)音合成中的研究[J].太原理工大學(xué)學(xué)報(bào),2013,44(1),16 -19.
[7]Tadokoro Y, Matsushita F. Signal identification for a wide-range sound(piano) using notch and resonator-type comb filter[C]∥ICSPCS 2008 2ndinternational conference on signal processing and communication system, 2008.
[8]J P Bello, L Daudet, M B Sandler.Automatic piano transcription using frequency and time-domain information[C]∥ IEEE transactions on Audio Speech and Language Processing, 14:2242-2251.
(編輯:賈麗紅)
Real-timeandRobustNoteRecognitionBasedontheMutil-sampleDictionary
LIUXingyong,LIQiang,GUANXin
(CollegeofElectronicsandInformationEngineering,TianjinUniversity,Tianjin300072,China)
Real-time and robust note recognition algorithm is the fundamental of the note music transcription and music track for the practical application. On the basis of the time domain linear superposition principle of recognition method, the article proposed the techniques of mutil-sample dictionary and mutil-sample dictionary post-processing.The techniques overcame the shortcomings that, in the single sample, the single input corresponds to the single output weight coefficient α, leading to the less correctly identified frame, thus resulting in reduced reliability.Therefore,they improved the recognition accuracy rate and soundness. The experiments prove that, compared to the single sample dictionary, under the help of this article’s note recognition algorithms, the recognition rate increased by 3%, and the soundness increased nearly two-fold, achieving the goal of real-time accurate identification of the audio-input single-note.
single-note; time-domain recognition; mutil-sample dictionary; real-time; soundness
2013-08-06
國(guó)家自然科學(xué)基金資助項(xiàng)目(61101225)
劉興永(1989-),男,天津人,碩士,主要從事音樂(lè)信號(hào)處理、模式識(shí)別研究,(Tel)13302029660
李鏘,教授,碩士生導(dǎo)師,(Tel)13820516837
1007-9432(2014)02-0252-03
TP391
:A