国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自相關(guān)函數(shù)的鋼琴樂(lè)音改進(jìn)識(shí)別算法

2018-05-03 05:33趙彤洲江逸琪
關(guān)鍵詞:樂(lè)音電平識(shí)別率

劉 瑩 ,趙彤洲*,江逸琪 ,柴 悅 ,李 翔

1.智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室(武漢工程大學(xué)),湖北 武漢 430205;2.武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205;3.武漢天喻信息產(chǎn)業(yè)股份有限公司,湖北 武漢 430223

鋼琴樂(lè)音信號(hào)是由基音及泛音共同組成的,而決定其音高的是基音,因此基音周期的檢測(cè)是鋼琴音符識(shí)別的關(guān)鍵所在[1-2]。基音周期的檢測(cè)的方法主要包括頻域識(shí)別和時(shí)域識(shí)別,短時(shí)自相關(guān)法是一種經(jīng)典的時(shí)域檢測(cè)算法,它計(jì)算簡(jiǎn)單,應(yīng)用廣泛,但是該算法會(huì)發(fā)生基音倍頻或半頻錯(cuò)誤。在此基礎(chǔ)上,在計(jì)算自相關(guān)函數(shù)前進(jìn)行三電平中心削波運(yùn)算是一種經(jīng)典的改進(jìn)算法[3-5]。由于該運(yùn)算去除了各個(gè)音符能量相對(duì)集中在中心區(qū)域的部分,保留了在峰值附近的能量,因而可以減少計(jì)算量,加快運(yùn)算速度,同時(shí),在一定程度上避免上述錯(cuò)誤的發(fā)生,進(jìn)而提高識(shí)別率,但是,這種算法仍然有一定的局限性。為抑制高次諧波的干擾,文獻(xiàn)[6]提出進(jìn)行兩次三電平中心削波和自相關(guān)處理,但這種方法增加了計(jì)算量,不適于快速計(jì)算的應(yīng)用場(chǎng)景。此外,在用自相關(guān)法估計(jì)基音周期時(shí),會(huì)發(fā)生幀間基音周期跳躍的現(xiàn)象,并且識(shí)別過(guò)程會(huì)受到半頻點(diǎn)、倍頻點(diǎn)和隨機(jī)錯(cuò)誤點(diǎn)的干擾,對(duì)于這些問(wèn)題前期工作者提出了各種平滑濾波算法[7-9],其目的就是過(guò)濾掉各種干擾點(diǎn)。文獻(xiàn)[10]提出將插零算法以及相應(yīng)的低通濾波器應(yīng)用于三電平削波的自相關(guān)法。文獻(xiàn)[11]提出將三電平中心削波自相關(guān)函數(shù)與循環(huán)均值幅度差分函數(shù)相結(jié)合。上述算法在處理節(jié)奏較為緩和的樂(lè)曲時(shí),可以達(dá)到較為滿意的識(shí)別率,但是在處理節(jié)奏較快的樂(lè)曲時(shí),識(shí)別率會(huì)迅速下降。本文提出了幀移自相關(guān)函數(shù)法,目的是在更小尺度上尋找最大自相關(guān)函數(shù),以適應(yīng)快節(jié)奏樂(lè)曲,因而一定程度上避免了傳統(tǒng)算法對(duì)快節(jié)奏樂(lè)曲的漏檢、誤檢或識(shí)別錯(cuò)誤等情況發(fā)生,進(jìn)而可以顯著提高識(shí)別準(zhǔn)確率。

1 三電平中心削波的自相關(guān)函數(shù)

假設(shè)zi(x)是樂(lè)音信號(hào)的時(shí)間序列w(t)加窗分幀后的第i幀信號(hào),其中下標(biāo)i表示第i幀,設(shè)每幀幀長(zhǎng)為N。zi(x)的短時(shí)自相關(guān)函數(shù)定義為:

式中,k是時(shí)間的延遲量。

短時(shí)自相關(guān)函數(shù)具有如下性質(zhì):

1)如果 zi(x)是周期信號(hào),周期是 P,則 Ri(k)也是周期信號(hào),且周期相同,即有

2)當(dāng)k=0時(shí),短時(shí)自相關(guān)函數(shù)具有最大值,即在延遲量為0,±P,±2P,…時(shí),周期信號(hào)的自相關(guān)函數(shù)也達(dá)到最大值。

3)短時(shí)自相關(guān)函數(shù)是偶函數(shù),即Ri(k)=Ri(-k)。

短時(shí)自相關(guān)函數(shù)法基音檢測(cè)的主要原理都是利用短時(shí)自相關(guān)函數(shù)的這些性質(zhì),通過(guò)比較原始信號(hào)與它延遲后的信號(hào)之間的類似性來(lái)確定基音周期的。如果延遲量等于基音周期,兩個(gè)信號(hào)就具有最大類似性;或是直接找出短時(shí)自相關(guān)函數(shù)的兩個(gè)最大值間的距離,作為基音周期的初估值。

CL是削波電平,中心削波函數(shù)C[zi(x)]的數(shù)學(xué)關(guān)系式為:

三電平中心削波法的輸入輸出函數(shù)為:

按文獻(xiàn)[7]的介紹,CL的取法是取 zi(x)前部100個(gè)樣點(diǎn)和后部100個(gè)樣點(diǎn)的最大幅度,從中取較小者,并乘以0.68作為門(mén)限電平CL。按式(1)得到的中心削波輸出yi(x):

式(3)中只有加(減)法,在實(shí)際運(yùn)算中節(jié)省了大量時(shí)間,為實(shí)時(shí)運(yùn)算創(chuàng)造了條件。

2 改進(jìn)的自相關(guān)函數(shù)基音提取算法

若對(duì)音頻序列w(t)端點(diǎn)檢測(cè),每個(gè)端點(diǎn)在原序列的起始位置記為S(i),(i=1,2,…,n)。經(jīng)過(guò)準(zhǔn)確的音符分割[12-13]后,認(rèn)為一個(gè)端點(diǎn)對(duì)應(yīng)一個(gè)基本音符的起始點(diǎn),設(shè)T(i)為原音頻序列中第i個(gè)音符的基音周期,由音樂(lè)的短時(shí)平穩(wěn)性,將區(qū)間s(i)=w[S(i),S(i)+l]按定長(zhǎng)窗計(jì)算自相關(guān)函數(shù),其中窗長(zhǎng)l=409 6。理論上認(rèn)為,第一個(gè)最大自相關(guān)函數(shù)對(duì)應(yīng)的位置,即為基音的周期。由式(3)可得seg(i)的自相關(guān)函數(shù)為:

取Ri(x)最大值 Ri,max(x)=max(Ri(x)),理想狀況下,約70%音符的數(shù)據(jù)幀在經(jīng)過(guò)三電平削波和自相關(guān)函數(shù)計(jì)算后的波形圖符合如下規(guī)律:Ri,max(x)所在的點(diǎn)Pi,max與首個(gè)峰值點(diǎn)Pi(1)重合,如圖1所示,首個(gè)峰值點(diǎn)1與最大峰值點(diǎn)3為同一個(gè)點(diǎn),在此情形下可得基音周期T(i)=Ii(1)。

圖1 理想狀況下自相關(guān)函數(shù)波形圖Fig.1 Waveform diagram of autocorrelation function in ideal condition

少數(shù)情況下,信號(hào)受到共振峰的影響,會(huì)出現(xiàn)倍頻波干擾,即出現(xiàn)Pi,max與Pi(1)分離的現(xiàn)象。

為消除此影響,首先需要選取合適的峰值點(diǎn)。圖2顯示了鋼琴曲“致愛(ài)麗絲”(For Elise)的第11個(gè)音符E4的數(shù)據(jù)幀在經(jīng)過(guò)三電平削波和自相關(guān)函數(shù)計(jì)算后的波形圖,第二個(gè)峰值點(diǎn)2與最大峰值點(diǎn)3是同一個(gè)點(diǎn)。

設(shè)閾值 Hi,min=Ri,max(x)/k1,其中 k1為一常量。記錄滿足條件Ri(x)>Hi,min的峰值序列Pi(j)與對(duì)應(yīng)于 Ri(x)的序號(hào) Ii(j),即 Ri(Ii(j))=Pi(j)。

k1的取值需要保證Pi(j)不包含圖2中幅值過(guò)小的峰值點(diǎn)1,同時(shí)也要包含幅值較大且可能正確的峰值點(diǎn)2。因此,峰值點(diǎn)2的幅值為 Pi(1),序號(hào)為 Ii(j);峰值點(diǎn)3的幅值為 Pi,max,序號(hào)為 Ii,max。在本文中閾值k1=2。

圖2 音符E4自相關(guān)函數(shù)波形圖Fig.2 Waveform diagram of autocorrelation function of note E4

為選出正確的峰值點(diǎn),還需要進(jìn)行進(jìn)一步閾值判斷。取最大峰值點(diǎn)與首個(gè)峰值點(diǎn)的幅值比CR=Pi,max/Pi(1)。圖3顯示了鋼琴曲“夢(mèng)中的婚禮”(MARIAGE D'AMOUR)的第35個(gè)音符D5的數(shù)據(jù)幀在經(jīng)過(guò)三電平削波和自相關(guān)函數(shù)計(jì)算后,數(shù)據(jù)幀平移前后波形對(duì)比圖。

經(jīng)過(guò)計(jì)算可得圖3(a)、3(b)中的幅值比分別為CR,1=1.66,CR,2=1.36,由此可見(jiàn),當(dāng)數(shù)據(jù)幀進(jìn)行平移后,CR的值會(huì)發(fā)生變化。在本文中,數(shù)據(jù)幀平移指的是使選取的信號(hào)區(qū)間上界與下界都增加 64,即 平 移 后 的 信 號(hào) 區(qū) 間 s′(i)=w[S(i)+64,S(i)+l+64]。

圖3 音符D5波形(a)幀移前和(b)幀移后對(duì)比圖Fig.3 Contrast diagrams of(a)before and(b)after frame-shift of note D5 waveform

對(duì)數(shù)據(jù)幀進(jìn)行多次平移后,可以發(fā)現(xiàn)其幅值比在一定范圍內(nèi)波動(dòng),如圖4所示,將上述數(shù)據(jù)幀進(jìn)行8次平移得到幅值比序列CR(b)。

設(shè)閾值k2為一常量,分別統(tǒng)計(jì)CR(b)>k2的個(gè)數(shù) n1與 CR(b)<k2的個(gè)數(shù) n2,若 n2>n1,認(rèn)定T(i)=Ii(1);若 n1>n2,則認(rèn)定 T(i)=Ii,max。 k2的值對(duì)統(tǒng)計(jì)結(jié)果有直接影響,經(jīng)過(guò)多首樂(lè)曲的調(diào)整,取k2=1.43結(jié)果較為理想。

圖4 多次幀移的幅值比變化情況Fig.4 Amplitude ratio change of multiple frame-shift

3 結(jié)果與討論

所用樂(lè)音數(shù)據(jù)文件由軟件EveryonePiano根據(jù)曲譜合成,并通過(guò)立體聲混音內(nèi)錄鋼琴曲譜的右手演奏部分得到,其中軟件所用音源為mdaPiano。

由音樂(lè)基礎(chǔ)理論可知,音符i的標(biāo)準(zhǔn)頻率[14],其中 fa1=440為第一國(guó)際高度,n為音i到音a1間隔的半音數(shù)目,當(dāng)音i比音a1低時(shí)n取負(fù)數(shù)。若經(jīng)第二節(jié)算法計(jì)算得出基音周期為T(mén)(i),則相應(yīng)的基音頻率為(i)=fs/T(i),其中fs表示樂(lè)曲采樣頻率。音分[15]偏差定義為U={ x|-50<x<50} ,當(dāng)音分偏差O(i)∈U 時(shí),認(rèn)為音符i識(shí)別正確。

圖5為樂(lè)曲“致愛(ài)麗絲”(For Elise)的前35個(gè)音符,用傳統(tǒng)三電平削波自相關(guān)函數(shù)法和改進(jìn)的自相關(guān)函數(shù)法識(shí)別結(jié)果對(duì)比圖。

以音分偏差作為判定條件,傳統(tǒng)識(shí)別算法正確率只有77.1%,其中錯(cuò)誤主要體現(xiàn)在識(shí)別結(jié)果為標(biāo)準(zhǔn)頻率的一半,如圖5(a)所示;而本文提出的幀移法可達(dá)到100%,如圖5(b)所示。

圖5 傳統(tǒng)自相關(guān)法(a)和改進(jìn)自相關(guān)法(b)對(duì)“致愛(ài)麗絲”前35個(gè)音符識(shí)別結(jié)果對(duì)比Fig.5 Comparison between(a) traditional autocorrelation and(b)improved autocorrelation method for the recognition rate of the first 35 notes from“For Elise”

為檢驗(yàn)本文算法的有效性,在根據(jù)曲譜合成音樂(lè)時(shí),有意識(shí)地盡量將一個(gè)曲譜按照不同演奏頻率合成為變速音樂(lè),目的是檢驗(yàn)該算法在低、中、高三種速率條件下的識(shí)別率。但是由于合成時(shí)EveryonePiano軟件本身的快倍速模式只能達(dá)到原曲譜速率的2倍,所以,并不是每首音樂(lè)都能由慢速合成為快速音樂(lè)。

表1~3列出了用傳統(tǒng)三電平削波自相關(guān)函數(shù)法和改進(jìn)自相關(guān)法,作用在更多樣本上對(duì)識(shí)別結(jié)果進(jìn)行對(duì)比,對(duì)所有樂(lè)曲及其變速版本按照速率(音符數(shù)/s)分成慢速、中速和快速三組樣本。將樂(lè)曲的每秒音符數(shù)視為其平均速率v,設(shè)定當(dāng)v<3時(shí),樂(lè)曲是“慢速”的;當(dāng)3≤v<4時(shí),樂(lè)曲是“中速”的;當(dāng)v≥4時(shí),樂(lè)曲是“快速”的。最后,表4對(duì)比了慢速、中速和快速三組樂(lè)曲的識(shí)別結(jié)果。

表1~3中的最后一列是本文算法與三電平削波法的相對(duì)誤差,由表1可知,當(dāng)樂(lè)曲節(jié)奏較慢時(shí),兩種方法的相對(duì)誤差率僅在5.1%以內(nèi),說(shuō)明傳統(tǒng)三電平削波方法與本文方法識(shí)別率接近,但從表2可知,當(dāng)樂(lè)曲節(jié)奏較快,兩種方法的平均相對(duì)誤差率在20.6%,改進(jìn)算法的準(zhǔn)確率顯然高于傳統(tǒng)算法。從表3中可以看出,當(dāng)樂(lè)曲節(jié)奏進(jìn)一步加快時(shí),兩種方法的相對(duì)誤差率更大(平均相對(duì)誤差率為64%),盡管本算法在快節(jié)奏條件下識(shí)別率有所降低,但識(shí)別率仍然顯著高于傳統(tǒng)算法。

此外,同一首曲子的不同速度也會(huì)對(duì)識(shí)別結(jié)果有所影響,如:“Faded”、“Faded(1.5 倍速)”和“Faded(2倍速)”這三首樂(lè)曲在兩種方法的識(shí)別結(jié)果隨樂(lè)曲速度增大而減小,并且當(dāng)曲子速度分別為 1.9(音符數(shù)/s)、3.2(音符數(shù)/s)和 4.3(音符數(shù)/s)時(shí),傳統(tǒng)方法識(shí)別正確率的下降幅度要大于本文方法的正確率,說(shuō)明同一首曲子的速度改變對(duì)傳統(tǒng)方法的影響較大。

表1 慢速樂(lè)曲識(shí)別結(jié)果對(duì)比Tab.1 Comparisons of recognition results of low speed music

表2 中速樂(lè)曲識(shí)別結(jié)果對(duì)比Tab.2 Comparisons of recognition results of medium speed music

表3 快速樂(lè)曲識(shí)別結(jié)果對(duì)比Tab.3 Comparisons of recognition results of high speed music

而對(duì)于相同速度的不同曲子,兩種方法在識(shí)別結(jié)果上均有差異,如表1中每秒音符為2.7的曲子:“致愛(ài)麗絲”和“卡農(nóng)(0.75倍速)”,兩種方法的識(shí)別正確率不相同,局部節(jié)奏較快的樂(lè)曲,即“卡農(nóng)(0.75倍速)”識(shí)別正確率較低;甚至有些慢速樂(lè)曲的識(shí)別結(jié)果要比快速樂(lè)曲的差,如表3中“夢(mèng)中的婚禮(1.25倍速)”的每秒音符數(shù)為4.2,兩種方法的正確率分別為中68.8%和85.8%,而表2中“快樂(lè)的農(nóng)夫”每秒音符數(shù)為3.3,但兩種方法的識(shí)別率僅為53.1%和79.6%,可能原因在于樂(lè)曲本身節(jié)奏不均勻。如,“夢(mèng)中的婚禮(1.25倍速)”雖然每秒音符數(shù)較高(平均速度高),但樂(lè)曲節(jié)奏均勻,節(jié)奏最快部分的相鄰音符間隔時(shí)間為0.206 s,而“快樂(lè)的農(nóng)夫”雖然每秒音符數(shù)比較低(平均速度低),但樂(lè)曲節(jié)奏不均勻,整個(gè)樂(lè)曲有快有慢,使得在最快節(jié)奏部分的相鄰音符間隔時(shí)間僅為0.193 s。由于較短的時(shí)間間隔會(huì)導(dǎo)致前一個(gè)音符的諧波尚未充分衰弱,從而對(duì)后一個(gè)音符的諧波造成干擾。因此對(duì)于存在局部節(jié)奏快、音符密集的樂(lè)曲,不管其平均速度快慢與否,都會(huì)影響兩種方法的識(shí)別正確率。

表4 慢速和中速與快速樂(lè)曲識(shí)別結(jié)果對(duì)比Tab.4 Comparisons of recognition results of low,medium and high speed music %

4 結(jié) 語(yǔ)

提出了一種改進(jìn)的自相關(guān)基音周期提取算法,該算法能較好地解決傳統(tǒng)識(shí)別方法中因?yàn)闊o(wú)法明確區(qū)分半頻或倍頻對(duì)基頻的影響而造成的識(shí)別誤差,當(dāng)鋼琴樂(lè)音節(jié)奏較快時(shí)(v≥4),本文算法平均準(zhǔn)確率為63.1%,比三電平削波算法高出20.2%;當(dāng)鋼琴樂(lè)音節(jié)奏適中時(shí)(3≤v<4),本文算法平均準(zhǔn)確率為88.7%,比三電平削波算法高出14.1%;當(dāng)樂(lè)音節(jié)奏較慢時(shí)(v<3),文本算法平均準(zhǔn)確率為97.1%,比三電平削波算法高出3.8%,綜合來(lái)看,本文所用的算法對(duì)以上3組慢、中和快速樂(lè)曲的平均識(shí)別準(zhǔn)確率為83.0%,比傳統(tǒng)三電平削波算法高出12.7%。因此本文的算法在快慢節(jié)奏不同的鋼琴樂(lè)音識(shí)別中取得了較高的識(shí)別準(zhǔn)確率,并且對(duì)快節(jié)奏鋼琴樂(lè)音的識(shí)別準(zhǔn)確率有明顯的提升。

考慮到周圍環(huán)境聲音以及鋼琴?gòu)椬嗾哂|鍵方式的差異,如力度、速度、角度等,這些個(gè)體差異會(huì)對(duì)鋼琴音色有影響,進(jìn)而對(duì)識(shí)別準(zhǔn)確率有一定影響,因此,本算法僅驗(yàn)證了鋼琴單鍵識(shí)別算法的有效性和可靠性,沒(méi)有考慮降噪、雙鍵樂(lè)音識(shí)別等情況。如果要使本算法有更廣泛的適應(yīng)度,環(huán)境噪聲的降噪、雙鍵音頻分離及自適應(yīng)閾值的訓(xùn)練是今后需要研究的方向。

參考文獻(xiàn):

[1]徐國(guó)慶,張彥鐸,王海暉,等.樂(lè)音旋律識(shí)別研究[J].武漢工程大學(xué)學(xué)報(bào),2007,29(2):60-62.

[2]徐國(guó)慶,張彥鐸,王海暉.基于多分辨分解的樂(lè)音水印算法實(shí)現(xiàn)[J]. 武漢工程大學(xué)學(xué)報(bào),2008,30(2):91-93.

[3]易克初,田斌,付強(qiáng).語(yǔ)音信號(hào)處理[M].北京:國(guó)防工業(yè)出版社,2000:62-63.

[4]吳興銓,周金治.基于改進(jìn)小波變換的語(yǔ)音基音周期檢測(cè)[J].自動(dòng)化儀表,2017,38(6):67-70.

[5]李嘉安娜.噪聲環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)方法研究[D].廣州:華南理工大學(xué),2015.

[6]何曉亮,賈亮,秦文健.舞蹈機(jī)器人中音樂(lè)基音頻率的提取[J]. 電子設(shè)計(jì)工程,2011,19(13):39-45.

[7]翟景瞳,王玲,杜秀偉.改進(jìn)的音高識(shí)別算法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(20):228-230.

[8]馬效敏,鄭文思,陳琪.自相關(guān)基頻提取算法的MATLAB實(shí)現(xiàn)[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,31(4):54-63.

[9]沈瑜,黨建武,王陽(yáng)萍,等.加權(quán)短時(shí)自相關(guān)函數(shù)的基音周期估計(jì)算法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(35):1-6.

[10]欒極,馬太,王飛,等.插值采樣增強(qiáng)鋼琴音高識(shí)別能力的方法[J]. 數(shù)字技術(shù)與應(yīng)用,2014(6):73-75.

[11]李嘉安娜.噪聲環(huán)境下的語(yǔ)音端點(diǎn)檢測(cè)方法研究[D].廣州:華南理工大學(xué),2015.

[12]冷嬌嬌,趙彤洲,方暉,等.基于方差穩(wěn)定性度量的樂(lè)器音頻分割算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(3):768-772.

[13]CARDINAL J,F(xiàn)IORINI S, JORETG.Minimum entropy combinatorialoptimization problems[M].New York:Springer,2012:4-21.

[14]吳晶晶.鋼琴音樂(lè)信號(hào)的特征識(shí)別[D].秦皇島:燕山大學(xué),2009.

[15]楊帆,楊杰朝.基于LabVIEW的頻率-音分轉(zhuǎn)換設(shè)計(jì)[J]. 應(yīng)用聲學(xué),2014(6):554-559.

猜你喜歡
樂(lè)音電平識(shí)別率
如何區(qū)分樂(lè)音和噪聲
三電平PWM整流器下的地鐵牽引供電系統(tǒng)探討
作文成功之路·作文交響樂(lè)——學(xué)生展現(xiàn)心靈樂(lè)音的舞臺(tái)
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
三相三電平PFC(VIENNA)控制策略研究
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
三電平H橋逆變器差模干擾源研究
高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
用心聆聽(tīng)學(xué)會(huì)區(qū)分
泾阳县| 喀喇沁旗| 天长市| 名山县| 贵溪市| 和林格尔县| 健康| 罗源县| 仁怀市| 阜平县| 卢氏县| 剑河县| 中卫市| 周宁县| 兴山县| 赣州市| 沈丘县| 封丘县| 德惠市| 南开区| 万盛区| 凤山市| 青铜峡市| 宜州市| 杭州市| 翼城县| 阿克陶县| 靖西县| 龙州县| 壶关县| 孟津县| 靖边县| 文成县| 来宾市| 正宁县| 安平县| 咸宁市| 乐昌市| 监利县| 绥化市| 大城县|