国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于功率譜的美聲發(fā)聲特征提取?

2024-01-05 07:16:22王舒蕾齊婷婷張義民
振動、測試與診斷 2023年6期
關(guān)鍵詞:波谷箱式錯誤

張 凱, 王舒蕾, 齊婷婷, 張義民

(1.沈陽化工大學(xué)裝備可靠性研究所 沈陽,110042) (2.沈陽音樂學(xué)院戲劇影視學(xué)院 沈陽,110818)

引 言

美聲唱法由于音色清脆高亢、靈活多變及音量較大[1],對于歌唱者的發(fā)聲技巧要求較多,且美聲唱法的共鳴是“所有腔體共同運(yùn)作達(dá)到整體效果的展現(xiàn)”。相比于其他唱法,美聲唱法需要共鳴腔體以及骨骼都參與共鳴,即要求身體的各個器官放在一起共同產(chǎn)生共鳴。其他唱法參與共鳴的器官相對較少,發(fā)聲的位置也有所不同[2],導(dǎo)致美聲初學(xué)者在頭腔、口腔、胸腔和咬字等方式上相對于其他唱法出現(xiàn)的問題較多。目前,在聲樂領(lǐng)域的教學(xué)中,基本是通過老師的言傳身教來糾正學(xué)生歌唱技巧上的錯誤。為了更深入研究美聲發(fā)聲的特點(diǎn),筆者利用美聲發(fā)聲信號的功率譜去評價初學(xué)者的發(fā)音狀態(tài),從振動理論的角度比較發(fā)音的異同,從功率譜中提取美聲發(fā)聲的信號特征。

國內(nèi)外學(xué)者圍繞美聲發(fā)聲原理開展了相關(guān)研究。文獻(xiàn)[3-5]從聲門振動和空氣動力學(xué)的角度對聲音信號進(jìn)行了分析。Mayr[6]利用長期平均頻譜(long-term average spectrum,簡稱LTAS)和功率譜對美聲男高音的生理和聲學(xué)特征進(jìn)行了研究,比較了假音和胸腔音的差異。Souza[7]通過對女高音的共振峰分析比較,得到音高的變化會導(dǎo)致基頻和共振峰的不同。Hasan 等[8]使用經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,簡稱EMD)方法對歌曲的清音和濁音進(jìn)行能量估計(jì),以觀察學(xué)習(xí)者歌聲中的差異和錯誤。Zysk 等[9]設(shè)計(jì)了一套聲音記錄程序,利用頻譜特征對女高音的頭部和胸部音域表演進(jìn)行分類。Barlow 等[10]根據(jù)平均元音譜(average vowel spectra,簡稱AVS)和長期平均譜對歌手在古典和現(xiàn)代風(fēng)格之間的聲樂作品的差異進(jìn)行了量化。

國內(nèi)學(xué)者的研究主要集中在美聲唱法與民族唱法、流行唱法的融合與對比領(lǐng)域[11-13],但針對聲音信號特點(diǎn)進(jìn)行研究的文獻(xiàn)較少。錢一凡等[14]針對標(biāo)準(zhǔn)元音提取了其基頻、共振峰和各通道振幅,比較不同元音的聲學(xué)特征,分析得知不同的元音發(fā)聲與身體不同部位的共鳴有關(guān)。

大部分關(guān)于發(fā)聲信號的研究采用傅里葉變換的方法,將原時域信號轉(zhuǎn)化為頻域信號。然而,頻域信號僅對變換后信號的實(shí)部進(jìn)行對比,忽略了相頻信息。另外,對美聲唱法樣本的采集主要集中在美聲與通俗唱法的對比上,但是通俗唱法從發(fā)聲特點(diǎn)上與美聲唱法存在明顯差異,難以突出美聲聲音信號的特殊性。

針對上述問題,筆者利用功率譜的估計(jì)對信號進(jìn)行研究,即從能量的觀點(diǎn)對信號進(jìn)行分析,保留頻譜法所丟掉的相位信息。同時,從美聲初學(xué)者與歌唱技巧成熟的美聲老師中提取樣本并進(jìn)行對比研究。因?yàn)槊缆暢鯇W(xué)者的發(fā)音近似美聲,所以更適合對美聲發(fā)音的規(guī)范性進(jìn)行系統(tǒng)評價。

1 基于功率譜發(fā)聲信號特征提取步驟

筆者對美聲聲音信號的特征提取主要分為以下步驟:①對聲音信號進(jìn)行采集;②對采集到的聲音信號進(jìn)行端點(diǎn)檢測處理,去除無用的語音段;③對處理后的信號做Burg 法功率譜分析;④將得到的功率譜進(jìn)行局部二次回歸平滑處理。

1.1 聲音信號樣本的采集與端點(diǎn)檢測

對5 名美聲初學(xué)者和3 名美聲老師進(jìn)行女高音信號的采集、篩選和分類。錄音時要求發(fā)音人在相同錄音環(huán)境下依次清唱出基礎(chǔ)元音/a/,/i/和/u/,在錄制的聲音樣本中選取發(fā)聲時長在3~5 s 的語音信號,最終得到老師的發(fā)音樣本50 條(設(shè)定為正確發(fā)聲信號)和學(xué)生的錯誤發(fā)音樣本350 條。美聲老師分別對學(xué)生的樣本進(jìn)行錯誤分析,指出發(fā)聲存在的問題,總結(jié)出“口腔沒打開”、“咬字位置不正確”等一系列錯誤原因。為了便于分析,下面只討論發(fā)聲為/a/的分析結(jié)果,并不影響其統(tǒng)計(jì)規(guī)律。

由于采集到的美聲信號中存在無效的靜音段和噪聲段,會對功率譜分析和特征提取存在一定程度的干擾,增加運(yùn)算量,因此需要對聲音信號進(jìn)行端點(diǎn)檢測,確定其起點(diǎn)和終點(diǎn),以便提高計(jì)算效率。筆者采用一種基于短時能量和譜質(zhì)心特征進(jìn)行端點(diǎn)檢測的方法[15],其方法步驟如下。

首先,對語音信號中的每一幀提取短時能量,設(shè)xi(n)(n=1~N)為第i幀信號,長度為N,該幀的能量E(i)為

其次,提取該幀的譜質(zhì)心。設(shè)第i幀的譜質(zhì)心Ci為

其中:Xi(k)(k=1~N)為第i幀的離散傅里葉變換;N為幀長度。

最后,估計(jì)短時能量和譜質(zhì)心特征序列的閾值,設(shè)M1和M2分別為2 個局部最大值的位置,則閾值T為

其中:W為筆者設(shè)置的參數(shù),W越大,閾值就越靠近M1。

經(jīng)過上述閾值化處理,可以得到一段標(biāo)記語音段的閾值化序列,將該序列代入原始信號中,就可獲得語音段在原始信號中開始和結(jié)束的位置。

1.2 Burg 法功率譜估計(jì)

將完成端點(diǎn)檢測的信號進(jìn)行Burg 法功率譜分析。在對隨機(jī)信號的分析中,可以利用自回歸(autoregressive model,簡稱AR)模型進(jìn)行功率譜估計(jì)。其中,Burg 法無需對自相關(guān)函數(shù)進(jìn)行估算,而是用已知序列x(n)求出反射系數(shù),再利用Levinson 遞推算法,由反射系數(shù)來計(jì)算回歸模型參數(shù),以得到較好的譜估計(jì)結(jié)果。

利用Burg 法估計(jì)AR 模型參數(shù),首先要確定式(4)所示的初始條件,其次根據(jù)序列x(n)求出式(5)所示的自相關(guān)函數(shù)σ20

令k=1,計(jì)算AR 模型的反射系數(shù)Kk

在Levinson 關(guān)系式的ak(i)(i=1~k-1)中,分別代入p階AR 模型反射系數(shù)和p-1 階AR 模型反射系數(shù),計(jì)算aki(i=1~k-1)、前向預(yù)測誤差ek(n)和后向預(yù)測誤差bk(n),分別為

根 據(jù)計(jì) 算 出σ2k,令k=k+1。重復(fù)上述步驟,直至預(yù)計(jì)的階數(shù)為止,以求出所有階的AR 模型參數(shù)。

Burg 估計(jì)算法的遞推過程建立在已知序列的基礎(chǔ)上,很好地避免了對于序列自相關(guān)函數(shù)的計(jì)算,與其他算法相比,有著較好的頻率分辨率[16]。

1.3 局部二次回歸平滑

筆者使用局部二次回歸平滑對Burg 法得到的功率譜進(jìn)行平滑處理。局部二次回歸平滑就是使用二次多項(xiàng)式作為局部多項(xiàng)式的回歸擬合,是一種用于局部回歸分析的非參數(shù)方法。

在對信號進(jìn)行二次回歸平滑時,首先要確定擬合點(diǎn)的數(shù)量和位置,再以擬合點(diǎn)為中心,確定k個最鄰近的點(diǎn),通過權(quán)重函數(shù)計(jì)算這些點(diǎn)的權(quán)重。其中,對權(quán)重的計(jì)算要先確定區(qū)間內(nèi)的點(diǎn)到擬合點(diǎn)的x軸的距離,找到區(qū)間內(nèi)的最大值,然后對其他距離做歸一化處理。歸一化函數(shù)表達(dá)式為

使用三次指數(shù)函數(shù)對權(quán)重進(jìn)行轉(zhuǎn)化,三次函數(shù)表達(dá)式為

接下來對區(qū)間內(nèi)的散點(diǎn)進(jìn)行局部二次回歸擬合,考慮到離擬合點(diǎn)的遠(yuǎn)近不同,點(diǎn)的取值對擬合線的影響也不同,故在定義損失函數(shù)時,應(yīng)率先降低近的點(diǎn)與擬合線的誤差,即對最小二乘法加上權(quán)重。加權(quán)最小二乘法的表達(dá)式為

對區(qū)間內(nèi)的樣本進(jìn)行多項(xiàng)式擬合后,不斷重復(fù)擬合過程,得到不同區(qū)間內(nèi)的加權(quán)回歸曲線,最后通過對回歸曲線中心的連接,便可生成完整的平滑曲線。

1.4 BP 神經(jīng)網(wǎng)絡(luò)

筆者選取BP 神經(jīng)網(wǎng)絡(luò)用于美聲特征的分類。BP 神經(jīng)網(wǎng)絡(luò)作為一種多層的前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱藏層和輸出層組成。本研究對BP 神經(jīng)網(wǎng)絡(luò)設(shè)置2 個隱藏層:第1 個隱藏層包含10 個神經(jīng)元,使用線性函數(shù)作為激活函數(shù);第2 個隱藏層包含2 個神經(jīng)元,使用對數(shù)S 形轉(zhuǎn)移函數(shù)作為激活函數(shù)。所選樣本數(shù)據(jù)為平滑處理后的信號功率譜特征值,最后選擇梯度下降自適應(yīng)學(xué)習(xí)率的反向傳播算法作為訓(xùn)練函數(shù)來訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò)。

2 實(shí)驗(yàn)數(shù)據(jù)采集與分析

采集某音樂學(xué)院5 名女高音新生和3 名老師的美聲發(fā)聲信號共400 條,利用Matlab 軟件對經(jīng)過預(yù)處理的美聲信號進(jìn)行Burg 功率譜估計(jì),對比正確樣本與錯誤樣本之間功率譜形態(tài)走勢的區(qū)別,對與正確功率譜圖像差距較大的地方做函數(shù)圖像的擬合,并提取譜圖的特征參數(shù),最后比較科學(xué)美聲發(fā)聲和錯誤美聲發(fā)聲之間功率譜曲線與參數(shù)的差距。

2.1 信號的Burg 功率譜估計(jì)

聲音信號端點(diǎn)檢測時域波形如圖1 所示。首先對采集到的美聲信號進(jìn)行端點(diǎn)檢測,原始信號的時域波形見圖1(a),去除多余的靜音段和噪聲段,得到無干擾的聲信號時域波形見圖1(b)。

圖1 聲音信號端點(diǎn)檢測時域波形Fig.1 Time domain waveform of sound signal endpoint detection

將預(yù)處理后的信號帶入25 階AR 模型,美聲發(fā)聲信號功率譜曲線如圖2 所示,得到正確美聲信號功率譜和3 種具有代表性的、不同錯誤類型的美聲信號功率譜。根據(jù)圖中功率譜整體的波動和走勢情況,可將功率譜劃分為3 個能量區(qū),如圖2 中豎線所示。其中:0~6 kHz 為第1 能量區(qū);6~11 kHz 為第2能量區(qū);11~15 kHz 為第3 能量區(qū)。

圖2 美聲發(fā)聲信號功率譜曲線Fig.2 Power spectrum curve of bel canto signal

由功率譜曲線可以看出,高音信號的功率譜整體均呈下降趨勢。由圖2(a)的標(biāo)準(zhǔn)美聲信號功率譜中可以發(fā)現(xiàn),1,6 和15 kHz 處均存在明顯的峰值變化,6 kHz 處有明顯的下降趨勢,波谷平均深度為-100 dB,與波峰有著40 dB 的落差。曲線從10 kHz開始平穩(wěn)下降且無較大波動,在15 kHz 處下降速度加快,曲線陡峭,至17 kHz 處降至最低點(diǎn)-140 dB。

在錯誤美聲信號的功率譜中,圖2(b)所示的錯誤樣本1 存在著“口腔沒有打開、氣息沒有用上”的錯誤,其功率譜在6 kHz 處的波谷相對較淺,與左側(cè)波峰的落差僅有20 dB,而在15 kHz 處的曲線呈明顯上升趨勢的波動,持續(xù)約1 kHz 后加速下降至最低點(diǎn)。由圖2(c)所示的錯誤樣本2 可以看出,曲線在1,6 和11 kHz 處均有波谷產(chǎn)生,且波動幅度較大,曲線相對不穩(wěn)定,存在“咬字位置不對”的錯誤,在15 kHz 處變陡加速下降。由圖2(d)所示的錯誤樣本3 可以看出,曲線整體無較大波動,幾乎呈平穩(wěn)態(tài)勢下降,直至15 kHz 處曲線變陡并下降至最低點(diǎn),存在“口腔發(fā)聲位置錯誤”的問題。

從能量區(qū)的分割上可以看出,錯誤樣本曲線在每個能量區(qū)中均有不同幅度的波動;而正確樣本曲線只有在進(jìn)入第2 能量區(qū)后有一處波谷,從第2 能量區(qū)中部至第3 能量區(qū)結(jié)束之間的圖像下降勻速,無明顯起伏特征。

2.2 信號的曲線擬合與箱式圖

基于上述情況,筆者在功率譜曲線區(qū)別較大的區(qū)間內(nèi)進(jìn)行基于最小二乘法的一階擬合和二階擬合,得到一元二次曲線方程和一元一次直線方程,再對2 種方程的系數(shù)取平均值和方差。其中,一元二次方程擬合了3~7 kHz 之間功率譜中存在的波谷曲線,由于2 種信號在其區(qū)間內(nèi)的變化差距較大,得到的方程在系數(shù)上有著較大差別。功率譜曲線一元二次方程擬合系數(shù)如表1 所示,正確發(fā)聲信號曲線的一次項(xiàng)系數(shù)b大于錯誤信號,而二次項(xiàng)系數(shù)a和常數(shù)項(xiàng)c則小于錯誤信號。

表1 功率譜曲線一元二次方程擬合系數(shù)Tab.1 Fitting coefficient of the power spectrum curve by the quadratic equation

在曲線方程中,二次項(xiàng)系數(shù)a代表函數(shù)拋物線的開口大小,a的絕對值越大,拋物線的開口越窄。對于2 條拋物線A1x2+B1x+C1y+D1=0 和A2x2+B2x+C2y+D2=0,其開度公式分別為

將正確信號和錯誤信號的多項(xiàng)式系數(shù)分別代入σ1和σ2,得到σ1>σ2,即正確信號拋物線的開口度要大于錯誤信號。

再對圖中10~15 kHz 的下降直線進(jìn)行擬合,得到了斜截式的一次函數(shù)直線方程,功率譜曲線一元一次方程擬合系數(shù)如表2 所示??梢园l(fā)現(xiàn),正確信號的斜率k要小于錯誤信號,而截距b大于錯誤信號,即正確信號的傾斜坡度較大,錯誤信號坡度較為平緩。

表2 功率譜曲線一元一次方程擬合系數(shù)Tab.2 Fitting coefficient of power spectrum curve by linear equation

為了更直觀地觀察數(shù)據(jù)的離散分布情況,了解數(shù)據(jù)分布狀態(tài),將擬合出的多項(xiàng)式系數(shù)進(jìn)行箱式圖分析,如圖3 所示。由圖3(a)所示的二次項(xiàng)系數(shù)a的箱式圖可以看出:錯誤信號的系數(shù)整體低于正確信號,其箱式圖長度較短,數(shù)據(jù)多集中分布在很小的范圍內(nèi);正確信號的箱式圖較長,表明數(shù)據(jù)間差異比較大,方差也大于錯誤信號。由圖3(b)所示的斜率k的箱式圖可以看出:正確信號的數(shù)據(jù)波動較大,但在錯誤信號中存在一處離群值,導(dǎo)致方差比正確信號的方差大。

圖3 多項(xiàng)式系數(shù)箱式圖Fig.3 Box-plot with polynomial coefficients

由箱式圖可知,在二次項(xiàng)系數(shù)箱式圖的5×10-6處和斜率箱式圖的-3×10-3處均有明顯的分界,可以把正確信號和錯誤信號按照分界數(shù)值直接區(qū)分開,故采用閾值法的識別率可達(dá)到100%。

對美聲信號的功率譜曲線做特征值統(tǒng)計(jì),如表3 所示。由表可知,錯誤信號的方差明顯大于正確信號,說明錯誤信號的功率譜數(shù)據(jù)波動較大,數(shù)據(jù)分布比較分散,在平均數(shù)附近波動較大,且存在較大的上下限差。

表3 美聲信號功率譜統(tǒng)計(jì)特征值Tab.3 Statistical eigenvalues of power spectrum of bel canto signal

2.3 基于BP 網(wǎng)絡(luò)的神經(jīng)分類

對400 條聲音信號進(jìn)行訓(xùn)練集和測試集的劃分,其中75%的數(shù)據(jù)作為訓(xùn)練集導(dǎo)入BP 神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,使BP 神經(jīng)對兩類發(fā)聲信號的特征值有記憶能力;再將剩余的15%數(shù)據(jù)作為測試集,來測試BP 神經(jīng)網(wǎng)絡(luò)的識別正確率。BP 神經(jīng)網(wǎng)絡(luò)收斂圖如圖4 所示,由圖可以看出,訓(xùn)練在120 次左右達(dá)到收斂,識別率為95.23%。

圖4 BP 神經(jīng)網(wǎng)絡(luò)收斂圖Fig.4 Convergence diagram of BP neural network

由BP 神經(jīng)網(wǎng)絡(luò)的識別結(jié)果可知,相比于利用BP 神經(jīng)網(wǎng)絡(luò)對美聲進(jìn)行分類,基于系數(shù)箱式圖的閾值法可以更直接地將2 種類別區(qū)分開,且識別率達(dá)100%。因此,采用函數(shù)擬合的方法明顯優(yōu)于直接對功率譜特征值進(jìn)行分類訓(xùn)練的方法。

3 結(jié) 論

1) 標(biāo)準(zhǔn)美聲唱法的功率譜僅在6 kHz 左右有一處明顯的波谷,下降落差約為40 dB,其余頻率并無較大的波谷產(chǎn)生。在錯誤的美聲唱法中,有些譜線沒有明顯的波谷,而有些譜線波谷較多,波動幅度較大。對3~7 kHz 內(nèi)的波谷曲線和10~15 kHz 內(nèi)的下降直線分別做一元二次函數(shù)擬合和一元一次函數(shù)擬合,可以得出正確信號在擬合的曲線上有著更大的開口度和更深的波谷,在直線上有著更大的傾斜度。在系數(shù)箱式圖中使用閾值法,可以將2 種類型的信號直接區(qū)分開。

2) 根據(jù)功率譜的波動和走勢,可將其劃分為3個能量區(qū)。在能量區(qū)中,錯誤樣本的曲線波動頻率更大,且在區(qū)域交界處有波谷;正確樣本僅在第1、第2 能量區(qū)之間有波動,其余區(qū)域波動較不明顯。

3) 使用美聲聲音信號功率譜進(jìn)行2 種聲音信號的BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練和分類識別,識別正確率可達(dá)95.23%;而使用系數(shù)閾值法,可實(shí)現(xiàn)對2 種發(fā)聲信號的100%分類,表明本研究提出的美聲發(fā)聲信號特征閾值法更加有效。

4) 可以利用筆者目前的研究結(jié)果建立一套針對美聲發(fā)聲的打分系統(tǒng),用于評估聲樂初學(xué)者在發(fā)聲訓(xùn)練時的標(biāo)準(zhǔn)程度。

猜你喜歡
波谷箱式錯誤
在錯誤中成長
板厚與波高對波紋鋼管涵受力性能影響分析
智能箱式變電站的應(yīng)用探討
梅緣稻
基于音節(jié)時間長度高斯擬合的漢語音節(jié)切分方法
不犯同樣錯誤
箱式分區(qū)亭在鐵路供電系統(tǒng)中的應(yīng)用分析
河南科技(2014年10期)2014-02-27 14:09:15
鋼筋混凝土箱式涵洞的構(gòu)造及施工
河南科技(2014年3期)2014-02-27 14:05:43
《錯誤》:怎一個“美”字了得
短篇小說(2014年11期)2014-02-27 08:32:41
鋰電池一體化箱式移動電源系統(tǒng)的應(yīng)用
曲沃县| 金门县| 永春县| 都兰县| 肥西县| 江山市| 嘉黎县| 西乌| 泽州县| 海盐县| 婺源县| 辽源市| 鄂温| 鄢陵县| 邯郸市| 苍溪县| 兰西县| 咸阳市| 阿坝县| 博客| 铜陵市| 简阳市| 原平市| 绥中县| 应城市| 板桥市| 兴安盟| 黑河市| 鄂托克前旗| 宜章县| 平邑县| 遂昌县| 康乐县| 云安县| 佛坪县| 安阳市| 深州市| 宜宾市| 阜平县| 丹巴县| 壶关县|