基于功率譜的美聲發(fā)聲特征提取?

2024-01-05 07:16:22王舒蕾齊婷婷張義民

振動、測試與診斷 2023年6期

張凱，王舒蕾，齊婷婷，張義民

（1.沈陽化工大學(xué)裝備可靠性研究所沈陽，110042）（2.沈陽音樂學(xué)院戲劇影視學(xué)院沈陽，110818）

引言

美聲唱法由于音色清脆高亢、靈活多變及音量較大［1］，對于歌唱者的發(fā)聲技巧要求較多，且美聲唱法的共鳴是“所有腔體共同運(yùn)作達(dá)到整體效果的展現(xiàn)”。相比于其他唱法，美聲唱法需要共鳴腔體以及骨骼都參與共鳴，即要求身體的各個器官放在一起共同產(chǎn)生共鳴。其他唱法參與共鳴的器官相對較少，發(fā)聲的位置也有所不同［2］，導(dǎo)致美聲初學(xué)者在頭腔、口腔、胸腔和咬字等方式上相對于其他唱法出現(xiàn)的問題較多。目前，在聲樂領(lǐng)域的教學(xué)中，基本是通過老師的言傳身教來糾正學(xué)生歌唱技巧上的錯誤。為了更深入研究美聲發(fā)聲的特點(diǎn)，筆者利用美聲發(fā)聲信號的功率譜去評價初學(xué)者的發(fā)音狀態(tài)，從振動理論的角度比較發(fā)音的異同，從功率譜中提取美聲發(fā)聲的信號特征。

國內(nèi)外學(xué)者圍繞美聲發(fā)聲原理開展了相關(guān)研究。文獻(xiàn)［3-5］從聲門振動和空氣動力學(xué)的角度對聲音信號進(jìn)行了分析。Mayr［6］利用長期平均頻譜（long-term average spectrum，簡稱LTAS）和功率譜對美聲男高音的生理和聲學(xué)特征進(jìn)行了研究，比較了假音和胸腔音的差異。Souza［7］通過對女高音的共振峰分析比較，得到音高的變化會導(dǎo)致基頻和共振峰的不同。Hasan 等［8］使用經(jīng)驗(yàn)?zāi)B(tài)分解（empirical mode decomposition，簡稱EMD）方法對歌曲的清音和濁音進(jìn)行能量估計(jì)，以觀察學(xué)習(xí)者歌聲中的差異和錯誤。Zysk 等［9］設(shè)計(jì)了一套聲音記錄程序，利用頻譜特征對女高音的頭部和胸部音域表演進(jìn)行分類。Barlow 等［10］根據(jù)平均元音譜（average vowel spectra，簡稱AVS）和長期平均譜對歌手在古典和現(xiàn)代風(fēng)格之間的聲樂作品的差異進(jìn)行了量化。

國內(nèi)學(xué)者的研究主要集中在美聲唱法與民族唱法、流行唱法的融合與對比領(lǐng)域［11-13］，但針對聲音信號特點(diǎn)進(jìn)行研究的文獻(xiàn)較少。錢一凡等［14］針對標(biāo)準(zhǔn)元音提取了其基頻、共振峰和各通道振幅，比較不同元音的聲學(xué)特征，分析得知不同的元音發(fā)聲與身體不同部位的共鳴有關(guān)。

大部分關(guān)于發(fā)聲信號的研究采用傅里葉變換的方法，將原時域信號轉(zhuǎn)化為頻域信號。然而，頻域信號僅對變換后信號的實(shí)部進(jìn)行對比，忽略了相頻信息。另外，對美聲唱法樣本的采集主要集中在美聲與通俗唱法的對比上，但是通俗唱法從發(fā)聲特點(diǎn)上與美聲唱法存在明顯差異，難以突出美聲聲音信號的特殊性。

針對上述問題，筆者利用功率譜的估計(jì)對信號進(jìn)行研究，即從能量的觀點(diǎn)對信號進(jìn)行分析，保留頻譜法所丟掉的相位信息。同時，從美聲初學(xué)者與歌唱技巧成熟的美聲老師中提取樣本并進(jìn)行對比研究。因?yàn)槊缆暢鯇W(xué)者的發(fā)音近似美聲，所以更適合對美聲發(fā)音的規(guī)范性進(jìn)行系統(tǒng)評價。

1 基于功率譜發(fā)聲信號特征提取步驟

筆者對美聲聲音信號的特征提取主要分為以下步驟：①對聲音信號進(jìn)行采集；②對采集到的聲音信號進(jìn)行端點(diǎn)檢測處理，去除無用的語音段；③對處理后的信號做Burg 法功率譜分析；④將得到的功率譜進(jìn)行局部二次回歸平滑處理。

1.1 聲音信號樣本的采集與端點(diǎn)檢測

對5 名美聲初學(xué)者和3 名美聲老師進(jìn)行女高音信號的采集、篩選和分類。錄音時要求發(fā)音人在相同錄音環(huán)境下依次清唱出基礎(chǔ)元音/a/，/i/和/u/，在錄制的聲音樣本中選取發(fā)聲時長在3~5 s 的語音信號，最終得到老師的發(fā)音樣本50 條（設(shè)定為正確發(fā)聲信號）和學(xué)生的錯誤發(fā)音樣本350 條。美聲老師分別對學(xué)生的樣本進(jìn)行錯誤分析，指出發(fā)聲存在的問題，總結(jié)出“口腔沒打開”、“咬字位置不正確”等一系列錯誤原因。為了便于分析，下面只討論發(fā)聲為/a/的分析結(jié)果，并不影響其統(tǒng)計(jì)規(guī)律。

由于采集到的美聲信號中存在無效的靜音段和噪聲段，會對功率譜分析和特征提取存在一定程度的干擾，增加運(yùn)算量，因此需要對聲音信號進(jìn)行端點(diǎn)檢測，確定其起點(diǎn)和終點(diǎn)，以便提高計(jì)算效率。筆者采用一種基于短時能量和譜質(zhì)心特征進(jìn)行端點(diǎn)檢測的方法［15］，其方法步驟如下。

首先，對語音信號中的每一幀提取短時能量，設(shè)xi（n）（n=1~N）為第i幀信號，長度為N，該幀的能量E(i)為

其次，提取該幀的譜質(zhì)心。設(shè)第i幀的譜質(zhì)心Ci為

其中：Xi（k）（k=1~N）為第i幀的離散傅里葉變換；N為幀長度。

最后，估計(jì)短時能量和譜質(zhì)心特征序列的閾值，設(shè)M1和M2分別為2 個局部最大值的位置，則閾值T為

其中：W為筆者設(shè)置的參數(shù)，W越大，閾值就越靠近M1。

經(jīng)過上述閾值化處理，可以得到一段標(biāo)記語音段的閾值化序列，將該序列代入原始信號中，就可獲得語音段在原始信號中開始和結(jié)束的位置。

1.2 Burg 法功率譜估計(jì)

將完成端點(diǎn)檢測的信號進(jìn)行Burg 法功率譜分析。在對隨機(jī)信號的分析中，可以利用自回歸（autoregressive model，簡稱AR）模型進(jìn)行功率譜估計(jì)。其中，Burg 法無需對自相關(guān)函數(shù)進(jìn)行估算，而是用已知序列x(n)求出反射系數(shù)，再利用Levinson 遞推算法，由反射系數(shù)來計(jì)算回歸模型參數(shù)，以得到較好的譜估計(jì)結(jié)果。

利用Burg 法估計(jì)AR 模型參數(shù)，首先要確定式（4）所示的初始條件，其次根據(jù)序列x(n)求出式（5）所示的自相關(guān)函數(shù)σ20

令k=1，計(jì)算AR 模型的反射系數(shù)Kk

在Levinson 關(guān)系式的ak(i)(i=1~k-1)中，分別代入p階AR 模型反射系數(shù)和p-1 階AR 模型反射系數(shù)，計(jì)算aki(i=1~k-1)、前向預(yù)測誤差ek(n)和后向預(yù)測誤差bk(n)，分別為

根據(jù)計(jì) 算出σ2k，令k=k+1。重復(fù)上述步驟，直至預(yù)計(jì)的階數(shù)為止，以求出所有階的AR 模型參數(shù)。

Burg 估計(jì)算法的遞推過程建立在已知序列的基礎(chǔ)上，很好地避免了對于序列自相關(guān)函數(shù)的計(jì)算，與其他算法相比，有著較好的頻率分辨率［16］。

1.3 局部二次回歸平滑

筆者使用局部二次回歸平滑對Burg 法得到的功率譜進(jìn)行平滑處理。局部二次回歸平滑就是使用二次多項(xiàng)式作為局部多項(xiàng)式的回歸擬合，是一種用于局部回歸分析的非參數(shù)方法。

在對信號進(jìn)行二次回歸平滑時，首先要確定擬合點(diǎn)的數(shù)量和位置，再以擬合點(diǎn)為中心，確定k個最鄰近的點(diǎn)，通過權(quán)重函數(shù)計(jì)算這些點(diǎn)的權(quán)重。其中，對權(quán)重的計(jì)算要先確定區(qū)間內(nèi)的點(diǎn)到擬合點(diǎn)的x軸的距離，找到區(qū)間內(nèi)的最大值，然后對其他距離做歸一化處理。歸一化函數(shù)表達(dá)式為

使用三次指數(shù)函數(shù)對權(quán)重進(jìn)行轉(zhuǎn)化，三次函數(shù)表達(dá)式為

接下來對區(qū)間內(nèi)的散點(diǎn)進(jìn)行局部二次回歸擬合，考慮到離擬合點(diǎn)的遠(yuǎn)近不同，點(diǎn)的取值對擬合線的影響也不同，故在定義損失函數(shù)時，應(yīng)率先降低近的點(diǎn)與擬合線的誤差，即對最小二乘法加上權(quán)重。加權(quán)最小二乘法的表達(dá)式為

對區(qū)間內(nèi)的樣本進(jìn)行多項(xiàng)式擬合后，不斷重復(fù)擬合過程，得到不同區(qū)間內(nèi)的加權(quán)回歸曲線，最后通過對回歸曲線中心的連接，便可生成完整的平滑曲線。

1.4 BP 神經(jīng)網(wǎng)絡(luò)

筆者選取BP 神經(jīng)網(wǎng)絡(luò)用于美聲特征的分類。BP 神經(jīng)網(wǎng)絡(luò)作為一種多層的前饋神經(jīng)網(wǎng)絡(luò)，由輸入層、隱藏層和輸出層組成。本研究對BP 神經(jīng)網(wǎng)絡(luò)設(shè)置2 個隱藏層：第1 個隱藏層包含10 個神經(jīng)元，使用線性函數(shù)作為激活函數(shù)；第2 個隱藏層包含2 個神經(jīng)元，使用對數(shù)S 形轉(zhuǎn)移函數(shù)作為激活函數(shù)。所選樣本數(shù)據(jù)為平滑處理后的信號功率譜特征值，最后選擇梯度下降自適應(yīng)學(xué)習(xí)率的反向傳播算法作為訓(xùn)練函數(shù)來訓(xùn)練BP 神經(jīng)網(wǎng)絡(luò)。

2 實(shí)驗(yàn)數(shù)據(jù)采集與分析

采集某音樂學(xué)院5 名女高音新生和3 名老師的美聲發(fā)聲信號共400 條，利用Matlab 軟件對經(jīng)過預(yù)處理的美聲信號進(jìn)行Burg 功率譜估計(jì)，對比正確樣本與錯誤樣本之間功率譜形態(tài)走勢的區(qū)別，對與正確功率譜圖像差距較大的地方做函數(shù)圖像的擬合，并提取譜圖的特征參數(shù)，最后比較科學(xué)美聲發(fā)聲和錯誤美聲發(fā)聲之間功率譜曲線與參數(shù)的差距。

2.1 信號的Burg 功率譜估計(jì)

聲音信號端點(diǎn)檢測時域波形如圖1 所示。首先對采集到的美聲信號進(jìn)行端點(diǎn)檢測，原始信號的時域波形見圖1（a），去除多余的靜音段和噪聲段，得到無干擾的聲信號時域波形見圖1（b）。

圖1 聲音信號端點(diǎn)檢測時域波形Fig.1 Time domain waveform of sound signal endpoint detection

將預(yù)處理后的信號帶入25 階AR 模型，美聲發(fā)聲信號功率譜曲線如圖2 所示，得到正確美聲信號功率譜和3 種具有代表性的、不同錯誤類型的美聲信號功率譜。根據(jù)圖中功率譜整體的波動和走勢情況，可將功率譜劃分為3 個能量區(qū)，如圖2 中豎線所示。其中：0~6 kHz 為第1 能量區(qū)；6~11 kHz 為第2能量區(qū)；11~15 kHz 為第3 能量區(qū)。

圖2 美聲發(fā)聲信號功率譜曲線Fig.2 Power spectrum curve of bel canto signal

由功率譜曲線可以看出，高音信號的功率譜整體均呈下降趨勢。由圖2（a）的標(biāo)準(zhǔn)美聲信號功率譜中可以發(fā)現(xiàn)，1，6 和15 kHz 處均存在明顯的峰值變化，6 kHz 處有明顯的下降趨勢，波谷平均深度為-100 dB，與波峰有著40 dB 的落差。曲線從10 kHz開始平穩(wěn)下降且無較大波動，在15 kHz 處下降速度加快，曲線陡峭，至17 kHz 處降至最低點(diǎn)-140 dB。

在錯誤美聲信號的功率譜中，圖2（b）所示的錯誤樣本1 存在著“口腔沒有打開、氣息沒有用上”的錯誤，其功率譜在6 kHz 處的波谷相對較淺，與左側(cè)波峰的落差僅有20 dB，而在15 kHz 處的曲線呈明顯上升趨勢的波動，持續(xù)約1 kHz 后加速下降至最低點(diǎn)。由圖2（c）所示的錯誤樣本2 可以看出，曲線在1，6 和11 kHz 處均有波谷產(chǎn)生，且波動幅度較大，曲線相對不穩(wěn)定，存在“咬字位置不對”的錯誤，在15 kHz 處變陡加速下降。由圖2（d）所示的錯誤樣本3 可以看出，曲線整體無較大波動，幾乎呈平穩(wěn)態(tài)勢下降，直至15 kHz 處曲線變陡并下降至最低點(diǎn)，存在“口腔發(fā)聲位置錯誤”的問題。

從能量區(qū)的分割上可以看出，錯誤樣本曲線在每個能量區(qū)中均有不同幅度的波動；而正確樣本曲線只有在進(jìn)入第2 能量區(qū)后有一處波谷，從第2 能量區(qū)中部至第3 能量區(qū)結(jié)束之間的圖像下降勻速，無明顯起伏特征。

2.2 信號的曲線擬合與箱式圖

基于上述情況，筆者在功率譜曲線區(qū)別較大的區(qū)間內(nèi)進(jìn)行基于最小二乘法的一階擬合和二階擬合，得到一元二次曲線方程和一元一次直線方程，再對2 種方程的系數(shù)取平均值和方差。其中，一元二次方程擬合了3~7 kHz 之間功率譜中存在的波谷曲線，由于2 種信號在其區(qū)間內(nèi)的變化差距較大，得到的方程在系數(shù)上有著較大差別。功率譜曲線一元二次方程擬合系數(shù)如表1 所示，正確發(fā)聲信號曲線的一次項(xiàng)系數(shù)b大于錯誤信號，而二次項(xiàng)系數(shù)a和常數(shù)項(xiàng)c則小于錯誤信號。

表1 功率譜曲線一元二次方程擬合系數(shù)Tab.1 Fitting coefficient of the power spectrum curve by the quadratic equation

在曲線方程中，二次項(xiàng)系數(shù)a代表函數(shù)拋物線的開口大小，a的絕對值越大，拋物線的開口越窄。對于2 條拋物線A1x2+B1x+C1y+D1=0 和A2x2+B2x+C2y+D2=0，其開度公式分別為

將正確信號和錯誤信號的多項(xiàng)式系數(shù)分別代入σ1和σ2，得到σ1>σ2，即正確信號拋物線的開口度要大于錯誤信號。

再對圖中10~15 kHz 的下降直線進(jìn)行擬合，得到了斜截式的一次函數(shù)直線方程，功率譜曲線一元一次方程擬合系數(shù)如表2 所示?？梢园l(fā)現(xiàn)，正確信號的斜率k要小于錯誤信號，而截距b大于錯誤信號，即正確信號的傾斜坡度較大，錯誤信號坡度較為平緩。

表2 功率譜曲線一元一次方程擬合系數(shù)Tab.2 Fitting coefficient of power spectrum curve by linear equation

為了更直觀地觀察數(shù)據(jù)的離散分布情況，了解數(shù)據(jù)分布狀態(tài)，將擬合出的多項(xiàng)式系數(shù)進(jìn)行箱式圖分析，如圖3 所示。由圖3（a）所示的二次項(xiàng)系數(shù)a的箱式圖可以看出：錯誤信號的系數(shù)整體低于正確信號，其箱式圖長度較短，數(shù)據(jù)多集中分布在很小的范圍內(nèi)；正確信號的箱式圖較長，表明數(shù)據(jù)間差異比較大，方差也大于錯誤信號。由圖3（b）所示的斜率k的箱式圖可以看出：正確信號的數(shù)據(jù)波動較大，但在錯誤信號中存在一處離群值，導(dǎo)致方差比正確信號的方差大。

圖3 多項(xiàng)式系數(shù)箱式圖Fig.3 Box-plot with polynomial coefficients

由箱式圖可知，在二次項(xiàng)系數(shù)箱式圖的5×10-6處和斜率箱式圖的-3×10-3處均有明顯的分界，可以把正確信號和錯誤信號按照分界數(shù)值直接區(qū)分開，故采用閾值法的識別率可達(dá)到100%。

對美聲信號的功率譜曲線做特征值統(tǒng)計(jì)，如表3 所示。由表可知，錯誤信號的方差明顯大于正確信號，說明錯誤信號的功率譜數(shù)據(jù)波動較大，數(shù)據(jù)分布比較分散，在平均數(shù)附近波動較大，且存在較大的上下限差。

表3 美聲信號功率譜統(tǒng)計(jì)特征值Tab.3 Statistical eigenvalues of power spectrum of bel canto signal

2.3 基于BP 網(wǎng)絡(luò)的神經(jīng)分類

對400 條聲音信號進(jìn)行訓(xùn)練集和測試集的劃分，其中75%的數(shù)據(jù)作為訓(xùn)練集導(dǎo)入BP 神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練，使BP 神經(jīng)對兩類發(fā)聲信號的特征值有記憶能力；再將剩余的15%數(shù)據(jù)作為測試集，來測試BP 神經(jīng)網(wǎng)絡(luò)的識別正確率。BP 神經(jīng)網(wǎng)絡(luò)收斂圖如圖4 所示，由圖可以看出，訓(xùn)練在120 次左右達(dá)到收斂，識別率為95.23%。

圖4 BP 神經(jīng)網(wǎng)絡(luò)收斂圖Fig.4 Convergence diagram of BP neural network

由BP 神經(jīng)網(wǎng)絡(luò)的識別結(jié)果可知，相比于利用BP 神經(jīng)網(wǎng)絡(luò)對美聲進(jìn)行分類，基于系數(shù)箱式圖的閾值法可以更直接地將2 種類別區(qū)分開，且識別率達(dá)100%。因此，采用函數(shù)擬合的方法明顯優(yōu)于直接對功率譜特征值進(jìn)行分類訓(xùn)練的方法。

3 結(jié) 論

1）標(biāo)準(zhǔn)美聲唱法的功率譜僅在6 kHz 左右有一處明顯的波谷，下降落差約為40 dB，其余頻率并無較大的波谷產(chǎn)生。在錯誤的美聲唱法中，有些譜線沒有明顯的波谷，而有些譜線波谷較多，波動幅度較大。對3~7 kHz 內(nèi)的波谷曲線和10~15 kHz 內(nèi)的下降直線分別做一元二次函數(shù)擬合和一元一次函數(shù)擬合，可以得出正確信號在擬合的曲線上有著更大的開口度和更深的波谷，在直線上有著更大的傾斜度。在系數(shù)箱式圖中使用閾值法，可以將2 種類型的信號直接區(qū)分開。

2）根據(jù)功率譜的波動和走勢，可將其劃分為3個能量區(qū)。在能量區(qū)中，錯誤樣本的曲線波動頻率更大，且在區(qū)域交界處有波谷；正確樣本僅在第1、第2 能量區(qū)之間有波動，其余區(qū)域波動較不明顯。

3）使用美聲聲音信號功率譜進(jìn)行2 種聲音信號的BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練和分類識別，識別正確率可達(dá)95.23%；而使用系數(shù)閾值法，可實(shí)現(xiàn)對2 種發(fā)聲信號的100%分類，表明本研究提出的美聲發(fā)聲信號特征閾值法更加有效。

4）可以利用筆者目前的研究結(jié)果建立一套針對美聲發(fā)聲的打分系統(tǒng)，用于評估聲樂初學(xué)者在發(fā)聲訓(xùn)練時的標(biāo)準(zhǔn)程度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡