国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多特征融合的樂器聲品質(zhì)評價方法研究

2019-10-18 07:52:48陳燕文王燕平
測試技術(shù)學(xué)報 2019年5期
關(guān)鍵詞:樂音頻域主觀

陳燕文,李 坤,韓 焱,王燕平

(1.中北大學(xué) 信息探測與處理山西省重點實驗室,山西 太原 030051;2.中北大學(xué) 藝術(shù)學(xué)院,山西 太原 030051)

0 引 言

中國傳統(tǒng)音樂是世界音樂史中璀璨的一部分,蘊含著豐富的歷史、文化和民間傳統(tǒng)資源,是民族歷史的積淀和思想意識的結(jié)晶,是活著的傳統(tǒng).然而隨著現(xiàn)在快速文化的涌入和影響,許多傳統(tǒng)音樂正在逐漸消失,特別在民族樂器的傳承與發(fā)展上嚴重不足.研究樂器聲品質(zhì)有助于民族樂器的傳承與發(fā)展,對于樂器質(zhì)量的改良起到至關(guān)重要的作用,對樂器購買者亦具有很好的指導(dǎo)意義[1].

目前,研究樂器聲品質(zhì)主要集中在樂器結(jié)構(gòu)及其物理特性,如:材質(zhì)、力學(xué)、尺寸大小和共振特性等[2-5].文獻[6]從樂器選材、制作工藝上,對二胡聲品質(zhì)進行客觀評價和鑒賞;文獻[7-9]從主觀聽感上對樂器聲品質(zhì)進行評價研究.在音樂聲學(xué)領(lǐng)域,對樂器質(zhì)量進行客觀測量評價是一項艱巨的任務(wù)[10].李子晉在主觀評價與客觀量分析之間建立了聯(lián)系,并闡述了建立主客觀評價方法的重要性[11];徐茂濱和田英志研究出分析二胡樂音的客觀聲音指標(biāo)(主觀與客觀評價之間的橋梁),并通過客觀測量來評估二胡樂音特性[12].

國內(nèi)外關(guān)于樂器聲品質(zhì)評價研究多數(shù)集中在西洋樂器,民族樂器少之又少;評價研究主要是從樂器的結(jié)構(gòu)以及物理特性出發(fā),忽略了樂音本身的重要性.考慮到客觀評價測量復(fù)雜,且不易準(zhǔn)確實現(xiàn),結(jié)合人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)具有模仿人類大腦行為特征的功能,本文提出一種基于多特征融合的樂器聲品質(zhì)評價方法.通過主觀評價法[13-15]獲得樂器琵琶的聲品質(zhì)評價結(jié)果,并建立具有主觀評價的樂音信號庫;提取樂音信號的相關(guān)系數(shù)(Correlation Coefficient,CC)[16]、常數(shù)Q變換 (Constant Q Transform,CQT)[17-19]和梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficients,MFCC)[20,21],將單一特征以及多特征融合后通過基于BP神經(jīng)網(wǎng)絡(luò)[22]的樂器聲品質(zhì)評價模型,實現(xiàn)樂器聲品質(zhì)評價.實驗結(jié)果表明,利用樂音信號的多特征融合[23]以及評價模型進行樂器聲品質(zhì)主觀評價預(yù)測,取得了很好的效果.

1 建立主觀評價的樂音信號庫

樂器聲品質(zhì)評價方法研究建立在主觀評價基礎(chǔ)上,具有主觀評價的樂音信號庫是實驗研究的樣本.

1.1 主觀評價法

主觀評價法流程如圖1所示.

具體過程要求為:

1) 樂器選擇:選用不同價位、不同品質(zhì)的6把琵琶作為主觀評價與樂音信號采集的對象.

圖1 主觀評價法流程框圖

2) 評價環(huán)境選擇:由于評價環(huán)境的聲學(xué)特性對于樂器聲品質(zhì)的聽辨具有直接的影響.理想選擇是在消音室內(nèi)進行,但實際條件不允許,于是選擇帶有吸音材料的音樂廳進行.

3) 確定評價成員:評價成員必須具備較為深厚的音樂素養(yǎng),熟悉所評價樂器的音響以及相關(guān)的評價項目,并能夠較為客觀、全面地進行評價.評價成員由5名琵琶專業(yè)教師組成,且保證評價員在聽審時的身體與情緒狀態(tài)均為正常.

4) 選擇演奏人員:演奏人員對樂器實施的演奏行為會直接影響樂器聲品質(zhì)的結(jié)果,即使是同一種技術(shù)操作,其運用與把握的程度也會導(dǎo)致評價結(jié)果產(chǎn)生較大的差異.因此,選用演奏技術(shù)嫻熟的專業(yè)教師一名,且保證演奏員在演奏時的身體與情緒狀態(tài)均為正常,全部演奏由同一個人完成.

5) 選定評價曲目:以全面反映樂器聲學(xué)品質(zhì)為原則,由評價成員與演奏人員共同選定包含低中高音區(qū)的曲目《金蛇狂舞》.

采用5分評分制,最終獲得的評價結(jié)果如表1所示.

表1 主觀評價結(jié)果

1.2 構(gòu)建樂音信號庫

為了獲取不同位置的樂音信息,搭建8路音頻信號采集系統(tǒng),采用8個高保真的拾音器,連接到計算機采集設(shè)備上.為了避免聲波產(chǎn)生空間混疊現(xiàn)象,拾音器線性采集陣列間距應(yīng)滿足空間采樣定理[24]

(1)

式中:fmax為演奏出的樂音最大頻率值,選取陣元間距d=20 cm.為了滿足采樣頻率不低于44.1 kHz[25]的要求,選用56.25 kHz.每個樂音音頻文件采集時間為30 s,錄制評價曲目中音域跨度廣的一小段,每把琵琶進行3次主觀評價與采集.8路均勻線性采集陣列如圖2所示,建立樂音信號庫的具體原理過程如圖3所示.樂音信號庫包含144個音頻文件.

圖2 8通道均勻線性采集陣列

圖3 樂音信號庫構(gòu)建原理流程框圖

2 樂音信號的特征提取

音頻信號的特征提取參數(shù)有兩點需要滿足:① 不同特征參數(shù)之間能有效地區(qū)分開,且具備相對穩(wěn)定性,不隨時間與空間的變換發(fā)生實質(zhì)性的變化;② 提取的特征參數(shù)應(yīng)該盡可能全面,準(zhǔn)確地反映音頻信號的特性.

樂音信號的特征包含時域、頻域和倒頻域3種域特征,時域特征有短時能量(Short-term Energy,STE)、相關(guān)系數(shù)(CC)等;頻域特征有短時傅里葉變換(Short-time Fourier Transform,STFT)、常數(shù)Q變換(CQT)等;倒頻域特征有線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficients,LPCC)、Mel頻率倒譜系數(shù)(MFCC)等.為了盡可能全面、充分地獲取樂音信號中的譜特征信息以及聲場分布信息,本文選取時域中的相關(guān)系數(shù)(CC)、頻域中的常數(shù)Q變換(CQT)和倒頻域中的Mel頻率倒譜系數(shù)(MFCC)作為特征提取.

2.1 相關(guān)系數(shù)(CC)

采集陣列中的陣元分布在聲場的不同方位,故可以模擬不同位置的主觀評價員.對聲場中的不同采集信號做時域的相關(guān)分析,可以研究聲場不同位置的相似度以及探究出聲場的分布狀態(tài).互相關(guān)的物理意義是表示兩個時間序列之間的相關(guān)系數(shù),即表示兩組不同隨機信號之間的相關(guān)程度.兩個隨機信號的互相關(guān)函數(shù)定義為

(2)

將樂音信號庫中的8個一組的音頻文件(即8通道信號)兩兩求取相關(guān)系數(shù),獲得一個8*8的相關(guān)系數(shù)矩陣,并進一步提取矩陣特征值作為評價系統(tǒng)的時域特征.

2.2 常數(shù)Q變換(CQT)

CQT使音樂信號在12平均律的頻點進行分解,體現(xiàn)了音樂信號頻率分布規(guī)律,而短時傅里葉變換(STFT)并不能體現(xiàn)這種規(guī)律.

有限長序列的CQT變換為

(3)

式中:wNk(n)是長度為Nk的窗函數(shù)(選用漢明窗);Q是CQT變換中的常數(shù)因子;k是CQT譜的頻率序號;Nk的值與k值有關(guān).

Q=1/(21/b-1),

(4)

式中:b是一個8度內(nèi)包含的頻率譜線數(shù).

(5)

fk=fmin×2k/b,k=0,1,…,K-1,

(6)

(7)

特征提取過程中,取b=12,fmin=27.5,fmax=4 186,fs=56.25 kHz.獲得樂音信號的CQT譜如圖4所示.

CQT變換,在低頻部分頻率分辨率高,在高頻部分時間分辨率高.CQT譜信息保存在一個分音矩陣XCQT(k,n)中,其中,k=1,2,…,K為頻點序號;n=1,2,…,N為幀序號.

圖4 樂音信號與CQT特征曲線

2.3 梅爾頻率倒譜系數(shù)(MFCC)

MFCC是基于人類聽覺的非線性特性提出的一種特征提取方法,它比線性預(yù)測倒譜系數(shù)(LPCC)更符合人耳的聽覺特征,可以更好地表征音符信號特性.Mel頻率與線性頻率的轉(zhuǎn)換關(guān)系為

fmel=2 595log10(1+f/700),

或fmel=1 125ln(1+f/700),

(8)

式中:fmel是以Mel為單位的感知頻率,f是以Hz為單位的實際頻率.

通過觀察分析如圖5所示的Mel頻率與線性頻率對應(yīng)關(guān)系曲線及Mel濾波器組頻率響應(yīng)曲線,可知Mel頻率與線性頻率是非線性關(guān)系,Mel濾波器在低頻區(qū)域分布比較密集.

圖5 Mel頻率與線性頻率對應(yīng)關(guān)系曲線及Mel濾波器組頻率響應(yīng)曲線

MFCC特征參數(shù)提取原理如圖6所示.

圖6 MFCC特征參數(shù)提取原理框圖

具體過程為:

1) 原始樂音信號x(n)經(jīng)過分幀、加窗處理得到單幀的短時信號xw(i,n).分幀的目的是能把較短的單幀作為穩(wěn)態(tài)信號處理,使幀間參數(shù)平穩(wěn)過度,幀長wlen=1 024,幀移inc=512;加窗的目的是減少頻域的泄漏,并采用漢明窗.

2) 快速傅里葉變換(FFT)

X(i,k)=FFT[xi(m)].

(9)

3) 計算每幀譜線能量

E(i,k)=[X(i,k)]2.

(10)

4) 計算通過Mel濾波器的能量

(11)

式中:i為第i幀;k為頻域中第k條譜線.

5) 將Mel濾波器的能量取對數(shù)后計算DCT

(12)

式中:m是指第m個Mel濾波器(共有M=24個),i是指第i幀,是離散余弦變換(DCT)后的譜線.提取的MFCC特征如圖7所示.

圖7 樂音信號與MFCC特征曲線

2.4 多特征融合方法

由于各特征之間的性質(zhì)不同,且具有不同的量綱和數(shù)量級.為了消除數(shù)值大小對于分析結(jié)果的影響,需進行去量綱與數(shù)量級處理.因此,為了保證實驗結(jié)果的可靠性,多特征融合前需對各個特征數(shù)據(jù)進行標(biāo)準(zhǔn)化處理.采用Min-Max標(biāo)準(zhǔn)化處理

(13)

式中:min為各特征數(shù)據(jù)中的最小值;max為各特征數(shù)據(jù)中的最大值.

多特征融合采用首尾相接,即串聯(lián)的方式,把提取得到的3個特征進行組合,形成融合特征.

3 基于BP神經(jīng)網(wǎng)絡(luò)的樂器聲品質(zhì)評價模型

3.1 建模基本思想

樂器聲品質(zhì)評價方法的研究最終目標(biāo)是替代實現(xiàn)人的主觀感受,盡可能取代主觀評價,實現(xiàn)人工智能化.運用人工神經(jīng)網(wǎng)絡(luò)(ANN)具有模仿人類大腦行為特征的功能,采用BP神經(jīng)網(wǎng)絡(luò)進行建模分析,構(gòu)建了基于BP神經(jīng)網(wǎng)絡(luò)的樂器聲品質(zhì)評價模型,其基本思想如圖8所示.建立具有主觀評價的樂音信號庫,信號庫中包含待訓(xùn)練的樣本、測試樣本以及驗證樣本.提取樂音信號的時域、頻域和倒頻域3種域中比較具有代表性、更貼近人耳感知的特征(CC,CQT和MFCC),作為特征參數(shù)進入評價模型學(xué)習(xí)與訓(xùn)練,得出最優(yōu)預(yù)測評價結(jié)果.

圖8 建?;舅枷肟驁D

3.2 BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)是運用最廣的神經(jīng)網(wǎng)絡(luò)之一,具有很好的非線性映射能力以及自學(xué)習(xí)能力,主要運用于函數(shù)逼近、模式識別、數(shù)據(jù)壓縮和數(shù)據(jù)預(yù)測等方面.BP神經(jīng)網(wǎng)絡(luò)是由Rumelhart與McCelland為首的科學(xué)家小組提出的多層前饋神經(jīng)網(wǎng)絡(luò),它是一種機器學(xué)習(xí)方法,能夠?qū)τ?xùn)練樣本特性產(chǎn)生特定的記憶,并對測試樣本進行預(yù)測.采用誤差反向傳播(Back Propagation)算法進行有監(jiān)督的學(xué)習(xí),根據(jù)預(yù)測誤差不斷調(diào)整網(wǎng)絡(luò)權(quán)值和閾值,從而使網(wǎng)絡(luò)預(yù)測輸出與期望輸出達到一致.BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層構(gòu)成,隱含層包含單層和多層.

3.3 樂器聲品質(zhì)評價模型

根據(jù)上述建模思想的分析,構(gòu)建樂器聲品質(zhì)評價模型的結(jié)構(gòu)如圖9所示.輸入層神經(jīng)元個數(shù)根據(jù)輸入特征維數(shù)而定,根據(jù)經(jīng)驗以及多次試驗確定最優(yōu)隱層層數(shù)及其各層神經(jīng)元個數(shù),預(yù)測評價結(jié)果作為BP神經(jīng)網(wǎng)絡(luò)的輸出.

圖9 BP神經(jīng)網(wǎng)絡(luò)評價模型結(jié)構(gòu)

4 實驗與結(jié)果

4.1 實驗仿真

初步實驗,采用融合特征(MFCC+CQT+CC)作為特征參數(shù)輸入網(wǎng)絡(luò)進行學(xué)習(xí)和訓(xùn)練.實驗中,將主觀評價結(jié)果作為期望值監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)與訓(xùn)練;在144組樣本中,110組作為訓(xùn)練樣本,24組作為測試樣本,10組作為驗證樣本.根據(jù)樣本和網(wǎng)絡(luò)結(jié)構(gòu)特點,隱層傳遞函數(shù)均采用logsig,輸出層傳遞函數(shù)采用purelin,網(wǎng)絡(luò)訓(xùn)練函數(shù)采用trainlm,學(xué)習(xí)算法采用Levenberg-Marquardt算法.通過多次試驗對比,調(diào)整網(wǎng)絡(luò)參數(shù),得到最優(yōu)網(wǎng)絡(luò)參數(shù)配置.

為了進一步驗證采用融合特征(MFCC+CQT+CC)作為特征參數(shù)輸入到BP神經(jīng)網(wǎng)絡(luò)是最佳的特征融合方式,進行了對比實驗,采用單一特征和不同組合特征以及改變樣本數(shù)進行探究實驗.

4.2 結(jié)果分析

初步實驗中,得到的結(jié)果如圖10所示.從圖10 中可知,預(yù)測輸出值與期望輸出值非常相近,有個別樣本預(yù)測不是很理想,但總體上預(yù)測效果很好.測試樣本的平均準(zhǔn)確率為99.68%,驗證樣本的平均準(zhǔn)確率也達到了99.49%.

圖10 BP神經(jīng)網(wǎng)絡(luò)預(yù)測輸出與誤差曲線

進一步探究實驗獲得的結(jié)果如表2 和圖11所示.

圖11 不同訓(xùn)練樣本數(shù)的平均準(zhǔn)確率曲線

從表2 和圖11 可知,平均準(zhǔn)確率隨著訓(xùn)練樣本數(shù)的增加呈現(xiàn)上升趨勢,且樣本數(shù)達到50組以后,組合特征(MFCC+CQT+CC)的預(yù)測效果都強于其他幾種特征組合;從整體上看,單一特征MFCC以及它的組合特征(MFCC+CC)預(yù)測效果不佳.

5 結(jié)束語

通過建立具有主觀評價的樂音信號庫作為實驗對象,提取樂音信號的CC,CQT和MFCC特征,作為特征參數(shù)輸入到基于BP神經(jīng)網(wǎng)路的樂器聲品質(zhì)評價系統(tǒng).單一特征MFCC和CQT以及其他4種組合特征分別進行實驗.實驗結(jié)果表明:融合特征(MFCC+CQT+CC)獲得的預(yù)測評價效果最好,最大程度地表征了琵琶聲品質(zhì)特征;該樂器聲品質(zhì)評價方法可行.雖然取得了比較好的結(jié)果,但是該研究方法的普適性還有待于進一步研究與探討.

猜你喜歡
樂音頻域主觀
“美好生活”從主觀愿望到執(zhí)政理念的歷史性提升
如何區(qū)分樂音和噪聲
加一點兒主觀感受的調(diào)料
作文成功之路·作文交響樂——學(xué)生展現(xiàn)心靈樂音的舞臺
頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計
刑法主觀解釋論的提倡
法律方法(2018年2期)2018-07-13 03:22:06
用心聆聽學(xué)會區(qū)分
基于改進Radon-Wigner變換的目標(biāo)和拖曳式誘餌頻域分離
一種基于頻域的QPSK窄帶干擾抑制算法
基于小波包變換的樂音時—頻綜合分析程序的開發(fā)
音樂探索(2015年1期)2015-04-27 01:01:52
儋州市| 利津县| 海兴县| 永仁县| 乐业县| 图们市| 保德县| 饶平县| 大荔县| 海盐县| 湘潭市| 宁陕县| 松桃| 塔河县| 长岛县| 九龙坡区| 龙陵县| 湛江市| 小金县| 江口县| 吴旗县| 渝中区| 新昌县| 喀什市| 滦南县| 柞水县| 梁平县| 穆棱市| 阜城县| 阳山县| 抚远县| 平原县| 广河县| 富平县| 晋江市| 眉山市| 买车| 柳林县| 镇江市| 泽州县| 安康市|