国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

弦音律韻:面向多種古琴的琴聲分析與檢測(cè)方法

2024-01-01 00:00:00唐詩思關(guān)慧明
關(guān)鍵詞:古琴種類音頻

摘要:古琴類型的電子判斷可以減輕古琴鑒賞對(duì)專業(yè)鑒定人員的壓力,提高古琴鑒定的效率。采用多階段方法,使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)10種中國(guó)古琴的聲音進(jìn)行了分析和識(shí)別。首先,將一維時(shí)域圖轉(zhuǎn)為梅爾頻譜圖,以捕捉音頻信號(hào)的頻譜特征;其次,使用主成分分析方法降維,提高了計(jì)算效率,降低了過擬合風(fēng)險(xiǎn);再次,在梅爾頻譜圖基礎(chǔ)上建立卷積神經(jīng)網(wǎng)絡(luò)模型,使用多種尺度的卷積核提取局域和全局的不同特征信息,以更好地區(qū)分不同種類中國(guó)古琴的聲音特征;最后,引入dropout層以降低計(jì)算負(fù)擔(dān)和防止過度擬合,最終實(shí)現(xiàn)了對(duì)多種中國(guó)古琴種類的識(shí)別。實(shí)驗(yàn)結(jié)果顯示,卷積神經(jīng)網(wǎng)絡(luò)模型在中國(guó)古琴種類聲音識(shí)別中具有更高準(zhǔn)確性,為中國(guó)古琴種類聲音識(shí)別提供了有效方法,并為實(shí)現(xiàn)智能的古琴演奏技術(shù)分析奠定了基礎(chǔ)。

關(guān) 鍵 詞:氧化鈷; 納米結(jié)構(gòu); 電容器; 電催化卷積神經(jīng)網(wǎng)絡(luò); 主元分析法; 多尺度卷積核; 樂器識(shí)別

中圖分類號(hào):TU398.1

文獻(xiàn)標(biāo)志碼:A

doi:10.3969/j.issn.1673-5862.2024.04.014

String melody and rhyme: Methods of analyzing and detecting the sounds of various guqin

CUI Song1,2, LYU Yan1,2, CHEN Lanfeng1,2TANG Shisi1, GUAN Huiming2

(1. College of Physical Science and Technology, Shenyang Normal University, Shenyang 110034, China)(1. School of Music Education, Shenyang Conservatory of Music, Shenyang 110623, China; 2. Business School, Liaoning University, Shenyang 110136, China)

Abstract:To electronically determine the types of various guqin, this paper uses an improved convolutional neural network(CNN) model to analyze and identify the sounds of ten types of Chinese guqin. Furthermore, it can alleviate the pressure on professional appraisers and improve the efficiency of guqin appraisal. This study adopts a multi-stage approach, first converting a one-dimensional time-domain graph into a Mel spectrogram to capture the spectral characteristics of audio signals. Next, use principal component analysis(PCA) to reduce dimensionality, improve computational efficiency, and reduce overfitting risks. Based on the Mel spectrogram, a CNN is established to extract local and global feature information using convolutional kernels of various scales, in order to better distinguish the sound features of different types of Chinese guqin. Introducing a dropout layer to reduce computational burden, prevent overfitting, and ultimately achieve recognition of multiple types of Chinese guqin. The experimental results show that CNN has higher accuracy in the recognition of Chinese guqin types of sounds, providing an effective method for the recognition of Chinese guqin types of sounds and laying the foundation for the intelligent analysis of guqin performance technology.

Key words:convolutional neural network; principal component analysis; multi-scale convolutional kernels; instrument recognition

中國(guó)古琴作為中國(guó)傳統(tǒng)音樂文化的寶貴遺產(chǎn)之一,是一種古老而深具歷史底蘊(yùn)的絲弦樂器。然而,隨著現(xiàn)代音樂的蓬勃發(fā)展和國(guó)際交流的增加,中國(guó)古琴的地位和影響逐漸減弱。因此,對(duì)中國(guó)古琴進(jìn)行識(shí)別和分類研究,不僅有助于保護(hù)和傳承我國(guó)傳統(tǒng)文化,也能為促進(jìn)古琴演奏技巧的智能評(píng)價(jià)奠定基礎(chǔ),使得古琴評(píng)價(jià)標(biāo)準(zhǔn)更為統(tǒng)一,從而協(xié)助音樂教育工作者更好地教授和傳播中國(guó)古琴藝術(shù)。通過深入研究古琴的聲音特征,可以更好地理解不同種類古琴之間的差異,為古琴的教學(xué)和推廣提供更為系統(tǒng)和科學(xué)的依據(jù)。該研究也能為古琴在當(dāng)代音樂中找到新的表現(xiàn)方式和受眾群體提供可能性,有助于繼續(xù)傳承中國(guó)大琴藝術(shù)并為之注入新的生命力[1-4。

在國(guó)外,樂器識(shí)別的發(fā)展較早,并且在音頻處理領(lǐng)域具有較高的研究水平。早期的樂器識(shí)別主要依賴于基于物理特征的特征提取方法,如基于樂器譜形態(tài)的識(shí)別算法[5。隨著人工智能和深度學(xué)習(xí)技術(shù)的不斷發(fā)展,研究者們深入研究了數(shù)據(jù)驅(qū)動(dòng)的樂器識(shí)別方法。例如,基于深度學(xué)習(xí)的樂器識(shí)別方法通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,可以實(shí)現(xiàn)更高精度的樂器分類6。此外,針對(duì)樂器信號(hào)的特點(diǎn),還有一些專門的樂器識(shí)別算法被提出,如基于演奏技巧的識(shí)別算法和基于樂器共振特征的識(shí)別算法。

國(guó)內(nèi)的研究也開始逐漸關(guān)注樂器識(shí)別領(lǐng)域,并在特征提取和分類方法上取得了一些創(chuàng)新成果[7-9。在特征提取方面,一些研究者提出了基于小波變換和脊線算法的特征提取方法,用于提取樂器信號(hào)的頻譜和時(shí)頻特征10-11。在分類方法上,國(guó)內(nèi)的研究者主要使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如支持向量機(jī) (support vector machine,SVM) 算法和馬爾可夫模型算法等[12。同時(shí),一些研究者還嘗試將深度學(xué)習(xí)方法應(yīng)用于樂器識(shí)別中,并取得了一定的效果[13。

但樂器識(shí)別研究仍然存在一些挑戰(zhàn)和問題。不同種類的古琴之間存在著極為相似的譜特性,這給識(shí)別帶來了一定的困難。因此,本文提出一種基于主成分分析(principal component analysis,PCA)降維的多尺度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)方法,旨在通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)10種不同種類古琴的聲音進(jìn)行分析和識(shí)別,并采用了多階段方法處理音頻數(shù)據(jù)。首先,將一維時(shí)域音樂轉(zhuǎn)化為梅爾頻譜圖,以捕捉音頻信號(hào)的頻譜特征。這一步驟有助于將聲音信息轉(zhuǎn)化為可供機(jī)器學(xué)習(xí)處理的形式。其次,使用PCA進(jìn)行降維,以提高計(jì)算效率,降低過擬合的風(fēng)險(xiǎn)。在梅爾頻譜圖的基礎(chǔ)上,建立卷積神經(jīng)網(wǎng)絡(luò),利用多種尺度的卷積核來提取局部和全局的不同特征信息,以更好地區(qū)分不同種類古琴的聲音特征。引入dropout層有助于降低計(jì)算負(fù)擔(dān)和防止過擬合,最終實(shí)現(xiàn)多種古琴的識(shí)別。深度學(xué)習(xí)模型可以通過學(xué)習(xí)古琴的視覺和聲音特征,實(shí)現(xiàn)自動(dòng)分類和鑒別不同類型的古琴。這有助于減輕專

業(yè)鑒定人員的負(fù)擔(dān),提高古琴鑒定的效率。通過數(shù)字化,可以更好地保存和傳承古琴的歷史和文化價(jià)值,使其對(duì)更廣泛的受眾可見。這有助于促進(jìn)文化多樣性,增進(jìn)人們對(duì)世界各地古琴傳統(tǒng)的理解和尊重。

1 基于多線性PCA的聽覺譜圖預(yù)處理

1.1 不同種類中國(guó)古琴結(jié)構(gòu)與技巧對(duì)音色的影響

古琴在中國(guó)有多種不同的類型,包括伏羲式、仲尼式、連珠式、落霞式、靈機(jī)式、混沌式、列子式、伶官式、蕉葉式、神農(nóng)式、響泉式、鳳勢(shì)式、師曠式、鐘離式(鶴鳴秋月琴)等。不同種類的古琴在演奏手法和音色上存在一些區(qū)別,這主要受到制作工藝、琴身結(jié)構(gòu)、琴弦材質(zhì)及演奏者的技法和風(fēng)格的影響。

1)制作工藝和琴身結(jié)構(gòu)。不同類型的古琴可能采用不同的制作工藝和琴身結(jié)構(gòu),這直接影響到琴體的

共鳴和音色。制作工藝的不同可能導(dǎo)致音色的差異,例如,伏羲式和仲尼式在這方面可能有所差異。

2)琴弦材質(zhì)。古琴的琴弦通常由絲、絲絮或者絲和金屬的混合物制成。不同的材質(zhì)對(duì)音色有影響,某些琴型可能使用特殊的材質(zhì)以獲得特定的音色特征。

3)演奏者技法和風(fēng)格。演奏者在不同類型的古琴上可能會(huì)采用不同的演奏技法和風(fēng)格。這包括指法、彈奏力度、顫音技法等。演奏者的個(gè)人風(fēng)格也會(huì)對(duì)音色產(chǎn)生影響,使得同一種琴在不同演奏者手中可能呈現(xiàn)出不同的音樂特色。

1.2 音頻信號(hào)聽覺譜圖的轉(zhuǎn)換

聽覺譜圖是一種音頻信號(hào)分析的重要方法,由一維時(shí)域信號(hào)轉(zhuǎn)換成二維時(shí)頻圖而得來,可以提取樂器音頻信號(hào)的頻率分布特征。在樂器識(shí)別領(lǐng)域,聽覺譜圖常被用作樂器識(shí)別算法的輸入特征。

在自然環(huán)境中,古琴的琴聲受環(huán)境噪聲和演奏音量等因素的影響,其波形表現(xiàn)差異明顯。噪聲存在時(shí)會(huì)掩蓋樂器聲音,特別是在音量較低的情況下,波形不夠明顯,這增加了使用波形圖進(jìn)行分類的困難。

針對(duì)4 s長(zhǎng)的音頻樣本,以22 050 Hz的采樣頻率采樣后,會(huì)生成約80 000個(gè)采樣點(diǎn)的信號(hào)序列。這些采樣點(diǎn)僅包含時(shí)域特征,數(shù)量眾多,雜亂無章,難以提取特征用于分類任務(wù)。因此,將一維信號(hào)轉(zhuǎn)為聽覺譜是極其重要的。本研究將中國(guó)古琴演奏樣本轉(zhuǎn)換為同時(shí)包括時(shí)域和頻域特征的梅爾頻譜圖,這是一種基于人耳聽覺的特征表示,作為模型的輸入特征圖,可用于分類。

梅爾頻譜圖的提取過程包括預(yù)加重、分幀、加窗等操作,然后進(jìn)行傅里葉變換以獲得頻譜圖。傅里葉變換有助于突出音頻特征,如式(1)所示。

其中:f代表頻率;τ代表幀長(zhǎng),對(duì)于1個(gè)4 s的音頻,可以獲得174幀,則τ∈[0,174];y(t)為時(shí)域信號(hào);x代表頻域信號(hào);w(1-τ)是中心位置位于τ的漢明窗(Hamming window),窗口長(zhǎng)度設(shè)為2 048,步長(zhǎng)為512,采樣頻率為22 050 Hz。利用梅爾濾波器組過濾得到梅爾頻譜圖為

其中:f代表通常的頻率;fmel代表經(jīng)過梅爾標(biāo)度濾波后的頻率。由于頻域信號(hào)存在冗余,濾波器組可以精簡(jiǎn)頻域幅值,每個(gè)頻段用一個(gè)值表示。研究中采用64個(gè)濾波器組,范圍為fmel∈[0,64)。以一個(gè)樣本為例,圖1(a)為時(shí)域圖,圖1(b)為梅爾頻譜圖。

1.3 基于PCA的聽覺圖譜降維處理

PCA是一種用于特征降維的算法,廣泛應(yīng)用于數(shù)據(jù)分析和模式識(shí)別領(lǐng)域。在樂器識(shí)別任務(wù)中,PCA可以用來減少音頻信號(hào)的維度,并提取出最具代表性的特征。PCA首先研究各個(gè)變量之間的關(guān)系,然后通過適當(dāng)?shù)木€性組合,合成新的綜合變量,這些新綜合變量被稱為主成分。

設(shè)原變量為x1,x2,…,xm,主成分分析后得到的新變量為y1,y2,…,yp,則y1,y2,…,yp均是由x1,x2,…,xm線性組合構(gòu)成的,稱y1,y2,…,yp為主成分,其中,y1為第1主成分,y2為第2主成分,以此類推。找到主成分的具體步驟如下:

1)對(duì)m個(gè)不同的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使它們能夠直接比較。標(biāo)準(zhǔn)化后的變量x*ij

2)X的相關(guān)矩陣為R,R的特征根為λ,且設(shè)

λ1≥λ2≥…≥λp≥0(4)

則得到相關(guān)系數(shù)矩陣R:

其中,rij(i,j=1,2,…,p)為原變量xi和xj的相關(guān)系數(shù),rij=rji,自身和自身的相關(guān)系數(shù)為1,即當(dāng)i=j時(shí),rij=1。計(jì)算公式為

λ的特征向量為

A=[a1,a2,a3,…,ap](7)

3)主成分的計(jì)算

相關(guān)矩陣R的特征值反映了第i個(gè)主成分包含的原始數(shù)據(jù)信息比重及主成分的貢獻(xiàn)大小。較大的方差貢獻(xiàn)率表明第i個(gè)主成分具有更強(qiáng)的綜合變量信息能力,而累計(jì)貢獻(xiàn)率較大表示前一個(gè)主成分包含更多原始信息。因此,可以根據(jù)特征值的大小來選擇主成分。貢獻(xiàn)率的計(jì)算方法如下:

通常,需要選擇主成分的數(shù)量以確保累積貢獻(xiàn)率達(dá)到至少85%。根據(jù)表1,前3個(gè)主成分的累積方差貢獻(xiàn)率已經(jīng)超過了這個(gè)閾值,則主成分的表達(dá)式為

Y=AX*(9)

其中X*為原始變量經(jīng)過標(biāo)準(zhǔn)化處理后的值。

2 基于改進(jìn)CNN與聽覺譜圖的樂器識(shí)別

2.1 基于PCA的聽覺圖譜降維處理

CNN長(zhǎng)期以來是圖像識(shí)別領(lǐng)域的核心算法之一,可以在學(xué)習(xí)數(shù)據(jù)充足時(shí)表現(xiàn)出穩(wěn)定的性能,能夠從原始圖像中自動(dòng)提取特征,通過卷積層和池化層的操作,提取出圖像的局部信息和高階語義信息,在樂器識(shí)別中發(fā)揮著重要作用。

CNN是一種深度學(xué)習(xí)模型,它的結(jié)構(gòu)包括多個(gè)卷積層、池化層和全連接層,這些層級(jí)相互協(xié)作,用于處理圖像和其他二維數(shù)據(jù)的特征提取和分類任務(wù)。

在CNN的前向計(jì)算過程中,卷積層起著至關(guān)重要的作用,其任務(wù)是從輸入特征中提取局部信息,以便更好地理解圖像中的結(jié)構(gòu)和特征。這是通過卷積操作和激活函數(shù)的組合來實(shí)現(xiàn)的。

卷積操作是CNN的核心部分,其工作原理涉及一個(gè)卷積核在輸入特征圖上進(jìn)行滑動(dòng)。卷積核是一個(gè)小矩陣,包含一組可學(xué)習(xí)的權(quán)重參數(shù)。在每個(gè)位置,卷積核與輸入特征圖的對(duì)應(yīng)區(qū)域進(jìn)行元素乘積操作,并將結(jié)果相加,生成輸出特征圖。這個(gè)操作可以理解為卷積核在輸入上滑動(dòng)時(shí),通過權(quán)重參數(shù)的組合捕捉不同位置的特征。卷積操作的數(shù)學(xué)表示如下:

式中:求和部分等價(jià)于求解一次交叉相關(guān);B為偏差量;Zl和Zl+1表示第l+1層的卷積輸入和輸出,Ll+1為Zl+1的尺寸,這里假設(shè)特征圖長(zhǎng)寬相同;Z(i,j)對(duì)應(yīng)特征圖的像素;K為特征圖的通道數(shù);f,s0和p是卷積層參數(shù),對(duì)應(yīng)卷積核大小、卷積步長(zhǎng)和填充層數(shù)。卷積層采用Relu函數(shù),其表達(dá)形式為

σr(x)=max(0,x)(11)

接下來是池化層,其主要作用是對(duì)輸入特征進(jìn)行下采樣,以降低特征的維度并提高特征的鑒別能力。這有助于減少計(jì)算負(fù)擔(dān),提高網(wǎng)絡(luò)的效率,同時(shí)有助于防止過擬合。

在池化層中,最常用的方法是最大池化和平均池化。這2種方法通過對(duì)輸入特征圖的不重疊子區(qū)域進(jìn)行池化操作,從而生成具有較小尺寸的特征圖,有助于保留主要特征并減少冗余信息。此過程與卷積操作中卷積核掃描特征圖的方式相似,但不進(jìn)行加權(quán)求和,而采用池化區(qū)域中的最大值或平均值。

池化層的參數(shù)主要包括池化大?。ǔ鼗翱诘拇笮。?、步長(zhǎng)(池化窗口的滑動(dòng)步長(zhǎng))及填充(可選,用于控制池化區(qū)域的邊界處理)。這些參數(shù)可以根據(jù)具體任務(wù)和網(wǎng)絡(luò)架構(gòu)進(jìn)行調(diào)整,以達(dá)到最佳性能。池化層選取池化區(qū)域與卷積核掃描特征圖步驟類似,由池化大小、步長(zhǎng)和填充控制。第l個(gè)池化層的第n個(gè)特征映射yln的計(jì)算公式如下:

yln=pool(yl-1n,p,s)(12)

其中:yl-1n是第n個(gè)輸入映射,也就是上一卷積層的第n個(gè)輸入映射;pool()是最大池化方程;p是池化大小;s是步長(zhǎng)。

在經(jīng)過卷積層和池化層后,將得到經(jīng)過特征提取的高維特征表示。這些特征將作為全連接層的輸入,通過矩陣乘法運(yùn)算和非線性激活函數(shù)的作用,將高維特征映射到類別上。最終,卷積網(wǎng)絡(luò)通過輸出層給出樂器的分類結(jié)果。

在卷積網(wǎng)絡(luò)的訓(xùn)練過程中,前向計(jì)算和后向計(jì)算是關(guān)鍵步驟。前向計(jì)算用于生成網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,后向計(jì)算則用于根據(jù)這些預(yù)測(cè)結(jié)果更新網(wǎng)絡(luò)參數(shù),以便使預(yù)測(cè)結(jié)果更接近實(shí)際標(biāo)簽。具體而言,在卷積層和全連接層中,分別計(jì)算權(quán)重和偏置的梯度,并使用梯度下降算法來更新網(wǎng)絡(luò)參數(shù)。通過多次迭代,卷積網(wǎng)絡(luò)逐漸調(diào)整這些參數(shù),以提高樂器種類識(shí)別的準(zhǔn)確性和魯棒性。

卷積網(wǎng)絡(luò)通過前向計(jì)算和后向計(jì)算共同實(shí)現(xiàn)樂器的識(shí)別分類。前向計(jì)算階段利用卷積操作和特征變換來獲取輸入特征的高維表示,有助于網(wǎng)絡(luò)理解輸入數(shù)據(jù)的結(jié)構(gòu)和特征。后向計(jì)算則通過反向傳播算法,根據(jù)預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的誤差來更新網(wǎng)絡(luò)中的參數(shù)。這一過程可以確保網(wǎng)絡(luò)逐漸優(yōu)化自身,以更好地符合任務(wù)要求。前向計(jì)算和后向計(jì)算是卷積網(wǎng)絡(luò)訓(xùn)練不可或缺的步驟,它們協(xié)同工作,實(shí)現(xiàn)了準(zhǔn)確和魯棒的樂器種類的識(shí)別和分類。

2.2 改進(jìn)的多尺度卷積核

改進(jìn)的多尺度卷積核是基于改進(jìn)CNN與聽覺譜圖的樂器識(shí)別方法中的關(guān)鍵技術(shù)之一。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,卷積層通常采用固定尺度的卷積核來提取特征,但樂器音頻信號(hào)中存在著不同頻率的音譜信息,因而在樂器識(shí)別中,針對(duì)不同樂器的頻譜特征需求并不相同。為此,本文提出了一種改進(jìn)的多尺度卷積核,以更好地捕捉不同樂器之間的頻譜差異。

將樂器音頻信號(hào)轉(zhuǎn)化為對(duì)應(yīng)的音頻頻譜圖,然后利用多尺度卷積核進(jìn)行特征提取。不同尺度的卷積核用于提取不同頻率范圍內(nèi)的特征。通過使用不同尺度的卷積核,可以更好地捕捉不同樂器在不同頻率范圍內(nèi)的頻譜特征,從而提高樂器識(shí)別的準(zhǔn)確性。本文設(shè)計(jì)的每個(gè)卷積核對(duì)應(yīng)著一個(gè)固定的頻率范圍。這些卷積核分別應(yīng)用于音頻頻譜圖的不同頻率區(qū)域,以提取相應(yīng)頻率范圍內(nèi)的特征。通過使用多個(gè)尺度的卷積核,可以同時(shí)捕捉低頻和高頻的特征,從而更全面地描述樂器的頻譜特征。

2.3 方法結(jié)構(gòu)及實(shí)現(xiàn)步驟

本節(jié)將詳細(xì)介紹基于改進(jìn)CNN與聽覺譜圖的中國(guó)古琴的識(shí)別算法的實(shí)現(xiàn)步驟。該算法旨在提高古琴種類識(shí)別的準(zhǔn)確性和魯棒性,通過改進(jìn)CNN絡(luò)和采用聽覺譜圖作為輸入特征,可以解決中國(guó)古琴種類的識(shí)別方法在復(fù)雜環(huán)境下的分類問題。所提方法的模型如圖2所示。

一方面,需要搭建基于改進(jìn)CNN的中國(guó)古琴種類識(shí)別模型。這一模型主要由多個(gè)卷積層、池化層和全連接層組成。通過卷積層和池化層對(duì)輸入信號(hào)進(jìn)行特征提取和降維處理,再通過全連接層進(jìn)行樂器分類。為了能夠捕捉不同尺度的特征信息,設(shè)計(jì)了改進(jìn)的多尺度卷積核,它在卷積層中被應(yīng)用。這樣,可以對(duì)輸入頻譜圖進(jìn)行特征提取,從而提高中國(guó)古琴種類識(shí)別的能力。

另一方面,需要對(duì)輸入音頻信號(hào)進(jìn)行預(yù)處理。首先,將音頻信號(hào)轉(zhuǎn)換為頻域信息,得到對(duì)應(yīng)的頻譜圖;其次,將頻譜圖作為輸入特征,送入改進(jìn)CNN絡(luò)進(jìn)行訓(xùn)練和分類。

最后,使用相應(yīng)的訓(xùn)練集對(duì)改進(jìn)CNN進(jìn)行訓(xùn)練。在訓(xùn)練過程中,采用反向傳播算法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,以最小化分類誤差。此外,為了防止過擬合現(xiàn)象的出現(xiàn),還采用dropout技術(shù)隨機(jī)忽略一些神經(jīng)元的輸出。

在訓(xùn)練完成后,將測(cè)試集輸入到已經(jīng)訓(xùn)練好的改進(jìn)的卷積神經(jīng)網(wǎng)中,并獲取預(yù)測(cè)結(jié)果。為了評(píng)估該算法的性能,引入準(zhǔn)確率、召回率和F1值等指標(biāo)來衡量中國(guó)古琴種類識(shí)別的效果。通過與其他方法進(jìn)行比較,可以得到該算法的優(yōu)勢(shì)和局限性。

3 實(shí)驗(yàn)分析

圖3顯示了本研究提出的方法在自建數(shù)據(jù)集上的訓(xùn)練過程中的損失值和準(zhǔn)確率的變化情況。

從圖3可以看出,模型的收斂速度很快,不論是訓(xùn)練集還是驗(yàn)證集,在訓(xùn)練100個(gè)訓(xùn)練次數(shù)(epoch)之后基本都趨于穩(wěn)定了。此外,在前150個(gè)epoch中,損失值在訓(xùn)練集和驗(yàn)證集上都迅速下降,同時(shí)準(zhǔn)確率迅速上升,趨于收斂,并且在這個(gè)過程中,驗(yàn)證集上的波動(dòng)比較大。在隨后的150個(gè)epoch中,訓(xùn)練集損失值逐漸趨近于0,準(zhǔn)確率也逐漸趨近100%。同時(shí),驗(yàn)證集的損失值和準(zhǔn)確率也在逐漸趨于穩(wěn)定。整個(gè)訓(xùn)練過程中,訓(xùn)練集和驗(yàn)證集的損失值和準(zhǔn)確率差距不大,沒有出現(xiàn)過擬合的跡象,這表明所構(gòu)建的模型具有出色的魯棒性。

本文針對(duì)性地做了很多試驗(yàn),通過對(duì)測(cè)試集上的分類結(jié)果進(jìn)行相關(guān)分析來評(píng)估所提方法的優(yōu)劣。實(shí)驗(yàn)結(jié)果見表1,表1中包括10種中國(guó)古琴琴聲的分析結(jié)果、測(cè)試集上的整體檢測(cè)精度和具體檢測(cè)類別的檢測(cè)精度,以及各類召回率。

由表1可以看出,在中國(guó)古琴種類分類任務(wù)中,本文所設(shè)計(jì)的模型取得了較好的結(jié)果。從召回率來看,每個(gè)樂器類別的召回率都在98.3%到99.7%之間,表明所設(shè)計(jì)的模型在捕捉各個(gè)類別的樂器時(shí)具有高度的敏感性。其中伏羲式和仲尼式的召回率較低,原因在于2種音色在聽覺譜上來看較為相似,容易混淆。高召回率意味著模型幾乎沒有錯(cuò)過任何種類的分類,這對(duì)于中國(guó)古琴種類分類任務(wù)非常關(guān)鍵,因?yàn)樗_保了模型在保持高識(shí)別率的同時(shí),不會(huì)忽略重要信息。從精確性角度來看,各個(gè)類別的精確率也很高,分布在97.4%到99.7%之間,這顯示了模型對(duì)每個(gè)類別的分類準(zhǔn)確性。高精確率意味著模型很少將其他類型的中國(guó)古琴種類錯(cuò)誤地分類為某一類型,這有助于確保模型提供的分類結(jié)果高度可信。從總體的準(zhǔn)確率角度來看,所設(shè)計(jì)模型的整體準(zhǔn)確率達(dá)到98.7%,這表明模型在整個(gè)數(shù)據(jù)集上具有出色的性能。

為了分析所提方法的優(yōu)越性,本文使用了不同的模型來比較性能,包括CNN,VGG-16,AlexNet,ResNet18,GoogleNet及SVM。表2是各類方法性能的對(duì)比結(jié)果。

由表2可以看出,所提方法準(zhǔn)確率高達(dá)98.70%,遠(yuǎn)超過其他模型。CNN的準(zhǔn)確率為96.70%,明顯低于本文的方法。VGG-16(97.3%),AlexNet(97.9%),ResNet18(96.90%)和GoogleNet(98.4%)的準(zhǔn)確率略低但都在接近98%的范圍內(nèi)。SVM的準(zhǔn)確率為95.70%,表現(xiàn)最差。從穩(wěn)定性方面來看,用標(biāo)準(zhǔn)方差來衡量所提方法方差非常低,只有0.07,這表明本文的方法在不同數(shù)據(jù)子集上的性能差異很小,非常穩(wěn)定。而CNN的穩(wěn)定性稍差,方差為0.17。VGG-16,AlexNet,ResNet18和GoogleNet的穩(wěn)定性都在0.11到0.16之間,表現(xiàn)一般。SVM的穩(wěn)定性最差,方差為0.19??偟膩碚f,所提方法在準(zhǔn)確率和穩(wěn)定性2個(gè)方面都表現(xiàn)出色,不僅在準(zhǔn)確率上明顯優(yōu)于其他模型,而且在穩(wěn)定性方面也是最佳的,表明本文所提方法在中國(guó)古琴種類分類任務(wù)中取得了較好的效果。

4 結(jié)論與展望

本文通過改進(jìn)的CNN對(duì)10種中國(guó)古琴種類的聲音進(jìn)行分析和識(shí)別,采用多階段方法,包括將一維時(shí)域圖轉(zhuǎn)為梅爾頻譜圖、PCA降維、使用不同尺度的卷積核提取特征信息和引入dropout層等。實(shí)驗(yàn)結(jié)果顯示出該模型在中國(guó)古琴種類聲音識(shí)別方面的顯著性能,召回率和精確率都在高水平,準(zhǔn)確率達(dá)到了98.7%。此外,與其他方法相比,所提方法表現(xiàn)出更高的準(zhǔn)確性和更低的方差,表明其在中國(guó)古琴種類聲音識(shí)別中的穩(wěn)定性更好。綜上所述,本文為中國(guó)古琴種類聲音識(shí)別提供了一種有效的方法,通過CNN的應(yīng)用,成功區(qū)分了10種中國(guó)古琴的聲音特征。這一研究為以后實(shí)現(xiàn)對(duì)古琴的演奏技巧進(jìn)行智能分析、實(shí)現(xiàn)統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)奠定了基礎(chǔ)。

參考文獻(xiàn):

[1]謝黛安.基于人工智能的樂器識(shí)別研究綜述[J].南京工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2020,18(2):66-75.

[2]趙一鳴.基于深度學(xué)習(xí)的音樂配樂識(shí)別研究[J].微型電腦應(yīng)用,2021,37(10):6 -63.

[3]尹嵐清.基于深度學(xué)習(xí)的多模態(tài)音樂情感識(shí)別的研究[D].上海:東華大學(xué),2023.

[4]劉璐.基于深度學(xué)習(xí)的圖像分類和識(shí)別[D].西安:長(zhǎng)安大學(xué),2020.

[5]BLASZKE M,KOSTEK B.Musical instrument identification using deep learning approach[J].Sensors,2022,22(8):3033.

[6]SOLANKI A,PANDEY S.Music instrument recognition using deep convolutional neural networks[J].Int J Inf Tech Decis,2022,14(3):1659-1668.

[7]李榮鋒,謝祎凡,李子晉,等.基于卷積神經(jīng)網(wǎng)絡(luò)的中國(guó)樂器分類[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2020,59(5):517-522.

[8]潘鎮(zhèn)鋒.基于深度學(xué)習(xí)的MIDI音樂流派分類研究[D].廣州:華南理工大學(xué),2019.

[9]高雨軒.基于深度學(xué)習(xí)的音樂音頻分類研究[D].廣州:華南理工大學(xué),2020.

[10]趙慶磊,邵峰晶,孫仁誠(chéng).樂器識(shí)別中頻譜特征與聚合策略性能評(píng)估[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,34(2):38-44.

[11]Li H.Piano education of children using musical instrument recognition and deep learning technologies under the educational psychology[J].Front Psychol,2021,12:705116.

[12]RAJESH S,NALINI N J.Musical instrument emotion recognition using deep recurrent neural network[J].Procedia Comput Sci,2020,167:16-25.

[13]唐霞,張晨曦,李江峰.基于深度學(xué)習(xí)的音樂情感識(shí)別[J].電腦知識(shí)與技術(shù),2019,15(11):232-237.

【責(zé)任編輯:溫學(xué)兵】

猜你喜歡
古琴種類音頻
尋琴記:古琴的前世今生
張俊波 情寄古琴,樂以忘憂
海峽姐妹(2019年12期)2020-01-14 03:24:50
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
尋訪千年古琴
種類豐富的酒具
收藏界(2018年1期)2018-10-10 05:23:08
消防車種類知多少
古琴的收藏價(jià)值在何處
鏡頭像差的種類
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
石楼县| 东乡| 澄迈县| 安龙县| 沙湾县| 上思县| 托克托县| 盐边县| 昔阳县| 云浮市| 怀安县| 蕲春县| 邛崃市| 白银市| 班玛县| 铜川市| 永德县| 普宁市| 金寨县| 清涧县| 华池县| 甘洛县| 山东省| 莲花县| 阿勒泰市| 色达县| 富宁县| 珲春市| 横山县| 安徽省| 文成县| 波密县| 穆棱市| 仁寿县| 延长县| 台北市| 盘山县| 宁化县| 洞头县| 昔阳县| 铜川市|