本期點(diǎn)評(píng)專家
張平柯" 湖南第一師范學(xué)院教授、湖南省青少年科技教育協(xié)會(huì)常務(wù)副理事長、中國發(fā)明協(xié)會(huì)中小學(xué)創(chuàng)造教育分會(huì)副會(huì)長、中國青少年科技教育工作者協(xié)會(huì)教師教育專業(yè)委員會(huì)委員、中國教育學(xué)會(huì)科學(xué)教育分會(huì)理事。
一、選題背景
我們平時(shí)喜歡聽各種類型的音樂。一次偶然的機(jī)會(huì),我們接觸了粵劇并了解到,傳統(tǒng)的粵劇音頻數(shù)據(jù)是依靠人工進(jìn)行分類管理的。專家憑借個(gè)人經(jīng)驗(yàn)對(duì)粵劇唱腔流派進(jìn)行整理分類,這不僅對(duì)相關(guān)工作者的專業(yè)素養(yǎng)和業(yè)務(wù)水平提出了更高的要求,還耗時(shí)耗力。同時(shí)由于個(gè)人主觀因素的介入,難以保證分類結(jié)果的客觀性。
因此,我們認(rèn)為,對(duì)如何利用人工智能技術(shù)分析粵劇唱腔進(jìn)行研究,是一個(gè)很有意義的課題,它不僅可以保護(hù)和傳承粵劇這一重要的傳統(tǒng)文化形式,同時(shí)也展示了科技在文化領(lǐng)域的潛力和作用。
二、研究意義
粵劇是以粵語演唱的廣東傳統(tǒng)戲曲劇種,具有濃郁的嶺南文化特色。然而,在多元文化產(chǎn)業(yè)方興未艾的大背景下,粵劇卻沒能很好地抓住機(jī)遇,其發(fā)展面臨著觀眾和從業(yè)人員減少、市場(chǎng)萎縮的困境,必須盡快開展傳承和保護(hù)工作。
隨著智能化時(shí)代的到來,利用人工智能技術(shù)挖掘、整理、保護(hù)和傳播傳統(tǒng)文化成為當(dāng)今非物質(zhì)文化遺產(chǎn)保護(hù)的方向。因而采用人工智能技術(shù)和數(shù)字化手段整理粵劇數(shù)據(jù)庫,實(shí)現(xiàn)粵劇文化的數(shù)字化、科學(xué)化和規(guī)范化,具有重要的意義。
三、研究內(nèi)容
(一)整理和構(gòu)建科學(xué)的粵劇數(shù)據(jù)集
目前尚沒有公開的、針對(duì)粵劇唱腔流派分類的統(tǒng)一數(shù)據(jù)集可供研究使用。因此,在進(jìn)行分類研究之前,我們基于粵劇網(wǎng)、戲劇網(wǎng)、廣東省藝術(shù)研究所等線上線下平臺(tái),收集了粵劇原始音頻數(shù)據(jù),整理并構(gòu)建了一個(gè)科學(xué)、規(guī)范的粵劇音頻數(shù)據(jù)集。
綜合多方面因素,我們收集了以白駒榮、何非凡、紅線女、羅家寶、馬師曾為代表的五類唱腔,分別表示為Bai、He、Hong、Luo、Ma,并且進(jìn)行了時(shí)域和頻域的增廣變換來豐富實(shí)驗(yàn)數(shù)據(jù)標(biāo)簽。共得到包含24部粵劇的WAV格式文件,每段音頻文件的時(shí)長不等,音頻采樣率為44 100 Hz,均為粵劇唱段原始音頻信號(hào)。通過在該數(shù)據(jù)集上進(jìn)行訓(xùn)練與驗(yàn)證來觀察模型的分類性能。
(二)音頻信號(hào)預(yù)處理
在研究音頻或音樂風(fēng)格分類時(shí),通常以相應(yīng)的音頻文件為輸入數(shù)據(jù)??紤]到原始音頻文件大小、時(shí)長等不一致,先對(duì)音頻信號(hào)進(jìn)行分析,包括音頻信號(hào)的切片、分幀、加窗。
(三)特征工程
在粵劇中,藝術(shù)家獨(dú)具風(fēng)格的唱腔代表著某一流派的特點(diǎn),而人的發(fā)聲具有穩(wěn)定性和個(gè)性特點(diǎn),即聲學(xué)特征。其中音色最能反映一個(gè)人的聲腔特點(diǎn),反映在波形圖中即顯現(xiàn)不同的振動(dòng)形狀。
聲音可以通過圖像來表示,信號(hào)隨時(shí)間變化會(huì)產(chǎn)生不同的聲音,其組成頻率也會(huì)隨時(shí)間而變化,因此可以將音頻信號(hào)轉(zhuǎn)化為二維圖像,即聲譜圖。其中X軸是時(shí)間,Y軸是頻率,顏色代表在離散坐標(biāo)下振幅的真實(shí)值。由于聲譜圖能提供的信息數(shù)據(jù)要遠(yuǎn)遠(yuǎn)大于只有時(shí)域或頻域提供的信息數(shù)據(jù),通過聲譜圖可以獲取指定頻率段的能量分布情況,提取相應(yīng)的時(shí)頻特征。
將不同唱段的聲譜圖作為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的輸入,然后通過多個(gè)卷積層和池化層的組合網(wǎng)絡(luò),從底層特征迭代提取更復(fù)雜的特征,經(jīng)處理后獲取粵劇唱腔的深度特征。通過分析對(duì)比各流派唱腔的聲譜圖來感受不同流派唱腔的差異,進(jìn)而實(shí)現(xiàn)粵劇唱腔流派的分類。
(四)基于CNN的粵劇唱腔分析分類模型
1.問題定義
在粵劇唱腔流派分類任務(wù)中,樣本空間為粵劇數(shù)據(jù)集,唱腔流派標(biāo)簽集合為{Bai、He、Hong、Luo、Ma},最終的模型分類將會(huì)通過5維向量來返回識(shí)別到的音頻信號(hào)文件屬于哪個(gè)標(biāo)簽的概率。
2.模型描述
本研究提出了用于粵劇唱腔分析分類的基于CNN的深度學(xué)習(xí)模型,該模型由五個(gè)卷積塊、一個(gè)展平層以及兩個(gè)全連接層構(gòu)成,模型的輸入采用融合特征,其結(jié)構(gòu)如圖4所示。
每個(gè)卷積塊使用相同的結(jié)構(gòu):3×3感受野、1×1步長的卷積層,激活函數(shù)為線性整流函數(shù),采用2×2最大池化層對(duì)特征參數(shù)降維,并使用0.25概率的“dropout”防止過擬合。卷積層后連接一個(gè)展平層“Flatten”,將二維卷積展平為一維作為從卷積層到全連接層的過渡,并連接一個(gè)0.5概率的“dropout”層。最后,使用兩個(gè)全連接層,第一個(gè)全連接層為256個(gè)隱藏單元,激活函數(shù)為線性整流函數(shù),并連接一個(gè)0.25概率的“dropout”層。第二個(gè)全連接層作為輸出,根據(jù)處理后數(shù)據(jù)集的需要,設(shè)置輸出的單位為Num-genres,激活函數(shù)為Softmax,并得到分類結(jié)果。
四、實(shí)驗(yàn)分析
(一)實(shí)驗(yàn)設(shè)置
本研究的相關(guān)軟硬件環(huán)境細(xì)節(jié)如表1所示。
網(wǎng)絡(luò)模型在訓(xùn)練過程中以每批16條數(shù)據(jù)進(jìn)行批訓(xùn)練,其中的學(xué)習(xí)率先設(shè)為0.001,選擇最小均方誤差作為損失函數(shù),采用Adam優(yōu)化器加速收斂,既能適應(yīng)稀疏梯度,又能緩解梯度振蕩的問題。在實(shí)驗(yàn)訓(xùn)練前,將音頻數(shù)據(jù)集分別隨機(jī)打亂,并分為訓(xùn)練集和驗(yàn)證集,所占比例分別為80%與20%。神經(jīng)網(wǎng)絡(luò)的輸入大小為(128,128)。實(shí)驗(yàn)里選擇的訓(xùn)練輪次為10次。
該部分實(shí)驗(yàn)采用精確率P(Precision)、召回率R(Recall)以及F1值(F1 measure)進(jìn)行可行性評(píng)估,如下式所示。
式中,P為精確率,R為召回率,TP為真實(shí)的正樣本數(shù)量,F(xiàn)P為虛假的正樣本數(shù)量,F(xiàn)N為虛假的副樣本數(shù)量。
(二)數(shù)據(jù)準(zhǔn)備
實(shí)驗(yàn)數(shù)據(jù)集的相關(guān)信息依照粵劇數(shù)據(jù)集的內(nèi)容進(jìn)行設(shè)置,而在數(shù)據(jù)的預(yù)處理上,原始的粵劇曲目經(jīng)切片操作后轉(zhuǎn)換為多個(gè)等時(shí)長(4 s)的粵劇片段作為模型樣本集,以80%和20%的占比劃分訓(xùn)練集和驗(yàn)證集,音頻片段均為WAV格式。其中涉及的參數(shù)如表2所示。
(三)實(shí)驗(yàn)結(jié)果
通過上文提到的CNN網(wǎng)絡(luò)模型和粵劇音頻數(shù)據(jù)集,比較模型在訓(xùn)練集與驗(yàn)證集上的分類性能表現(xiàn),如表3所示。在訓(xùn)練集上按照上文所述的實(shí)驗(yàn)參數(shù)對(duì)粵劇唱腔分析分類網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練后,又利用驗(yàn)證集對(duì)模型的分類性能進(jìn)行評(píng)價(jià)。
由表3可知,使用頻譜作為模型的特征輸入,整體分類精度較高,部分類別達(dá)到90%以上。具體在訓(xùn)練集表現(xiàn)上,Luo、Hong的P值和F1值略低,但其整體平均的精度、召回率和F1值分別達(dá)到了86.63%、86.7%和 86.63%。而在驗(yàn)證集上,對(duì)應(yīng)的表現(xiàn)平均值分別下降了3.59%、3.59%和 3.61%。這樣小幅度的性能下降表明了模型具有較強(qiáng)的泛化能力,能夠適應(yīng)相似特征空間分布中采樣的新數(shù)據(jù)。
五、研究體會(huì)和感受
這次研究使我們深刻認(rèn)識(shí)到科技與傳統(tǒng)文化的交融之美。通過探索人工智能技術(shù)在粵劇唱腔分析中的應(yīng)用,我們不僅學(xué)到了人工智能相關(guān)技術(shù)知識(shí),也更加理解傳統(tǒng)文化的珍貴之處。盡管在研究中遇到了各種挑戰(zhàn),但通過努力探索,我們不僅提升了自身的技能,還培養(yǎng)了解決問題的能力和耐心。(指導(dǎo)老師:葉苑芬)
專家點(diǎn)評(píng)
粵劇唱腔豐富多樣,如何對(duì)它們進(jìn)行分類目前并沒有統(tǒng)一標(biāo)準(zhǔn)。作者把它們分為以白駒榮、何非凡、紅線女、羅家寶、馬師曾為代表的五類唱腔,將其作為粵劇唱腔分類的一種嘗試,有一定的創(chuàng)新性。
作者采用的卷積神經(jīng)網(wǎng)絡(luò)雖然算不上最新的技術(shù),但作為中學(xué)生能夠嘗試用它來解決生活中的現(xiàn)實(shí)問題,值得肯定。
然而,該研究沒有給出具體的樣本數(shù)量,如果樣本數(shù)量較少,結(jié)論就缺乏參考意義。建議增加對(duì)表3中訓(xùn)練集、驗(yàn)證集的樣本數(shù)的說明,這樣得出的針對(duì)“Bai、He、Hong、Luo、Ma”五個(gè)集的P、R、F1值才有意義。