[摘" 要]為豐富學生的聲樂學習資源、節(jié)省教師人力資源,本研究提出將虛擬現(xiàn)實技術(Virtual Reality,VR)與聲樂演唱相結合,構建一個新的虛擬教學系統(tǒng)。首先構建一個虛擬學習系統(tǒng);接著提出一種基于Log-Gabor-改進局部二值模式(Improved Local Binary Pattern,ILBP)的語譜圖特征算法,對不同尺寸與方向的語譜細節(jié)特征進行放大,增強圖像紋理細節(jié)特征;最后引入多級殘差結構-ICNN以彌補丟失的特征,提高對演唱者語音的識別率。結果顯示,在Saarbruecken數(shù)據(jù)集與CASIA數(shù)據(jù)集中,研究算法的收斂指標值均最小,具有較高的收斂性;窗長為600、譜窗尺寸大小為16×16時,模型有最高語音識別效率。該算法對于演唱者的情感識別效果較好,準確率均高于80%。以上結果均表明,本次研究的算法識別準確率高,穩(wěn)定性好,能夠較好地運用于聲樂演唱教育教學中。
[關鍵詞]VR" 聲樂演唱" 教學模式" 創(chuàng)新教育
課題:本文系延安大學2022年疫情防控應急科研項目《抗議歌曲原創(chuàng)〈疫情無情人有情〉》(課題編號:ydfk052)。
中圖分類號:TP393"" 文獻標志碼:A
引" 言
改革開放以來,隨著電子信息技術的飛速發(fā)展,互聯(lián)網(wǎng)已全面融入人類社會文明、文化、政治與經(jīng)濟建設的全過程。當前,網(wǎng)絡教學已得到了全社會的認可、提倡和推廣。在音樂教育方面,隨著計算機技術和網(wǎng)絡的發(fā)展,傳統(tǒng)的線下聲樂演唱教學方式受到了前所未有的挑戰(zhàn),從根本上改變了音樂教育的教學模式。傳統(tǒng)聲樂演唱教學由于教師的時間有限、資源有限,學生的學習過程通常會受影響。鑒于此,本研究提出以互聯(lián)網(wǎng)為背景,將VR技術與聲樂演唱教育相互結合,創(chuàng)新一種新型線上教育模式。該模式既能夠增強學生間的交流與學習,又可以加強教師與學生之間的溝通。
基于VR技術的聲樂演唱教育教學平臺模型構建
1.基于VR技術的聲樂演唱教學系統(tǒng)及語譜圖特征提取
研究以虛擬現(xiàn)實技術為基礎,構建聲樂演唱教育教學新模型,首先對VR技術的特點與原理展開分析。VR實際上是一種能夠創(chuàng)造和體驗虛擬世界的計算機模擬系統(tǒng),通過計算機技術產(chǎn)生一個能夠讓使用者完全沉浸其中的模擬環(huán)境。所謂“VR”,就是將真實的信息,通過計算機技術將其轉換為一種可以為人類所感知的現(xiàn)象。這種現(xiàn)象可以是現(xiàn)實中真真切切存在的物體,也可以是肉眼無法觀察到的物質。有的現(xiàn)象人類無法直觀觀察到,但能通過計算機技術將其模擬為現(xiàn)實,所以也被稱為虛擬現(xiàn)實?;谌SVR技術的沉浸式情景,能夠改變傳統(tǒng)的扁平式教學方式,賦予教學更生動的教學場景,進而重塑在線教育。虛擬現(xiàn)實聲樂演唱學習(VR-Learning)模式,能夠實現(xiàn)教學內容的在線可視化、教學環(huán)境的互動虛擬化、教學過程的交互性。當VR技術與聲樂演唱教育相結合,可將與音樂“握手”變?yōu)椤皳肀А?,學生能在虛擬環(huán)境中體驗對虛擬人物與音樂的再創(chuàng)造。總之,“VR+聲樂演唱”是創(chuàng)新教育教學領域的重要使命,也是推動我國音樂教育發(fā)展的巨大助力。
在基于VR技術的聲樂演唱創(chuàng)新教育教學系統(tǒng)設計中,語音情感識別占據(jù)著十分重要的位置。課題組對語音情感識別系統(tǒng)中的特征提取部分展開了較為深入的研究。語譜圖是對語音能量時頻分布的一種視覺表現(xiàn)形式,其紋理特征、能量分布信息與語音情感信號中的能量、音調以及基頻等情緒特征有著十分密切的關系。課題組擬利用語譜圖中的紋理特征等信息,從語譜圖中提取出與情感相關的特征,以減少時間域與頻率域信號之間的互斥性,進而提高語音情感的識別效果。為了解決語譜圖中存在的情感特征提取不足的問題,提出了一種基于Log-Gabor-改進局部二值模式的語譜圖特征算法。首先利用Log-Gabor從不同的尺度與方向對灰度后的語譜圖細節(jié)地方特征進行放大,然后利用ILBP從不同方向對紋理特征進行提取與重構。二維Log-Gabor具有較好的圖像紋理細節(jié)增強功能,同時還能夠抑制低頻信號的振幅,增強對高頻信號的放大作用。二維Log-Gabor表達見式(1)。
式(4)中,[E]表示周圍像素點與中心像素點之間的平均絕對百分比誤差,通過對每個像素點的絕對百分比誤差與平均誤差大小來設定閾值,能夠較為全面地體現(xiàn)周圍像素點與中心點的絕對誤差關系,進而通過計算得到的LBP值會更為準確。
2.基于改進CNN的聲樂演唱語音情感識別模型
研究對聲樂演唱特征提取過程中容易丟失的現(xiàn)象進行了改進,提出了一種基于多級殘差改進的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN),以彌補丟失的特征,提高識別率。
圖2中,改進卷積神經(jīng)網(wǎng)絡包含多個卷積池化層與多級殘差結構,其中多級殘差結構能夠跨越多個池化層傳遞原始信息特征,可彌補丟失特征。正方形框中表示研究所涉及的多級殘差結構,n和m分別代表殘差結構傳播跨越的卷積層個數(shù)。本研究改進的多級殘差卷積神經(jīng)網(wǎng)絡在解決傳統(tǒng)CNN結構弊端的基礎上,能夠進一步降低計算量,進而提高模型識別效率。研究提出的多級殘差結構以殘差結構為基礎,對卷積神經(jīng)網(wǎng)絡進行了改進。多級殘差結構通過將前n個卷積層的原始信息與所在的卷積層相互聯(lián)系,最大程度地保留了原始信息,并通過加入控制系數(shù)對所輸入原始特征的維度進行調控,最終有效提高了模型的識別效率與系統(tǒng)的收斂速度。若將引出殘差結構時的輸入設為[xi],引入殘差結構后的輸出為[xi+n],那么相應得到的多級殘差結構的輸出見式(5)。
式(6)中,""""""""" 表示多級殘差結構對應補充的丟失特征項;[T(w,b)]表示權值與偏置的常數(shù)項。在對卷積神經(jīng)網(wǎng)絡進行逐層求解時,權重[w]將逐步減小,直至接近0,從而導致反向傳遞的梯度更新接近于0,最終造成特征損失的現(xiàn)象。加入多層次殘差結構后,能夠引入最初[n]個卷積層的原始特征信息,使特征得到最大限度的互補,同時設定控制參數(shù)[α]和[β],則能夠減小特征維度,最終加快訓練速度,提高訓練效果。聲樂演唱過程中對語音情感識別的訓練可以被認為是使用一套被估計的參數(shù)來刻畫實際數(shù)據(jù)與預測數(shù)據(jù)的差異,并通過不斷調節(jié)這些差異,使得兩者的差異實現(xiàn)最小。在此基礎上,提出了一種全新的、能夠用來指導整個系統(tǒng)的函數(shù)——損失函數(shù)。由于語音情感識別過程中存在著多類別的特征,再將交叉熵引入到語音情感識別中,其對應表達見式(7)。
式(7)中,[yj]表示第[j]個樣本的真實標簽;[yj]表示第[j]個樣本在所構建模型中的預測輸出。交叉熵所描述的問題是輸出結果與真實數(shù)值之間的差異程度,若輸出結果中被正確分類的樣本較多,則對應得到的交叉熵數(shù)值較小,即表示輸出結果的混亂程度越小,最終得到的模型性能較好。
另外,還需要選取適當?shù)膬?yōu)化算法,使得神經(jīng)網(wǎng)絡的損失函數(shù)值最小化。最常見的方法便是利用梯度下降的方法來最小化損失函數(shù),對此,課題組提出使用RMSProp算法(具有全參數(shù)自適應的特點),具體表達見式(8)。
式(8)中,[r]表示梯度平方值的滑動率;[w]表示衰減率;[a]表示學習率;[ε]表示防止分母為零的常數(shù)項;[η]表示超參數(shù)(是一個常量)。除此之外,為了避免過擬合現(xiàn)象的出現(xiàn),采用了正則化方法。該方法是一種能夠對神經(jīng)網(wǎng)絡結果中的神經(jīng)元進行隨機忽略的一種有效訓練策略。
“VR+聲樂演唱”創(chuàng)新教育教學模式的實現(xiàn)與測試
本研究選取某大學聲樂教育專業(yè)的學生作為研究對象,通過VR技術建立聲樂演唱遠程在線教育平臺,對所構建平臺的實際性能與應用效果進行分析。首先分析所構建模型的收斂速度,選擇德國薩爾布呂肯語音數(shù)據(jù)集(Saarbruecken)和中國聲樂語音情感數(shù)據(jù)庫(CASIA)兩個不存在交叉的數(shù)據(jù)集作為測試數(shù)據(jù)集。對比不同算法的收斂速度,見圖3所示。
從圖3可知,選取傳統(tǒng)CNN、RCNN與ETCNN作為對比算法,比較三種算法與本次研究所提出的改進CNN算法之間的收斂性。圖3(a)是在Saarbruecken數(shù)據(jù)集中的測試結果,顯示研究算法最快能在迭代進行到第200次時獲得較小的指標值,而其余三種散發(fā)均在迭代進行到第800次后獲得較小指標值。圖3(b)是在CASIA數(shù)據(jù)集中的測試結果,當?shù)螖?shù)在第200次時,研究算法有最小指標值;其余算法則在第800次左右才能有最小值。這表示研究算法具有較高的收斂性,即研究所提出算法計算過程的效率更高,從不同數(shù)據(jù)集的結果可以得知,該算法具有較高的普適性。接著對不同算法模型達到穩(wěn)定狀態(tài)的用時與擬合精度進行對比,見圖4。
從圖4(a)可以看出,隨著迭代次數(shù)的增加,4種算法的穩(wěn)定狀態(tài)運行時間均在上升,并在運行時間為45次時趨向于穩(wěn)定。當?shù)螖?shù)達到50次時,所有算法運行均達到穩(wěn)定狀態(tài),此時傳統(tǒng)CNN、RCNN與ETCNN三種算法達到穩(wěn)定狀態(tài)的用時分別為0.912s、0.934s、0.876s,而研究算法的穩(wěn)定用時為0.849s。研究算法的用時最少,這可能是因為研究算法融入了多級殘差結構,一定程度上簡化了系統(tǒng)操作步驟,提升了運行效率。從圖4(b)可以看出,隨著運行時間的增加,系統(tǒng)中的擬合精度也開始逐漸增加。以時間為0.9s為例,此時研究算法的擬合精度為99.89%,此刻傳統(tǒng)CNN的擬合精度與研究算法不相上下,但當運行時間增加至1.0s時,系統(tǒng)的擬合精度明顯下降。而RCNNN與ETCNN算法的擬合精度明顯小于研究算法。以上結果表明,研究算法的擬合精度最優(yōu)秀,能夠顯著減少系統(tǒng)達到穩(wěn)定的耗時。對不同Log-Gabor的譜窗長度對系統(tǒng)語音的識別結果進行總結,結果見表1。
表1中可以發(fā)現(xiàn),窗長對識別率有較大影響的波峰分別在窗長接近于400與600時。主要原因在于當窗長接近于400時,語譜圖更接近于網(wǎng)絡帶寬語譜圖,聲樂演唱虛擬系統(tǒng)中的圖像顯示時域紋理更清晰;而當窗長接近于600時,則更接近于窄帶語譜圖,頻域的紋理特征更清晰。對比可知,當窗長為600時,在Saarbruecken數(shù)據(jù)集與CASIA數(shù)據(jù)集中,均有最高識別率,分別為66.84%、59.24%,因此語譜圖窗長設定為600。不同譜窗大小對系統(tǒng)語音的識別效果見表2。
從表2可以看出,隨著譜窗尺寸的增加,識別率呈現(xiàn)先升后降的變化,譜窗大小為16×16時,在Saarbruecken數(shù)據(jù)集與CASIA兩數(shù)據(jù)集上有最大識別率,分別為72.34%與61.29%。這是由于譜窗尺寸較小時,研究算法著重強調圖像細節(jié),忽略了對整體虛擬系統(tǒng)的抗噪聲能力,導致識別率變??;而尺寸較大時,研究算法提取的圖像與語音細節(jié)變得較小,識別率也較低。因此將譜窗尺寸大小設置為16×16,可取最優(yōu)識別率對應尺寸。
另外,統(tǒng)計不同模型在兩種數(shù)據(jù)集上對每種聲樂演唱語音情感的識別率??梢园l(fā)現(xiàn),研究算法對于演唱者的生氣、驚喜、厭惡以及悲傷的識別效果較好,準確率均高于80%;與RCNN和ETCNN對比可知,研究算法模型對于生氣、厭惡、難過以及驚喜的識別率均高于其他兩種算法,其中對害怕情感的識別率較低,這是由于中文語言與外國語言的情緒表達方式不同。以上結果均表明,研究算法對生氣、難過、厭惡以及驚喜的識別率均顯著優(yōu)于文獻算法,對害怕與高興的識別率較低,對中性情感的波動較大,整體識別效果較好。
結" 論
為了豐富學生的學習資源,增強其學習互動性,課題組將VR技術與聲樂演唱相互結合,創(chuàng)新了教學模式。研究過程中利用Log-Gabor和改進LBP對語譜圖特征進行提取,并引入多級殘差結構改進CNN彌補丟失的語音特征,提高識別率。結果顯示,研究算法的損失函數(shù)最小,收斂精度較高,識別準確率較優(yōu),穩(wěn)定性能較優(yōu)。隨著聲樂演唱形式與科學技術的不斷發(fā)展,為了更好地構建教學系統(tǒng),相關研究者還必須進行更多的實驗,以豐富教學資源。
參考文獻:
[1]田一淇.基于“互聯(lián)網(wǎng)+”的學前教育聲樂教學模式創(chuàng)新研究[J].電腦知識與技術(學術版)[J].2022,18(3):128-129+132.
[2]張帥,曲校辰,崔文超,等.VR技術在創(chuàng)新教育背景下的探索與實踐[J].山西青年,2020(5):94.
[3]Kowalski S,P Samól,J Szczepański,et al.Teaching architectural history through virtual reality[J].World Transactions on Engineering and Technology Education,2020,18(2):297-302.
[4]馮玲玲.“互聯(lián)網(wǎng)+”聲樂教學模式分析[J].普洱學院學報,2021,37(1):131-132.
[5]Byrns A,Abdessalem H B,Cuesta M,et alEEG Analysis of the Contribution of Music Therapy and Virtual Reality to the Improvement of Cognition in Alzheimer's Disease[J].Journal of Biomedical Science and Engineering,2020,13(8):187-201.
[6]盤東霞,付夢晗,等.我國虛擬現(xiàn)實技術教育應用研究綜述——基于知識圖譜的可視化分析[J].廣州廣播電視大學學報,2022,22(1):18-22+107-108.
[7]劉班.利用虛擬現(xiàn)實推進高校創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)[J].現(xiàn)代教育論壇,2020,3(8):85-87.
(李延俊:延安大學魯迅藝術學院)