国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)技術(shù)在音頻自動(dòng)標(biāo)注中的應(yīng)用研究

2024-09-12 00:00:00王培剛
科技資訊 2024年15期

摘要:自動(dòng)音頻標(biāo)注的目的是從音頻輸入生成能夠描述此音頻的一段文字。目前,音頻標(biāo)注模型的效果欠佳,并且在改善音頻標(biāo)注效果的過(guò)程中很少有應(yīng)用預(yù)加載模型。自動(dòng)音頻標(biāo)注的目標(biāo)為音頻片段產(chǎn)生合適的描述語(yǔ)句,要能夠擁有處理音頻模態(tài)和文本模態(tài)數(shù)據(jù)的能力。為此,對(duì)音頻模態(tài)及文本模態(tài)的預(yù)加載模型進(jìn)行研究,并提出基于音頻模態(tài)的自動(dòng)標(biāo)注和基于文本模態(tài)的自動(dòng)標(biāo)注,解決傳統(tǒng)標(biāo)注方法中訓(xùn)練和測(cè)試階段目標(biāo)不一致的問(wèn)題。

關(guān)鍵詞:音頻標(biāo)注自動(dòng)標(biāo)注深度學(xué)習(xí)預(yù)加載模型

中圖分類號(hào):TN912.3

ResearchontheApplicationofDeepLearningTechnologyinAutomaticAudioTagging

WANGPeigang

HubeiCommunicationsTechnicalCollege,Wuhan,HubeiProvince,430202China

Abstract:Thepurposeofautomaticaudiotaggingistogenerateaparagraphoftextthatcandescribetheaudiofromtheaudioinput.Currently,theeffectivenessofaudiotaggingmodelsisnotgood,andtherearefewapplicationsofpreloadingmodelsinimprovingtheaudiotaggingeffect.Thegoalofautomaticaudiotaggingistogenerateappropriatedescriptivestatementsforaudiosegments,andtohavetheabilitytoprocessaudioandtextmodaldata.Therefore,researchisconductedonthepreloadingmodelsofaudioandtextmodalities,andautomatictaggingbasedonaudiomodalityandtextmodalityareproposedtosolvetheproblemofinconsistentgoalsinthetrainingandtestingstagesoftraditionaltaggingmethods.

KeyWords:Audiotagging;Automatictagging;Deeplearning;Preloadingmodel

隨著機(jī)器學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域的深入應(yīng)用,很長(zhǎng)時(shí)間以來(lái)機(jī)器學(xué)習(xí)的研究領(lǐng)域不斷豐富,近期對(duì)單音頻模態(tài)的研究也愈發(fā)成熟,機(jī)器學(xué)習(xí)用于單音頻模態(tài)領(lǐng)域的典型代表就是音頻分類[1]。作為機(jī)器學(xué)習(xí)的一種,深度學(xué)習(xí)在信息技術(shù)領(lǐng)域尤其是計(jì)算機(jī)視覺(jué)領(lǐng)域有廣泛的應(yīng)用。然而,由于音頻中攜帶的信息通常遠(yuǎn)遠(yuǎn)小于圖像所攜帶的信息,因此深度學(xué)習(xí)在此領(lǐng)域的應(yīng)用程度和成熟度遠(yuǎn)遠(yuǎn)比不上在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用。

伴隨深度學(xué)習(xí)應(yīng)用浪潮的興起以及大模型的誕生,將深度學(xué)習(xí)方法用于音頻處理又開始逐漸成為新的潮流。借助神經(jīng)網(wǎng)絡(luò)模型這一工具,并在使用GPU設(shè)備過(guò)程中輔助大量參數(shù)來(lái)對(duì)訓(xùn)練大規(guī)模音頻數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò),可以使神經(jīng)網(wǎng)絡(luò)模型具有良好的分析和處理能力。深度學(xué)習(xí)的這一特性使其在音頻處理領(lǐng)域的效果要明顯比傳統(tǒng)機(jī)器學(xué)習(xí)算法好,因此目前研究人員的目光不再局限于傳統(tǒng)單一音頻模態(tài)的音頻分類,而是開始轉(zhuǎn)向比其更復(fù)雜的多模態(tài)領(lǐng)域。

作為一項(xiàng)復(fù)雜的多模態(tài)文本生成任務(wù),自動(dòng)音頻標(biāo)注的最終目標(biāo)是從一個(gè)原始的音頻片段生成恰當(dāng)?shù)拿枋稣Z(yǔ)句,這一過(guò)程需要將音頻片段輸入音頻標(biāo)注系統(tǒng)中,最終得到的描述語(yǔ)句要能夠以抽象的方式描述輸入音頻。為此,自動(dòng)音頻標(biāo)注系統(tǒng)不僅要可以處理音頻模態(tài),還應(yīng)該具有處理文本模態(tài)數(shù)據(jù)的能力[2]。

1音頻自動(dòng)標(biāo)注的模型及算法

現(xiàn)有音頻標(biāo)準(zhǔn)模型使用的通常都是編碼器-解碼器結(jié)構(gòu),其中編碼器的作用是對(duì)音頻模態(tài)的輸入數(shù)據(jù)進(jìn)行處理,加碼器的作用是轉(zhuǎn)換編碼器的輸出成為文本描述語(yǔ)句,也就是常說(shuō)的音頻標(biāo)注。合適的神經(jīng)網(wǎng)絡(luò)模型對(duì)于處理音頻模態(tài)數(shù)據(jù)非常重要,而且也有利于音頻標(biāo)注前的預(yù)訓(xùn)練。

  • 循環(huán)神經(jīng)網(wǎng)絡(luò)模型

音頻數(shù)據(jù)是由序列流構(gòu)成的,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,RNN)非常適合用于處理序列流,在應(yīng)用到音頻標(biāo)注任務(wù)的時(shí)候,有一個(gè)RNN網(wǎng)絡(luò)用作編碼器,另外一個(gè)RNN網(wǎng)絡(luò)作為解碼器[3]。和傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)相比,循環(huán)神經(jīng)網(wǎng)絡(luò)在音頻標(biāo)注應(yīng)用中可以接受變長(zhǎng)的輸入,而且輸出結(jié)果的長(zhǎng)度也可以改變。最重要的是,循環(huán)神經(jīng)網(wǎng)絡(luò)的層次不是固定的,而是可以根據(jù)需要進(jìn)行定制,這樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使得音頻輸入信息可以在神經(jīng)網(wǎng)絡(luò)內(nèi)部按照時(shí)序向后傳遞,提高了音頻標(biāo)注的效果。

循環(huán)神經(jīng)網(wǎng)絡(luò)最大的問(wèn)題是當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)較深時(shí)可能會(huì)產(chǎn)生梯度消失現(xiàn)象。為了解決這一問(wèn)題可以為每個(gè)神經(jīng)元添加狀態(tài),狀態(tài)可讓每層網(wǎng)絡(luò)結(jié)構(gòu)中的神經(jīng)單元據(jù)此添加或刪除部分信息,這種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)稱為L(zhǎng)STM(LongShortTermMemory)[4]。LSTM的上述特性使得網(wǎng)絡(luò)中越接近末端的神經(jīng)網(wǎng)絡(luò)層越容易得到關(guān)鍵信息。LSTM用于音頻標(biāo)注時(shí)網(wǎng)絡(luò)結(jié)構(gòu)中神經(jīng)元包括3個(gè)狀態(tài)門:輸入門、遺忘門以及輸出門,它們分別接收輸入數(shù)據(jù)、降低冗余數(shù)據(jù)、整合輸出數(shù)據(jù)。LSTM進(jìn)行自動(dòng)音頻標(biāo)注時(shí),編碼器負(fù)責(zé)提取輸入音頻特征,輸入音頻片段在經(jīng)過(guò)函數(shù)分割后提取其對(duì)數(shù)梅爾譜;解碼器使用指定的數(shù)學(xué)函數(shù)當(dāng)作輸出激活函數(shù)。LSTM應(yīng)用于自動(dòng)音頻標(biāo)注會(huì)受到數(shù)據(jù)集質(zhì)量的限制,因此實(shí)際效果欠佳,但是這種編碼器-解碼器形式的網(wǎng)絡(luò)框架成為以后音頻標(biāo)注工作的基礎(chǔ)。

  • 卷積神經(jīng)網(wǎng)絡(luò)模型

為解決LSTM算法存在的問(wèn)題,業(yè)界后來(lái)嘗試使用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)來(lái)處理音頻輸入,即以CNN作為編碼器。

卷積神經(jīng)網(wǎng)絡(luò)主要包括特征提取部分和分類器兩個(gè)環(huán)節(jié),其中特征提取部分根據(jù)功能可以分成兩種主要的網(wǎng)絡(luò)層[5]:卷積層和池化層。卷積層的輸入是音頻輸入以及卷積核,并對(duì)這二者進(jìn)行卷積操作,以此提取特征并進(jìn)行特征壓縮;接下來(lái)會(huì)使用一個(gè)激活函數(shù)對(duì)輸出特征進(jìn)行調(diào)整。池化層會(huì)對(duì)輸入完成下采樣工作,所以池化層也被稱為下采樣層。池化層中常見(jiàn)的操作包括平均池化和最大池化兩種,平均池化的作用是對(duì)卷積操作后的數(shù)據(jù)取平均值,最大池化直接選取卷積窗口中最大的數(shù)據(jù)。經(jīng)過(guò)池化層下采樣后,數(shù)據(jù)量會(huì)得到指數(shù)級(jí)別的降低,這樣可以通過(guò)降低維度的方式去掉冗余數(shù)據(jù)。

在計(jì)算出特征后,就可以使用分類器計(jì)算它們的得分,這也是卷積神經(jīng)網(wǎng)絡(luò)的最后一層,在這一層中輸入的各種特征會(huì)被組成一個(gè)向量,以便全連接的前向反饋神經(jīng)網(wǎng)絡(luò)完成分類操作。需要注意的是,全連接層需要大量運(yùn)算,因此一般情況下卷積神經(jīng)網(wǎng)絡(luò)的分類器只包含兩層全連接網(wǎng)絡(luò)。

卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)算規(guī)則使其不必?fù)?dān)心音頻輸入包含大量高維數(shù)據(jù),而且由于運(yùn)算對(duì)象主要是音頻輸入特征,因此借助卷積操作在高效提取音頻輸入特征的同時(shí)也能夠很好地完成對(duì)數(shù)據(jù)規(guī)律的學(xué)習(xí)。最重要的是卷積神經(jīng)網(wǎng)絡(luò)不會(huì)刪除音頻輸入數(shù)據(jù)相鄰空間的關(guān)系,因此其效果要優(yōu)于RNN編碼器。

2基于音頻模態(tài)的自動(dòng)標(biāo)注

目前并沒(méi)有性能強(qiáng)大的多模態(tài)預(yù)加載模型,因此本文探索使用不同單模態(tài)預(yù)加載模型的組合來(lái)改進(jìn)音頻標(biāo)注這一多模態(tài)任務(wù)的性能。序列到序列模型的編碼器-解碼器結(jié)構(gòu)目前在音頻標(biāo)注領(lǐng)域得到廣泛應(yīng)用,因此可以選擇序列到序列模型結(jié)構(gòu),并選擇CNN卷積神經(jīng)網(wǎng)絡(luò)充當(dāng)編碼器,而解碼器方面選用的是在處理文本上更有優(yōu)勢(shì)的Transformer。編碼器之后連接一個(gè)分類器完成標(biāo)注的輸出工作。

我們?cè)O(shè)計(jì)的編碼器由4個(gè)卷積塊構(gòu)成,其中每個(gè)卷積塊都包含兩個(gè)3×3的卷積層,然后使用ReLU當(dāng)作激活函數(shù)[6]。為了加快模型的訓(xùn)練速度,還使用了批量標(biāo)準(zhǔn)化。為了克服傳統(tǒng)CNN在數(shù)據(jù)集不足時(shí)產(chǎn)生的訓(xùn)練問(wèn)題,本文還利用預(yù)訓(xùn)練模型對(duì)編碼器參數(shù)進(jìn)行初始化。標(biāo)準(zhǔn)的Transformer通常由兩部分構(gòu)成,即編碼器和解碼器,但由于標(biāo)準(zhǔn)的轉(zhuǎn)換器能夠處理的輸入長(zhǎng)度只有512字節(jié),而提取出的音頻特征長(zhǎng)度可能遠(yuǎn)遠(yuǎn)超過(guò)此長(zhǎng)度,所以本文僅使用Transformer的解碼器部分生成音頻輸入特征的標(biāo)注內(nèi)容。Transformer的解碼器部分如圖1所示。

在進(jìn)行模型訓(xùn)練前需要完成一項(xiàng)前置工作:輸入數(shù)據(jù)的預(yù)處理,對(duì)于原始音頻輸入而言需要先提取其對(duì)數(shù)梅爾譜圖。本文使用44.1kHz的采樣率,并且快速傅立葉變換的窗口長(zhǎng)度是1024。另外,本文還對(duì)標(biāo)注語(yǔ)句進(jìn)行了預(yù)處理,即將標(biāo)注語(yǔ)句內(nèi)的標(biāo)點(diǎn)符號(hào)都去除,并且把所有的單詞全部轉(zhuǎn)化為小寫字符。

模型選定并且數(shù)據(jù)預(yù)處理完成后,本文借助音頻標(biāo)注數(shù)據(jù)集AudioCaps對(duì)其進(jìn)行預(yù)訓(xùn)練,目的是對(duì)編碼器進(jìn)行參數(shù)微調(diào),以此提升音頻標(biāo)注的整體表現(xiàn)。模型參數(shù)調(diào)整完畢后,本文使用Clotho數(shù)據(jù)集進(jìn)行正式的訓(xùn)練。這是一個(gè)專門進(jìn)行音頻自動(dòng)標(biāo)注的數(shù)據(jù)集,雖然為便于訓(xùn)練而去除了標(biāo)注中的特殊單詞、符號(hào)等內(nèi)容,導(dǎo)致其數(shù)量上比AudioCaps數(shù)據(jù)集少,但它的標(biāo)注語(yǔ)句相對(duì)而言更加可靠[7],而且不同音頻片段的標(biāo)注語(yǔ)句側(cè)重點(diǎn)及長(zhǎng)短都不一樣,因此更加適用于音頻標(biāo)注任務(wù)的正式訓(xùn)練。

3基于文本模態(tài)的自動(dòng)標(biāo)注

目前的文本訓(xùn)練任務(wù)中雖然常見(jiàn)的訓(xùn)練方式能夠解決模型訓(xùn)練速度的問(wèn)題,但是訓(xùn)練時(shí)為提高模型的精度通常要求為每一層輸入真實(shí)數(shù)據(jù),從而導(dǎo)致模型對(duì)真實(shí)數(shù)據(jù)的依賴性非常高。在測(cè)試階段的標(biāo)準(zhǔn)工作缺乏真實(shí)數(shù)據(jù),此時(shí)根據(jù)實(shí)際輸入進(jìn)行預(yù)測(cè)就會(huì)因?yàn)楫?dāng)前輸出的不斷累積而導(dǎo)致整個(gè)模型的預(yù)測(cè)結(jié)果出現(xiàn)偏差,這就是曝光誤差。

傳統(tǒng)的音頻標(biāo)準(zhǔn)模型在處理過(guò)程中可能存在曝光誤差問(wèn)題,本文使用的編碼器-解碼器結(jié)構(gòu)在兩者間并沒(méi)有注意力機(jī)制,所以編碼器的工作與解碼器的工作可以認(rèn)為是相互獨(dú)立的,這樣從解碼器的角度看音頻標(biāo)注任務(wù)就是一項(xiàng)多模態(tài)的文本生成任務(wù),因此也難以避免上述問(wèn)題。

為此本文將SCST(Self-criticalSentenceTraining)這種文本模態(tài)預(yù)訓(xùn)練手段應(yīng)用到音頻標(biāo)注系統(tǒng)中,其算法流程如圖2所示。

SCST算法使用CIDEr指標(biāo)來(lái)對(duì)文本標(biāo)注進(jìn)行評(píng)價(jià),它計(jì)算每個(gè)詞組的TD-IDF獲得權(quán)重,并把每個(gè)句子轉(zhuǎn)換為向量形式,然后計(jì)算模型輸出語(yǔ)句和標(biāo)注預(yù)計(jì)的余弦相似度。從圖中可以看出,訓(xùn)練過(guò)程中任意時(shí)刻會(huì)產(chǎn)生兩個(gè)輸出:分別是基于采樣得到的輸出以及模型測(cè)試階段的輸出;測(cè)試階段,本文使用貪心算法分別計(jì)算這兩個(gè)輸出的CIDEr,然后更新模型的參數(shù)。本文采用的SCST方法主要針對(duì)的是解碼器部分進(jìn)行優(yōu)化,也就是改進(jìn)的模態(tài)生成任務(wù),這樣就可以生成一個(gè)更符合文本評(píng)價(jià)指標(biāo)的預(yù)加載模型。

這種文本模態(tài)自動(dòng)標(biāo)注方法在訓(xùn)練時(shí)能夠把評(píng)價(jià)指標(biāo)以前向傳播的方式進(jìn)行,這樣就能夠保持測(cè)試階段評(píng)價(jià)指標(biāo)與訓(xùn)練過(guò)程中目標(biāo)的一致性,解決了常見(jiàn)自動(dòng)標(biāo)注方法的訓(xùn)練和測(cè)試階段目標(biāo)不一致的問(wèn)題。另外,模型訓(xùn)練過(guò)程中的訓(xùn)練對(duì)象是“句子文本”,并以此更新模型參數(shù),這也一定緩解了曝光誤差問(wèn)題。

4結(jié)語(yǔ)

本文對(duì)深度學(xué)習(xí)技術(shù)在音頻自動(dòng)標(biāo)注中的應(yīng)用進(jìn)行研究,研究音頻模態(tài)及文本模態(tài)的預(yù)加載模型,對(duì)音頻模態(tài)及文本模態(tài)的預(yù)加載模型進(jìn)行改進(jìn)。結(jié)果表明使用此模型的音頻自動(dòng)標(biāo)注可以得到更高得分的標(biāo)注文本。

參考文獻(xiàn)

[1]陳耕耘,李圣辰,邵曦,等.基于遷移學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的自動(dòng)音頻標(biāo)注系統(tǒng)[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2022(10):520-526.

[2]劉暢.數(shù)字音頻工作站作為音樂(lè)標(biāo)注工具的功能研究[D].上海:上海音樂(lè)學(xué)院,2023.

[3]李海濤.基于深度學(xué)習(xí)的弱標(biāo)注多聲音事件檢測(cè)研究事件檢測(cè)研究[D].青島:青島科技大學(xué),2022.

[4]于超,盛萱竺,崔翛龍.基于圖卷積神經(jīng)網(wǎng)絡(luò)的分布式半監(jiān)督自動(dòng)標(biāo)注方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023(12):231-235.

[5]蔡杰鋒.基于隱私感知的自動(dòng)精確圖像標(biāo)注方法研究[J].信息記錄材料,2023(12):236-239.

[6]趙潔,袁永勝,張鵬宇,等.輕量化Transformer目標(biāo)跟蹤數(shù)據(jù)標(biāo)注算法[J].中國(guó)圖象圖形學(xué)報(bào),2023(10):3176-3190.

[7]范靜.考慮音符序列的鋼琴演奏和弦指法自動(dòng)標(biāo)注算法[J].常州工學(xué)院學(xué)報(bào),2022(10):39-45.

嵊泗县| 瓦房店市| 昆明市| 隆昌县| 咸丰县| 许昌县| 杨浦区| 壤塘县| 阿拉善左旗| 乌鲁木齐县| 彰化市| 滨州市| 安康市| 绥芬河市| 团风县| 莒南县| 库车县| 本溪| 博野县| 门头沟区| 岢岚县| 漾濞| 博乐市| 克什克腾旗| 芜湖县| 黑河市| 祥云县| 宁远县| 星座| 靖西县| 芜湖县| 西乡县| 温州市| 美姑县| 南投市| 张北县| 彭泽县| 枝江市| 定南县| 南乐县| 灵璧县|