国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生成對抗網(wǎng)絡(luò)與特征融合的多尺度音頻序列生成方法

2023-10-18 08:11:14許華杰張勃
關(guān)鍵詞:特征融合

許華杰 張勃

摘 要:音頻數(shù)據(jù)規(guī)模不足是語音識別過程中的一個常見問題,通過較少的訓(xùn)練數(shù)據(jù)訓(xùn)練得到的語音識別模型效果難以得到保證。因此,提出一種基于生成對抗網(wǎng)絡(luò)與特征融合的多尺度音頻序列生成方法(multi-scale audio sequence GAN,MAS-GAN),包含多尺度音頻序列生成器和真?zhèn)巍悇e判別器。生成器通過3個上采樣子網(wǎng)絡(luò)學(xué)習(xí)音頻序列不同時域和頻域的特征,再將不同尺度的特征融合成偽音頻序列;判別器通過輔助分類器將生成的偽數(shù)據(jù)和真實(shí)數(shù)據(jù)區(qū)分開,同時指導(dǎo)生成器生成各類別的數(shù)據(jù)。實(shí)驗(yàn)表明,與目前主流的音頻序列生成方法相比,所提方法的IS和FID分?jǐn)?shù)分別提高了6.78%和3.75%,可以生成更高質(zhì)量的音頻序列;同時通過在SC09數(shù)據(jù)集上進(jìn)行分類實(shí)驗(yàn)來評估生成音頻序列的質(zhì)量,所提方法的分類準(zhǔn)確率比其他方法高2.3%。

關(guān)鍵詞:音頻序列生成; 生成對抗網(wǎng)絡(luò); 半監(jiān)督學(xué)習(xí); 特征融合

中圖分類號:TP391.1?? 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2023)09-032-2770-05

doi:10.19734/j.issn.1001-3695.2023.01.0018

Multi-scale audio sequence generation method based on

generative adversarial networks and feature fusion

Xu Huajiea,b,c,d, Zhang Boa

(a.College of Computer & Electronic Information, b.Guangxi Key Laboratory of Multimedia Communications & Network Technology, c.Key Laboratory of Parallel, Distributed & Intelligent Computing, d.Guangxi Intelligent Digital Services Research Center of Engineering Technology, Guangxi University, Nanning 530004, China)

Abstract:Insufficient audio data scale is a common problem in the speech recognition process, and it is difficult to guarantee the effect of the speech recognition model trained with less training data. Therefore, this paper proposed a multi-scale audio sequence generation method based on generative confrontation network and feature fusion(MAS-GAN) , which consisted of a multi-scale audio sequence generator and a real/fake-category discriminator. The generator learnt the features of audio sequences in different time and frequency domains through three up-sampling sub-networks, and then fused the features of different scales into pseudo audio sequence. The discriminator distinguished the generated fake data from the real data though the auxiliary classifier, and guided the generator to generate data of various categories. Experiment shows that the IS and FID scores are increased by 6.78% and 3.75% respectively compared with the current mainstream audio sequence generation methods, the proposed method can generate higher quality audio sequences; at the same time, it evaluated the quality of the generated audio sequences by performing classification experiments on the SC09 dataset, the classification accuracy is about 2.3% higher than other methods.

Key words:audio sequence generation; generative adversarial network; semi-supervised learning; feature fusion

0 引言

語音識別是當(dāng)前計(jì)算機(jī)聲學(xué)領(lǐng)域的熱點(diǎn)研究問題之一,而音頻數(shù)據(jù)規(guī)模不足嚴(yán)重制約了該領(lǐng)域的相關(guān)研究工作的展開[1]。通過合成音頻數(shù)據(jù)擴(kuò)充音頻數(shù)據(jù)集來提高語音識別的效果,是解決這一問題的有效方案之一[2],在人機(jī)交互、智慧醫(yī)療、安全生產(chǎn)、災(zāi)害預(yù)警等多各方面具有重要意義。

音頻信號具有很高的時間分辨率,學(xué)習(xí)音頻信號的方法必須能在高維空間上有效執(zhí)行,生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)是一種將低維潛在向量映射到高維數(shù)據(jù)的無監(jiān)督學(xué)習(xí)方法[3]。隨著研究的深入,一些半監(jiān)督的生成對抗網(wǎng)絡(luò)也被提出,如ACGAN[4]在生成對抗網(wǎng)絡(luò)的基礎(chǔ)上增加了輔助分類器,使GAN獲得了分類功能從而可以生成特定類別的樣本,學(xué)習(xí)方式由無監(jiān)督學(xué)習(xí)變成半監(jiān)督學(xué)習(xí),進(jìn)而提高生成樣本的質(zhì)量。近年來,生成對抗網(wǎng)絡(luò)已經(jīng)成功地應(yīng)用于各種計(jì)算機(jī)視覺任務(wù),如超分辨率任務(wù)、語義分割等,并且已經(jīng)被證明在圖像生成方面是有效的。而將GAN拓展到音頻領(lǐng)域解決數(shù)據(jù)規(guī)模不足問題也是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的一個熱點(diǎn),如Sahu等人[5]使用合成特征向量來提高分類器在情緒任務(wù)上的性能;Chatziagapi等人[6]通過GAN合成聲譜圖,達(dá)到了平衡數(shù)據(jù)集的目的,與一系列如時域、頻域變換的傳統(tǒng)數(shù)據(jù)增強(qiáng)方法相比有較大的性能提升。

目前,使用生成對抗網(wǎng)絡(luò)來生成音頻數(shù)據(jù)一般有兩種做法。一種做法如MelNet[7]等是對音頻的時頻表示(聲譜圖)進(jìn)行操作,這種做法存在不足:由于生成聲譜圖的分辨率依賴于不同的參數(shù),存在因參數(shù)原因?qū)е绿卣鱽G失的問題[8];同時,因?yàn)楦兄畔⒆钬S富的聲譜圖是不可逆的,要將聲譜圖轉(zhuǎn)換為原始音頻序列,必須通過反演模型,而在這一過程中,會丟失大量的音頻信息,導(dǎo)致生成的音頻序列效果較差[9]。另一種做法是直接采用原始序列進(jìn)行建模,如WaveGAN[10]是一種將生成對抗網(wǎng)絡(luò)用于原始波形音頻的經(jīng)典無監(jiān)督合成方法,能夠合成較高質(zhì)量的且具有全局相關(guān)性的音頻片段。通過原始音頻序列進(jìn)行建模,直接從原始音頻序列中提取特征,減少了由于參數(shù)原因?qū)е碌奶卣鱽G失;同時由于沒有從聲譜圖轉(zhuǎn)換為原始音頻序列的過程,所以丟失的音頻信息更少,但是這種原始序列的音頻生成方法也存在不足:由于音頻信號同時包含時域和頻域的特征,比圖像信號更有可能表現(xiàn)出強(qiáng)周期性,而這種做法通常情況下更關(guān)注音頻數(shù)據(jù)的時域特征,忽視了音頻數(shù)據(jù)在頻域上的分布情況[11]。

由于采用原始序列進(jìn)行建模比采用聲譜圖建模的方式減少了音頻特征的丟失,同時WaveGAN是采用原始序列建模的經(jīng)典無監(jiān)督學(xué)習(xí)方法,可以合成較高質(zhì)量的且具有全局相關(guān)性的音頻片段,所以本文方法以WaveGAN為基礎(chǔ)架構(gòu)。但是WaveGAN存在只關(guān)注時域特征而忽略頻域特征的問題。在采樣環(huán)節(jié),本文借鑒多尺度上采樣塊的做法,通過不同大小的卷積核提取音頻信號時域和頻域的不同特征,解決Wave-GAN不能兼顧音頻信號時域和頻域特征的問題,提升網(wǎng)絡(luò)對于音頻信號的特征提取能力;同時,在音頻序列生成環(huán)節(jié),本文借鑒輔助分類器的做法,通過構(gòu)造輔助任務(wù)將無監(jiān)督學(xué)習(xí)轉(zhuǎn)換為半監(jiān)督學(xué)習(xí)以提高生成音頻數(shù)據(jù)的性能,進(jìn)一步提升生成音頻序列的質(zhì)量。

1 相關(guān)工作

生成對抗網(wǎng)絡(luò)(GAN)能直接生成“以假亂真”的與訓(xùn)練數(shù)據(jù)非常接近的新數(shù)據(jù)[12]。ACGAN是GAN的一種拓展,采用輔助分類器(auxiliary classifier)來判斷輸入圖像所屬的類別,它不僅在很大程度上解決了GAN模型崩潰的問題,而且有助于生成高分辨率的圖像[4]。GAN只有隨機(jī)噪聲z(noise)作為輸入變量,而ACGAN與GAN不同的是多了一個分類變量;同時GAN只對數(shù)據(jù)的真?zhèn)巫雠袛啵鳤CGAN除了對數(shù)據(jù)的真?zhèn)巫鞒雠袛?,還增加了類別判斷。ACGAN將鑒別器與輔助部分結(jié)合,使得改進(jìn)后的鑒別器不僅可以識別數(shù)據(jù)的真?zhèn)危€可以區(qū)分不同的類別,進(jìn)一步提高了生成的偽樣本的質(zhì)量。WaveGAN基于深度卷積生成對抗網(wǎng)絡(luò)(deep convolution gene-rative adversarial network,DCGAN)改進(jìn)而來[13]。DCGAN是在GAN的基礎(chǔ)上設(shè)計(jì)的架構(gòu),可以實(shí)現(xiàn)高質(zhì)量的圖像生成,在DCGAN中,生成器使用轉(zhuǎn)置卷積操作迭代地將低分辨率特征映射到高分辨率的圖像中,但是由于音頻序列本身是一種一維序列數(shù)據(jù),并且比圖像信號表現(xiàn)出更強(qiáng)的周期性,所以Wave-GAN通過將DCGAN生成器的二維轉(zhuǎn)置卷積修改為一維轉(zhuǎn)置卷積來適應(yīng)音頻信號的特點(diǎn)。

在多尺度上采樣塊進(jìn)行采樣,再用融合塊進(jìn)行堆疊的做法,最早出現(xiàn)在圖像領(lǐng)域,在Google于2014年提出的GoogLeNet[14]中采用,其引入inception模塊對圖像特征進(jìn)行采集,利用不同大小的卷積核提取不同尺度的特征,最后將所有輸出結(jié)果進(jìn)行融合并拼接為一個深度特征圖,以獲取多樣化的特征。除此之外,研究人員還基于GoogLeNet提出了Xception[15]等改進(jìn),進(jìn)一步提升網(wǎng)絡(luò)的性能。在音頻領(lǐng)域,Vasquez等人[7]提出的音頻生成模型MelNet中使用了多尺度的方法,首先生成低分辨率的聲譜圖用于捕捉高層特征,通過反復(fù)迭代生成高分辨率的聲譜圖,再通過反演模型將聲譜圖轉(zhuǎn)換為音頻序列。

ACGAN通過輔助分類器的做法,將GAN從無監(jiān)督學(xué)習(xí)轉(zhuǎn)變成半監(jiān)督學(xué)習(xí),可以學(xué)習(xí)到更具特異性的特征;WaveGAN基于音頻信號的特點(diǎn),使用原始音頻序列進(jìn)行建模,減少了網(wǎng)絡(luò)在特征提取過程中損失的音頻信息;多尺度上采樣塊,適應(yīng)音頻信號的特點(diǎn),可以獲取多樣化的特征。本文針對WaveGAN網(wǎng)絡(luò)存在的問題,結(jié)合上述方法,提出了一種基于生成對抗網(wǎng)絡(luò)與特征融合的多尺度音頻序列生成方法,提升生成音頻序列的質(zhì)量。

2 基于生成對抗網(wǎng)絡(luò)與特征融合的音頻生成方法MAS-GAN

本文提出的MAS-GAN旨在結(jié)合GAN對抗學(xué)習(xí)的思想,通過博弈訓(xùn)練生成更多特定標(biāo)簽的音頻序列數(shù)據(jù)。如圖1所示,MAS-GAN由多尺度音頻序列生成器MASG(multi-scale audio sequence generator)和真/偽—類別判別器RFCD(real/fake-category discriminator)組成。MASG首先通過嵌入塊將100維噪聲向量與標(biāo)簽label進(jìn)行融合,融合后的向量經(jīng)過多尺度上采樣塊和融合塊擴(kuò)張到與真實(shí)樣本相同的尺寸,合成偽音頻MASG(z,label);判別器RFCD的輸入是帶標(biāo)簽的真實(shí)音頻數(shù)據(jù)(x,label)和帶標(biāo)簽的MASG合成的偽音頻數(shù)據(jù)MASG(z,label),通過特征提取塊提取音頻數(shù)據(jù)的特征,然后通過分類模塊將真實(shí)音頻數(shù)據(jù)和偽音頻數(shù)據(jù)區(qū)分開來,同時對類別作出判斷。在這個過程中,生成器試圖通過生成趨近于真實(shí)數(shù)據(jù)分布的偽數(shù)據(jù)來欺騙判別器,判別器則希望更準(zhǔn)確地區(qū)別真實(shí)數(shù)據(jù)和偽數(shù)據(jù)。

2.1 多尺度音頻序列生成器

多尺度音頻序列生成器MASG使用原始序列進(jìn)行建模,如圖2(a)所示。輸入(input)包含一個100維的噪聲向量z和一個類別標(biāo)簽label;嵌入塊(embedding block)首先將類別標(biāo)簽label映射到多維空間,使其維度與噪聲向量z的維度相同,然后再將噪聲向量z與類別標(biāo)簽向量組合起來;多尺度上采樣塊(multi-scale up-sample block)包含三個不同尺度的上采樣子網(wǎng)絡(luò),分別以不同大小的卷積核對嵌入類別標(biāo)簽之后的噪聲向量進(jìn)行上采樣,得到不同尺度的上采樣結(jié)果;融合塊(fusion block)首先將上采樣塊得到的結(jié)果在維度上堆疊起來,最后經(jīng)過一個same卷積層將維度壓縮到1維,得到偽音頻序列樣本。

由于音頻序列信號在時域上表現(xiàn)為幅值隨時間的變化,在頻域上表現(xiàn)為幅值隨頻率的變化,不同的音頻序列信號在時域上和頻域上差別較大,所以增強(qiáng)網(wǎng)絡(luò)對音頻信號時域和頻域的理解對生成更真實(shí)的偽樣本有十分重要的作用。通常在特征提取過程中,可以通過增加卷積核尺寸的方式獲得更多的信息量。根據(jù)音頻序列的特性,本文提出了一種多尺度上采樣塊作為多尺度音頻序列生成器的核心模塊,多尺度上采樣塊中的三個上采樣子網(wǎng)絡(luò)采用不同的網(wǎng)絡(luò)長度和卷積核,使得網(wǎng)絡(luò)可以表達(dá)音頻序列的多尺度信息,提高網(wǎng)絡(luò)的學(xué)習(xí)和表達(dá)能力。

表1給出了多尺度上采樣塊中的小尺度、中尺度、大尺度三個不同尺度上采樣子網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)。其中d是一個控制網(wǎng)絡(luò)寬度的參數(shù),當(dāng)d的值變大時,網(wǎng)絡(luò)寬度增加,訓(xùn)練網(wǎng)絡(luò)的時間成本增加;反之,則提取到的特征會減少,導(dǎo)致生成的偽樣本質(zhì)量下降。在質(zhì)量和效率之間權(quán)衡,本文中d的大小設(shè)置為8。以大尺度上采樣子網(wǎng)絡(luò)為例,如圖2(b)和表1所示,首先將嵌入塊輸出的1×100維向量經(jīng)過一個線性層(linear)擴(kuò)大到1×512d,再將其維度變換為32d×16,經(jīng)過卷積核大小為24、步長為4的deConv1層后,輸出16d×64維特征矩陣,然后經(jīng)過四個同樣參數(shù)的deConv層之后,最終輸出維度為1×16 384,除最后一層使用tanh激活函數(shù)外,其他層均使用ReLU作為激活函數(shù)。

將多尺度上采樣塊三個尺度的輸出作為融合塊(fusion bock)的輸入,首先將多尺度上采樣塊輸出的三個尺度的結(jié)果在通道上堆疊起來,得到的矩陣維度為3×16 384,該矩陣經(jīng)過一個same卷積層將維度壓縮到1維,得到最終生成的偽音頻樣本進(jìn)行輸出。多尺度音頻序列生成器所涉及的計(jì)算過程為

MASG(z,label)=φ(SameConv(SU(F)⊕MU(F)⊕LU(F)))(1)

其中:MASG(z,label)表示多尺度音頻序列生成器生成的偽音頻樣本,φ表示tanh激活函數(shù),SameConv表示same卷積層操作符,SU、MU、LU分別表示多尺度上采樣塊中小尺度、中尺度和大尺度上采樣子網(wǎng)絡(luò)操作符,F(xiàn)表示嵌入塊(embedding block)輸出的向量。

2.2 真/偽—類別判別器

受ACGAN的啟發(fā),真/偽—類別判別器RFCD采取了帶輔助分類器的做法,如圖3所示。這樣的做法使得GAN從原本的無監(jiān)督學(xué)習(xí)變?yōu)榘氡O(jiān)督學(xué)習(xí),判別器負(fù)責(zé)指導(dǎo)生成器生成逼真數(shù)據(jù),又通過類別標(biāo)簽將不同類別的數(shù)據(jù)區(qū)分開來,指導(dǎo)生成器生成各類別的數(shù)據(jù)。通過真/偽—類別判別器,可以使得多尺度音頻序列生成器生成的偽音頻樣本MASG(z,label)相比無監(jiān)督學(xué)習(xí)生成的樣本更具有特異性。

真/偽—類別判別器的輸入(input)包含音頻樣本及其所對應(yīng)的類別標(biāo)簽label,輸入的音頻樣本是真實(shí)的音頻樣本(x,label)或者由多尺度音頻序列生成器生成的偽音頻樣本MASG(z,label),特征提取塊(feature extraction block)負(fù)責(zé)對真/偽音頻樣本進(jìn)行特征提取,得到真/偽樣本的全局特征向量,進(jìn)而得到預(yù)測結(jié)果。預(yù)測結(jié)果包含分別為真/偽標(biāo)簽和類別標(biāo)簽兩部分,目的是將真實(shí)音頻數(shù)據(jù)和偽音頻數(shù)據(jù)區(qū)分開來,同時對類別作出判斷。表2給出了真/偽—類別判別器的相關(guān)參數(shù)。輸入(input)的一維音頻序列維度為1×16 384維,經(jīng)過卷積核大小為25,步長為4的Conv1層后,輸出維度為d×4 096維,再經(jīng)過四個卷積核與步長相同的Conv層之后,輸出維度分別為2d×1024、4d×256、8d×64、16d×16維,這五個Conv層的激活函數(shù)均為Leaky_ReLU,將16d×16維的輸出特征向量維度變換為256d×1,然后輸入一個線性層linear,得到32d×1維度的特征向量。由于真/偽—類別判別器包含樣本的真/偽判斷和類別判斷,所以網(wǎng)絡(luò)最后的全連接層包含的神經(jīng)元個數(shù)為(1+C),其中C代表數(shù)據(jù)集中類別的數(shù)量(本文中C設(shè)置為10),第一個神經(jīng)元的輸出采用sigmoid作為激活函數(shù),定義為真/預(yù)測向量,后面C個神經(jīng)元的輸出采用softmax作為激活函數(shù),定義為類別標(biāo)簽預(yù)測向量。

2.3 方法實(shí)現(xiàn)流程

本文提出的多尺度原始序列音頻生成方法MAS-GAN具體通過MASG與RFCD的博弈訓(xùn)練實(shí)現(xiàn),其訓(xùn)練過程可分為兩個步驟:訓(xùn)練真/偽—類別判別器RFCD和訓(xùn)練多尺度音頻序列生成器MASG。通過MASG與RFCD之間的博弈,當(dāng)MASG生成的偽數(shù)據(jù)的概率分布和真實(shí)數(shù)據(jù)的分布接近時,MASG生成的偽樣本接近真實(shí)樣本,博弈訓(xùn)練結(jié)束。

算法1 MAS-GAN model training

輸入:帶標(biāo)簽的真實(shí)音頻樣本D={x,label}。

輸出:多尺度音頻序列生成器MASG。

1 for number of training iterations do

2? for k steps do

3?? sample minibatch of m samples{(z,label)} from noise prior pg(z) and random sampling label from 0 to C;

4?? sample m samples {(x,label)} from D;

5?? calculate the loss of RFCD LRFCD;

6?? update the parameters of RFCD by LRFCD;

7? end for

8? sample minibatch of m samples {(z,label)} from noise prior pg(z) and random sampling label from 0 to C;

9? calculate loss of MASG LMASG;

10update the parameters of MASG by LMASG;

11 end for

算法1主要包括以下兩個步驟:

a)訓(xùn)練真/偽—類別判別器RFCD,對應(yīng)于算法1中的第2~7行。首先將真實(shí)的音頻樣本(x,label)和多尺度音頻序列生成器生成的偽音頻樣本MASG(z,label)輸入到真/偽—類別判別器,模型中的特征提取塊對輸入的音頻樣本進(jìn)行特征提取,得到真/偽預(yù)測向量和類別標(biāo)簽向量yc,根據(jù)式(2)計(jì)算損失函數(shù)LRFCD,對真/偽—類別判別器進(jìn)行優(yōu)化。

LRFCD=-[Eyc[label*log(yc)]+Ex~Pr[log(RFCD(x))]+Ez~Pf[log(1-RFCD(MASG(z,label)))]](2)

其中:Pr和Pf分別代表真實(shí)數(shù)據(jù)(real data)和偽數(shù)據(jù)(fake data)的概率分布;RFCD(x)表示x來自訓(xùn)練數(shù)據(jù)(real data)的概率;z為輸入到生成器的隨機(jī)噪聲;label表示輸入到網(wǎng)絡(luò)中的類別標(biāo)簽;yc表示判別器RFCD輸出的類別標(biāo)簽預(yù)測向量。

b)訓(xùn)練多尺度音頻序列生成器MASG,對應(yīng)于算法1中的第8~11行。首先將步驟a)中訓(xùn)練得到的真?zhèn)巍悇e判別器RFCD的參數(shù)固定,然后將隨機(jī)生成的帶標(biāo)簽的噪聲數(shù)據(jù)(z,label)輸入到MASG中,生成對應(yīng)的偽音頻樣本數(shù)據(jù)MASG(z,label),根據(jù)式(3)計(jì)算損失函數(shù)LMASG,對多尺度音頻序列生成器進(jìn)行優(yōu)化。

LMASG=-[Eyc[label*log(yc)]+Ez~Pf[log RFCD(MASG(z,label))+13LML]](3)

其中:LML表示多尺度上采樣子網(wǎng)絡(luò)損失,如式(4)所示。

LML=13[Ez~Pf[log RFCD(SU(z,label))]+ Ez~Pf[log RFCD(MU(z,label))]+Ez~Pf[log RFCD(LU(z,label))]](4)

其中:SU、MU、LU分別表示多尺度上采樣塊中小尺度、中尺度和大尺度上采樣子網(wǎng)絡(luò)得到的數(shù)據(jù)。

訓(xùn)練的過程中MASG和RFCD交替訓(xùn)練,保證每k個batch訓(xùn)練一次MASG,每一個batch訓(xùn)練一次RFCD,本文中k設(shè)置為2,網(wǎng)絡(luò)在通過交替訓(xùn)練優(yōu)化后,生成器和判別器之間達(dá)到平衡,得到最終的MAS-GAN模型。

3 實(shí)驗(yàn)及其結(jié)果分析

通過開展兩方面的實(shí)驗(yàn)測試所提出的MAS-GAN的性能:實(shí)驗(yàn)1使用IS、FID等客觀評價標(biāo)準(zhǔn)將所提出的方法與其他音頻序列生成方法進(jìn)行性能比較,驗(yàn)證所提出方法的有效性;實(shí)驗(yàn)2進(jìn)一步將所提出的方法作為數(shù)據(jù)增強(qiáng)方法,通過分類任務(wù)評估生成音頻序列的質(zhì)量,與其他方法進(jìn)行對比。

3.1 實(shí)驗(yàn)數(shù)據(jù)和參數(shù)

實(shí)驗(yàn)采用的數(shù)據(jù)集為SC09(speech commands zero through nine dataset)語音數(shù)據(jù)集[11],該數(shù)據(jù)集包含18 620個音頻樣本,分為10類,分別為不同的人朗讀0~9(zero-nine)共10個數(shù)字的音頻,每個音頻樣本的長度為1 s,采樣率均為16 kHz,數(shù)據(jù)集已劃分好訓(xùn)練集、驗(yàn)證集和測試集。借鑒相關(guān)文獻(xiàn)[4,10]的經(jīng)驗(yàn),訓(xùn)練過程都使用Adam優(yōu)化器,betas設(shè)置為0.5和0.9,學(xué)習(xí)率設(shè)置為0.000 5,batch-size設(shè)置為64,通過上述策略對MAS-GAN訓(xùn)練3 000個輪次。實(shí)驗(yàn)在PyTorch框架下實(shí)現(xiàn),實(shí)驗(yàn)環(huán)境如下:Windows 10 64位操作系統(tǒng),8核心AMD Ryzen7 3700X CPU(3.6 GHz),NVIDIA GeForce RTX2070 Super顯卡(GPU),32 GB內(nèi)存。

3.2 實(shí)驗(yàn)結(jié)果及分析

本文所提出的MAS-GAN是基于原始序列直接建模的音頻合成算法,因此實(shí)驗(yàn)部分主要與同類型的WaveGAN作對比,同時為了進(jìn)一步測試方法的有效性和性能,實(shí)驗(yàn)還加入了近年來主流的基于聲譜圖的生成對抗網(wǎng)絡(luò)音頻合成算法MelGAN[16]、VocGAN[17]和MB-MelGAN[18]作對比。

3.2.1 采用標(biāo)準(zhǔn)IS和FID的評價結(jié)果及分析

實(shí)驗(yàn)1通過IS(inception score)和FID(Fréchet inception distance)[19]兩種客觀評價標(biāo)準(zhǔn)分別從生成樣本的質(zhì)量和多樣性兩個角度對MAS-GAN的性能進(jìn)行評估,IS和FID都是通過Inception v3模型輸出的樣本屬于某個類別的概率來判斷生成樣本的質(zhì)量,通常被用來衡量GAN生成數(shù)據(jù)的質(zhì)量。

  1. IS結(jié)果比較 采用IS作為各網(wǎng)絡(luò)合成的音頻質(zhì)量評估標(biāo)準(zhǔn),將生成的樣本送入訓(xùn)練好的Inception模型,通過輸出樣本屬于某個類別的概率來評價生成的樣本質(zhì)量,IS的數(shù)值越大,代表生成的音頻樣本質(zhì)量越接近真實(shí)樣本。IS評價結(jié)果如表3所示,其中SR代表音頻表示方法(Mel表示網(wǎng)絡(luò)從聲譜圖中提取特征進(jìn)行建模,z表示網(wǎng)絡(luò)直接從原始序列中提取特征進(jìn)行建模),ground truth代表真實(shí)樣本的分布。由表3可知,本文提出的MAS-GAN生成的偽音頻序列樣本的質(zhì)量優(yōu)于WaveGAN、MelGAN、VocGAN和MB-MelGAN。通過IS對幾種音頻序列生成網(wǎng)絡(luò)生成的偽音頻序列樣本的質(zhì)量進(jìn)行分析,結(jié)果可知,MAS-GAN的性能相比WaveGAN、MelGAN、VocGAN和MB-MelGAN分別提升了33.74%、17.99%、6.78%和9.54%,這說明本文提出的MAS-GAN在生成的音頻樣本質(zhì)量上更接近真實(shí)樣本。

2)FID結(jié)果比較 FID標(biāo)準(zhǔn)基于IS改進(jìn)而來,F(xiàn)ID計(jì)算真實(shí)樣本、生成樣本在特征空間中的距離,本文采用FID作為各網(wǎng)絡(luò)合成的音頻多樣性評估標(biāo)準(zhǔn)。首先利用Inception網(wǎng)絡(luò)來提取特征,然后使用高斯模型對特征空間進(jìn)行建模,通過求解兩個特征之間的距離作為FID,F(xiàn)ID的值越小,代表生成樣本與真實(shí)樣本的分布越接近。FID評價結(jié)果如表4所示。由表4可知,與WaveGAN、MelGAN、VocGAN和MB-MelGAN相比,所提出的MAS-GAN的性能明顯更好。具體而言,通過FID對幾種音頻序列生成網(wǎng)絡(luò)生成的偽音頻序列樣本的多樣性分析,利用本文提出的MAS-GAN合成的音頻樣本與真實(shí)樣本在特征空間的距離小于WaveGAN、MelGAN、VocGAN和MB-MelGAN,分別提升了約31.05%、14.55%、5.93%和3.75%,說明本文提出的MAS-GAN在生成的偽音頻序列樣本多樣性上更接近真實(shí)樣本。

3)音頻頻譜分析 為了進(jìn)一步探討所提出的音頻序列增強(qiáng)生成對抗網(wǎng)絡(luò)(MAS-GAN)產(chǎn)生效果背后的原因,將多尺度音頻序列生成器的三個尺度上采樣子網(wǎng)絡(luò)輸出的序列和最終生成的音頻樣本分別做短時傅里葉變換計(jì)算,并根據(jù)計(jì)算結(jié)果繪制聲譜圖,橫坐標(biāo)代表時間,縱坐標(biāo)代表頻率,如圖4所示。

由圖5可以看出,大尺度上采樣子網(wǎng)絡(luò)主要關(guān)注于5~7 kHz的頻率,中尺度上采樣子網(wǎng)絡(luò)主要關(guān)注于2~3.2 kHz的頻率,小尺度上采樣子網(wǎng)絡(luò)主要關(guān)注于0.5~1 kHz的頻率;同時,三個不同尺度的子網(wǎng)絡(luò)在時域上關(guān)注的點(diǎn)也有所區(qū)別,三個子網(wǎng)絡(luò)的輸出結(jié)果融合成最終結(jié)果,形成偽音頻樣本。這說明本文提出的三個不同尺度的上采樣子網(wǎng)絡(luò)可以適應(yīng)音頻信號的特點(diǎn),提取到不同頻段的音頻信號的特征,同時又兼顧到了音頻信號的時域特征。

通過上述實(shí)驗(yàn)與分析可知,本文方法在生成樣本的質(zhì)量和多樣性上優(yōu)于其他方法,造成這一結(jié)果的原因可能有:a)MAS-GAN采取一維卷積對音頻序列進(jìn)行處理,比二維卷積的做法更適合處理音頻一維序列;b)多尺度音頻序列生成器中的多尺度上采樣子網(wǎng)絡(luò)通過采用大小不同的卷積核,使得網(wǎng)絡(luò)不僅能夠?qū)W習(xí)音頻序列的時域特征,而且能夠?qū)W習(xí)音頻序列的頻域特征;c)特征融合模塊將不同尺度的音頻信息從時域和頻域上結(jié)合起來,使得最終生成的偽音頻樣本相比其他音頻生成方法生成的特征更為豐富。

3.2.2 分類任務(wù)結(jié)果及分析

為了進(jìn)一步測試MAS-GAN的性能,本文分別使用WaveGAN、MelGAN、VocGAN、MB-MelGAN和MAS-GAN生成的音頻序列樣本擴(kuò)充樣本數(shù)量有限的訓(xùn)練集,然后進(jìn)行分類實(shí)驗(yàn),通過分類效果評估生成音頻序列的質(zhì)量。從SC09數(shù)據(jù)集10類數(shù)據(jù)的每個類中隨機(jī)選取30個樣本作為分類任務(wù)的訓(xùn)練集,然后分別使用WaveGAN、MelGAN、VocGAN、MB-MelGAN和MAS-GAN生成的偽音頻序列樣本對訓(xùn)練集進(jìn)行擴(kuò)充,擴(kuò)充的數(shù)量分別為訓(xùn)練集的50%、100%和200%,用于對在ImageNet上經(jīng)過預(yù)訓(xùn)練的ShuffleNet模型進(jìn)行訓(xùn)練并進(jìn)行分類實(shí)驗(yàn),結(jié)果如圖5所示,其中baseline表示未對訓(xùn)練集進(jìn)行擴(kuò)充的分類實(shí)驗(yàn)結(jié)果。

由圖5可以看出,使用經(jīng)過WaveGAN、MelGAN、VocGAN、MB-MelGAN和MAS-GAN擴(kuò)充的訓(xùn)練集訓(xùn)練分類模型,獲得的分類準(zhǔn)確率對比baseline都有較為明顯的提升,其中本文提出的MAS-GAN取得了最高的分類準(zhǔn)確率,在擴(kuò)充數(shù)據(jù)集200%的情況下達(dá)到了84.5%,比其他四種方法高出4.1%、2.7%、2.3%和2.4%。導(dǎo)致這一結(jié)果的可能原因有兩個方面:首先,真?zhèn)巍悇e判別器中添加對于類別的判斷,指導(dǎo)多尺度音頻序列生成器生成序列,通過半監(jiān)督學(xué)習(xí)使得生成器生成的音頻樣本更具特異性;其次,特征融合的引入有助于生成器學(xué)習(xí)到多尺度的音頻信息,包含的音頻序列信息比其他音頻合成方法更多,使得生成器生成的音頻數(shù)據(jù)的分布更接近于真實(shí)樣本的分布,因此以這些樣本擴(kuò)充訓(xùn)練集得出的模型整體分類準(zhǔn)確率比其他方法更高。

4 結(jié)束語

針對語音識別過程中通常數(shù)據(jù)集規(guī)模不足導(dǎo)致的識別效果差的問題,基于無監(jiān)督原始序列音頻生成方法,提出一種基于生成對抗網(wǎng)絡(luò)和特征融合的多尺度原始序列音頻生成方法。以多尺度音頻序列生成器MAS-GAN為核心,利用三個不同尺度的上采樣子網(wǎng)絡(luò)來表達(dá)音頻序列時域和頻域上不同尺度的信息;同時在判別器中增加對于音頻類別的判斷,將原始GAN的無監(jiān)督學(xué)習(xí)方式轉(zhuǎn)換為半監(jiān)督學(xué)習(xí),實(shí)現(xiàn)了高質(zhì)量的音頻序列樣本生成。在SC09音頻數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法生成的樣本的IS分?jǐn)?shù)(反映樣本質(zhì)量)和FID分?jǐn)?shù)(反映樣本多樣性)比同類其他主流方法高出6.78%和3.75%,同時通過在SC09數(shù)據(jù)集上進(jìn)行分類實(shí)驗(yàn)來評估生成音頻序列的質(zhì)量,采用所提方法進(jìn)行數(shù)據(jù)增強(qiáng)后的分類準(zhǔn)確率比同類主流方法高2.3%,驗(yàn)證了該方法的有效性。本文方法可以合成高質(zhì)量的偽音頻片段,可以廣泛應(yīng)用于小樣本音頻分類和語音識別等領(lǐng)域,通過本文方法生成的偽音頻數(shù)據(jù)擴(kuò)充數(shù)據(jù)集,從而達(dá)到以少量音頻訓(xùn)練樣本獲得較高分類或識別準(zhǔn)確率的目的。

本文方法采用的多尺度特征融合策略雖然在客觀評價標(biāo)準(zhǔn)和分類結(jié)果上優(yōu)于其他方法,但是僅采取三個尺度的上采樣子網(wǎng)絡(luò)來構(gòu)建生成網(wǎng)絡(luò),并不能完整地反映音頻序列的時域和頻域特征,如何使網(wǎng)絡(luò)自適應(yīng)地對音頻樣本進(jìn)行建模,是下一步的研究方向。

參考文獻(xiàn):

[1]Yu Jianbo, Zhou Xingkang. One-dimensional residual convolutional autoencoder based feature learning for gearbox fault diagnosis[J]. IEEE Trans on Industrial Informatics, 2020,16(10): 6347-6358.

[2]Mirheidari B, Blackburn D, OMalley R, et al. Improving cognitive impairment classification by generative neural network-based feature augmentation[C]//Proc of InterSpeech. 2020: 2527-2531.

[3]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Proc of International Conference on Neural Information Processing Systems Volume-2. Cambridge, MA: MIT Press, 2014: 2672-2680.

[4]Odena A, Olah C, Shlens J. Conditional image synthesis with auxiliary classifier GANS[C]//Proc of International Conference on Machine Learning. New York: ACM Press, 2017: 2642-2651.

[5]Sahu S, Gupta R, Espy-Wilson C. On enhancing speech emotion re-cognition using generative adversarial networks[EB/OL]. (2018-6-18) . https://arxiv.org/abs/1806.06626.

[6]Chatziagapi A, Paraskevopoulos G, Sgouropoulos D, et al. Data augmentation using GANs for speech emotion recognition[C]//Proc of InterSpeech. 2019: 171-175.

[7]Vasquez S, Lewis M. MelNet: a generative model for audio in the frequency domain[EB/OL]. (2019-06-04) . https://arxiv.org/abs/1906.01083.

[8]Engel J, Agrawal K K, Chen Shuo, et al. GANSynth: adversarial neural audio synthesis[EB/OL]. (2019-02-23) . https://arxiv.org/abs/1902.08710.

[9]尹文兵, 高戈, 曾邦, 等. 基于時頻域生成對抗網(wǎng)絡(luò)的語音增強(qiáng)算法[J]. 計(jì)算機(jī)科學(xué), 2022,49(6): 187-192. (Yin Wenbing, Gao Ge, Zeng Bang, et al. Speech enhancement based on time-frequency domain GAN[J]. Computer Science, 2022,49(6):187-192.)

[10]Donahue C, McAuley J, Puckette M. Adversarial audio synthesis[C]//Proc of International Conference on Learning Representations. 2019.

[11]Shao Siyu, Wang Pu, Yan Ruqiang. Generative adversarial networks for data augmentation in machine fault diagnosis[J]. Computers in Industry, 2019,106: 85-93.

[12]Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 2223-2232.

[13]Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2015-11-19) . https://arxiv.org/abs/1511.06434.

[14]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 1-9.

[15]Chollet F. Xception: deep learning with depthwise separable convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1251-1258.

[16]Kumar K, Kumar R, De Boissiere T, et al. MelGAN: generative adversarial networks for conditional waveform synthesis[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. 2019: 14910-14921.

[17]Yang J, Lee J, Kim Y, et al. VocGAN: a high-fidelity real-time vocoder with a hierarchically-nested adversarial network[EB/OL]. (2020-7-30) . https://arxiv.org/abs/2007.15256.

[18]Yang Geng, Yang Shan, Liu Kai, et al. Multi-band MelGAN: faster waveform generation for high-quality text-to-speech[C]//Proc of IEEE Spoken Language Technology Workshop. Piscataway, NJ: IEEE Press, 2021: 492-498.

[19]Kong Zhifeng, Ping Wei, Huang Jiaji, et al. DiffWave: a versatile diffusion model for audio synthesis[EB/OL]. (2020-09-21) . https://arxiv.org/abs/2009.09761.

收稿日期:2023-01-16;修回日期:2023-03-12? 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(71963001);廣西壯族自治區(qū)科技計(jì)劃資助項(xiàng)目(2017AB15008);崇左市科技計(jì)劃資助項(xiàng)目(FB2018001)

作者簡介:許華杰(1974-),男(通信作者),廣西南寧人,副教授,碩導(dǎo),博士,主要研究方向?yàn)槿斯ぶ悄?、聲音信號識別和機(jī)器視覺(hjxu2009@163.com);張勃(1998-),男,陜西西安人,碩士研究生,主要研究方向?yàn)槿斯ぶ悄芎吐曇粜盘柼幚砼c分析.

猜你喜歡
特征融合
多特征融合的粒子濾波紅外單目標(biāo)跟蹤
基于稀疏表示與特征融合的人臉識別方法
一種“客觀度量”和“深度學(xué)習(xí)”共同驅(qū)動的立體匹配方法
多特征融合的紋理圖像分類研究
語譜圖傅里葉變換的二字漢語詞匯語音識別
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識別的分析
基于移動端的樹木葉片識別方法的研究
科技資訊(2017年11期)2017-06-09 18:28:13
基于SIFT特征的港口內(nèi)艦船檢測方法
融合整體與局部特征的車輛型號識別方法
武清区| 玉溪市| 深泽县| 白河县| 隆回县| 平度市| 新巴尔虎右旗| 西丰县| 南木林县| 铁力市| 醴陵市| 合山市| 蓬溪县| 吉木乃县| 闸北区| 淮南市| 赣榆县| 郎溪县| 远安县| 盱眙县| 曲阳县| 桑日县| 琼海市| 宣威市| 邹平县| 马边| 乐陵市| 安国市| 公安县| 和田县| 宁化县| 晋宁县| 普兰店市| 清新县| 伊宁市| 万荣县| 河西区| 和平区| 温宿县| 自治县| 阳山县|