葛軼洲,許 翔,楊鎖榮,周 青,申富饒
1.通信信息控制和安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,浙江 嘉興 314033
2.中國(guó)電子科技集團(tuán)公司 第三十六研究所,浙江 嘉興 314033
3.計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)),南京 210023
深度學(xué)習(xí)在計(jì)算機(jī)視覺、自然語(yǔ)言處理等多個(gè)機(jī)器學(xué)習(xí)的子領(lǐng)域上均取得了耀眼的成績(jī),這歸功于越來越龐大復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。以圖像分類任務(wù)為例,解決這類問題的網(wǎng)絡(luò)層數(shù)由2012 年的8 層增加到如今的101 層,甚至有人嘗試過1 202 層的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1]。神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,意味著待學(xué)習(xí)參數(shù)數(shù)量的增加。為了學(xué)習(xí)更多的參數(shù),就需要更多的訓(xùn)練數(shù)據(jù)。當(dāng)前效果最好的自然語(yǔ)言處理模型GPT-3,其參數(shù)量達(dá)到了1 700 億,為此需要45 TB 的數(shù)據(jù)進(jìn)行訓(xùn)練[2]。盡管GPT-3 的情況較為極端,但想要將最先進(jìn)的模型應(yīng)用到一個(gè)現(xiàn)實(shí)任務(wù)時(shí),經(jīng)常面臨數(shù)據(jù)不足的問題,數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)運(yùn)而生。
“數(shù)據(jù)增強(qiáng)”一詞還沒有一個(gè)統(tǒng)一的定義,數(shù)據(jù)增強(qiáng)可以認(rèn)為是基于少量樣本構(gòu)造出更多樣本以擴(kuò)充數(shù)據(jù)量的方法。以數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)用最廣泛的計(jì)算機(jī)視覺任務(wù)為例,通過對(duì)一張圖片進(jìn)行旋轉(zhuǎn)(rotations)、翻轉(zhuǎn)(flipping)、裁剪(cropping)等操作,就可以把一張圖片“增強(qiáng)”成至少四張圖片。若對(duì)數(shù)據(jù)集中的所有圖片都進(jìn)行類似的操作,該數(shù)據(jù)集可以增加到原來的四倍。
數(shù)據(jù)增強(qiáng)一般被認(rèn)為是在訓(xùn)練數(shù)據(jù)集上實(shí)施的操作,在訓(xùn)練前進(jìn)行??梢赃x擇先對(duì)數(shù)據(jù)集整體進(jìn)行操作,再把增強(qiáng)后的數(shù)據(jù)集送入整個(gè)機(jī)器學(xué)習(xí)流程的后續(xù)部分,這種方法被稱為線下增強(qiáng)(offline augmentation)。這種方法會(huì)顯式地增加數(shù)據(jù)集的大小,只適用于數(shù)據(jù)較少的情況。更為常用的是線上增強(qiáng)(online augmentation),對(duì)即將送入到模型的每一批(batch)數(shù)據(jù)執(zhí)行轉(zhuǎn)換,不必顯式地占用磁盤空間?,F(xiàn)有的機(jī)器學(xué)習(xí)框架實(shí)現(xiàn)的圖片增強(qiáng)方法大多為線上增強(qiáng)方法,并基于GPU 進(jìn)行加速[3]。本文介紹的針對(duì)序列數(shù)據(jù)的增強(qiáng)大多采用線下增強(qiáng)方法。本文將先介紹針對(duì)序列數(shù)據(jù)的數(shù)據(jù)增強(qiáng)的基礎(chǔ)方法,再介紹基于深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法。
不同于圖像數(shù)據(jù),序列數(shù)據(jù)的樣本間具有時(shí)序關(guān)系,因此對(duì)序列數(shù)據(jù)進(jìn)行增強(qiáng)時(shí)要特別關(guān)注新生成樣本間的時(shí)序關(guān)系。序列數(shù)據(jù)的類型很多,如連續(xù)取值的時(shí)間序列數(shù)據(jù)、離散取值的文本數(shù)據(jù)、音頻數(shù)據(jù)等。盡管數(shù)據(jù)類型不同,但應(yīng)用的數(shù)據(jù)增強(qiáng)方法背后有共通的設(shè)計(jì)思路,例如翻轉(zhuǎn)、拉伸或添加噪聲等。
本章主要介紹在各類序列數(shù)據(jù)上通用的基于人們的直觀經(jīng)驗(yàn)設(shè)計(jì)的數(shù)據(jù)增強(qiáng)基礎(chǔ)方法。圖1[4](a)展示了一個(gè)原始的時(shí)間序列,本章將基于此展示部分方法的效果。
Fig.1 Data augmentation methods applied on time series圖1 在時(shí)間序列上應(yīng)用的一些數(shù)據(jù)增強(qiáng)方法
幾何變換(geometric transformations)是最簡(jiǎn)單和常用的數(shù)據(jù)增強(qiáng)方法,如變換取值維度的翻轉(zhuǎn)、縮放(scaling)或變換時(shí)間維度的窗口規(guī)整(window warping)[4]等,分別如圖1(b)~(d)所示。圖中藍(lán)色虛線是原始序列,紅色實(shí)線是變換序列(下同)。類似“翻轉(zhuǎn)”方法也可以應(yīng)用在時(shí)間維度上,被稱作時(shí)間鏡像操作[5]。窗口規(guī)整、下采樣(down sampling)[6]等操作會(huì)改變序列長(zhǎng)度,可能需要引入額外操作來保持整體長(zhǎng)度不變。
應(yīng)用不同幾何變換會(huì)產(chǎn)生不同的結(jié)果。例如,對(duì)于異常檢測(cè)任務(wù),縮放操作可能會(huì)將異常值縮放到正常范圍內(nèi),窗口規(guī)整就不會(huì);窗口規(guī)整或下采樣操作可能會(huì)丟失異常點(diǎn);翻轉(zhuǎn)操作不適合預(yù)測(cè)任務(wù),因?yàn)椴僮鲝氐赘淖兞嗽蛄械内厔?shì)??偠灾瑤缀巫儞Q方法相對(duì)簡(jiǎn)單、直觀,易于結(jié)合具體任務(wù)分析不同操作的合理性,但每次只對(duì)一個(gè)序列進(jìn)行操作,沒有考慮數(shù)據(jù)集整體的分布特點(diǎn)。
對(duì)序列數(shù)據(jù)進(jìn)行裁剪,被稱為窗口裁剪(window cropping)或窗口切片(window slicing)[4],通過一個(gè)滑動(dòng)窗口在序列上不斷滑動(dòng)取樣,生成多個(gè)長(zhǎng)度更短的新序列。可將新序列拉長(zhǎng)到與原序列長(zhǎng)度相同,如圖1(e)所示;或在采樣過程中引入隨機(jī)性,只保留部分新序列。將這種方法應(yīng)用在異常檢測(cè)任務(wù)時(shí)要小心異常點(diǎn)是否被裁去。
對(duì)于自然語(yǔ)言文本,類似的做法是隨機(jī)刪除(random deletion)[7]。針對(duì)文本數(shù)據(jù)的很多數(shù)據(jù)增強(qiáng)方法會(huì)改變文本長(zhǎng)度,但自然語(yǔ)言模型對(duì)于文本長(zhǎng)度并不敏感,長(zhǎng)度的變化不影響數(shù)據(jù)進(jìn)入后續(xù)的訓(xùn)練流程。
在訓(xùn)練數(shù)據(jù)中添加噪聲被認(rèn)為是防止機(jī)器學(xué)習(xí)模型過擬合的有效手段。對(duì)于數(shù)值型序列數(shù)據(jù),可以對(duì)每一個(gè)取值隨機(jī)地添加一定的噪聲來生成新的序列[4,8],且不影響序列的整體性質(zhì)和標(biāo)簽信息,如圖1(f)所示。最常被用來添加的噪聲是高斯噪聲(Gaussian noise)。
除時(shí)間域外,頻率域也可實(shí)現(xiàn)類似操作。時(shí)間域上的序列經(jīng)過傅里葉變換后可以得到其在頻率域的振幅譜(amplitude spectrum)和相位譜(phase spectrum)。在振幅譜上隨機(jī)選擇區(qū)間,用基于原始振幅的統(tǒng)計(jì)參數(shù)重新生成一段信號(hào)替換,如圖2[9](b)所示;在相位譜上隨機(jī)選擇區(qū)間并添加白噪聲(white noise),如圖2(c)所示。在時(shí)間域?qū)Ρ扔眠@種方法的前后效果如圖2(a)所示。這種方法不改變序列的整體性質(zhì)。
Fig.2 Data augmentation on frequency domain圖2 在頻率域進(jìn)行數(shù)據(jù)增強(qiáng)
噪音也可添加到音頻上模擬嘈雜的環(huán)境[10],常用信噪比(signal to noise ratio,SNR)量化。
也可向自然語(yǔ)言文本添加噪音,如用一個(gè)雙向語(yǔ)言模型來生成新詞,以替換原始文本中某個(gè)單詞[11]?;谡Z(yǔ)言模型產(chǎn)生的單詞可以保證文本中的語(yǔ)法、語(yǔ)義等信息不被破壞。一個(gè)簡(jiǎn)化版本是用同義詞替換的方法替代上述的語(yǔ)言模型[7],將過程簡(jiǎn)化為查表,降低計(jì)算量。相關(guān)方法還有隨機(jī)交換(random swap)和同義詞的隨機(jī)插入(random insertion)。這兩種方法連同前述的隨機(jī)刪除和同義詞替換方法,被統(tǒng)一命名為EDA(easy data augmentation)方法[7],已被證明在文本分類上有效,但相對(duì)本文后續(xù)方法而言EDA的數(shù)據(jù)生成過程較為機(jī)械。
時(shí)頻變換是常見的信號(hào)分析思路,同樣可用于數(shù)據(jù)增強(qiáng)。在頻率域添加噪聲是方法之一。
有研究者首先對(duì)傳感器信號(hào)應(yīng)用短時(shí)傅里葉變換(short Fourier transform,STFT)得到具有時(shí)序關(guān)系的譜特征,再在譜特征上應(yīng)用兩種數(shù)據(jù)增強(qiáng)方法[12]。一是對(duì)每一個(gè)屬性做局部平均,將局部平均序列拼接在原始序列的后面;二是打亂時(shí)序順序(shuffling),以增加數(shù)據(jù)的方差。這種方法會(huì)使得數(shù)據(jù)尺寸發(fā)生變化。由于STFT 變換得到的譜特征仍然具有時(shí)序關(guān)系,這種數(shù)據(jù)增強(qiáng)方法也被認(rèn)為是在時(shí)間-頻率域上進(jìn)行的。
賦值調(diào)整傅里葉變換(amplitude adjusted Fourier transform,AAFT)[13]及由其衍生的IAAFT(improved amplitude adjusted Fourier transform)[14]可實(shí)現(xiàn)只在頻率域進(jìn)行數(shù)據(jù)增強(qiáng)。Lee 等人將這些方法應(yīng)用在信號(hào)分類上,可以令原本只有約45%~60%的準(zhǔn)確率提高到80%以上[15]。這類方法很好地保留了時(shí)域和頻域特征,但不適合短周期信號(hào)。
對(duì)于音頻數(shù)據(jù),SpecAugment[16]是一種在時(shí)間-頻率域上做數(shù)據(jù)增強(qiáng)的方法,在信號(hào)的對(duì)數(shù)梅爾頻譜(log Mel spectrogram)上操作。圖3[16](a)展示了一段信號(hào)的對(duì)數(shù)梅爾頻譜,頻譜圖的橫軸是時(shí)間軸,縱軸是頻率大小。在時(shí)間軸上,可以進(jìn)行時(shí)間規(guī)整(time warping)或時(shí)間掩蔽(time masking),分別如圖3(b)和圖3(c)。時(shí)間規(guī)整是在序列中隨機(jī)選擇一個(gè)時(shí)間點(diǎn),拉伸該點(diǎn)之前(之后)的信號(hào),壓縮該點(diǎn)之后(之前)的信號(hào),保證序列的長(zhǎng)度不發(fā)生改變;時(shí)間掩蔽是在整個(gè)序列中用指定值填充一隨機(jī)片段。在頻率軸也可以進(jìn)行類似的掩蔽操作,形成圖3(d)的效果,被稱為頻率掩蔽(frequency masking)。實(shí)驗(yàn)證明該方法在語(yǔ)音識(shí)別任務(wù)上可以顯著降低字錯(cuò)誤率(word error rate,WER)。上述方法都是針對(duì)單個(gè)序列做數(shù)據(jù)增強(qiáng),生成的效率更高,但只利用序列本身的性質(zhì),沒有考慮數(shù)據(jù)集整體的分布。
Fig.3 Data augmentation on log Mel spectrogram圖3 對(duì)信號(hào)的對(duì)數(shù)梅爾頻譜圖進(jìn)行數(shù)據(jù)增強(qiáng)
研究時(shí)間序列的一種常見思路是用STL(seasonal and trend decomposition using Loess)[17]方法將序列分解為基礎(chǔ)項(xiàng)、趨勢(shì)項(xiàng)、季節(jié)項(xiàng)和殘差項(xiàng),前三者是確定性部分,包含了原序列的絕大部分信息。為了在新序列中保持這部分信息,Kegel 等人基于相似矩陣(similarity matrix)和最近鄰搜索等方法為不同成分分配權(quán)重,組合新的時(shí)間序列[18]。隨機(jī)的殘差項(xiàng)則利用其分布特征和自相關(guān)特征重新建模生成。
Bergmeir 等人的方法更為簡(jiǎn)單。對(duì)時(shí)間序列信號(hào)進(jìn)行分解后得到除趨勢(shì)項(xiàng)和季節(jié)項(xiàng)以外的剩余項(xiàng)(reminder)。對(duì)剩余項(xiàng)進(jìn)行有放回的重復(fù)采樣(bootstrap),可以得到新的剩余項(xiàng)序列,再和前兩者混合成新的時(shí)間序列[19]。這種方法很好地保留了原始時(shí)間序列所具有的性質(zhì)。在M3 數(shù)據(jù)集[20]上的實(shí)驗(yàn)證明這種方法在月頻數(shù)據(jù)上對(duì)預(yù)測(cè)精度的提升最為突出,但在長(zhǎng)度較短的序列數(shù)據(jù)上表現(xiàn)一般。
二者相比,第一種方法以數(shù)據(jù)集為單位產(chǎn)生新的序列,第二種方法以序列為單位產(chǎn)生新的序列。第一種方法更能利用數(shù)據(jù)集整體的分布特征來進(jìn)行數(shù)據(jù)增強(qiáng),避免出現(xiàn)使用第二種方法可能會(huì)發(fā)生的對(duì)不典型的序列進(jìn)行增強(qiáng)的情況。
混響(reverberation)可以看作是在音頻數(shù)據(jù)上一種基于混合的數(shù)據(jù)增強(qiáng)方法?;祉懸辉~本身描述的是在如音樂廳、禮堂等地發(fā)生的室內(nèi)聲波經(jīng)過多次反射和吸收而產(chǎn)生的一種聲音現(xiàn)象,在計(jì)算機(jī)上可以通過混合多個(gè)不同強(qiáng)度且具有一定時(shí)間差的聲音序列來模擬混響效果,用于數(shù)據(jù)增強(qiáng)[21]。相比于SpecAugment,混響以數(shù)據(jù)集為單位生成新的數(shù)據(jù),但是并沒有學(xué)習(xí)和利用數(shù)據(jù)之間的內(nèi)在關(guān)系。彌補(bǔ)這一缺點(diǎn)的是后續(xù)的基于深度學(xué)習(xí)的模型。
異常標(biāo)簽擴(kuò)展(label expansion)是一種僅針對(duì)異常檢測(cè)任務(wù)的數(shù)據(jù)增強(qiáng)方法。出于類別平衡的目的,人們想要增加數(shù)量較少的異常標(biāo)簽的數(shù)量。Gao等人利用了異常的模糊性和持續(xù)性,將與已經(jīng)標(biāo)注為異常的數(shù)據(jù)點(diǎn)在時(shí)間上和屬性取值上都接近的點(diǎn)也標(biāo)注成異常點(diǎn),來達(dá)到增加異常數(shù)據(jù)點(diǎn)的目的。圖4[9]對(duì)比了原始序列數(shù)據(jù)和異常標(biāo)簽擴(kuò)展后的數(shù)據(jù)。這種方法操作方便,在雅虎數(shù)據(jù)集[22]上的實(shí)驗(yàn)證明了該方法的有效性。
Fig.4 Abnormal label expansion圖4 異常標(biāo)簽擴(kuò)展
使用數(shù)據(jù)增強(qiáng)方法是為避免模型在較小的原始數(shù)據(jù)集上發(fā)生過擬合。如果像中小學(xué)的教輔材料那樣對(duì)難題進(jìn)行重點(diǎn)突破,可以構(gòu)造出模型學(xué)不好的數(shù)據(jù),讓模型顯式地在這些數(shù)據(jù)上也進(jìn)行學(xué)習(xí),就有可能提高模型的“答題能力”,從而取得更好的精度或準(zhǔn)確度?;谏蓪?duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)的一系列方法即出于此目的,生成人類無法分辨但可以讓模型判斷錯(cuò)誤的數(shù)據(jù)。
生成對(duì)抗網(wǎng)絡(luò)最先應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域,應(yīng)用在序列數(shù)據(jù)上的方法可以看作是這些方法的擴(kuò)展。因此,本章會(huì)介紹一些應(yīng)用在圖像數(shù)據(jù)上的研究成果,幫助讀者更好地理解這類基于深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方法。
生成式對(duì)抗網(wǎng)絡(luò)直接生成能“以假亂真”的與訓(xùn)練數(shù)據(jù)非常接近的新數(shù)據(jù)。Goodfellow 等人在2014年提出的GAN[23]是后續(xù)深度卷積GAN(deep convolutional generative adversarial network,DCGAN)[24]、CycleGAN[25]等各類衍生結(jié)構(gòu)的基礎(chǔ)。GAN 由生成器(generator)和判別器(discriminator)組成,如圖5[26]所示。判別器判斷樣本是原始數(shù)據(jù)集的還是模型生成的,而生成器盡可能地最大化判別器判斷錯(cuò)誤的概率,整個(gè)模型的優(yōu)化是一個(gè)二元極大極小博弈(minimax two-player game)。如今深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為了生成器和判別器的默認(rèn)選擇,整個(gè)GAN 的優(yōu)化都通過反向傳播來實(shí)現(xiàn)。
Fig.5 Generative adversarial network圖5 生成式對(duì)抗網(wǎng)絡(luò)
生成器把一個(gè)簡(jiǎn)單的分布映射到一個(gè)和真實(shí)數(shù)據(jù)集相近的復(fù)雜分布,這一簡(jiǎn)單的分布可以視作一種隱分布。如果同時(shí)得到把復(fù)雜分布映射回一種隱分布的方法,這種方法就可以被用來做特征表示,雙向GAN(bidirectional GAN,BiGAN)[27]就是出于此目的而被發(fā)明的一種無監(jiān)督方法。其學(xué)習(xí)到的特征表示不僅可以用作后續(xù)監(jiān)督學(xué)習(xí)模型的輸入,從數(shù)據(jù)增強(qiáng)的角度,GAN 也可以在這個(gè)特征空間生成新的數(shù)據(jù),而不一定在原始的輸入空間生成。有人認(rèn)為GAN是最值得期待能用于數(shù)據(jù)增強(qiáng)的生成式建模方法[28]。
DCGAN[24]利用了CNN 的特征提取能力,條件GAN(conditional GAN,CGAN)[29]則同時(shí)在生成器和判別器引入額外的條件輸入,讓模型生成指定標(biāo)簽的數(shù)據(jù)。也有人設(shè)計(jì)不同的損失函數(shù)應(yīng)用在GAN 結(jié)構(gòu)上,具體實(shí)現(xiàn)有CycleGAN[25]、StarGAN 及其變體[30]等。
后續(xù)會(huì)介紹將RNN(recurrent neural network)和GAN 結(jié)合起來應(yīng)用在序列數(shù)據(jù)上的方法。盡管RNN及其變種被認(rèn)為是處理序列數(shù)據(jù)的默認(rèn)選擇,但實(shí)驗(yàn)證明CNN在處理序列數(shù)據(jù)方面的能力并不亞于RNN,還擁有可以并行化等優(yōu)點(diǎn),用基于CNN 的GAN 來生成序列數(shù)據(jù)自然而然地成為了一個(gè)選擇?;贑GAN的時(shí)間條件GAN(time-conditional GAN,T-CGAN)[31]是在GAN 上使用一維卷積的工作之一,將時(shí)間戳作為條件輸入使模型可以處理時(shí)間間隔不規(guī)則的情形。同樣使用了一維卷積的ehrGAN[32]被用于增強(qiáng)電子健康記錄數(shù)據(jù),半監(jiān)督學(xué)習(xí)的引入讓生成樣本和原始樣本的類別更有可能一致。也有人嘗試將RNN 和CNN結(jié)合起來用在生成對(duì)抗網(wǎng)絡(luò):BiLSTM-CNN GAN[33]將RNN 用于生成器,將CNN 用于判別器。RNN 生成時(shí)間序列可以充分利用時(shí)序依賴性,基于前一時(shí)刻的值決定下一時(shí)刻的值;用CNN 做判別器可以在不影響準(zhǔn)確度的基礎(chǔ)上通過并行化加快判別速度。
對(duì)于音頻數(shù)據(jù),有人參考在頻率域進(jìn)行數(shù)據(jù)增強(qiáng)的方法,將頻譜圖看作圖片,用DCGAN 生成新的頻譜圖,如SpecGAN[34]。將DCGAN 擴(kuò)展到一維的情況,直接對(duì)音頻信號(hào)應(yīng)用一維CNN 得到WaveGAN。在不同的評(píng)價(jià)標(biāo)準(zhǔn)下,SpecGAN 和WaveGAN 二者各有優(yōu)劣[6]。SpecGAN 更能充分利用數(shù)據(jù)間的內(nèi)在關(guān)系,WaveGAN 簡(jiǎn)化了增強(qiáng)流程,生成的數(shù)據(jù)和原始數(shù)據(jù)更加相似。不過二者都只能生成1 s 左右的短音頻,離實(shí)際應(yīng)用仍有差距。
字詞天生的離散特性為GAN 應(yīng)用在自然語(yǔ)言處理任務(wù)上增加了難度。前述方法往往只針對(duì)實(shí)值的、具有連續(xù)特征的數(shù)據(jù)。生成字詞的最后一步是選擇最大可能性的單詞,這一argmax 操作是不可導(dǎo)的。若直接利用現(xiàn)有的語(yǔ)言生成模型作為生成器,整個(gè)模型無法反向傳播判別器計(jì)算的損失。一種方法是引入自編碼器(auto-encoder),利用GAN 生成其中的連續(xù)的編碼表示[35]。不過性能優(yōu)良的自編碼器需要大量的真實(shí)語(yǔ)料做訓(xùn)練,與進(jìn)行數(shù)據(jù)增強(qiáng)的目的相悖。
類比于DCGAN 和CGAN,有研究者將RNN 引入GAN 設(shè)計(jì)出循環(huán)GAN(recurrent GAN,RGAN)和循環(huán)條件GAN(recurrent conditional GAN,RCGAN)[36],生成實(shí)值的多維時(shí)間序列數(shù)據(jù),如圖6[36]所示。RGAN在每一時(shí)間點(diǎn)都根據(jù)不同的隨機(jī)數(shù)種子生成一個(gè)隨機(jī)值,交給生成器生成一段時(shí)間序列;判別器在每一時(shí)間點(diǎn)都給出一個(gè)關(guān)于當(dāng)前時(shí)間序列是否為真實(shí)序列的判斷,最后通過投票機(jī)制得到判別結(jié)果。RCGAN在此基礎(chǔ)上引入條件輸入。在醫(yī)學(xué)領(lǐng)域的二分類問題上,盡管使用RGAN 生成的數(shù)據(jù)進(jìn)行訓(xùn)練并沒有直接使用真實(shí)數(shù)據(jù)訓(xùn)練的效果好,但是考慮到醫(yī)學(xué)領(lǐng)域的很多數(shù)據(jù)難以獲得等現(xiàn)實(shí)問題,這種方法仍然具有其應(yīng)用價(jià)值。
Fig.6 RGAN and RCGAN圖6 RGAN 和RCGAN
時(shí)間序列GAN(time-series GAN,TimeGAN)[37]則在基于RNN 的GAN 的基礎(chǔ)上引入可學(xué)習(xí)的嵌入空間(embedding space),用監(jiān)督學(xué)習(xí)和對(duì)抗學(xué)習(xí)共同訓(xùn)練。用有監(jiān)督的損失函數(shù)指導(dǎo)模型學(xué)習(xí),可以讓模型學(xué)習(xí)到每一時(shí)間點(diǎn)的條件分布,而不是只讓模型判斷每一個(gè)序列的真假;嵌入網(wǎng)絡(luò)用來降低對(duì)抗學(xué)習(xí)空間的維度。在股票、能源等多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明TimeGAN 顯著優(yōu)于RCGAN 等模型,其中TimeGAN 的有監(jiān)督的損失函數(shù)、嵌入網(wǎng)絡(luò)和共同訓(xùn)練這三點(diǎn)都發(fā)揮了非常重要的作用。
在實(shí)際應(yīng)用中,一個(gè)數(shù)據(jù)集可能包含從多種分布產(chǎn)生的時(shí)間序列??梢詫?shù)據(jù)分成多個(gè)子集,對(duì)每一個(gè)子集應(yīng)用一個(gè)GAN 來生成符合具有這一部分子集特點(diǎn)的數(shù)據(jù),最后將所有GAN 生成的數(shù)據(jù)匯總起來。這種使用多個(gè)GAN 的方法的有效性在多種數(shù)據(jù)集上被驗(yàn)證[38-39],但會(huì)引入較大計(jì)算量。
基于RNN 的GAN 在音頻數(shù)據(jù)上的應(yīng)用多集中在音樂生成任務(wù)上。音樂被視為是離散的符號(hào)序列,同樣會(huì)面對(duì)與用GAN 生成自然語(yǔ)言文本類似的不可導(dǎo)問題。為了解決這一問題,在生成器和判別器都使用了RNN 的C-RNN-GAN[40]將每一時(shí)刻的音樂特征化為了連續(xù)值,SeqGAN[41]則引入了強(qiáng)化學(xué)習(xí)的策略梯度方法,但只在生成器使用RNN。用于人聲和伴奏分離任務(wù)的G-RNN-GAN[42]將判別器簡(jiǎn)化成了多層感知機(jī)。簡(jiǎn)單的結(jié)構(gòu)有助于提高模型效率,但是該方法的作者并沒有證明使用多層感知機(jī)的充分性,判別器的性能提升空間仍有待探索。DCRGAN(deep convolutional recurrent generative adversarial network)[43]是將RNN 結(jié)構(gòu)的生成器用于語(yǔ)音增強(qiáng)任務(wù)的一例,而判別器使用CNN。相比于CNN,RNN 在音頻數(shù)據(jù)上的應(yīng)用很少且多只在生成器上應(yīng)用,判別器使用CNN 等可以并行化的結(jié)構(gòu)有助于提高判別效率。
增強(qiáng)自然語(yǔ)言文本同樣存在不可導(dǎo)問題。前述的引入自編碼器的思路也可以在編碼空間使用RNN生成和判別[44],但相應(yīng)的缺陷依然存在。有人提出了更為簡(jiǎn)單的方法,用可導(dǎo)的Gumbel-Softmax 函數(shù)替代原來的argmax 操作[45]。這種方法有對(duì)現(xiàn)有模型的修改小,“即插即用”的優(yōu)點(diǎn),但只被證明在簡(jiǎn)單符號(hào)序列上有效。整體而言,用GAN 做語(yǔ)料生成的技術(shù)并不成熟,距離工業(yè)應(yīng)用有一定差距。
本文以應(yīng)用在不同序列數(shù)據(jù)上的增強(qiáng)方法背后的共同點(diǎn)為線索,介紹了在時(shí)間序列、音頻、自然語(yǔ)言等多種序列數(shù)據(jù)上進(jìn)行數(shù)據(jù)增強(qiáng)的方法,分別如表1~表3 所示。這些方法更多地適用于分類問題,而應(yīng)用在其他任務(wù)上的數(shù)據(jù)增強(qiáng)方法還有待更多的研究。
Table 1 Comparison of augmentation methods for time series表1 時(shí)間序列數(shù)據(jù)的增強(qiáng)方法比較
Table 2 Comparison of augmentation methods for audio data表2 音頻數(shù)據(jù)的增強(qiáng)方法比較
Table 3 Comparison of augmentation methods for text data表3 文本數(shù)據(jù)的增強(qiáng)方法比較
數(shù)據(jù)增強(qiáng)方法一般被應(yīng)用在訓(xùn)練數(shù)據(jù)集上,實(shí)際也可以應(yīng)用在測(cè)試數(shù)據(jù)集上,實(shí)現(xiàn)類似于集成學(xué)習(xí)的方法。這樣的方法被稱為測(cè)試時(shí)間的數(shù)據(jù)增強(qiáng)(test-time augmentation),用以和常見的訓(xùn)練時(shí)間的數(shù)據(jù)增強(qiáng)(train-time augmentation)相區(qū)別。
例如在時(shí)間序列分類任務(wù)中,對(duì)一個(gè)原始序列應(yīng)用窗口切片方法得到多個(gè)序列,分別預(yù)測(cè)這些序列的標(biāo)簽,再投票決定原始序列的標(biāo)簽輸出[4]。在通用的UCI 數(shù)據(jù)集上的實(shí)驗(yàn)表明了該方法的有效性。類似的方法也被應(yīng)用在醫(yī)學(xué)領(lǐng)域[46-47],減少了以高置信度輸出錯(cuò)誤答案的情況。這類方法可以幫助模型輸出更好的不確定性估計(jì),但是會(huì)顯著增加測(cè)試時(shí)間。
不同于常見的對(duì)輸入數(shù)據(jù)變換的增強(qiáng)方法,DisturbLabel[48]是對(duì)標(biāo)簽進(jìn)行修改,在訓(xùn)練過程中的每一輪引入小部分標(biāo)簽被故意改錯(cuò)的數(shù)據(jù)。盡管這種做法是反直覺的,但這種方法被證明在心電圖數(shù)據(jù)[47]和調(diào)制信號(hào)[49]等多個(gè)序列數(shù)據(jù)的分類任務(wù)中有效。在信噪比較高時(shí)DisturbLabel 的效果最好。不過整體而言這種方法應(yīng)用在序列數(shù)據(jù)上的情況較少,有待后續(xù)研究探索更多在序列數(shù)據(jù)上的應(yīng)用。
如果在使用數(shù)據(jù)增強(qiáng)方法時(shí)指定生成那些原始數(shù)據(jù)量較少的類的樣本,數(shù)據(jù)增強(qiáng)方法可以用來緩解數(shù)據(jù)不平衡的問題。前述的異常標(biāo)簽擴(kuò)展方法就是為了增加樣本數(shù)量較少的異常數(shù)據(jù)而設(shè)計(jì)的。CycleGAN 被用來生成情緒分類(emotion classification)數(shù)據(jù)中出現(xiàn)次數(shù)較少的情緒標(biāo)簽,使得分類任務(wù)的精度提升5%~10%[50];GAN 的一個(gè)變種對(duì)抗自編碼器(adversarial autoencoder,AAE)[51]被應(yīng)用在異常檢測(cè)任務(wù)中生成不頻繁但是正常的數(shù)據(jù)點(diǎn),幫助異常檢測(cè)算法更好地判斷哪些是真正的異常點(diǎn)[52]。這同時(shí)也證明了數(shù)據(jù)增強(qiáng)技術(shù)可以應(yīng)用在無監(jiān)督任務(wù)中并取得不錯(cuò)的效果。在這些例子中,GAN 一類的方法可以看成是一種聰明的過采樣的方法。
在做數(shù)據(jù)增強(qiáng)時(shí)需要特別留心的一點(diǎn),是使用增強(qiáng)方法后新得到的數(shù)據(jù)的訓(xùn)練目標(biāo)(如分類標(biāo)簽)是否和原始數(shù)據(jù)一致。比如在異常檢測(cè)任務(wù)中應(yīng)用裁剪方法可能會(huì)將異常點(diǎn)裁剪出序列,此時(shí)序列的標(biāo)簽應(yīng)是一個(gè)正常序列。不改變訓(xùn)練目標(biāo)的數(shù)據(jù)增強(qiáng)方法被稱為“標(biāo)簽保持的變換”(label-preserving transformation)[28]。而當(dāng)使用的方法不滿足這一條件時(shí),可能需要人工重新標(biāo)注新生成的數(shù)據(jù),這時(shí)需要平衡數(shù)據(jù)增強(qiáng)的效果和人工標(biāo)注的成本。
本篇文章所提及的數(shù)據(jù)增強(qiáng)方法大多適用于分類任務(wù),對(duì)于其他任務(wù)的研究則相對(duì)匱乏。數(shù)據(jù)增強(qiáng)方法的好壞不能一概而論,具體應(yīng)使用的方法取決于具體任務(wù)。例如,盡管CGAN 是基于GAN 衍生出來的,且實(shí)驗(yàn)證明在許多任務(wù)上CGAN 是優(yōu)于GAN 的,但Sheng 等人針對(duì)兒童語(yǔ)音識(shí)別任務(wù)的研究[53]發(fā)現(xiàn),平均來看GAN 反而優(yōu)于CGAN[4]。有研究者基于具體任務(wù)研究不同數(shù)據(jù)增強(qiáng)方法的優(yōu)劣,或設(shè)計(jì)多種評(píng)價(jià)標(biāo)準(zhǔn)來評(píng)價(jià)方法的好壞,具體可以參考文獻(xiàn)[54]。
使用數(shù)據(jù)增強(qiáng)算法本身往往伴隨著內(nèi)存、訓(xùn)練時(shí)間等資源開銷的增加,使用數(shù)據(jù)增強(qiáng)方法時(shí)應(yīng)平衡任務(wù)效果的提升和引入的資源開銷。另外,本文提及的各類數(shù)據(jù)增強(qiáng)方法可以組合使用,進(jìn)而提升數(shù)據(jù)增強(qiáng)的效果,這已被多個(gè)研究證明[55-56]。即使是同一個(gè)增強(qiáng)方法也可以在同一批數(shù)據(jù)上重復(fù)使用。圖7[12]展示了一個(gè)對(duì)序列數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)的流程例,其中局部平均這一方法被重復(fù)使用了兩次。
Fig.7 Flow chart of data augmentation on sequence data圖7 對(duì)序列數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)的流程圖
不難發(fā)現(xiàn),無論是序列數(shù)據(jù),還是圖片數(shù)據(jù),數(shù)據(jù)增強(qiáng)研究和應(yīng)用最為廣泛的往往是醫(yī)療領(lǐng)域的數(shù)據(jù)[15,32-33,36,38,56-57]。一些疾病的診斷依賴于專業(yè)醫(yī)生在體征信號(hào)中根據(jù)時(shí)序關(guān)系的異常來發(fā)現(xiàn),但由于保護(hù)患者隱私、商業(yè)競(jìng)爭(zhēng)等原因,醫(yī)學(xué)數(shù)據(jù)往往是匱乏的。GAN 等方法不是簡(jiǎn)單地對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行復(fù)制,因此基于GAN 來生成相關(guān)的人造的醫(yī)療數(shù)據(jù)不僅可以起到增加訓(xùn)練數(shù)據(jù)的作用,共享相關(guān)的生成數(shù)據(jù)也不會(huì)侵犯?jìng)€(gè)人隱私。這也是GAN 被廣泛應(yīng)用在醫(yī)療數(shù)據(jù)上的一個(gè)原因。
隨著強(qiáng)化學(xué)習(xí)的興起,出現(xiàn)了基于強(qiáng)化學(xué)習(xí)進(jìn)行數(shù)據(jù)增強(qiáng)的工作。強(qiáng)化學(xué)習(xí)模型通過與環(huán)境的不斷交互,可以自己挑選出最優(yōu)的數(shù)據(jù)增強(qiáng)方法[58]或組合出最優(yōu)的數(shù)據(jù)增強(qiáng)流程[59]。
回顧增強(qiáng)文本數(shù)據(jù)或音樂數(shù)據(jù)時(shí)出現(xiàn)的不可導(dǎo)問題,強(qiáng)化學(xué)習(xí)解決不可導(dǎo)問題的方法給這一問題的解決提供了思路,如Hu 等人的方法[60]、TextGAIL(text generative adversarial imitation learning)[61]、CTGAN(conditional text generative adversarial network)[62]等。不過強(qiáng)化學(xué)習(xí)方法本身的魯棒性差、調(diào)參困難等問題尚未得到解決,應(yīng)用到數(shù)據(jù)增強(qiáng)時(shí)這些問題依然存在,相關(guān)方法還有很大的探索空間。
基于深度學(xué)習(xí)的數(shù)據(jù)增強(qiáng)是當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域研究最為火熱的子領(lǐng)域之一,還有非常多的問題供研究者們探索,如結(jié)合元學(xué)習(xí)(meta-learning)和數(shù)據(jù)增強(qiáng)[63],結(jié)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在特征空間進(jìn)行數(shù)據(jù)增強(qiáng),用強(qiáng)化學(xué)習(xí)方法來增強(qiáng)數(shù)據(jù)等。在討論部分簡(jiǎn)單介紹了在測(cè)試階段或?qū)?biāo)簽信息進(jìn)行數(shù)據(jù)增強(qiáng)的方法,這方面的更多研究成果也值得期待。
有人可能認(rèn)為數(shù)據(jù)增強(qiáng)技術(shù)更像是一個(gè)應(yīng)用問題,依賴于深度學(xué)習(xí)技術(shù)的發(fā)展而無法給深度學(xué)習(xí)的理論研究帶來幫助。事實(shí)上一些數(shù)據(jù)增強(qiáng)方法對(duì)于效果提升的幫助的原因還不清楚,了解其背后作用的機(jī)理不僅有助于人們更好地使用、設(shè)計(jì)數(shù)據(jù)增強(qiáng)方法,也可能幫助人們更深入地理解CNN 等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提高神經(jīng)網(wǎng)絡(luò)的可解釋性。