一種高效的基于互學(xué)習(xí)的在線蒸餾系統(tǒng)

2021-02-28 07:27安徽理工大學(xué)

電子世界 2021年23期

安徽理工大學(xué) 胡干

安徽理工大學(xué) 安徽理工大學(xué)環(huán)境友好材料與職業(yè)健康研究院（蕪湖）梁興柱

蒸餾是一種讓較少參數(shù)的學(xué)生模型學(xué)習(xí)大型教師模型知識(shí)的有效方法，然而這樣高性能的教師模型往往很難獲得。因此，一些研究人員提出了一種讓每個(gè)學(xué)生模型相互學(xué)習(xí)的策略，以取代傳統(tǒng)的師生學(xué)習(xí)范式。雖然這種方法最近取得了良好的效果，但學(xué)生網(wǎng)絡(luò)之間的相互學(xué)習(xí)很容易提前達(dá)到飽和。故此提出了一種基于互學(xué)習(xí)的在線蒸餾系統(tǒng)(MLS)用于在線知識(shí)蒸餾，該系統(tǒng)為每個(gè)學(xué)生模型提出了一個(gè)權(quán)重評(píng)估機(jī)制(LFS)和一個(gè)虛擬教師。虛擬教師是通過計(jì)算得到的權(quán)重結(jié)合學(xué)生網(wǎng)絡(luò)的輸出來構(gòu)建的，這樣學(xué)生就可以在下一階段從表現(xiàn)更好的同伴網(wǎng)絡(luò)那里學(xué)到更多知識(shí)。通過將所提出的方法應(yīng)用于三個(gè)公共數(shù)據(jù)集CIFAR10、CIFAR100和Tiny-ImageNet，實(shí)驗(yàn)結(jié)果表明，本文模型是有效的，可行的。

深度神經(jīng)網(wǎng)絡(luò)近幾年在解決一些問題時(shí)展現(xiàn)了它的優(yōu)越性，性能強(qiáng)的大型模型往往運(yùn)行緩慢、笨重并且占據(jù)大量?jī)?nèi)存，這限制了神經(jīng)網(wǎng)絡(luò)在移動(dòng)端的應(yīng)用。為了解決這一問題，很多方法被提出，比如二值化，剪枝，輕量化模型設(shè)計(jì)以及知識(shí)蒸餾等等。知識(shí)蒸餾是一種兩階段模型壓縮方法，一般步驟為預(yù)先訓(xùn)練一個(gè)功能強(qiáng)大的教師模型，然后將處理過的教師知識(shí)傳遞給學(xué)生模型。但是現(xiàn)實(shí)生活中往往得不到教師網(wǎng)絡(luò)，所以基于互學(xué)習(xí)的在線蒸餾方法被提出。該方法通過多個(gè)學(xué)生網(wǎng)絡(luò)之間的相互學(xué)習(xí)從而逼近甚至超過教師模型的精確度，并且分為基于子網(wǎng)絡(luò)和基于子分支兩種形式。在以前的大多數(shù)研究中，忽略了子模型之間的差異性，即使是同一種網(wǎng)絡(luò)結(jié)構(gòu)性能也有所不同。一些研究證明，將多模型系統(tǒng)中的子模型區(qū)別對(duì)待，并且利用其在訓(xùn)練過程中表現(xiàn)出的差異性指導(dǎo)學(xué)習(xí)能提高模型的泛化性。在此研究基礎(chǔ)上，本文提出了一種改進(jìn)的基于互學(xué)習(xí)的在線蒸餾系統(tǒng)(MLS)，通過學(xué)生網(wǎng)絡(luò)間的相互學(xué)習(xí)替代了預(yù)訓(xùn)練的教師網(wǎng)絡(luò)，并且通過自定義的權(quán)重評(píng)估機(jī)制(LFS)利用學(xué)生網(wǎng)絡(luò)之間的差異性指導(dǎo)訓(xùn)練。最后，本文在一些常規(guī)數(shù)據(jù)集上證明了本方法的高效性。

1 傳統(tǒng)的知識(shí)蒸餾

知識(shí)蒸餾(KD)是指在強(qiáng)大的教師網(wǎng)絡(luò)的監(jiān)督下對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行訓(xùn)練，并使用KL散度來擬合教師和學(xué)生之間的軟化輸出。假設(shè)有一個(gè)分類任務(wù)需要處理，則知識(shí)蒸餾的總損失為：

其中e是標(biāo)注的標(biāo)簽分布，zs是學(xué)生模型最后一層輸出經(jīng)過softmax分類層之后的結(jié)果。其中p和q表示學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)產(chǎn)生的軟化概率分布，T為溫度參數(shù)。然后記zt作為老師最后一層的輸出。軟化概率分布p = softmax(zt/T)以及q=softmax(zs/T)。

2 改進(jìn)的基于互學(xué)習(xí)的在線蒸餾系統(tǒng)

傳統(tǒng)的知識(shí)蒸餾分兩階段進(jìn)行，需要提前訓(xùn)練一個(gè)教師模型，教師模型往往很難獲得。本文使用在線蒸餾代替教師-學(xué)生蒸餾模式，并且利用學(xué)生網(wǎng)絡(luò)之間的差異性指導(dǎo)訓(xùn)練。如圖1所示，MLS是一個(gè)新型的基于互學(xué)習(xí)的在線蒸餾系統(tǒng)，通過評(píng)估每個(gè)模型來指導(dǎo)模型訓(xùn)練。LFS是在學(xué)習(xí)過程中根據(jù)模型的性能進(jìn)行動(dòng)態(tài)評(píng)價(jià)的關(guān)鍵模塊。學(xué)生網(wǎng)絡(luò)產(chǎn)生的輸出被LFS產(chǎn)生的權(quán)重加權(quán)，形成一個(gè)虛擬教師，然后學(xué)生通過標(biāo)準(zhǔn)的蒸餾從虛擬教師那里學(xué)習(xí)。為了便于表示，將所有子模型的標(biāo)記為1到m。

圖1 MLS系統(tǒng)結(jié)構(gòu)示意圖

2.1 蒸餾系統(tǒng)目標(biāo)函數(shù)

虛擬教師(Virtual teacher)是在學(xué)習(xí)過程中動(dòng)態(tài)生成的，由LFS模塊產(chǎn)生的權(quán)重和不同子模型的輸出組成：

其中Vi,n是第i個(gè)周期第n個(gè)batch虛擬教師的值，αa,i,n是第a個(gè)子模型在第i個(gè)周期第n個(gè)batch由LFS模塊評(píng)估產(chǎn)生的權(quán)重，za,i,n是第a個(gè)模型在此時(shí)的輸出。LFS模塊的內(nèi)部運(yùn)行細(xì)節(jié)會(huì)在后面給出，則整個(gè)在線蒸餾系統(tǒng)的總目標(biāo)函數(shù)為：

其中β是調(diào)節(jié)軟硬標(biāo)簽的超參數(shù)，是虛擬教師軟化后的值，是第a個(gè)模型在第i個(gè)周期第n個(gè)batch經(jīng)過軟化后的值。

2.2 LFS模塊

LFS模塊是本文提出的在線蒸餾系統(tǒng)中的關(guān)鍵組成部分，它的作用是根據(jù)各個(gè)子模型在當(dāng)前訓(xùn)練階段所表現(xiàn)出的性能給出權(quán)重，表現(xiàn)越好的模型權(quán)重越高，然后以此組成虛擬教師。LFS模塊在上一個(gè)周期結(jié)束時(shí)會(huì)根據(jù)模型在測(cè)試集的表現(xiàn)給出子權(quán)重ba,i-1，然后再結(jié)合當(dāng)前周期上一個(gè)batch上的表現(xiàn)給出子權(quán)重ca,i,n-1，并按照一定的比例進(jìn)行加權(quán)求和得到當(dāng)前batch最終權(quán)重αa,i,n。

綜上所述，LFS的總權(quán)重計(jì)算公式為：

其中ba,i-1與ca,i,n-1分別為L(zhǎng)FS在測(cè)試集以及訓(xùn)練集上計(jì)算而得的子權(quán)重。γi是一個(gè)隨訓(xùn)練進(jìn)行而自動(dòng)調(diào)節(jié)的超參數(shù)，在實(shí)驗(yàn)前半段調(diào)高測(cè)試集的比重，后半段緩慢提升訓(xùn)練集的比重從而在各個(gè)子模型之間傳遞更多知識(shí)，提高模型的泛化性。ba,i-1與ca,i,n-1是測(cè)試集和訓(xùn)練集上各個(gè)子模型的準(zhǔn)確率通過softmax函數(shù)計(jì)算后得到的值。

2.3 MLS的運(yùn)行過程

MLS的運(yùn)行過程如表1所示，其中ca,i,n-1是由訓(xùn)練集上的各個(gè)子模型準(zhǔn)確率通過softmax函數(shù)計(jì)算所得，ba,i-1是由上一周期結(jié)束時(shí)測(cè)試集上的準(zhǔn)確率計(jì)算所得。

表1 MLS的運(yùn)行過程

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)準(zhǔn)備

本部分將在三個(gè)數(shù)據(jù)集(CIFAR-10/CIFAR-100以及Tiny-ImageNet)上證明所提出的MLS的高效性，所采取的骨干網(wǎng)絡(luò)包括VGG-16,ResNet-110以及MobileNet-V1三種。實(shí)驗(yàn)數(shù)據(jù)中m設(shè)置為3，為250，T和分別為3和0.7。選取SGD為優(yōu)化器，學(xué)習(xí)率初始為0.1并且每80周期減少為原來的十分之一。實(shí)驗(yàn)在CIFAR數(shù)據(jù)集上的batchsize設(shè)置為256，在Tiny-ImageNet上為512。

3.2 實(shí)驗(yàn)結(jié)果分析

由表2和表3可知，MLS在CIFAR10上較兩種基礎(chǔ)網(wǎng)絡(luò)性能提升了約15%到24%，在CIFAR100上為5%到8%。這可以證明本文提出的MLS在線蒸餾系統(tǒng)適用于當(dāng)前主流的骨干網(wǎng)絡(luò)并且得到良好分類性能的網(wǎng)絡(luò)。具體來說，MLS與其它已有的先進(jìn)算法相比，在CIFAR10上性能提升了大約8%，在CIFAR100上為3%。當(dāng)面對(duì)更加復(fù)雜的Tiny-ImageNet數(shù)據(jù)集時(shí)，MLS仍然相對(duì)于DML有8%的性能提升，這更一步證明了MLS的高效性。實(shí)驗(yàn)結(jié)果表明，利用差異性指導(dǎo)模型的訓(xùn)練能傳遞更多的知識(shí)從而提高模型的泛化性，訓(xùn)練更加高效的模型。

表2 不同基于子分支的算法在CIFAR-10/CIFAR-100上的錯(cuò)誤率

表3 不同基于子網(wǎng)絡(luò)的算法在Tiny-ImageNet上的錯(cuò)誤率

本文提出了一種高效的基于互學(xué)習(xí)的在線蒸餾系統(tǒng)(MLS)，可以在不需要預(yù)先訓(xùn)練教師模型的情況下訓(xùn)練高效的學(xué)生模型。MLS的核心是LFS模塊，MLS根據(jù)各子模型在訓(xùn)練過程中表現(xiàn)出的性能表現(xiàn)給出權(quán)重，它們的輸出加權(quán)生成一個(gè)虛擬教師指導(dǎo)學(xué)生訓(xùn)練。然后本文通過將三種骨干網(wǎng)絡(luò)應(yīng)用在三個(gè)常見數(shù)據(jù)集(CIFAR10,CIFAR100,and Tiny-ImageNet)上證明了MLS的優(yōu)越性，能得到比其它算法更加高效的學(xué)生模型，并做出了對(duì)比與分析。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡