安徽理工大學(xué) 胡 干
安徽理工大學(xué) 安徽理工大學(xué)環(huán)境友好材料與職業(yè)健康研究院(蕪湖) 梁興柱
蒸餾是一種讓較少參數(shù)的學(xué)生模型學(xué)習(xí)大型教師模型知識(shí)的有效方法,然而這樣高性能的教師模型往往很難獲得。因此,一些研究人員提出了一種讓每個(gè)學(xué)生模型相互學(xué)習(xí)的策略,以取代傳統(tǒng)的師生學(xué)習(xí)范式。雖然這種方法最近取得了良好的效果,但學(xué)生網(wǎng)絡(luò)之間的相互學(xué)習(xí)很容易提前達(dá)到飽和。故此提出了一種基于互學(xué)習(xí)的在線蒸餾系統(tǒng)(MLS)用于在線知識(shí)蒸餾,該系統(tǒng)為每個(gè)學(xué)生模型提出了一個(gè)權(quán)重評(píng)估機(jī)制(LFS)和一個(gè)虛擬教師。虛擬教師是通過計(jì)算得到的權(quán)重結(jié)合學(xué)生網(wǎng)絡(luò)的輸出來構(gòu)建的,這樣學(xué)生就可以在下一階段從表現(xiàn)更好的同伴網(wǎng)絡(luò)那里學(xué)到更多知識(shí)。通過將所提出的方法應(yīng)用于三個(gè)公共數(shù)據(jù)集CIFAR10、CIFAR100和Tiny-ImageNet,實(shí)驗(yàn)結(jié)果表明,本文模型是有效的,可行的。
深度神經(jīng)網(wǎng)絡(luò)近幾年在解決一些問題時(shí)展現(xiàn)了它的優(yōu)越性,性能強(qiáng)的大型模型往往運(yùn)行緩慢、笨重并且占據(jù)大量?jī)?nèi)存,這限制了神經(jīng)網(wǎng)絡(luò)在移動(dòng)端的應(yīng)用。為了解決這一問題,很多方法被提出,比如二值化,剪枝,輕量化模型設(shè)計(jì)以及知識(shí)蒸餾等等。知識(shí)蒸餾是一種兩階段模型壓縮方法,一般步驟為預(yù)先訓(xùn)練一個(gè)功能強(qiáng)大的教師模型,然后將處理過的教師知識(shí)傳遞給學(xué)生模型。但是現(xiàn)實(shí)生活中往往得不到教師網(wǎng)絡(luò),所以基于互學(xué)習(xí)的在線蒸餾方法被提出。該方法通過多個(gè)學(xué)生網(wǎng)絡(luò)之間的相互學(xué)習(xí)從而逼近甚至超過教師模型的精確度,并且分為基于子網(wǎng)絡(luò)和基于子分支兩種形式。在以前的大多數(shù)研究中,忽略了子模型之間的差異性,即使是同一種網(wǎng)絡(luò)結(jié)構(gòu)性能也有所不同。一些研究證明,將多模型系統(tǒng)中的子模型區(qū)別對(duì)待,并且利用其在訓(xùn)練過程中表現(xiàn)出的差異性指導(dǎo)學(xué)習(xí)能提高模型的泛化性。在此研究基礎(chǔ)上,本文提出了一種改進(jìn)的基于互學(xué)習(xí)的在線蒸餾系統(tǒng)(MLS),通過學(xué)生網(wǎng)絡(luò)間的相互學(xué)習(xí)替代了預(yù)訓(xùn)練的教師網(wǎng)絡(luò),并且通過自定義的權(quán)重評(píng)估機(jī)制(LFS)利用學(xué)生網(wǎng)絡(luò)之間的差異性指導(dǎo)訓(xùn)練。最后,本文在一些常規(guī)數(shù)據(jù)集上證明了本方法的高效性。
知識(shí)蒸餾(KD)是指在強(qiáng)大的教師網(wǎng)絡(luò)的監(jiān)督下對(duì)學(xué)生網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并使用KL散度來擬合教師和學(xué)生之間的軟化輸出。假設(shè)有一個(gè)分類任務(wù)需要處理,則知識(shí)蒸餾的總損失為:
其中e是標(biāo)注的標(biāo)簽分布,zs是學(xué)生模型最后一層輸出經(jīng)過softmax分類層之后的結(jié)果。其中p和q表示學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)產(chǎn)生的軟化概率分布,T為溫度參數(shù)。然后記zt作為老師最后一層的輸出。軟化概率分布p = softmax(zt/T)以及q=softmax(zs/T)。
傳統(tǒng)的知識(shí)蒸餾分兩階段進(jìn)行,需要提前訓(xùn)練一個(gè)教師模型,教師模型往往很難獲得。本文使用在線蒸餾代替教師-學(xué)生蒸餾模式,并且利用學(xué)生網(wǎng)絡(luò)之間的差異性指導(dǎo)訓(xùn)練。如圖1所示,MLS是一個(gè)新型的基于互學(xué)習(xí)的在線蒸餾系統(tǒng),通過評(píng)估每個(gè)模型來指導(dǎo)模型訓(xùn)練。LFS是在學(xué)習(xí)過程中根據(jù)模型的性能進(jìn)行動(dòng)態(tài)評(píng)價(jià)的關(guān)鍵模塊。學(xué)生網(wǎng)絡(luò)產(chǎn)生的輸出被LFS產(chǎn)生的權(quán)重加權(quán),形成一個(gè)虛擬教師,然后學(xué)生通過標(biāo)準(zhǔn)的蒸餾從虛擬教師那里學(xué)習(xí)。為了便于表示,將所有子模型的標(biāo)記為1到m。
圖1 MLS系統(tǒng)結(jié)構(gòu)示意圖
虛擬教師(Virtual teacher)是在學(xué)習(xí)過程中動(dòng)態(tài)生成的,由LFS模塊產(chǎn)生的權(quán)重和不同子模型的輸出組成:
其中Vi,n是第i個(gè)周期第n個(gè)batch虛擬教師的值,αa,i,n是第a個(gè)子模型在第i個(gè)周期第n個(gè)batch由LFS模塊評(píng)估產(chǎn)生的權(quán)重,za,i,n是第a個(gè)模型在此時(shí)的輸出。LFS模塊的內(nèi)部運(yùn)行細(xì)節(jié)會(huì)在后面給出,則整個(gè)在線蒸餾系統(tǒng)的總目標(biāo)函數(shù)為:
其中β是調(diào)節(jié)軟硬標(biāo)簽的超參數(shù),是虛擬教師軟化后的值,是第a個(gè)模型在第i個(gè)周期第n個(gè)batch經(jīng)過軟化后的值。
LFS模塊是本文提出的在線蒸餾系統(tǒng)中的關(guān)鍵組成部分,它的作用是根據(jù)各個(gè)子模型在當(dāng)前訓(xùn)練階段所表現(xiàn)出的性能給出權(quán)重,表現(xiàn)越好的模型權(quán)重越高,然后以此組成虛擬教師。LFS模塊在上一個(gè)周期結(jié)束時(shí)會(huì)根據(jù)模型在測(cè)試集的表現(xiàn)給出子權(quán)重ba,i-1,然后再結(jié)合當(dāng)前周期上一個(gè)batch上的表現(xiàn)給出子權(quán)重ca,i,n-1,并按照一定的比例進(jìn)行加權(quán)求和得到當(dāng)前batch最終權(quán)重αa,i,n。
綜上所述,LFS的總權(quán)重計(jì)算公式為:
其中ba,i-1與ca,i,n-1分別為L(zhǎng)FS在測(cè)試集以及訓(xùn)練集上計(jì)算而得的子權(quán)重。γi是一個(gè)隨訓(xùn)練進(jìn)行而自動(dòng)調(diào)節(jié)的超參數(shù),在實(shí)驗(yàn)前半段調(diào)高測(cè)試集的比重,后半段緩慢提升訓(xùn)練集的比重從而在各個(gè)子模型之間傳遞更多知識(shí),提高模型的泛化性。ba,i-1與ca,i,n-1是測(cè)試集和訓(xùn)練集上各個(gè)子模型的準(zhǔn)確率通過softmax函數(shù)計(jì)算后得到的值。
MLS的運(yùn)行過程如表1所示,其中ca,i,n-1是由訓(xùn)練集上的各個(gè)子模型準(zhǔn)確率通過softmax函數(shù)計(jì)算所得,ba,i-1是由上一周期結(jié)束時(shí)測(cè)試集上的準(zhǔn)確率計(jì)算所得。
表1 MLS的運(yùn)行過程
本部分將在三個(gè)數(shù)據(jù)集(CIFAR-10/CIFAR-100以及Tiny-ImageNet)上證明所提出的MLS的高效性,所采取的骨干網(wǎng)絡(luò)包括VGG-16,ResNet-110以及MobileNet-V1三種。實(shí)驗(yàn)數(shù)據(jù)中m設(shè)置為3,為250,T和分別為3和0.7。選取SGD為優(yōu)化器,學(xué)習(xí)率初始為0.1并且每80周期減少為原來的十分之一。實(shí)驗(yàn)在CIFAR數(shù)據(jù)集上的batchsize設(shè)置為256,在Tiny-ImageNet上為512。
由表2和表3可知,MLS在CIFAR10上較兩種基礎(chǔ)網(wǎng)絡(luò)性能提升了約15%到24%,在CIFAR100上為5%到8%。這可以證明本文提出的MLS在線蒸餾系統(tǒng)適用于當(dāng)前主流的骨干網(wǎng)絡(luò)并且得到良好分類性能的網(wǎng)絡(luò)。具體來說,MLS與其它已有的先進(jìn)算法相比,在CIFAR10上性能提升了大約8%,在CIFAR100上為3%。當(dāng)面對(duì)更加復(fù)雜的Tiny-ImageNet數(shù)據(jù)集時(shí),MLS仍然相對(duì)于DML有8%的性能提升,這更一步證明了MLS的高效性。實(shí)驗(yàn)結(jié)果表明,利用差異性指導(dǎo)模型的訓(xùn)練能傳遞更多的知識(shí)從而提高模型的泛化性,訓(xùn)練更加高效的模型。
表2 不同基于子分支的算法在CIFAR-10/CIFAR-100上的錯(cuò)誤率
表3 不同基于子網(wǎng)絡(luò)的算法在Tiny-ImageNet上的錯(cuò)誤率
本文提出了一種高效的基于互學(xué)習(xí)的在線蒸餾系統(tǒng)(MLS),可以在不需要預(yù)先訓(xùn)練教師模型的情況下訓(xùn)練高效的學(xué)生模型。MLS的核心是LFS模塊,MLS根據(jù)各子模型在訓(xùn)練過程中表現(xiàn)出的性能表現(xiàn)給出權(quán)重,它們的輸出加權(quán)生成一個(gè)虛擬教師指導(dǎo)學(xué)生訓(xùn)練。然后本文通過將三種骨干網(wǎng)絡(luò)應(yīng)用在三個(gè)常見數(shù)據(jù)集(CIFAR10,CIFAR100,and Tiny-ImageNet)上證明了MLS的優(yōu)越性,能得到比其它算法更加高效的學(xué)生模型,并做出了對(duì)比與分析。