国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于類間排名相關(guān)性的解耦知識蒸餾

2024-01-24 09:20:24朱子奇徐仕成
關(guān)鍵詞:皮爾遜類間樣本

陳 穎,朱子奇,徐仕成,李 敏

(武漢科技大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065)

0 引 言

卷積神經(jīng)網(wǎng)絡(luò)(CNN)的出現(xiàn)革新了深度學(xué)習(xí)圖像識別領(lǐng)域。因?yàn)樽非笊顚哟我?guī)模架構(gòu)網(wǎng)絡(luò)優(yōu)秀的性能表現(xiàn)和小型網(wǎng)絡(luò)在生活中的適用性,知識蒸餾(KD)隨之誕生并且被廣泛應(yīng)用于圖像分類[1]、目標(biāo)檢測[2]和語義分割[3]等任務(wù)。其核心思想是將一個繁瑣的已優(yōu)化模型(教師網(wǎng)絡(luò))產(chǎn)生輸出概率,用于訓(xùn)練另一個簡化模型(學(xué)生網(wǎng)絡(luò))[4]。知識蒸餾不僅在培養(yǎng)學(xué)生網(wǎng)絡(luò)方面取得了不錯的效果,而且在通過自蒸餾改進(jìn)教師網(wǎng)絡(luò)方面也非常有效[5-6]。

解耦知識蒸餾(Decoupled Knowledge Distillation,DKD)將教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的logits輸出解耦成兩部分,一部分是目標(biāo)類知識蒸餾(Target Class Knowledge Distillation,TCKD),另一部分是非目標(biāo)類知識蒸餾(Non-Target Class Knowledge Distillation,NCKD),兩者單獨(dú)進(jìn)行蒸餾[7]。通過對TCKD和NCKD的分析驗(yàn)證與實(shí)驗(yàn),證明了NCKD的重要性。由于傳統(tǒng)知識蒸餾糅雜TCKD與NCKD一起蒸餾訓(xùn)練,使用學(xué)生網(wǎng)絡(luò)的預(yù)測匹配教師網(wǎng)絡(luò)的預(yù)測,這將抑制NCKD發(fā)揮作用。即傳統(tǒng)知識蒸餾的高耦合性導(dǎo)致logit蒸餾的圖像分類效果并不理想。因此,可以通過解耦知識蒸餾解決傳統(tǒng)知識蒸餾的高耦合性問題。

知識蒸餾和解耦知識蒸餾都遵循精確的恢復(fù)方式,即學(xué)生損失應(yīng)嚴(yán)格接近教師損失指標(biāo),教師損失應(yīng)相應(yīng)地改進(jìn)學(xué)生網(wǎng)絡(luò)以達(dá)到和教師網(wǎng)絡(luò)近似一樣的結(jié)果[8]。然而,由于近似差距,這一假設(shè)并不總是成立的,這將給學(xué)生網(wǎng)絡(luò)的優(yōu)化帶來偏差,導(dǎo)致次優(yōu)結(jié)果或逆向結(jié)果。換句話說,模型不是追求評估度量的精確恢復(fù),而是體現(xiàn)度量的目的,即蒸餾模型的性能。如果一個模型的損失比另一個模型小,那么它的度量應(yīng)該更好。然而,當(dāng)前教師網(wǎng)絡(luò)和學(xué)生網(wǎng)通常都存在代理損耗與評價指標(biāo)之間的關(guān)系較為薄弱的問題。理想情況下,代理損失應(yīng)保持評價指標(biāo)與模型的強(qiáng)相關(guān)性。相比起知識的個體,知識的構(gòu)成可以更好地被知識表現(xiàn)的關(guān)系呈現(xiàn)出來。而結(jié)構(gòu)關(guān)系中包含更多的知識,因此保留教師和學(xué)生類間的預(yù)測關(guān)系對于優(yōu)化蒸餾表現(xiàn)是有效的[9]。

在這些方法中,知識蒸餾以及解耦知識蒸餾被證明是一種通過模仿深層次結(jié)構(gòu)網(wǎng)絡(luò)行為來提高小型網(wǎng)絡(luò)性能的有效方法。它通過在每個輸入實(shí)例的教師和學(xué)生的輸出上添加一個基于概率的點(diǎn)對點(diǎn)式精確匹配的強(qiáng)一致性約束,來鼓勵學(xué)生去模仿教師的行為。然而,在這樣強(qiáng)的約束條件下,直接優(yōu)化學(xué)生損失很難得到準(zhǔn)確的預(yù)測。該文并不只關(guān)注點(diǎn)對點(diǎn)的恢復(fù),這忽略了類之間相對值的排名關(guān)系,而是通過顯式地學(xué)習(xí)類間排名的相關(guān)性來緩解“緊張”的約束,并獲得顯著的性能和效率的提高。

針對上述問題,通過類的排名相關(guān)性作為蒸餾的師生模型中代理損失與評價指標(biāo)之間的關(guān)系,該文提出了一種排名相關(guān)一致性解耦知識蒸餾的方法來直接放大排名相關(guān)性。具體來說,該方法直接利用簡單的皮爾遜相關(guān)系數(shù)[10]。與精確恢復(fù)概率相比,基于相關(guān)性的優(yōu)化更易于知識的遷移學(xué)習(xí),并且損失函數(shù)可以與目標(biāo)指標(biāo)保持良好的關(guān)系一致性,與原始的解耦知識蒸餾損失相比,獲得了更好的相關(guān)性。主要貢獻(xiàn)如下:

(1)提出了一種新的排名相關(guān)一致性解耦知識蒸餾方法,它關(guān)注了不同類之間的相關(guān)性,解決了輸出的強(qiáng)一致性約束帶來的分類準(zhǔn)確率下降問題。這是首次將類間排名相關(guān)性引入解耦知識蒸餾的方法;

(2)提出了一種能夠直接衡量類間排名相關(guān)性的新?lián)p失函數(shù);

(3)通過充分的消融實(shí)驗(yàn)和對比實(shí)驗(yàn)表明,該方法在不同的任務(wù)如CIFAR-100和ImageNet-1K中都能有效提高蒸餾性能,取得良好的圖像分類精度。

1 相關(guān)工作

知識蒸餾這一技術(shù)的理論最早由Hinton[4]于2015年提出,是一種基于“教師-學(xué)生”網(wǎng)絡(luò)的模型訓(xùn)練方式。知識蒸餾是構(gòu)建一個小型的學(xué)生模型,利用性能更好的大型教師模型的監(jiān)督信息來訓(xùn)練這個學(xué)生模型,使得小型的學(xué)生模型可以擁有更好的性能和更高的精度[11]。與直接使用One-hot標(biāo)簽的訓(xùn)練不同,知識蒸餾使用的概率分布可以提供更多關(guān)于樣本相似性的信息,這些信息被稱為“暗知識”。因?yàn)橹R蒸餾中從教師網(wǎng)絡(luò)遷移到學(xué)生網(wǎng)絡(luò)的知識不同,所以知識蒸餾的知識可以分為基于響應(yīng)的知識、基于特征的知識和基于關(guān)系的知識。

1.1 基于響應(yīng)的知識

基于響應(yīng)的知識一般指模型最后輸出層的logits結(jié)果,然后學(xué)生網(wǎng)絡(luò)直接模仿教師網(wǎng)絡(luò)的最終預(yù)測[12]。當(dāng)選擇用來進(jìn)行表示學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的層次越深,中間層的監(jiān)督就顯得越重要,因此基于響應(yīng)的知識蒸餾逐漸淡出知識蒸餾的研究視野。近幾年新提出的解耦知識蒸餾使得基于響應(yīng)的知識蒸餾潛能被發(fā)現(xiàn)。解耦知識蒸餾是出于傳統(tǒng)知識蒸餾的高耦合性考慮,把logits分為目標(biāo)類和非目標(biāo)類,然后分別對它們進(jìn)行知識蒸餾。

1.2 基于特征的知識

基于特征的知識一般指最后一層的輸出和中間層的輸出?;谔卣鞯闹R蒸餾方法通過學(xué)生網(wǎng)絡(luò)學(xué)習(xí)教師網(wǎng)絡(luò)的中間層結(jié)構(gòu)進(jìn)行知識的遷移。FitNet[13]首次提出了一種提取教師的中間層作為hints層和學(xué)生中間層(guided層)進(jìn)行特征輸出匹配的知識蒸餾。Zagoruyko等人[14]將原始特征圖中的“注意圖”作為知識,然后提取出來進(jìn)行匹配。OFD[15]引入了一個margin ReLU函數(shù)并提出了一個新的損失函數(shù)來避免對學(xué)生有不利影響的冗余信息。CRD[16]在知識蒸餾中引入了對比性學(xué)習(xí),借用對比目標(biāo)實(shí)現(xiàn)知識從教師到學(xué)生的傳遞。ReviewKD[17]采用溫故知新的原理,提出了新的知識蒸餾復(fù)習(xí)機(jī)制,利用教師網(wǎng)絡(luò)的多層次信息指導(dǎo)學(xué)生網(wǎng)絡(luò)的一級學(xué)習(xí)。

1.3 基于關(guān)系的知識

基于關(guān)系的知識研究了不同層和數(shù)據(jù)樣本之間的關(guān)系。Yim等人[18]提出了能體現(xiàn)任意兩個特征圖的關(guān)系的FSP矩陣來進(jìn)行知識蒸餾。Lee等人[19]通過兩個特征圖之間的相關(guān)性,利用奇異值分解進(jìn)行蒸餾。Park等人[20]認(rèn)為遷移樣本間的關(guān)系比起遷移單個樣本的特征會更有效,提出了一種對模型輸出的結(jié)構(gòu)信息進(jìn)行蒸餾的方式。Peng等人[21]注意到了實(shí)例之間的相關(guān)性,提出了相關(guān)同余的方法。

值得注意的是,Peng等人提出的實(shí)例間的相關(guān)同余和Park等人提出遷移樣本間關(guān)系的方法與文中方法有一些相似之處。但是文中方法側(cè)重于類間排名的關(guān)系,著重分析了在教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)差距過大時限制解耦知識蒸餾潛力的因素。文中提出使用類間排名相關(guān)一致性來解決問題,同時提出了新?lián)p失函數(shù)來優(yōu)化模型,提升任務(wù)效果。

2 文中方法

2.1 基于類間排名相關(guān)性的解耦知識蒸餾

解耦知識蒸餾雖然證明了NCKD的重要性,但它和傳統(tǒng)的知識蒸餾都是采用學(xué)生網(wǎng)絡(luò)精確匹配教師網(wǎng)絡(luò)輸出概率的方法,體現(xiàn)不了教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)內(nèi)部類間的關(guān)系結(jié)構(gòu)。而擁有更深層次規(guī)模架構(gòu)的網(wǎng)絡(luò)會取得更好的表現(xiàn),因此會選取一個龐大的教師網(wǎng)絡(luò),這也就導(dǎo)致了教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)規(guī)模相差較大。在這種差距下,使用傳統(tǒng)的KL散度來精確地恢復(fù)預(yù)測變得更為乏力。

該文提出了一種利用皮爾遜相關(guān)系數(shù)進(jìn)行關(guān)系匹配的方法。相比于KL散度的精確式匹配,提出的更為寬容的匹配方式不再關(guān)心教師中NCKD輸出的預(yù)測分?jǐn)?shù),而是注意到教師預(yù)測非目標(biāo)類的相對排名的關(guān)系。如圖1所示,解耦知識蒸餾借助學(xué)生各個類的預(yù)測分?jǐn)?shù)與教師各個類的預(yù)測分?jǐn)?shù)一對一精確匹配從而進(jìn)行知識的遷移。越大的預(yù)測分?jǐn)?shù)意味著這個類與目標(biāo)類越相似,最終NCKD中各個類之間會形成一個預(yù)測分?jǐn)?shù)的排名。文中方法提取NCKD中各個類排名的關(guān)系,把學(xué)生網(wǎng)絡(luò)中NCKD的排名關(guān)系與教師網(wǎng)絡(luò)中NCKD的排名關(guān)系進(jìn)行匹配。相比起一對一精確匹配,基于類間排名相關(guān)性的方法只需讓學(xué)生保持和教師相似的排名關(guān)系,然后進(jìn)行學(xué)生和教師的關(guān)系匹配,所以文中方法包含了更多的知識,知識間的構(gòu)成也可以更好地表現(xiàn)出來。通過這種方式,學(xué)生不再需要精確的一對一匹配教師的輸出概率,而是更多地關(guān)注整體的關(guān)系信息。

圖1 模型架構(gòu)

文中方法提倡維護(hù)教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)之間的類間關(guān)系,以類間排名相關(guān)性作為知識進(jìn)行傳遞,實(shí)現(xiàn)從優(yōu)秀的教師中更好地進(jìn)行知識蒸餾。

2.2 NCKD的類間排名相關(guān)性匹配

知識蒸餾的目標(biāo)是在訓(xùn)練有素的大型教師網(wǎng)絡(luò)的指導(dǎo)下培養(yǎng)更便于部署的小型學(xué)生網(wǎng)絡(luò)。而在解耦知識蒸餾中,通過最小化教師網(wǎng)絡(luò)與學(xué)生網(wǎng)絡(luò)的TCKD和NCKD的預(yù)測分?jǐn)?shù)之間的差異實(shí)現(xiàn)知識從教師網(wǎng)絡(luò)到學(xué)生網(wǎng)絡(luò)的轉(zhuǎn)移。在蒸餾中,訓(xùn)練有素的教師網(wǎng)絡(luò)提供了超出通常數(shù)據(jù)監(jiān)督的額外語義知識,而挑戰(zhàn)在于如何對教師的知識進(jìn)行編碼和轉(zhuǎn)換,使學(xué)生的表現(xiàn)可以達(dá)到最大化。

對于來自第t類的訓(xùn)練樣本,學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的logits輸出分別為Z(T)∈R1×C和Z(S)∈R1×C,其中[Z(T),Z(S)]∈Z。分類概率可以表示為P=[p1,p2,…,pT,…,pC]∈R1×C,其中pi表示第i個類的概率,C表示類的個數(shù)。分類概率p中的每個元素都可以通過softmax()函數(shù)和溫度因子T進(jìn)行評估:

(1)

非目標(biāo)類∧P是眾多類的集合(除去目標(biāo)類),即∧P=[∧p1,…,∧pT-1,∧pT+1,…,∧pC]∈R1×(C-1),其中每個類的概率可表示為:

(2)

對于解耦知識蒸餾,需要解耦目標(biāo)類和非目標(biāo)類。因此定義b=[pT,pN]∈R1×2,b代表目標(biāo)類和所有非目標(biāo)類的二值概率,pT代表目標(biāo)類的概率,pN代表非目標(biāo)類的概率:

(3)

(4)

根據(jù)式1~式4可以推斷出pi=∧pi×pN,所以KD的loss可表示為:

(5)

LKD=αTCKD+βNCKD

(6)

對于預(yù)測向量∧p(T)和∧p(S),若x=y,則x和y之間可以得到一個精確的匹配距離為0,即d(x,y)=0。該文使用一種較為“輕松”的匹配方式,所以引入關(guān)系映射f()和g():

d(x,y)=d(f(x),g(y))

(7)

文中方法注重x,y之間的內(nèi)部關(guān)系,所以并不要求x和y完全一樣。為了不影響NCKD向量所包含的信息,映射f()和g()應(yīng)該是等值的,因此選擇恒等變換:

d(x,y)=d(a1x+b1,a2y+b2)

(8)

其中,a1,a2,b1,b2都是常數(shù)。

該文使用皮爾遜相關(guān)系數(shù)。皮爾遜相關(guān)系數(shù)廣泛用于衡量兩個變量之間的相關(guān)程度,反映了兩個變量之間的線性關(guān)系和相關(guān)性的方向。最重要的一點(diǎn)是皮爾遜相關(guān)系數(shù)有一個很重要的數(shù)學(xué)特性:當(dāng)變量x和y的位置發(fā)生變化時,皮爾遜相關(guān)系數(shù)不會發(fā)生變化。也就是說把變量x和y移動為ax+b和cy+d(其中a,b,c和d皆為常數(shù))并不會引起x和y相關(guān)系數(shù)的變化,而這一點(diǎn)數(shù)學(xué)特性恰好完美地契合了文中方法所追求的特性d(x,y)=d(a1x+b1,a2y+b2)。皮爾遜相關(guān)系數(shù)ρ∧p(x,y)可表示為:

(9)

2.3 損失函數(shù)

皮爾遜相關(guān)系數(shù)的變化范圍為[-1,1],當(dāng)相關(guān)系數(shù)值為0時代表兩個變量之間沒有任何線性關(guān)系,故皮爾遜距離應(yīng)當(dāng)為1。所以,皮爾遜距離d(x,y)和皮爾遜相關(guān)系數(shù)ρ∧p(x,y)的關(guān)系可以表示為:

d∧p(x,y)=1-ρ∧p(x,y)

(10)

所以,該文的損失函數(shù)是:

LKD=αTCKD+βd∧p(x,y)

(11)

文中方法通過最大線性相關(guān)來保留教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)在每個實(shí)例的概率分布上的關(guān)系,所以可以更好地泛化到輸出的整個分布,是一種更為穩(wěn)健有效的方法。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集介紹及評價標(biāo)準(zhǔn)

CIFAR-100[22]是知識蒸餾分類領(lǐng)域應(yīng)用最為廣泛的一個數(shù)據(jù)集,也是文中實(shí)驗(yàn)所采用的一個數(shù)據(jù)集。CIFAR-100數(shù)據(jù)集包含50 000張訓(xùn)練圖像和100個類別。每個類別有600張大小為32×32的彩色圖像,其中500張作為訓(xùn)練集,100張作為測試集。對于每一張圖像,它有fine_labels和coarse_labels兩個標(biāo)簽,分別代表圖像的細(xì)粒度和粗粒度標(biāo)簽。

ImageNet-1K[23]是ImageNet的子集,來自于斯坦福大學(xué)的課程項目,是一個極具挑戰(zhàn)性的數(shù)據(jù)庫,也是圖像分類任務(wù)中使用次數(shù)較多的大型數(shù)據(jù)庫。ImageNet-1K共有1 000個類別,訓(xùn)練集有1 281 167張圖片且附帶標(biāo)簽,驗(yàn)證集有50 000張圖片并且附帶標(biāo)簽,測試集有100 000張圖片。

該文引入了圖像分類任務(wù)中的準(zhǔn)確率(Accuracy)作為實(shí)驗(yàn)的性能評價指標(biāo),該基本指標(biāo)代表在所有樣本中預(yù)測正確的概率,是圖像分類任務(wù)中最直觀的性能評價指標(biāo)。Top-1 Accuracy代表排名第一的類別與實(shí)際結(jié)果相符合的準(zhǔn)確率。

(12)

其中,TP代表被判定為正樣本,實(shí)際上也是正樣本的樣本數(shù);TN代表被判定為負(fù)樣本,實(shí)際上也是負(fù)樣本的樣本數(shù);FP代表被判定為正樣本,但實(shí)際上是負(fù)樣本的樣本數(shù);FN代表被判定為負(fù)樣本,但實(shí)際上是正樣本的樣本數(shù)。

3.2 實(shí)驗(yàn)參數(shù)

實(shí)驗(yàn)皆在Linux系統(tǒng)上進(jìn)行并基于Pytorch框架,使用了五張NVIDIA GeForce RTX 2080 Ti GPU。實(shí)驗(yàn)中使用ResNet[24],VGG[25],ShuffleNet[26-27],MobileNet[28]和Wide ResNet[29]網(wǎng)絡(luò)。對于CIFAR100數(shù)據(jù)集,實(shí)驗(yàn)的Batchsize大小為128,不同的學(xué)生網(wǎng)絡(luò)設(shè)置了不同的學(xué)習(xí)率初始值,如表1所示。實(shí)驗(yàn)所有模型進(jìn)行240個Epoch的訓(xùn)練,在150個Epoch之后,每30個Epoch的學(xué)習(xí)率衰減0.1。對于ImageNet-1K數(shù)據(jù)集,實(shí)驗(yàn)使用標(biāo)準(zhǔn)的訓(xùn)練過程,將Batchsize大小設(shè)置為256,所有模型進(jìn)行100個Epoch的訓(xùn)練,實(shí)驗(yàn)將學(xué)習(xí)率初始化為0.1,然后每30個Epoch衰減學(xué)習(xí)率。文中方法的總損失函數(shù)中的超參數(shù)α和β分別設(shè)置為1.0和8.0。

表1 在CIFAR-100數(shù)據(jù)集上不同網(wǎng)絡(luò)設(shè)置的學(xué)習(xí)率

3.3 消融實(shí)驗(yàn)

為了研究損失函數(shù)對于蒸餾模型性能的影響,使用ResNet32×4作為教師網(wǎng)絡(luò),ShuffleNetV2作為學(xué)生網(wǎng)絡(luò),對三種方法分別訓(xùn)練240次,在CIFAR-100數(shù)據(jù)集上實(shí)驗(yàn)得到的精度結(jié)果如表2所示。傳統(tǒng)的知識蒸餾圖像分類達(dá)到了74.07%的準(zhǔn)確率。接下來選取基于解耦的知識蒸餾作為基準(zhǔn)網(wǎng)絡(luò),解耦目標(biāo)類和非目標(biāo)類進(jìn)行蒸餾,圖像分類達(dá)到了76.45%的準(zhǔn)確率,解決了因?yàn)閭鹘y(tǒng)知識蒸餾的高耦合性帶來的精度降低問題。最后是該文提出的基于非目標(biāo)類類之間預(yù)測排序關(guān)系的知識蒸餾,改善了強(qiáng)一致性約束后,模型達(dá)到了77.38%的準(zhǔn)確率,相比基準(zhǔn)網(wǎng)絡(luò)提升了0.93百分點(diǎn),解決了解耦知識蒸餾強(qiáng)一致性約束對精度帶來負(fù)面影響的問題,證明了該方法的有效性。消融實(shí)驗(yàn)結(jié)果表明,該方法可以更好地體現(xiàn)類之間的相關(guān)性并泛化到輸出的整個分布,降低了教師和學(xué)生因模型架構(gòu)懸殊和強(qiáng)一致性約束所帶來的影響,具有更優(yōu)秀的分類準(zhǔn)確率。

表2 不同方法在CIFAR-100數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

同時,文中方法和基準(zhǔn)方法的loss變化對比如圖2所示,文中方法的loss不僅波動更為平緩,而且比基準(zhǔn)方法的loss更小一些(差值在0.01~0.05之間波動)。

圖2 loss變化對比

3.4 對比實(shí)驗(yàn)

為了驗(yàn)證文中方法的先進(jìn)性,在圖像分類任務(wù)上將文中方法與其它先進(jìn)的方法進(jìn)行比較。文中使用的基準(zhǔn)方法是解耦知識蒸餾,加入基于類間排名相關(guān)性模塊后,在數(shù)據(jù)集CIFAR-100和ImageNet-1K提升了0.2~1百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)方法和傳統(tǒng)知識蒸餾相比,文中方法在教師學(xué)生網(wǎng)絡(luò)組中一致取得了改善?;贑IFAR-100數(shù)據(jù)集,文中方法在同系列教師學(xué)生網(wǎng)絡(luò)組中獲得了0.2~0.8百分點(diǎn)的提升,在不同系列教師學(xué)生網(wǎng)絡(luò)組中獲得了0.2~1百分點(diǎn)的提升,這進(jìn)一步證明了文中方法的先進(jìn)性。

表3 同系列教師學(xué)生網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果 %

續(xù)表3

表4 不同系列教師學(xué)生網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果 %

由于CIFAR-100的圖像數(shù)量較少,因此在ImageNet-1K上進(jìn)行了實(shí)驗(yàn)來驗(yàn)證文中方法的可擴(kuò)展性。實(shí)驗(yàn)了從ResNet34到ResNet18的蒸餾設(shè)置,文中方法再次優(yōu)于所有其它方法,如表5所示。

表5 ImageNet-1K數(shù)據(jù)集的對比實(shí)驗(yàn)結(jié)果

4 結(jié)束語

在解耦知識蒸餾中,針對架構(gòu)規(guī)模懸殊的教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)使用點(diǎn)對點(diǎn)式強(qiáng)一致性約束精確匹配預(yù)測概率的問題,提出了一種相關(guān)一致性解耦知識蒸餾的方法,即類間排名相關(guān)性。該方法針對NCKD采用了類間排名相關(guān)性進(jìn)行一致匹配來緩解logit蒸餾強(qiáng)一致性約束。通過在同系列教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)以及不同系列教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)上的訓(xùn)練測試,該模型的圖像分類準(zhǔn)確率顯著提高,有效提高了解耦知識蒸餾的圖像分類能力。

猜你喜歡
皮爾遜類間樣本
用樣本估計總體復(fù)習(xí)點(diǎn)撥
基于OTSU改進(jìn)的布匹檢測算法研究
現(xiàn)代統(tǒng)計學(xué)之父:卡爾·皮爾遜
現(xiàn)代統(tǒng)計學(xué)之父:卡爾·皮爾遜
基于貝葉斯估計的多類間方差目標(biāo)提取*
Excel在水文學(xué)教學(xué)中的應(yīng)用
基于類間相對均勻性的紙張表面缺陷檢測
推動醫(yī)改的“直銷樣本”
卡方分布的探源
基于改進(jìn)最大類間方差法的手勢分割方法研究
西藏| 自治县| 新沂市| 江川县| 伊通| 微博| 临武县| 龙游县| 即墨市| 南和县| 凉山| 鄯善县| 建水县| 安仁县| 绥中县| 西安市| 顺义区| 五大连池市| 平定县| 宜昌市| 美姑县| 连云港市| 浮梁县| 调兵山市| 关岭| 大方县| 竹北市| 宜兰市| 南康市| 洛南县| 禹州市| 大石桥市| 开江县| 莱西市| 凉山| 确山县| 镶黄旗| 始兴县| 白河县| 高陵县| 遵义县|