国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度神經(jīng)網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)學(xué)習(xí)的社會(huì)創(chuàng)業(yè)研究

2022-11-25 04:38吳嘉鑫
現(xiàn)代計(jì)算機(jī) 2022年17期
關(guān)鍵詞:流形局部損失

吳嘉鑫

(新南威爾士大學(xué)創(chuàng)業(yè)創(chuàng)新系,澳洲 悉尼 2052)

0 引言

創(chuàng)業(yè)創(chuàng)新實(shí)踐因新興技術(shù)的驅(qū)動(dòng)而產(chǎn)生了重大變化,越來(lái)越多的創(chuàng)業(yè)創(chuàng)新研究開(kāi)始基于數(shù)字化的背景下[1]。但在中國(guó)情境下,對(duì)于現(xiàn)代計(jì)算機(jī)科學(xué)與創(chuàng)業(yè)創(chuàng)新實(shí)踐結(jié)合的研究還處于發(fā)展階段,尤其是對(duì)社會(huì)企業(yè)的研究,國(guó)內(nèi)學(xué)者更多關(guān)注于數(shù)字化下的農(nóng)民工返鄉(xiāng)創(chuàng)業(yè)、弱勢(shì)群體創(chuàng)業(yè)以及使命漂移等普遍社會(huì)問(wèn)題[2],而忽略了對(duì)于學(xué)校內(nèi)部信息化創(chuàng)新這一重要社會(huì)問(wèn)題。然而學(xué)校對(duì)于培養(yǎng)人才,積蓄社會(huì)創(chuàng)業(yè)創(chuàng)新力量有著本質(zhì)的影響,因此,更高效的師生網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)能更長(zhǎng)遠(yuǎn)地提高學(xué)生能力,對(duì)培養(yǎng)高質(zhì)量創(chuàng)業(yè)創(chuàng)新人才有著重要意義[3]?;诖?,本研究將利用深度神經(jīng)網(wǎng)絡(luò)去提高師生網(wǎng)絡(luò)學(xué)習(xí),從而實(shí)現(xiàn)對(duì)學(xué)校的社會(huì)貢獻(xiàn)。

近幾年,深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等多個(gè)領(lǐng)域都表現(xiàn)出了最先進(jìn)的性能。最新的研究表明[4],深度神經(jīng)網(wǎng)絡(luò)可以深入處理數(shù)據(jù),并且深度神經(jīng)網(wǎng)絡(luò)可能具有更大的容量并實(shí)現(xiàn)更高的精度。然而,一個(gè)具有許多參數(shù)的深度網(wǎng)絡(luò)在訓(xùn)練和測(cè)試時(shí)都需要大量的計(jì)算,由于對(duì)計(jì)算資源的要求很高,所以很難應(yīng)用于實(shí)際場(chǎng)景。這個(gè)問(wèn)題促使人們對(duì)神經(jīng)網(wǎng)絡(luò)的壓縮進(jìn)行研究。

Hinton等[5]首先提出了知識(shí)提煉(KD)這個(gè)概念,他們使用教師網(wǎng)絡(luò)的軟化輸出,將信息轉(zhuǎn)化為小型學(xué)生網(wǎng)絡(luò)。通過(guò)這種教學(xué)程序,小網(wǎng)絡(luò)可以學(xué)習(xí)大網(wǎng)絡(luò)如何以壓縮的形式研究給定任務(wù)。Romero等[6]介紹了FitNet,它不僅使用教師網(wǎng)絡(luò)的最終輸出,而且還使用教師網(wǎng)絡(luò)的中間隱藏層值來(lái)訓(xùn)練學(xué)生網(wǎng)絡(luò)。通過(guò)使用這些中間層,可以改善學(xué)生網(wǎng)絡(luò)的性能。與Fit-Net不同的是,Zagoruyko等[7]提出了注意力遷移(Attention Transfer)的方法去轉(zhuǎn)移完整的注意力圖。最近,Yim等[8]使用FSP矩陣將知識(shí)從教師網(wǎng)絡(luò)轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)。FSP矩陣是由兩層的特征之間的內(nèi)積計(jì)算出來(lái)的,包括如何“解決問(wèn)題”的知識(shí)。

更值得關(guān)注的是,Zeiler等[9]介紹了一種可視化技術(shù),讓人們了解中間特征層的功能。它揭示了這些特征遠(yuǎn)遠(yuǎn)不是隨機(jī)的、無(wú)法解釋的模式。相反,它們顯示了許多直觀的理想屬性,如構(gòu)成性、增加的不變性和類別的區(qū)分。以前與特征相關(guān)的知識(shí)轉(zhuǎn)移工作只關(guān)注整個(gè)特征圖。例如,F(xiàn)itNet直接計(jì)算特征圖的二級(jí)損耗[6];AT轉(zhuǎn)移特征的摘要[7];不同層次的特征圖的內(nèi)積得到轉(zhuǎn)移[8]。而所有這些方法都忽略了特征之間的關(guān)系。所以在Zeiler等[9]的啟發(fā)下,我們發(fā)現(xiàn)不應(yīng)該只關(guān)注特征圖的值,而應(yīng)該更加關(guān)注特征之間的關(guān)系。

因此,為了在這些特征之間傳遞知識(shí),我們引入了流形學(xué)習(xí)。流形學(xué)習(xí)將數(shù)據(jù)集視為高維空間中非線性流形的嵌入。它的目的是將位于高維空間的非線性流形上的數(shù)據(jù)集進(jìn)行低維參數(shù)化。流形學(xué)習(xí)已經(jīng)成功地應(yīng)用于許多領(lǐng)域,如人臉識(shí)別等。它包含幾種方法,如Isomap[10],

Locally Linear Embedding(LLE)[11],Laplacian Eigenmaps(LE)[12]和Local Preserving projection(LPP)[13]。局部保留投影(LPP)是一種流形學(xué)習(xí)方法,它保留了樣本的局部關(guān)系[13]。本文利用“局部保留投影”的思想,將教師網(wǎng)絡(luò)的知識(shí)轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)。

本文將深度網(wǎng)絡(luò)的輸入視為高維空間的流形,因?yàn)樘卣骺梢院芎玫乇硎据斎耄⒕哂性S多直觀的特性[9]。因此,我們認(rèn)為從深度網(wǎng)絡(luò)中提取的隱藏層的特征是位于輸入流形上的重要點(diǎn)。對(duì)于同樣的輸入,利用“局部保留投影”的思想,從教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)中提取的特征應(yīng)該位于相似的流形上,為此我們引入了一種新的LPP損失,以確保教師和學(xué)生網(wǎng)絡(luò)之間特征的局部相似性,并在此基礎(chǔ)上將教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的特征之間的關(guān)系知識(shí)進(jìn)行了轉(zhuǎn)移。

本論文的貢獻(xiàn)如下:①提供了一個(gè)關(guān)于知識(shí)轉(zhuǎn)移問(wèn)題的新觀點(diǎn),并提出了一種新的網(wǎng)絡(luò)壓縮方法;②通過(guò)實(shí)驗(yàn)表明,本文方法在幾個(gè)數(shù)據(jù)集上提供了明顯的改進(jìn);③研究表明,本文方法可以與其他知識(shí)轉(zhuǎn)移方法相結(jié)合,并達(dá)到最佳性能。

1 理論基礎(chǔ)與文獻(xiàn)回顧

1.1 知識(shí)轉(zhuǎn)移

深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)良好。深度神經(jīng)網(wǎng)絡(luò)的能力通常取決于網(wǎng)絡(luò)的深度和寬度。然而,一個(gè)具有許多參數(shù)的深度網(wǎng)絡(luò)很難在應(yīng)用中使用,因?yàn)樗枰罅康挠?jì)算資源。學(xué)生網(wǎng)絡(luò)的參數(shù)很少,Hinton等[5]首創(chuàng)的知識(shí)轉(zhuǎn)移(Knowledge Transfer)旨在通過(guò)依賴從強(qiáng)大的教師網(wǎng)絡(luò)中借用的知識(shí)來(lái)改善學(xué)生網(wǎng)絡(luò)的訓(xùn)練。它使用教師網(wǎng)絡(luò)最終輸出的軟化版本,稱為軟化目標(biāo),將信息傳授給一個(gè)小網(wǎng)絡(luò)。通過(guò)這個(gè)程序,學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)中學(xué)習(xí)并達(dá)到更好的準(zhǔn)確性。Romero等[6]介紹了FitNet,將寬而淺的網(wǎng)絡(luò)壓縮為薄和深的網(wǎng)絡(luò)。

FitNet不僅使用軟化的輸出,還使用教師網(wǎng)絡(luò)的中間隱藏層值來(lái)訓(xùn)練學(xué)生網(wǎng)絡(luò)。在第一階段,F(xiàn)itNet與教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的隱藏層輸出相匹配;在第二階段,它使用軟化的輸出(知識(shí)提煉KD)來(lái)匹配最終輸出。通過(guò)匹配隱藏層,學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)學(xué)習(xí)額外的信息。Zagoruyko等[7]提出了注意力遷移(Attention Transfer,AT)。與FitNet不同的是,AT傳輸?shù)氖请[藏層的全部激活,而注意力圖則是全部激活的總結(jié)。Yim等[8]使用的FSP矩陣包含了網(wǎng)絡(luò)的解決過(guò)程的信息。通過(guò)匹配學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的FSP矩陣,學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)學(xué)習(xí)如何“解決問(wèn)題”。

1.2 流形學(xué)習(xí)

Isomap[10]是一種流形學(xué)習(xí)算法,它通過(guò)返回點(diǎn)之間的距離近似于最短路徑距離的嵌入,保留了輸入集的幾何特征。局部線性嵌入(LLE)[11]試圖通過(guò)將每個(gè)輸入點(diǎn)重建為其鄰居的加權(quán)組合來(lái)局部表示流形。拉普拉斯特征圖(LE)[12]建立了一個(gè)包含數(shù)據(jù)集的鄰域信息的圖。利用圖的拉普拉斯概念,LE計(jì)算出數(shù)據(jù)集的低維表示,在某種意義上最佳地保留了本地鄰域信息。局部保留投影(LPP)[13]則是通過(guò)解決一個(gè)變分問(wèn)題來(lái)制作線性投影圖,該投影圖以最佳方式保留了數(shù)據(jù)集的鄰域結(jié)構(gòu)。

2 研究方法

2.1 目標(biāo)

本文方法旨在將教師網(wǎng)絡(luò)中的特征關(guān)系轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)中。對(duì)于一個(gè)輸入圖像x,教師網(wǎng)絡(luò)計(jì)算輸入并在中間層獲得特征。最后,網(wǎng)絡(luò)結(jié)合這些特征得到輸出。在其他學(xué)者的研究里,知識(shí)提煉(KD)[5]是通過(guò)匹配教師和學(xué)生網(wǎng)絡(luò)進(jìn)行軟輸出;FitNet[6]是通過(guò)二級(jí)損失(L2 loss)直接匹配特征圖;AT[7]轉(zhuǎn)移注意力圖。然而所有這些方法都忽略了特征之間的關(guān)系。因此,本文認(rèn)為特征是流形的重要點(diǎn),它代表了輸入圖像。對(duì)于相同的輸入圖像,學(xué)生和教師網(wǎng)絡(luò)應(yīng)該提取類似的特征。因此,他們的流形中的特征應(yīng)該是相似的。本文方法使用局部保留損失(LPP loss)來(lái)衡量他們的特征圖之間的相似性。

2.2 局部保留投影(LPP)

LPP[13]是一種流形學(xué)習(xí)方法。它的目的是找到一個(gè)能最佳地保留數(shù)據(jù)集的鄰域結(jié)構(gòu)的映射。假設(shè)給定一個(gè)集合{x1,x2,…,xm∈Rn},而y1,y2,…,ym是一個(gè)目標(biāo)地圖集合,那么LPP的標(biāo)準(zhǔn)是選擇一個(gè)好的地圖,即最小化以下函數(shù):

在合適的條件約束下,如果相鄰的點(diǎn)xi和xj被映射得很遠(yuǎn),那么選擇Wij的目標(biāo)函數(shù)會(huì)產(chǎn)生嚴(yán)重的懲罰。因此,最小化可以確保當(dāng)xi和xj接近時(shí),那么yi和yj也是接近的。

2.3 局部保留損耗(LPP loss)

LPP[13]是一種保存樣本局部關(guān)系的流形學(xué)習(xí)方法。本文引入局部保留方法去保持教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的流形相似性,具體來(lái)說(shuō),讓FS∈Rh×w×m表示由選定的匹配層生成的學(xué)生網(wǎng)絡(luò)的特征圖和{f1S,f2S,…,f mS∈Rh×w}表 示特征圖的特征,其中h,w和m代表高度、寬度 和 通 道 數(shù)。分 別 來(lái) 說(shuō),F(xiàn)T∈Rh'×w'×m和{f1T,f2T,…,f mT∈Rh'×w'}表示特征圖和教師網(wǎng)絡(luò)中選定層的特征。其基本思想是保留教師網(wǎng)絡(luò)中的特征與學(xué)生網(wǎng)絡(luò)中的特征一樣的局部關(guān)系。為了實(shí)現(xiàn)這一目標(biāo),本文定義了以下的局部保留損失:

其中,參數(shù)αi,j描述了由教師網(wǎng)絡(luò)的選定層產(chǎn)生的特征之間的局部關(guān)系。定義αi,j的方式如下:

N(i)表示第i個(gè)特征f iT的k個(gè)最近的鄰居特征與δ是標(biāo)準(zhǔn)化常數(shù)。WS表示學(xué)生網(wǎng)絡(luò)的權(quán)重,L(W,x)表示標(biāo)準(zhǔn)交叉熵?fù)p失。那么可以定義以下總損失:

2.4 局部保留損耗(LPP loss)的反向傳播

Llpp相對(duì)于f iS的梯度計(jì)算如下:

兩個(gè)網(wǎng)絡(luò)的權(quán)重是通過(guò)Llpp的導(dǎo)數(shù)反向傳播來(lái)微調(diào)的:

3 實(shí)驗(yàn)與討論

在兩個(gè)數(shù)據(jù)集CIFAR-10和CIFAR-100[14]上評(píng)估本文方法。在所有的實(shí)驗(yàn)設(shè)置中,使用Resnet-34[4]作為教師網(wǎng)絡(luò),Resnet-18作為學(xué)生網(wǎng)絡(luò)。我們稍微修改了網(wǎng)絡(luò)的結(jié)構(gòu)以適應(yīng)數(shù)據(jù)集。CIFAR-10和CIFAR-100數(shù)據(jù)集包括50K訓(xùn)練圖像和10K測(cè)試圖像,分別有10個(gè)和100個(gè)類別。對(duì)于數(shù)據(jù)增強(qiáng),我們?cè)谟?xùn)練中從零填充的40×40圖像中隨機(jī)抽取32×32的裁剪或其翻轉(zhuǎn)一下。對(duì)于教師網(wǎng)絡(luò),本文使用了在ImageNet LSVRC 2012中預(yù)訓(xùn)練的模型[15],并采用隨機(jī)梯度下降法(SGD)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,迷你批次大小為256。SGD的權(quán)重衰減為105,動(dòng)量為0.9。對(duì)網(wǎng)絡(luò)進(jìn)行了130次歷時(shí)訓(xùn)練。初始學(xué)習(xí)率被設(shè)置為0.05,然后在10、60、90和105個(gè)歷時(shí)中分別除以10。將本文方法與KD[5]、FitNet[6]和AT[7]進(jìn)行比較。將ResNet轉(zhuǎn)移的知識(shí)(KD)溫度提高到4,并按照Hinton的研究方法使用α=0.9。對(duì)于FitNet,在第一階段,我們訓(xùn)練了90個(gè)歷時(shí),學(xué)習(xí)率最初為1e-4;然后,在10和60個(gè)歷時(shí)中,它被改為1e-5。對(duì)于注意力遷移(AT),按照Z(yǔ)agoruyko的研究方法,將λ值設(shè)置為103除以注意力圖中的元素?cái)?shù)和匹配層的批量大小。對(duì)于本文得LPP損失,我們將λ值設(shè)置為10除以特征圖中的元素?cái)?shù)、匹配層的批處理量和通道數(shù),并將k(近鄰數(shù))的數(shù)量設(shè)置為5。對(duì)于以上所有的方法,本文對(duì)教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的第二卷積組的輸出進(jìn)行匹配。實(shí)驗(yàn)結(jié)果見(jiàn)表1。包括KD、FitNet和LPP在內(nèi)的所有的方法都比原始學(xué)生網(wǎng)絡(luò)的錯(cuò)誤率低。KD[5]使用軟化標(biāo)簽來(lái)提高學(xué)生網(wǎng)絡(luò)的準(zhǔn)確性。Fitnet[6]不僅使用了像KD那樣的軟化輸出,還使用了教師網(wǎng)絡(luò)的中間隱藏層值來(lái)訓(xùn)練學(xué)生網(wǎng)絡(luò),并取得了比KD更高的準(zhǔn)確性。本文方法,即LPP,在兩個(gè)數(shù)據(jù)集中與知識(shí)提煉(KD+LPP)相結(jié)合時(shí),顯示出對(duì)學(xué)生網(wǎng)絡(luò)的明顯改善,并取得了比KD和FitNet更高的準(zhǔn)確性。

表1 不同轉(zhuǎn)移方法出錯(cuò)率的CIFAR結(jié)果

注意力遷移(AT)是一種知識(shí)提煉方法,它取得了比KD和FitNet更高的準(zhǔn)確性。表2顯示了本文方法和AT的結(jié)果。對(duì)于AT,按照Z(yǔ)agoruyko的規(guī)定,λ值被設(shè)定為103除以注意力圖中的元素?cái)?shù)和匹配層的批處理大小。為了保證識(shí)別精度的公平比較,我們?cè)诮處熅W(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的第二卷積組之間轉(zhuǎn)移相同的AT和LPP的損失。當(dāng)單獨(dú)使用AT損失和LPP損失時(shí),LPP損失實(shí)現(xiàn)了更高的準(zhǔn)確性。當(dāng)把AT和LPP損失與KD結(jié)合起來(lái)時(shí),AT損失實(shí)現(xiàn)了更高的準(zhǔn)確性。在所有的方法中,AT+LPP+KD的組合達(dá)到了最好的性能。

如表2所示,本文的LPP方法在知識(shí)提煉方面有了顯著的改進(jìn)。具體來(lái)說(shuō),提高了學(xué)生網(wǎng)絡(luò)的性能約1.46%和3.17%,并分別減少了15%和10%的相對(duì)誤差。在與AT相結(jié)合的情況下,學(xué)生網(wǎng)絡(luò)的性能提高了2.01%和3.72%,相對(duì)誤差分別降低了21%和12%。結(jié)果表明,本文方法成功地優(yōu)化了教師網(wǎng)絡(luò)特征之間的關(guān)系。盡管FitNet[6]與完全激活的功能圖相比,AT[7]轉(zhuǎn)移了完整的注意力圖,但忽略了特征之間的關(guān)系。本文方法考慮了特征之間的關(guān)系,忽略了注意力圖的具體值。因此,我們將LPP損耗與AT損耗相結(jié)合,在所有方法中獲得了最高的精度。

表2 LPP和AT的CIFAR結(jié)果

4 結(jié)語(yǔ)

本文提出了一種新的知識(shí)轉(zhuǎn)移損耗(LPP loss),將其作為一個(gè)流形學(xué)習(xí)問(wèn)題。我們將深度神經(jīng)網(wǎng)絡(luò)提取的特征視為流形中的導(dǎo)入點(diǎn),可以代表輸入圖像,通過(guò)使用所提出的局部保留損失,學(xué)生網(wǎng)絡(luò)可以在教師網(wǎng)絡(luò)中學(xué)習(xí)特征的流形結(jié)構(gòu)。本文在CIFAR-10和CIFAR-100中驗(yàn)證了該方法的有效性。結(jié)果表明,本文方法在知識(shí)提煉方面有明顯的改進(jìn)。通過(guò)將LPP損失與現(xiàn)有方法相結(jié)合,使得所提出的方法優(yōu)于最先進(jìn)的知識(shí)轉(zhuǎn)移方法。

本研究為現(xiàn)代計(jì)算機(jī)知識(shí)與管理學(xué)科創(chuàng)業(yè)創(chuàng)新研究的交叉融合做出了貢獻(xiàn),拓寬了對(duì)于社會(huì)企業(yè)創(chuàng)業(yè)研究的邊界和方向,給出了社會(huì)企業(yè)去實(shí)現(xiàn)社會(huì)價(jià)值時(shí)不僅僅局限于慈善、社會(huì)企業(yè)責(zé)任等方面,還可以考慮為國(guó)家教育做出貢獻(xiàn)的新思路。同時(shí),本研究也展現(xiàn)了現(xiàn)代計(jì)算機(jī)知識(shí)對(duì)于實(shí)現(xiàn)社會(huì)價(jià)值,提高教育效能的巨大潛力。未來(lái)的研究方向可以考慮嘗試通過(guò)新的網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)去減少管理學(xué)科收集問(wèn)卷的復(fù)雜度,提高效率,從而實(shí)現(xiàn)進(jìn)一步的社會(huì)價(jià)值。

猜你喜歡
流形局部損失
日常的神性:局部(隨筆)
爨體蘭亭集序(局部)
Hopf流形上全純向量叢的數(shù)字特征
凡·高《夜晚露天咖啡座》局部[荷蘭]
兩敗俱傷
局部對(duì)稱偽黎曼流形中的偽臍類空子流形
對(duì)乘積開(kāi)子流形的探討
丁學(xué)軍作品
菜燒好了應(yīng)該盡量馬上吃
損失
栾川县| 长寿区| 无为县| 巧家县| 信宜市| 北票市| 达孜县| 淮滨县| 平安县| 都昌县| 宣威市| 滨州市| 刚察县| 密山市| 阳山县| 贵州省| 镇康县| 威宁| 房产| 内黄县| 桓台县| 石阡县| 镇康县| 勐海县| 阳江市| 许昌市| 凤阳县| 成安县| 安西县| 措美县| 孟州市| 靖安县| 泽普县| 英山县| 襄垣县| 咸丰县| 德令哈市| 长乐市| 广东省| 清镇市| 革吉县|