晏銘 朱良寬 景維鵬
摘 要:針對植物葉片識別過程中參數(shù)較多且易產(chǎn)生過擬合的問題,為減少其存儲及計算的代價,本文提出一種基于貝葉斯融合壓縮卷積神經(jīng)網(wǎng)絡(luò)植物葉片識別模型。首先,利用遞歸貝葉斯算法進行網(wǎng)絡(luò)剪枝,自適應(yīng)地去除網(wǎng)絡(luò)冗余;然后,引入K-Means聚類量化網(wǎng)絡(luò)中的卷積層和完全連接層,用于壓縮整個卷積神經(jīng)網(wǎng)絡(luò);最后,結(jié)合經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet,進行植物葉片識別實驗。實驗結(jié)果表明,在相同的數(shù)據(jù)集中,壓縮后的卷積神經(jīng)網(wǎng)絡(luò)相比于原網(wǎng)絡(luò)及其它壓縮方法,占用的存儲空間更少,壓縮率達到36倍,并取得了略好的性能,準確率達到88.58%。
關(guān)鍵詞:
卷積神經(jīng)網(wǎng)絡(luò);模型壓縮;剪枝;參數(shù)量化;貝葉斯算法
DOI:10.15938/j.jhust.2021.03.012
中圖分類號: TP183
文獻標志碼: A
文章編號: 1007-2683(2021)03-0083-08
Compressed CNN Plant Leaf Recognition Model Fused with Bayesian
YAN Ming, ZHU Liang-kuan, JING Wei-peng
(College of Mechanical and Electronic Engineering, Northeast Forestry University, Harbin 150040, China)
Abstract:Aiming at the problem that there are many parameters in the process of plant leaf recognition and it is easy to produce over-fitting, in order to reduce the cost of storage and calculation, this paper proposes a plant leaf recognition convolutional neural network model based on Bayesian fusion. Firstly, the recursive Bayesian algorithm is used for network pruning to adaptively remove network redundancy. Then, the convolutional layer and the fully connected layer in the K-Means cluster quantization network are introduced to compress the entire convolutional neural network. Finally, combined with the classical convolutional neural network model AlexNet, plant leaf recognition experiments were carried out. The experimental results show that in the same data set, the compressed convolutional neural network takes less storage space,36 times compression and achieves a slightly better performance with 88.58% accuracy than the original network and other compression methods.
Keywords:convolutional neural network; model compression; pruning; parameter quantization; Bayesian algorithm
0 引 言
植物是地球生態(tài)系統(tǒng)的一個重要組成部分,目前已知的植物種類數(shù)量在40萬左右,還存在大量未被分類或未知的物種。植物的分類識別是生物和環(huán)境科學(xué)中非常重要的一個研究課題,對生物多樣性保護、生態(tài)農(nóng)業(yè)、生物安全等有著重要的意義。作為植物的六大器官之一的植物葉片,因其方便采集、狀態(tài)相對穩(wěn)定,且不同種類植物一般在其葉片的視覺
特征上存在著差異,為植物的分類識別提供了非常有價值的線索,是植物分類的重要依據(jù)。傳統(tǒng)的植物葉片分類方法準確率不高的原因在于其需要對數(shù)據(jù)進行預(yù)處理,特征提取,特征分類等繁瑣步驟,預(yù)處理效果差異大,人工設(shè)計的提取器難以獲得最接近目標自然屬性的特征表達。隨著科技的進步,植物葉片識別分類任務(wù)已經(jīng)從傳統(tǒng)的由植物學(xué)專家進行人工識別到近年來剛剛成熟的使用卷積神經(jīng)網(wǎng)絡(luò)進行分類。卷積神經(jīng)網(wǎng)絡(luò)由于其對幾何、形變、光照具有一定成都的不變形,因此被廣泛應(yīng)用于圖像領(lǐng)域。其主要特點有:①數(shù)據(jù)集不需要進行復(fù)雜的處理;②特征提取和識別可以同時進行;③權(quán)值共享,大大減少了需要訓(xùn)練的參數(shù)數(shù)量[1]。然而,卷積神經(jīng)網(wǎng)絡(luò)常常為了換取高準確度而對模型加深拓寬,這就導(dǎo)致了模型參數(shù)數(shù)量太大,計算過于復(fù)雜,內(nèi)存占用量偏高的問題[2]。
大多數(shù)CNN(convolutional neural network)的模型壓縮解決方案有兩個方面,一是解決卷積層計算量過于復(fù)雜的問題,二是解決完全連接層占據(jù)過多網(wǎng)絡(luò)參數(shù)的問題。由于卷積層和完全連接層的結(jié)構(gòu)明顯不同,大多數(shù)現(xiàn)有的方法中只注重于其中一種解決方案。在文[3-8]中采用低秩分解將卷積層分解為多個較小的層。Lebedev和Lempitsky[9]以及Anwar等[10]將稀疏性引入卷積層以降低計算復(fù)雜度。在文[4]和文[11]中探索了矩陣和張量分解以壓縮完全連接的層。其他方法包括固定點表示[12-14],二進制值網(wǎng)絡(luò)[15-18],基于碼本的量化[19-21],以及緊湊網(wǎng)絡(luò)設(shè)計[22-25]。
針對模型壓縮過程中出現(xiàn)的計算量過大以及參數(shù)過多的問題,本文將網(wǎng)絡(luò)剪枝和量化融合在一個學(xué)習框架中,具體包括:
1)使用擴展卡爾曼濾波器訓(xùn)練方法。EKF(extended kalman filter,擴展卡爾曼濾波)是遞歸貝葉斯算法,基于后驗概率的靈敏度定義權(quán)重重要性度量。利用這種自適應(yīng)特征,設(shè)計了一種基于貝葉斯的深度網(wǎng)絡(luò)模型剪枝算法;
2)在學(xué)習框架中結(jié)合網(wǎng)絡(luò)剪枝和量化,共同解決神經(jīng)網(wǎng)絡(luò)模型壓縮問題;
3)針對整個網(wǎng)絡(luò)進行參數(shù)微調(diào)。將以上融合方法用于AlexNet卷積神經(jīng)網(wǎng)絡(luò)的模型壓縮,并在瑞典植物葉片數(shù)據(jù)集上進行分類實驗,驗證了所提方法的可行性及有效性。
本研究嘗試提出一種新型壓縮卷積神經(jīng)網(wǎng)絡(luò)的植物葉片識別模型。充分利用了剪枝和量化算法的優(yōu)勢,并將以上融合方法用于AlexNet卷積神經(jīng)網(wǎng)絡(luò)的模型壓縮,在瑞典植物葉片數(shù)據(jù)集上進行分類實驗,驗證了所提方法的可行性及有效性。
1 卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重剪枝
1.1 傳統(tǒng)的權(quán)重剪枝方法
剪枝是用于降低網(wǎng)絡(luò)復(fù)雜度的有效方法,可以在幾乎不損失模型精度的前提下移除網(wǎng)絡(luò)中的冗余參數(shù)?;谀P图糁Φ姆椒ㄓ泻芏啵渲饕枷攵际翘暨x出模型中不重要的權(quán)重或卷積核將其移除,通過再訓(xùn)練來恢復(fù)模型的性能,這樣就可以在保證模型性能的前提下,最大程度的壓縮模型參數(shù)。
權(quán)重剪枝包括3個步驟:
1)通過將從正常訓(xùn)練中獲得的權(quán)重分為相對重要與相對不重要的兩個部分,以此來評估權(quán)重的重要性;
2)設(shè)置閾值,將權(quán)重小于閾值的部分設(shè)置為零,然后網(wǎng)絡(luò)成為稀疏連接的網(wǎng)絡(luò);
3)重新訓(xùn)練新的稀疏網(wǎng)絡(luò)得到最終的結(jié)果。
在剪枝算法中,LMP(layer-wise magnitude-based pruning,根據(jù)重要性逐層切割連接)是一種重要的傳統(tǒng)排序算法。LMP算法常用于深度神經(jīng)網(wǎng)絡(luò)的壓縮過程,但調(diào)整LMP算法中每層的閾值是一項艱巨的任務(wù),因為對于每個閾值組合,評估其優(yōu)缺點需要高計算成本。在傳統(tǒng)的方法中,閾值的選擇主要由具有專業(yè)知識的實驗室技術(shù)人員手動選擇,難以保證閾值選取的合理性。
1.2 基于貝葉斯算法的權(quán)重剪枝方法
本文采取EKF方法作為訓(xùn)練方法, 該方法可以跟蹤時變參數(shù),且可為權(quán)重向量和誤差協(xié)方差矩陣提供修剪信息。給定訓(xùn)練數(shù)據(jù)樣本集Yt={x(i),y(i)}ti=1,神經(jīng)網(wǎng)絡(luò)的剪枝可描述為一個濾波問題,即把網(wǎng)絡(luò)的所有參數(shù)向量θ(t)看作是系統(tǒng)的狀態(tài)。此時可以取得θ(t)的估計為
(t)=argθmaxP(θ(t)|Yt)
后驗概率的估計遵循遞歸貝葉斯方法:
P[θ(t)|Yt]=∫P[y(t),x(t)|θ(t)]P[θ(t)|θ(t-1)]P[y(t),x(t)|θ(t)]P[θ(t)|θ(t-1)]×
P[θ(t-1)|Yt-1]dθ(t-1)P[θ(t-1)|Yt-1]dθ(t-1)dθ(t)
其中,P[θ(t)|Yt]和P[y(t)),x(t)|θ(t)]是服從高斯分布的,通過非線性函數(shù)f[x(t),θ(t-1)]來實現(xiàn)局部線性化。利用上式中擴展卡爾曼訓(xùn)練的貝葉斯優(yōu)化,可以定義一個衡量權(quán)重的重要性標準。由于P[θ(t)|Yt]是高斯分布,近似于給定測量數(shù)據(jù)Yt的實際后驗概率,我們可以寫出方程式表達式:
P((t)|Yt)=c0exp{-12(θ(t)-(t))T×
P-1(t)(θ(t)-(t))}
其中c0是一個歸一化常數(shù)。令k(t)為參數(shù)向量,除了第k個元素為零之外,所有元素都等于(t)。于是得出:
P(k(t)|Yt)=c0exp{-122k(P-1(t))kk}
其中(P-1(t))kk是P的逆的第k個對角元素。顯然,當2k(P-1(t))kk值越小,后驗概率P(k(t)|Yt)就越大。因此,得出了一次修剪一個權(quán)重的重要性度量。對于一次修剪多個權(quán)重,將{π1,…,πnθ}設(shè)定為順序排列表,[1,k]是元素從π1到πk為零的向量,其余元素與πk+1到πnθ相同。由可得從π1到πk索引的權(quán)重的重要性如下:
P([1,k](t)|Yt)=c0exp{-12T[1,k]P-1(t)[1,k]}
上述等式定義了自適應(yīng)剪枝過程的基本部分:
1)使用遞歸方程來獲得(t)和P(t)。
2)通過t-1∑ti=1(y(i)-(i))2估計訓(xùn)練誤差Etr(t)。
3)如果Etr(t) ①估計P-1(t)并得出θ2k(P-1(t))kk從1到nθ的所有k; ②根據(jù)θ2k(P-1(t))kk的升序重新排序索引{πk}; ③對于從1到nθ的πk,假設(shè)刪除了從θπ1到θπk,估計P([1,k](t)|Y(t)); ④若logP([1,k](t)|Y(t))-logc0 2 卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)量化 通常,存儲網(wǎng)絡(luò)參數(shù)的基本單位是32位寬的單精度浮點數(shù)據(jù)類型。但是,在大多數(shù)情況下,使用低位數(shù)據(jù)類型的存儲不會導(dǎo)致網(wǎng)絡(luò)準確性降低。具有低精度數(shù)據(jù)類型的參數(shù)表示和存儲也是網(wǎng)絡(luò)壓縮的 重要思想之一。 在本文中,采用K-Means聚類量化卷積神經(jīng)網(wǎng)絡(luò)中的卷積層和完全連接層。K均值聚類對象分為向量和單個值,本文主要關(guān)注單數(shù)值聚類。通過聚類,可將該層的所有參數(shù)權(quán)重映射到有限小碼本中,并且碼本中的碼字是通過K均值聚類獲得的中心點。最接近該中心點的每個參數(shù)共享該權(quán)重。在進行網(wǎng)絡(luò)參數(shù)存儲的時候,僅存儲該層的碼本(不同層的碼本不同)以及該層參數(shù)在碼本中對應(yīng)的索引。例如,有一個16位大小的碼本,則每個參數(shù)的索引存儲僅需4個比特即可,進而達到網(wǎng)絡(luò)壓縮的效果。以下描述了參數(shù)量化的實現(xiàn)過程。 算法:卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重聚類量化 1)預(yù)訓(xùn)練網(wǎng)絡(luò)模型; 2)對各層參數(shù)進行K-Means聚類,得到一個大小為K的碼本,K值決定了網(wǎng)絡(luò)的量化精度以及網(wǎng)絡(luò)壓縮的比重; 3)各層參數(shù)取當前碼本中歐式距離最近的碼字為值,進行網(wǎng)絡(luò)前向推導(dǎo),得到損失值; 4)在進行誤差反向回傳計算參數(shù)梯度值的時候,各層參數(shù)取其真實值進行計算,將共享同一個碼字的參數(shù)梯度值相加,通過隨機梯度下降法對該類碼字進行更新; 5)交替迭代步驟3和步驟4,直到收斂。收斂條件為,碼本的變化趨于零或者達到預(yù)先設(shè)置好的訓(xùn)練次數(shù),或者已達到預(yù)期的網(wǎng)絡(luò)精度; 6)將訓(xùn)練好的模型進行應(yīng)用時,各個參數(shù)使用的都是量化后的值。 量化之后網(wǎng)絡(luò)的壓縮率Q為 Q=Nlog2(K)+32K32N 其中:N為參數(shù)個數(shù);32為一個單精度浮點類型的比特數(shù)。 只對網(wǎng)絡(luò)模型進行剪枝操作雖然可以減少參數(shù)冗余,提高網(wǎng)絡(luò)的稀疏性,但是它對實際壓縮效率的影響是有限的。因此,本文結(jié)合量化操作來解決單一方法的局限性。 所提出的算法流程圖如圖1所示。首先,對數(shù)據(jù)集進行預(yù)處理,包括對數(shù)據(jù)集的擴充以及劃分;其次,應(yīng)用自適應(yīng)貝葉斯算法對網(wǎng)絡(luò)中的每一層進行超參數(shù)預(yù)測,直到確定了所有層的權(quán)重剪枝閾值并進行權(quán)重修剪;然后,對權(quán)重參數(shù)進行聚類量化;最后,測試網(wǎng)絡(luò)性能,微調(diào)網(wǎng)絡(luò)參數(shù)直到其壓縮率及準確率達到滿意的效果。 3 實驗設(shè)計 3.1 數(shù)據(jù)集預(yù)處理 本文實驗所采用的樹葉數(shù)據(jù)集來源于CVL(computer vision laboratory,計算機視覺實驗室),該數(shù)據(jù)集包括15種不同類型的樹葉共1125張。通過傳統(tǒng)方法中的垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、向右旋轉(zhuǎn)90°、向左旋轉(zhuǎn)90°等操作將數(shù)據(jù)集擴充至112500張,然后將所有圖像大小調(diào)整為256×256并將整個數(shù)據(jù)集按照6∶2∶2的比例劃分給訓(xùn)練集、驗證集以及測試集。如圖2所示,給出了3種樹葉的預(yù)處理效果圖。 3.2 壓縮AlexNet網(wǎng)絡(luò)模型 在圖像識別領(lǐng)域中,使用卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為了一種主流方法。2012年,Krizhevsky等[26]提出了一個大型的深度卷積神經(jīng)網(wǎng)絡(luò)——AlexNet,作為一種經(jīng)典的網(wǎng)絡(luò)模型,AlexNet由5個卷積層和3個全連接層組成,其中集成了各種技術(shù)來提高網(wǎng)絡(luò)的性能以及網(wǎng)絡(luò)的訓(xùn)練效率,包括:非飽和非線性神經(jīng)元ReLu、LRN(local response normalization,局部響應(yīng)歸一化)、dropout等,其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。 2016年,Anwar[10]等人修剪了一個基于VGG16模型的貓狗分類器。本文將以AlexNet作為深度卷積神經(jīng)網(wǎng)絡(luò)模型,進行網(wǎng)絡(luò)模型壓縮及植物葉片識別實驗。首先,將神經(jīng)網(wǎng)絡(luò)中冗余的參數(shù)進行修剪,嘗試一些閾值設(shè)置來觀察使用傳統(tǒng)方法對于準確度和壓縮率的變化。然后,使用EKF方法作為AlexNet上的訓(xùn)練方法來證明基于貝葉斯方法進行剪枝的有效性。使用傳統(tǒng)方法進行剪枝的結(jié)果如圖4所示,按照閾值增加的順序連接了19個測試的結(jié)果??梢钥闯?,較大的閾值將帶來更高的壓縮率和更低的準確性。當閾值增加時,壓縮率增加并且精度緩慢降低。 基于與上述實驗相同的網(wǎng)絡(luò)模型AlexNet,使用EKF方法進行參數(shù)訓(xùn)練,在超參數(shù)預(yù)測實驗中,遵循SGD (stochastic gradient descent,隨機梯度下降)方法的默認實驗設(shè)置。最大迭代次數(shù)設(shè)置為50。在圖5中,當?shù)螖?shù)達到約40時,AlexNet每層的壓縮率趨于穩(wěn)定。因此,在后續(xù)實驗中將迭代次數(shù)設(shè)置為40。圖4和圖5的兩個實驗證明了貝葉斯方法在卷積神經(jīng)網(wǎng)絡(luò)剪枝中的優(yōu)越性。它可以更快地找到每層的最佳閾值,既可以保證精度,又可以最大程度壓縮網(wǎng)絡(luò)。 在整個的實驗設(shè)計中,首先,采用基于貝葉斯算法的自適應(yīng)閾值修剪算法,以解決傳統(tǒng)的手工設(shè)置并進行多次嘗試選取最佳值容易造成閾值設(shè)置不準確的問題;其次,對權(quán)重參數(shù)進行聚類量化,使整個網(wǎng)絡(luò)的參數(shù)可以大幅度減少,從而達到高倍壓縮的目的;最后,對網(wǎng)絡(luò)進行微調(diào),使得網(wǎng)絡(luò)的表達能力維持穩(wěn)定。 圖6顯示了融合算法和單獨進行剪枝、單獨進行量化時的不同壓縮率下的精度損失。當單獨工作時,如右側(cè)兩條曲線所示,當壓縮率低于其原始尺寸的8%時,剪枝網(wǎng)絡(luò)的準確性開始顯著下降;當壓縮率低于其原始大小的8%時,量化網(wǎng)絡(luò)的準確性也開始顯著下降。但是當融合剪枝與量化時,如左側(cè)曲線所示,網(wǎng)絡(luò)可以壓縮到原始大小的4%而不會損失準確性。 由此可知,在基于貝葉斯的優(yōu)化剪枝算法中融合量化算法可以使網(wǎng)絡(luò)壓縮更具有有效性。AlexNet網(wǎng)絡(luò)具體壓縮情況見表1,可以看出改進的剪枝過程對于第一層卷積層conv1以及最后一層完全連接層fc8具有明顯的壓縮效果,融合了剪枝與量化算法也使得網(wǎng)絡(luò)得到了較高的壓縮率。 3.3 AlexNet神經(jīng)網(wǎng)絡(luò)壓縮模型識別植物葉片 本節(jié)將在AlexNet神經(jīng)網(wǎng)絡(luò)壓縮模型上進行植物葉片的識別實驗,并與在AlexNet上的其它壓縮方法進行對比實驗。如圖7神經(jīng)網(wǎng)絡(luò)在壓縮前后的準確率所示,AlexNet神經(jīng)網(wǎng)絡(luò)在壓縮后沒有明顯的準確率損失,并且從迭代次數(shù)中可以看出,壓縮后的網(wǎng)絡(luò)可以很快的達到較高的準確度。表2給出了本文方法與其他4種主流壓縮方法比較結(jié)果??梢钥闯觯疚姆椒ㄒ詼蚀_度損失僅僅0.91%為代價,獲得了36倍的壓縮率,而其他4種方法中,若要獲得高倍的壓縮率,將會有較高的精度損失。 4 結(jié) 論 本文提出了融合剪枝與量化進行植物葉片識別網(wǎng)絡(luò)的自動壓縮方法。通過創(chuàng)建一個集成框架來消除權(quán)重冗余并量化表征參數(shù)信息的存儲元素。該方法采用遞歸貝葉斯算法預(yù)測閾值的超參數(shù),通過使用K-Means聚類方法來共享參數(shù)的中心值以達到量化的目的,并在植物葉片數(shù)據(jù)集上進行植物葉片識別實驗。結(jié)果表明,本文提出的融合方法可以將植物葉片識別網(wǎng)絡(luò)AlexNet壓縮36倍,有效的降低了計算復(fù)雜度與內(nèi)存占用量,同時達到較為滿意的識別精度,提升了植物葉片的識別效率。在未來的研究中,將考慮葉片圖像的形狀特征與紋理特征相結(jié)合,以提高識別率;亦可將此壓縮模型部署到移動終端,為更方便、有效的進行植物識別提供新的工程解決方案。 參 考 文 獻: [1] 許振雷,楊瑞,王鑫春,應(yīng)文豪.基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究[J].電腦知識與技術(shù),2016,12(10):194. XU Zhenlei, YANG Rui, WANG Xinchun, et al. Based on Leaves Convolutional Neural Network Recognition Algorithm[J] Computer Knowledge and Technology, 2016, 12(10):194. [2] 于舒春,佟小雨.基于CNN特征提取的粒子濾波視頻跟蹤算法研究[J].哈爾濱理工大學(xué)學(xué)報,2020,25(4):78. YU Shuchun, TONG Xiaoyu. Research on Particle Filter Video Tracking Algorithms Based on CNN Feature Extraction[J]. Journal of Harbin University of Science and Technology,2020, 25(4):78. [3] JADERBERG M, VEDALDI A, ZISSERMAN A. Speeding Up Convolutional Neural Networks with Low Rank Expansions[J]. arXiv Preprint arXiv:1405.3866, 2014. [4] DENTON E L, ZAREMBA W, BRUNA J, et al. Exploiting Linear Structure Within Convolutional Networks for Efficient Evaluation[C]//Advancesin Neural Information Processing Systems. 2014: 1269. [5] LEBEDEV V, GANIN Y, RAKHUBA M, et al. Speeding-up Convolutional Neural Networks Using Fine-tuned cp-decomposition[J]. arXiv Preprint arXiv:1412.6553, 2014. [6] ZHANG X, ZOU J, MING X, et al. Efficient and Accurate Approximations of Nonlinear Convolutional Networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1984. [7] ZHANG X, ZOU J, HE K, et al. Accelerating Very Deep Convolutional Networks for Classification and Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(10): 1943. [8] WANG P, CHENG J. Accelerating Convolutional Neural Networks for Mobile Applications[C]// Proceedings of the 24th ACM International Conference on Multimedia, 2016: 541. [9] LEBEDEV V, LEMPITSKY V. Fast Convnets Using Group-wise Brain Damage[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2554. [10]ANWAR S, HWANG K, SUNG W. Structured Pruning of Deep Convolutional Neural Networks[J]. ACM Journal on Emerging Technologies in Computing Systems (JETC), 2017, 13(3): 1. [11]NOVIKOV A, PODOPRIKHIN D, OSOKIN A, et al.Tensorizing Neural Networks[C]//Advances in Neural Information Processing Systems, 2015: 442. [12]GUPTA S, AGRAWAL A, GOPALAKRISHNAN K, et al. Deep Learning with Limited Numerical Precision[C]//International Conference on Machine Learning, 2015: 1737. [13]COURBARIAUX M, BENGIO Y, DAVID J P. Training Deep Neural Networks with Low Precision Multiplications[J]. arXiv Preprint arXiv: 1412.7024, 2014. [14]MIYASHITA D, LEE E H, MURMANN B. Convolutional Neural Networks Using Logarithmic Data Representation[J]. arXiv Preprint arXiv: 1603.01025, 2016. [15]COURBARIAUX M, BENGIO Y, DAVID J P. Binaryconnect: Training Deep Neural Networks with Binary Weights During Propagations[C]// Advances in Neural Information Processing Systems. 2015: 3123. [16]LIN Z, COURBARIAUX M, MEMISEVIC R, et al. Neural Networks with Few Multiplications[J]. arXiv Preprint arXiv:1510.03009, 2015. [17]COURBARIAUX M, HUBARA I, SOUDRY D, et al. Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to+1 or-1[J]. arXiv Preprint arXiv:1602.02830, 2016. [18]RASTEGARI M, ORDONEZ V, REDMON J, et al. Xnor-net: Imagenet Classification Using Binary Convolutional Neural Networks[C]//European Conference on Computer Vision. Springer, Cham, 2016: 525. [19]GONG Y, LIU L, YANG M, et al. Compressingdeep Convolutional Networks Using Vector Quantization[J]. arXiv Preprint arXiv:1412.6115, 2014. [20]CHEN W, WILSON J, TYRES S, et al. Compressing Neural Networks with the Hashing Trick[C]// International Conference on Machine Learning, 2015: 2285. [21]HAN S, MAO H, DALLY W J. Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding[J]. arXiv Preprint arXiv:1510.00149, 2015. [22]BA J, CARUANA R. Do Deep Nets Really Need to Bedeep?[C]//Advances in Neural Information Processing Systems, 2014: 2654. [23]HINTON G, VINYALS O, DEAN J. Distilling the Knowledge in a Neural Network[J]. arXiv Preprint arXiv:1503.02531, 2015. [24]ROMERO A, BALLAS N, KAHOU S E, et al. Fitnets: Hints for Thin Deep Nets[J]. arXiv Preprint arXiv:1412.6550, 2014. [25]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84. [26]KRIZHEVSKY A, SUTSKEVER I, HINTON G E, et al. ImageNet Classification with Deep Convolutional Neural Networks[C]// Neural Information Processing Systems, 2012: 1097. [27]YANG Z, MOCZULSKI M, DENIL M, et al. Deep Fried Convnets[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1476. [28]COLLINS M D, KOHLI P. Memory Bounded Deep Convolutional Networks[J]. arXiv Preprint arXiv:1412.1442, 2014. [29]DENTON E L, ZAREMBA W, BRUNA J, et al. Exploiting Linear Structure within Convolutional Networks for Efficient Evaluation[C]//Advances in Neural Information Processing Systems, 2014: 1269. (編輯:王 萍)