張 歡,趙希梅,2
(1.青島大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東 青島 266071;2.山東省數(shù)字醫(yī)學(xué)與計(jì)算機(jī)輔助手術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 青島 266000)
自人工神經(jīng)網(wǎng)絡(luò)[1]誕生以來,計(jì)算機(jī)輔助診斷(Computer-Aided Diagnosis,CAD)[2]技術(shù)逐漸受到關(guān)注。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3]的發(fā)展,該技術(shù)在醫(yī)學(xué)影像特別是肝臟超聲影像方面的應(yīng)用日益廣泛。肝臟超聲影像可有效檢測(cè)出肝臟組織的微小病變,操作安全便捷。目前CAD 輔助肝臟超聲影像技術(shù)已成為檢測(cè)肝臟病灶的重要手段,肝病檢測(cè)中病灶圖像特征的提取方式,也由基于機(jī)器學(xué)習(xí)[4]的人工提取發(fā)展為基于深度學(xué)習(xí)[5]的卷積自動(dòng)提取。
目前,國(guó)內(nèi)外研究人員采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法進(jìn)行肝臟病變研究。在機(jī)器學(xué)習(xí)方面,文獻(xiàn)[6]利用空間灰度獨(dú)立矩陣、空間頻率分解和分形結(jié)合兩層BP 神經(jīng)網(wǎng)絡(luò),對(duì)正常肝臟以及輕度、中度和重度脂肪肝4 種肝臟超聲影像的平均識(shí)別率達(dá)到95.33%。文獻(xiàn)[7]提出一種改進(jìn)SLBP 特征與二維Gabor 變換結(jié)合的方法,采用超限學(xué)習(xí)機(jī)ELM 對(duì)肝硬化樣本的識(shí)別率達(dá)到95.4%。在深度學(xué)習(xí)方面,文獻(xiàn)[8]提出基于深度視覺特征學(xué)習(xí)的肝臟病灶識(shí)別方法,并采用CaffeNet 訓(xùn)練框架對(duì)原發(fā)性肝癌、肝硬化樣本以及正常肝臟進(jìn)行識(shí)別,其平均識(shí)別精度為96.67%。
由上述研究成果可知,與基于機(jī)器學(xué)習(xí)的人工提取方法相比,采用卷積自動(dòng)提取特征的深度學(xué)習(xí)[9]方法對(duì)肝臟病灶識(shí)別效果更優(yōu),因此,基于卷積神經(jīng)網(wǎng)絡(luò)的算法作為深度學(xué)習(xí)的重要算法[10],逐漸成為肝臟影像處理領(lǐng)域的主流算法。然而,卷積神經(jīng)網(wǎng)絡(luò)也存在多種缺陷:卷積神經(jīng)網(wǎng)絡(luò)缺乏網(wǎng)絡(luò)空間不變性,其對(duì)旋轉(zhuǎn)、平移等操作輸入特征的讀取能力有限,造成網(wǎng)絡(luò)分類效果較差且耗時(shí)較多;為提高網(wǎng)絡(luò)分類精度并減少耗時(shí),卷積神經(jīng)網(wǎng)絡(luò)不斷加深,導(dǎo)致網(wǎng)絡(luò)運(yùn)行效率降低;傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)大部分采用同構(gòu)內(nèi)核執(zhí)行卷積操作,其模型架構(gòu)的堆疊易造成網(wǎng)絡(luò)復(fù)雜度過高及分類效率較低。
為提高傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的特征讀取能力和分類精度、降低網(wǎng)絡(luò)復(fù)雜度并提升運(yùn)行效率,本文提出一種應(yīng)用于肝硬化樣本識(shí)別的SH_ImAlexNet 網(wǎng)絡(luò)。在改進(jìn)AlexNet 網(wǎng)絡(luò)中加入空間變換網(wǎng)絡(luò)(Spatial Transformer Network,STN)層增強(qiáng)空間不變性,在此基礎(chǔ)上引入異構(gòu)卷積濾波器降低網(wǎng)絡(luò)復(fù)雜度,并將該網(wǎng)絡(luò)與AlexNet、VGG[11]等傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)的識(shí)別率及復(fù)雜度進(jìn)行對(duì)比分析。
空間變換網(wǎng)絡(luò)由DEEPMIND 等人[12]于2015 年提出,其能將輸入樣本在空間進(jìn)行對(duì)齊,以減少樣本由于空間旋轉(zhuǎn)、平移等幾何變換對(duì)分類任務(wù)的影響,空間變換網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。STN 以仿射變換矩陣為基礎(chǔ),允許神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入樣本或特征圖執(zhí)行空間變換的方式,以增強(qiáng)模型的幾何不變性。
圖1 空間變換網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of spatial transformer network
空間轉(zhuǎn)換模塊是空間變換網(wǎng)絡(luò)的核心,其主要包括本地化網(wǎng)絡(luò)、參數(shù)采樣網(wǎng)格和圖像采樣3 部分。
1)本地化網(wǎng)絡(luò)
本地化網(wǎng)絡(luò)的主要任務(wù)是確定輸入所需變換的參數(shù)θ。將輸入的特征圖經(jīng)過若干卷積或全連接操作后接入回歸層,回歸輸出變換參數(shù)θ=,θ∈?2×3。
2)參數(shù)采樣網(wǎng)格
參數(shù)采樣網(wǎng)格主要利用本地化網(wǎng)絡(luò)的輸出參數(shù)θ對(duì)特征圖進(jìn)行仿射變換。根據(jù)輸入和輸出特征圖的坐標(biāo)位置得到仿射變換的特征關(guān)系Tθ(Gi)與結(jié)果。假設(shè)輸入特征圖U每個(gè)像素的坐標(biāo)位置為,經(jīng)過空間轉(zhuǎn)換后輸出特征圖每個(gè)像素的坐標(biāo)位置為,得到特征關(guān)系如下:
其中,Aθ為仿射變換矩陣。
3)圖像采樣
圖像采樣是將經(jīng)過本地化網(wǎng)絡(luò)和參數(shù)采樣網(wǎng)格得到的特征關(guān)系Tθ(Gi)與原始輸入特征圖U融合,并經(jīng)過以下對(duì)應(yīng)關(guān)系生成最終結(jié)果V∈?(H×W×C):
其中,k() 為采樣內(nèi)核,?x和?y為輸入?yún)?shù),(n,m) 為特征圖Ucmn在通道C內(nèi)的位置。
綜上所述,特征圖像U經(jīng)過旋轉(zhuǎn)、平移或拉伸等操作后,通過本地化網(wǎng)絡(luò)得到仿射變換參數(shù)θ,在參數(shù)采樣網(wǎng)格進(jìn)行仿射變換,最終在圖像采樣處與原始特征圖融合,得到具有空間不變性的新特征圖像V。除了空間不變性外,空間變換網(wǎng)絡(luò)還具有優(yōu)化損失函數(shù)、計(jì)算速度快以及耗時(shí)少等特性。
隨著卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺和圖像識(shí)別等領(lǐng)域的廣泛應(yīng)用,人們對(duì)卷積神經(jīng)網(wǎng)絡(luò)分類精度的要求越來越高。為提高識(shí)別率,采用同構(gòu)濾波器[13]的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)深度不斷增加,但導(dǎo)致網(wǎng)絡(luò)復(fù)雜度逐漸增大。為了在提高網(wǎng)絡(luò)分類精度的同時(shí)有效降低復(fù)雜度并提高網(wǎng)絡(luò)運(yùn)行效率,文獻(xiàn)[13]提出一種采用異構(gòu)內(nèi)核進(jìn)行卷積運(yùn)算的深度學(xué)習(xí)模塊,即異構(gòu)卷積(Heterogeneous Convolution,HetConv)濾波器。
圖2 為異構(gòu)卷積濾波器與同構(gòu)卷積濾波器的結(jié)構(gòu)。由于兩者的主要區(qū)別在內(nèi)核,因此異構(gòu)內(nèi)核是異構(gòu)卷積濾波器的核心。異構(gòu)內(nèi)核通常由3×3 的分組卷積[14]和1×1 的逐點(diǎn)卷積[15]構(gòu)成。如果同構(gòu)卷積濾波器為3×3×C(C為輸入通道數(shù)),則異構(gòu)卷積濾波器會(huì)利用比例系數(shù)P保留C/P的3×3 卷積核尺寸,剩余的(C-C/P)個(gè)卷積核尺寸則變?yōu)?×1,以此替換同構(gòu)卷積濾波器。
圖2 異構(gòu)卷積濾波器與同構(gòu)卷積濾波器的結(jié)構(gòu)Fig.2 Structures of heterogeneous convolution filter and homogeneous convolution filter
如果一個(gè)L層的卷積核輸出通道數(shù)為D,且每個(gè)通道均為3×3和1×1的異構(gòu)內(nèi)核,此時(shí)若比例系數(shù)P=4,則異構(gòu)卷積濾波器將會(huì)從該層的第一個(gè)濾波器的首位依次使用3×3 和1×1 的異構(gòu)內(nèi)核,如圖3 所示。
圖3 L 層異構(gòu)卷積濾波器結(jié)構(gòu)Fig.3 Structure of L-layer heterogeneous convolution filter
K×K同構(gòu)卷積濾波器的每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)的計(jì)算公式如下:
其中,F(xiàn)o為卷積輸出的特征圖大小,C為輸入通道數(shù),D為輸出通道數(shù)。
若將L層異構(gòu)卷積濾波器的比例系數(shù)P視為一個(gè)整體,則K×K(即3×3)的內(nèi)核只有(1/P)個(gè),含有P的K×K內(nèi)核的FLOPS 計(jì)算公式如下:
實(shí)際上K×K內(nèi)核個(gè)數(shù)為(C/P),剩余1×1 內(nèi)核個(gè)數(shù)為(C-C/P),剩余1×1內(nèi)核的FLOPS計(jì)算公式如下:
L層的異構(gòu)卷積濾波器的FLOPS計(jì)算總量如下:
異構(gòu)卷積濾波器與同構(gòu)卷積濾波器相比,其減少計(jì)算量Fh為:
由式(7)可知,當(dāng)P為1 時(shí),異構(gòu)卷積濾波器也是同構(gòu)卷積濾波器。
綜上所述,異構(gòu)卷積濾波器通過將一部分通道的同構(gòu)卷積濾波器尺寸保留為3×3,將另一部分通道的同構(gòu)卷積濾波器尺寸減少為1×1,從而確保覆蓋前者的空間相關(guān)信息,并縮小后者的空間范圍,同時(shí)得到相同或高于同構(gòu)卷積濾波器的分類精度。此外,異構(gòu)卷積濾波器直接插入卷積神經(jīng)網(wǎng)絡(luò)可降低網(wǎng)絡(luò)復(fù)雜度。
2012 年復(fù)雜卷積神經(jīng)網(wǎng)絡(luò)AlexNet[16]在ImageNet競(jìng)賽[17]中奪冠,與LeNet5[18]網(wǎng)絡(luò)相比,AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)更深,圖像識(shí)別效果更出色[19],其結(jié)構(gòu)如圖4 所示。AlexNet 網(wǎng)絡(luò)分別通過最大池化(MaxPool)、ReLU 激活函數(shù)、Dropout 函數(shù)以及數(shù)據(jù)增強(qiáng)處理,對(duì)淺層神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,避免訓(xùn)練時(shí)出現(xiàn)過擬合的現(xiàn)象,最終得到全連接(FC)層。此外,AlexNet 網(wǎng)絡(luò)還具有傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)空間不變性的特點(diǎn)。由于肝硬化樣本紋理信息復(fù)雜多樣,且傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在經(jīng)過卷積(Conv)-池化訓(xùn)練后其特征會(huì)改變,因此盡管AlexNet網(wǎng)絡(luò)能在自然圖像識(shí)別上取得較好的識(shí)別效果,但仍會(huì)受樣本圖像和自身特性影響,出現(xiàn)網(wǎng)絡(luò)識(shí)別率與運(yùn)行效率降低的現(xiàn)象。
圖4 AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of AlexNet network
為提高圖像識(shí)別率,本文對(duì)AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行改進(jìn)以適應(yīng)肝硬化樣本的尺度,并將改進(jìn)后的AlexNet網(wǎng)絡(luò)記為ImAlexNet網(wǎng)絡(luò),其主要由4個(gè)最大池化層以及3個(gè)全連接層以及7個(gè)卷積層組成,卷積層中6 個(gè)含有批標(biāo)準(zhǔn)化(Batch Normalization,BN)層。ImAlexNet網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示(其中“—”表示該值不存在)。輸入樣本為3×56 像素×56 像素(3 為通道數(shù),以下同),采用64個(gè)3×3的卷積核提取特征,然后采用ReLU函數(shù)作為激活函數(shù)進(jìn)行處理,并經(jīng)過最大池化層得到下一層卷積的輸入為64×14像素×14像素(64為卷積核數(shù),以下同)。對(duì)于含有BN 層的卷積層,在卷積提取完特征后,需要經(jīng)過BN 層的歸一化處理,再采用ReLU 激活函數(shù)進(jìn)行訓(xùn)練。改進(jìn)后的AlexNet 網(wǎng)絡(luò)采用尺寸為3×3的卷積核。
表1 ImAlexNet 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1 Structure parameters of ImAlexNet network
由于AlexNet 網(wǎng)絡(luò)對(duì)自然圖像識(shí)別效果良好,因此本文以AlexNet 網(wǎng)絡(luò)為基礎(chǔ),在考慮了肝硬化紋理信息多樣性的情況下,對(duì)AlexNet 網(wǎng)絡(luò)進(jìn)行改進(jìn)(見2.1 節(jié)),所得ImAlexNet 網(wǎng)絡(luò)更適合肝硬化樣本訓(xùn)練。此外,由于卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)不能保證網(wǎng)絡(luò)的空間不變性,因此為提高網(wǎng)絡(luò)分類精度,本文引入空間變換網(wǎng)絡(luò)。該網(wǎng)絡(luò)有較強(qiáng)魯棒性,能動(dòng)態(tài)地對(duì)樣本執(zhí)行空間變換,增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)平移、旋轉(zhuǎn)及拉伸后的空間不變性,還能對(duì)樣本的目標(biāo)區(qū)域進(jìn)行定位和優(yōu)化[20],以增強(qiáng)樣本的分類效果。
此外,為確保提高分類精度和運(yùn)行效率并降低網(wǎng)絡(luò)復(fù)雜度,本文在引入空間變換網(wǎng)絡(luò)的基礎(chǔ)上融合異構(gòu)卷積濾波器,以增強(qiáng)網(wǎng)絡(luò)整體有效性。異構(gòu)卷積濾波器采用比例系數(shù)P調(diào)整異構(gòu)內(nèi)核中3×3 和1×1 的卷積核數(shù)目,利用調(diào)整后的異構(gòu)內(nèi)核替換傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的同構(gòu)內(nèi)核。異構(gòu)內(nèi)核的一部分通道在保留同構(gòu)卷積濾波器尺度(3×3)的同時(shí),也保留其空間的相關(guān)信息,另一部分通道則通過縮減同構(gòu)卷積濾波器尺度來減少濾波器的空間范圍,使得網(wǎng)絡(luò)能在確保網(wǎng)絡(luò)分類精度的情況下,提高網(wǎng)絡(luò)運(yùn)行效率并減少FLOPS 計(jì)算量與網(wǎng)絡(luò)參數(shù)量,從而提高網(wǎng)絡(luò)整體有效性。本文融合STN、HetConv和ImAlexNet的優(yōu)勢(shì),提出SH_ImAlexNet 網(wǎng)絡(luò),其結(jié)構(gòu)如圖5 所示。該網(wǎng)絡(luò)主要由1 個(gè)空間變換網(wǎng)絡(luò)層、7 個(gè)卷積層(1 個(gè)3×3 卷積層、6 個(gè)異構(gòu)卷積層)以及3 個(gè)全連接層組成。
圖5 SH_ImAlexNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of SH_ImAlexNet network
本文的STN 層主要由本地化的2 個(gè)卷積層(包括8個(gè)7×7卷積核和10個(gè)5×5卷積核)和2個(gè)全連接層(神經(jīng)元數(shù)量分別為32 和6)組成。以改進(jìn)的ImAlexNet 網(wǎng)絡(luò)為基礎(chǔ),在其輸入層與第一個(gè)卷積層之間引入STN,利用STN 的仿射變換矩陣結(jié)構(gòu),對(duì)輸入樣本進(jìn)行旋轉(zhuǎn)生成并輸出新的特征圖像,從而增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本輸入特征的讀取能力[20],提高模型的空間不變性與分類精度。引入STN 后,保留第一個(gè)卷積層和池化層的所有參數(shù),將其余各層的卷積核替換為異構(gòu)卷積濾波器,訓(xùn)練時(shí)每進(jìn)行一次異構(gòu)卷積就執(zhí)行一次池化降維。根據(jù)1.2 節(jié)中異構(gòu)內(nèi)核劃分標(biāo)準(zhǔn),設(shè)置比例系數(shù)P=2,劃分異構(gòu)內(nèi)核中各個(gè)3×3 和1×1 卷積核的數(shù)量。由樣本采用3 通道可知,最終得到的3×3 和1×1 卷積核數(shù)量一致,分別占通道總量的1/2。本文提出的SH_ImAlexNet 網(wǎng)絡(luò)中各層卷積核的數(shù)量和ImAlexNet 網(wǎng)絡(luò)相同(見表1),與原始AlexNet 網(wǎng)絡(luò)相比,其可有效降低網(wǎng)絡(luò)復(fù)雜度,并增強(qiáng)網(wǎng)絡(luò)的魯棒性。
本文以3×56 像素×56 像素的肝硬化超聲影像樣本為輸入,通過空間變換網(wǎng)絡(luò)生成3×56 像素×56 像素的新特征,以新特征為輸入對(duì)所保留的卷積層和池化層進(jìn)行卷積-池化操作,獲得維度為64×14×14 的輸出特征。將該特征送入異構(gòu)卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過異構(gòu)卷積、BN 層、ReLU 函數(shù)與最大池化的多次交疊運(yùn)算,最終得到全連接層輸入維度為256×1×1。
在網(wǎng)絡(luò)訓(xùn)練中,先采用交叉熵函數(shù)H(p,q)表示與期待值之間的差異,再利用Adam 優(yōu)化器優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),最后通過Softmax 分類器對(duì)所訓(xùn)練樣本的每類概率進(jìn)行預(yù)測(cè)。假設(shè)xi為訓(xùn)練樣本x的第i個(gè)樣本,y∈{1,2,…,Y}為訓(xùn)練樣本的每類概率(本文中y為2),則交叉熵函數(shù)表達(dá)式為:
其中,p(xi)為預(yù)測(cè)的概率值,q(xi)為真實(shí)的概率值。
采用Adam 優(yōu)化器進(jìn)行網(wǎng)絡(luò)優(yōu)化的相關(guān)計(jì)算公式如下:
其中,η為學(xué)習(xí)率,c為常數(shù),mt為對(duì)梯度的一階矩陣估計(jì)Mt,nt為對(duì)梯度的二階矩陣估計(jì)Nt的校正(用于理想圖像的無偏差估計(jì)),Δθt對(duì)學(xué)習(xí)率形成有明確范圍的動(dòng)態(tài)約束。
全連接層Softmax 分類器的相關(guān)計(jì)算公式如下:
其中,j為訓(xùn)練樣本的種類個(gè)數(shù)。
本文實(shí)驗(yàn)基于pytorch1.2.0 框架在Anaconda3 環(huán)境的Spyder3.4 平臺(tái)進(jìn)行,采用Win10 64 位操作系統(tǒng),Inter?XeomTMW-2133 處理器,64 GB 內(nèi)存。通過R2018b 版本的Matlab 軟件提取樣本,并使用tensorboardX 庫、torchstat 庫和matplotlib 庫對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行可視化處理。
本文實(shí)驗(yàn)所用數(shù)據(jù)集是從青島大學(xué)附屬醫(yī)院肝膽科選取的多幅正常肝臟和肝硬化樣本的超聲影像(部分肝臟超聲影像示例見圖6)。由于肝硬化超聲影像的病變部位紋理受樣本尺度影響較明顯,為避免使用尺度較小樣本(如16 像素×16 像素樣本和28 像素×28 像素樣本)造成紋理丟失,以及尺度較大樣本(如128 像素×128 像素樣本和224 像素×224 像素樣本)包含過多膽囊等其他腹部組織的紋理信息導(dǎo)致肝硬化病灶識(shí)別準(zhǔn)確率降低,本文采用matlab 提取所選超聲影像的感興趣區(qū)域(Regions of Interest,ROI),得到1 200張初始樣本,大小為56像素×56像素,提取后的部分肝臟感興趣區(qū)域圖像樣本如圖7所示。
圖6 肝臟超聲影像示例圖Fig.6 Example diagrams of liver ultrasound images
圖7 部分肝臟感興趣區(qū)域圖像樣本Fig.7 Partial image samples of region of interest of liver
為確保實(shí)驗(yàn)的有效性與真實(shí)性,對(duì)現(xiàn)有的1 200 張樣本進(jìn)行歸一化處理,以增強(qiáng)圖像的對(duì)比度。同時(shí),對(duì)部分樣本分別以5°、10°、15°和20°進(jìn)行逆時(shí)針旋轉(zhuǎn)以增強(qiáng)數(shù)據(jù),得到的實(shí)驗(yàn)樣本共2 480 張。本文將樣本分為S1 和S2 兩組進(jìn)行組合實(shí)驗(yàn)。S1 組共880 張,將其中320 張正常肝臟樣本和320 張肝硬化樣本作為訓(xùn)練集,120 張正常肝臟樣本和120 張肝硬化樣本作為測(cè)試集。S2 組共1 600 張,將其中300 張正常肝臟樣本和300 張肝硬化樣本作為訓(xùn)練集,將500 張正常肝臟樣本和500 張肝硬化樣本作為測(cè)試集。
本文采用AlexNet 和VGG11 兩種網(wǎng)絡(luò)與本文網(wǎng)絡(luò)進(jìn)行對(duì)比分析。為使對(duì)比網(wǎng)絡(luò)符合肝臟樣本尺度(3×56 像素×56 像素)的需要,在不改變?cè)季W(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上優(yōu)化這兩種網(wǎng)絡(luò)的參數(shù),優(yōu)化后其步長(zhǎng)為1,卷積核大小均為3×3,卷積核個(gè)數(shù)分別為64、192、218 和256,全連接層的神經(jīng)元個(gè)數(shù)均為512。本文采用S1 和S2 兩組樣本進(jìn)行組合實(shí)驗(yàn)。實(shí)驗(yàn)參數(shù)設(shè)置為:迭代次數(shù)為100,每次迭代輸入樣本的批尺寸為16,學(xué)習(xí)率初始值設(shè)置為0.001,訓(xùn)練時(shí)每迭代7 次調(diào)整1 次學(xué)習(xí)率,此時(shí)gamma 取0.1。
將改進(jìn)的AlexNet 和VGG11 與STN、HetConv 相融合,分別得到STN_AlexNet、STN_VGG、SH_AlexNet和SH_VGG。將改進(jìn)的AlexNet、VGG11 和上述4 種網(wǎng)絡(luò),與本文的ImAlexNet、SH_ImAlexNet 以及融合STN的STN_ImAlexNet,從網(wǎng)絡(luò)識(shí)別率和復(fù)雜度兩方面進(jìn)行對(duì)比分析。
網(wǎng)絡(luò)識(shí)別率定義如下:
其中,ncorrect為正確分類的樣本數(shù)量,ntotal為樣本總數(shù)量。
網(wǎng)絡(luò)復(fù)雜度分為時(shí)間復(fù)雜度和空間復(fù)雜度。時(shí)間復(fù)雜度指模型的運(yùn)算次數(shù),主要體現(xiàn)實(shí)際運(yùn)行時(shí)CPU 的運(yùn)算能力。
單個(gè)卷積層的時(shí)間復(fù)雜度為:
其中,M為每個(gè)卷積核輸出的特征圖大小,K為卷積核大小,Cin為輸入通道數(shù),Cout為輸出通道數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)整體的時(shí)間復(fù)雜度為:
其中,l表示網(wǎng)絡(luò)深度為D的第l層,Cl-1為上一層的卷積核個(gè)數(shù)(即輸出通道數(shù)),Cl為第l個(gè)卷積層的卷積核個(gè)數(shù)。
空間復(fù)雜度主要包括總參數(shù)量和各層輸出的特征圖,其表達(dá)式如下:
由式(18)可知,空間復(fù)雜度的總參數(shù)量與卷積核大小K、通道數(shù)C以及層數(shù)D有關(guān),而各層輸出的特征圖僅與輸入數(shù)據(jù)的大小M以及通道C有關(guān)。
由上述分析結(jié)果可知,時(shí)間復(fù)雜度和空間復(fù)雜度分別決定網(wǎng)絡(luò)的訓(xùn)練耗時(shí)和參數(shù)量。如果網(wǎng)絡(luò)復(fù)雜度過高,則會(huì)造成網(wǎng)絡(luò)訓(xùn)練耗時(shí)和參數(shù)量過多,使訓(xùn)練網(wǎng)絡(luò)所需數(shù)據(jù)量增加,并在樣本較少時(shí)導(dǎo)致網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象。
由于ImAlexNet 是構(gòu)成SH_ImAlexNet 的基礎(chǔ)網(wǎng)絡(luò),其復(fù)雜度和識(shí)別效果對(duì)SH_ImAlexNet 有直接影響,因此先對(duì)ImAlexNet 與原始網(wǎng)絡(luò)(即優(yōu)化后的AlexNet 和VGG)進(jìn)行分析,實(shí)驗(yàn)結(jié)果如表2 所示??梢钥闯?,在樣本一致且不考慮訓(xùn)練耗時(shí)情況下,ImAlexNet 的識(shí)別率略高于原始網(wǎng)絡(luò)。若考慮訓(xùn)練耗時(shí),當(dāng)樣本一致時(shí),ImAlexNet 的訓(xùn)練耗時(shí)最多為AlexNet 的2 倍、VGG 的1.3 倍,但當(dāng)樣本不一致時(shí),在S1 組和S2 組樣本中ImAlexNet 的識(shí)別率僅較AlexNet 分別提高3.75 個(gè)百分點(diǎn)和5.00 個(gè)百分點(diǎn)。
表2 ImAlexNet 與原始網(wǎng)絡(luò)的識(shí)別率對(duì)比Table 2 Comparison of recognition rates between ImAlexNet and original networks
由表2 的分析結(jié)果可知,ImAlexNet的識(shí)別效果并不理想,因此,為增強(qiáng)圖像的特征表示、優(yōu)化分類效果以及減少訓(xùn)練耗時(shí),將STN 與表2 中的網(wǎng)絡(luò)分別進(jìn)行融合,實(shí)驗(yàn)結(jié)果如表3 所示。可以看出,在樣本一致時(shí),STN_ImAlexNet 的識(shí)別率略高于STN_AlexNet 和STN_VGG,其時(shí)間損耗比STN_AlexNet 更少,與STN_VGG 的耗時(shí)差距較小。與表2 中AlexNet 和ImAlexNet 相比,STN_AlexNet 的識(shí)別率顯著提升,STN_ImAlexNet的識(shí)別率也小幅提升。與表2 中VGG相比,STN_VGG 的時(shí)耗更多且識(shí)別率更低,整體識(shí)別效果較差。綜上可知,STN 雖然可以提高網(wǎng)絡(luò)分類效果,但對(duì)部分網(wǎng)絡(luò)存在識(shí)別效果不穩(wěn)定的現(xiàn)象,易導(dǎo)致識(shí)別率過低。
表3 融合STN 后不同網(wǎng)絡(luò)的識(shí)別率對(duì)比Table 3 Comparison of recognition rates of different networks after fusion of STN
由表2 和表3 的分析結(jié)果可知,ImAlexNet 與STN_ImAlexNet 的識(shí)別率不高,網(wǎng)絡(luò)整體識(shí)別效果較差。為優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高其識(shí)別率與運(yùn)行效率,本文提出融合ImAlexNet、STN 和異構(gòu)卷積濾波器(即SH_ImAlexNet),并將其與融合STN 和HetConv 的AlexNet、VGG(即SH_AlexNet 和SH_VGG)進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如表4 所示??梢钥闯?,SH_ImAlexNet對(duì)S1 和S2 兩組樣本進(jìn)行訓(xùn)練后的識(shí)別率均顯著高于SH_AlexNet 和SH_VGG。訓(xùn)練S1 組樣本時(shí)SH_ImAlexNet 的耗時(shí)最低,而在訓(xùn)練S2 組樣本時(shí),SH_ImAlexNet的耗時(shí)雖少于SH_AlexNet,但仍略高于SH_VGG。
表4 融合STN 和HetConv 后不同網(wǎng)絡(luò)的識(shí)別率對(duì)比Table 4 Comparison of recognition rates of different networks after fusion of STN and HetConv
由上述分析可知,本文提出的SH_ImAlexNet 具有較高的識(shí)別率,其訓(xùn)練S1 組樣本的耗時(shí)較ImAlexNet 更少,與STN_ImAlexNet 的耗時(shí)差距較小。由網(wǎng)絡(luò)識(shí)別率和訓(xùn)練耗時(shí)分析結(jié)果可知,SH_ImAlexNet 具有一定的魯棒性。
為驗(yàn)證SH_ImAlexNet 的有效性,本文將其與其他6 種網(wǎng)絡(luò)在復(fù)雜度上進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表5 所示??梢钥闯?,SH_ImAlexNet 的總參數(shù)量更少,從而可知其空間復(fù)雜度更低。SH_ImAlexNet 的時(shí)間復(fù)雜度僅高于SH_AlexNet,然而SH_AlexNet 的總參數(shù)量過多,造成網(wǎng)絡(luò)空間復(fù)雜度較高,且其對(duì)S1 組和S2 組樣本訓(xùn)練所得識(shí)別率和耗時(shí)均不如SH_ImAlexNet。綜合考慮網(wǎng)絡(luò)識(shí)別效果、空間復(fù)雜度和時(shí)間復(fù)雜度可知,SH_ImAlexNet 識(shí)別率較高,空間復(fù)雜度較低,可有效避免網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象,且時(shí)間復(fù)雜度也較低。由此可見,SH_ImAlexNet 具有一定的有效性和魯棒性。
表5 不同網(wǎng)絡(luò)的復(fù)雜度對(duì)比Table 5 Complexity comparison of different networks
本文在改進(jìn)AlexNet 網(wǎng)絡(luò)的基礎(chǔ)上,提出一種應(yīng)用于肝硬化樣本識(shí)別的SH_ImAlexNet 網(wǎng)絡(luò)。在改進(jìn)AlexNet 網(wǎng)絡(luò)中增加空間變換網(wǎng)絡(luò)層提高特征提取能力,同時(shí)引入異構(gòu)卷積濾波器減少網(wǎng)絡(luò)參數(shù)量并提升運(yùn)行效率。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)具有一定的有效性和魯棒性,分類效果較AlexNet、VGG等傳統(tǒng)網(wǎng)絡(luò)更優(yōu)。然而其時(shí)間復(fù)雜度略高且兩組樣本的識(shí)別率變化不穩(wěn)定,后續(xù)將結(jié)合剪枝算法和輕量化網(wǎng)絡(luò)進(jìn)行研究,進(jìn)一步提高網(wǎng)絡(luò)有效性和分類效果。