陳 暢 程少杰 李衛(wèi)濱 陳 敏*
1(中國(guó)科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,合肥 230022) 2(解放軍福州總醫(yī)院全軍檢驗(yàn)醫(yī)學(xué)研究所,福州 350025)
外周血白細(xì)胞(white blood cell,WBC)分類(lèi)是臨床檢驗(yàn)的一項(xiàng)常規(guī)工作,對(duì)許多疾病的診斷、鑒別診斷及療效評(píng)估都有重要意義。目前實(shí)驗(yàn)室通常采用血細(xì)胞分析儀進(jìn)行WBC分類(lèi)計(jì)數(shù),這些分析儀一般采用物理(電阻抗、激光散射)、細(xì)胞化學(xué)(過(guò)氧化物酶染色、核酸熒光染色)等分類(lèi)技術(shù),在自動(dòng)化程度、檢測(cè)速度和結(jié)果準(zhǔn)確性上能滿(mǎn)足大批量標(biāo)本的檢測(cè)需求[1]。盡管如此,形態(tài)學(xué)鏡檢仍然是血細(xì)胞分析的“金標(biāo)準(zhǔn)”用于儀器性能的評(píng)估[2],以及對(duì)血液系統(tǒng)疾病的診斷[3]。據(jù)統(tǒng)計(jì),對(duì)于住院病人,約20%的標(biāo)本需要通過(guò)人工鏡檢確認(rèn)結(jié)果[4]。人工鏡檢操作,不但耗時(shí),更需要訓(xùn)練有素的專(zhuān)業(yè)人員。如何減輕工作壓力,提高鏡檢的自動(dòng)化水平,成為臨床檢驗(yàn)的現(xiàn)實(shí)需要。為此,針對(duì)血涂片鏡檢的計(jì)算機(jī)圖像分析研究成為一個(gè)活躍的領(lǐng)域[5-6]。
目前報(bào)道的白細(xì)胞圖像計(jì)算機(jī)分類(lèi)識(shí)別研究中,都需要運(yùn)用各種算法對(duì)細(xì)胞進(jìn)行細(xì)致的分割后,再進(jìn)行特征提取和分類(lèi)識(shí)別[7-13]。文獻(xiàn)[13]總結(jié)了2003—2011年該領(lǐng)域的研究成果,發(fā)現(xiàn)各種算法的分類(lèi)正確率差別較大,從70.6%~96%不等。最近,Su等在這一領(lǐng)域的研究有了新的突破,其“區(qū)域判別(Discriminating region)分割+多層感知器分類(lèi)”的算法組合在白細(xì)胞圖像的5分類(lèi)研究中,正確率達(dá)到了99.11%的目前最好結(jié)果[14]。而郝連旺等在國(guó)內(nèi)率先開(kāi)展了白細(xì)胞圖像的6分類(lèi)研究,其綜合正確率已達(dá)95.98%[15]。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是目前較為成功的圖像識(shí)別神經(jīng)網(wǎng)絡(luò),其概念最早是從研究動(dòng)物大腦視皮層對(duì)光的反射反應(yīng)的分層處理機(jī)制中提煉出來(lái)的,而現(xiàn)代意義上的CNN則是由LeCun等對(duì)手寫(xiě)數(shù)字識(shí)別的研究中提出來(lái)的經(jīng)典的CNN結(jié)構(gòu)LeNet-5[16],其后出現(xiàn)了更為復(fù)雜的AlexNet[17]、ResNet[18]、GoogleNet[19]等。
目前,CNN在圖像識(shí)別中的研究正方興未艾[20],但未見(jiàn)其用于白細(xì)胞圖像的“端對(duì)端”分類(lèi)識(shí)別研究。本研究基于開(kāi)源的深度學(xué)習(xí)框架Caffe[21],構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了外周血白細(xì)胞5分類(lèi)圖像的高正確率識(shí)別。
1.1.1圖像采集與標(biāo)記
隨機(jī)選擇本院就診患者的常規(guī)血細(xì)胞分析標(biāo)本(靜脈血2 mL于EDTAK2抗凝管中),用SYSMEX- SP10自動(dòng)推片染色機(jī)制備外周血染色涂片,再用CellaVision DM96全自動(dòng)血細(xì)胞形態(tài)學(xué)分析儀采集白細(xì)胞的單個(gè)圖像(分辨率為360像素×363像素)。由兩位經(jīng)驗(yàn)豐富的細(xì)胞形態(tài)學(xué)檢驗(yàn)人員共同鑒定確認(rèn)細(xì)胞圖像的分類(lèi)屬性,分別并存放在單獨(dú)的文件夾中。
1.1.2圖像擴(kuò)充
基于CNN模型的深度學(xué)習(xí)是一種統(tǒng)計(jì)學(xué)習(xí)方法,參數(shù)的調(diào)整完全依賴(lài)于訓(xùn)練數(shù)據(jù),數(shù)據(jù)量的大小影響著網(wǎng)絡(luò)的訓(xùn)練結(jié)果,較大的數(shù)據(jù)集更容易使網(wǎng)絡(luò)收斂。但對(duì)于外周血白細(xì)胞圖像,能夠獲取的帶標(biāo)簽的訓(xùn)練數(shù)據(jù)是有限的,需要通過(guò)圖像處理的方法擴(kuò)增數(shù)據(jù)量。本研究采取移動(dòng)平移、旋轉(zhuǎn)及鏡像等方法擴(kuò)充圖像數(shù)量,詳見(jiàn)圖1中的圖示和說(shuō)明。
圖1 細(xì)胞圖像數(shù)據(jù)擴(kuò)充方法Fig.1 Data augmentation methods
1.2.1主要軟、硬件
圖像工作站為自行組裝PC機(jī),主要配置:CPU為Intel Core i7-6700k,主板為華碩Z170,顯卡為英偉達(dá)GeForce GTX 1080,內(nèi)存為金士頓DDR4 64GB,硬盤(pán)為三星SSD 950 PRO 256 GB(系統(tǒng)盤(pán))+希捷ST2000 2.0TB(數(shù)據(jù)盤(pán))。
操作系統(tǒng)為Windows 10企業(yè)版,Caffe系統(tǒng)是Windows版(GitHub:BVLC/caffe release candidate 3)。其他軟件有Matlab R2015b,Microsoft Visual Studio 2013等。
Caffe平臺(tái)的安裝主要是Caffe的編譯工作,編譯時(shí)要注意修改第三方庫(kù)的路徑、選擇匹配的編譯平臺(tái)。
1.2.2Caffe工作原理
Caffe是計(jì)算機(jī)視覺(jué)領(lǐng)域中常用的開(kāi)源深度學(xué)習(xí)框架,主要用來(lái)搭建與優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò)模型。它分為3個(gè)部分:存儲(chǔ)數(shù)值的Blobs、實(shí)現(xiàn)具體運(yùn)算的Layers與描述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的Net。每層均連接著一個(gè)或者多個(gè)的Blobs,用于存儲(chǔ)層的輸入與輸出,Blob結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行抽象,使數(shù)值存儲(chǔ)獨(dú)立于具體計(jì)算設(shè)備(如CPU、GPU),網(wǎng)絡(luò)由實(shí)現(xiàn)不同功能的Layers連接構(gòu)成有向無(wú)環(huán)圖的結(jié)構(gòu),如圖2所示。該圖描述了一種典型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):網(wǎng)絡(luò)的前饋過(guò)程從數(shù)據(jù)輸入層開(kāi)始,經(jīng)過(guò)若干卷積層與非線(xiàn)性激活層的運(yùn)算,將數(shù)據(jù)傳輸?shù)綋p失函數(shù)層計(jì)算分類(lèi)器輸出與標(biāo)簽的邏輯回歸誤差。
圖2 Caffe框架下卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.2 The structure diagram of Caffe framework
1)前饋:設(shè)CNN中第l層中的第i個(gè)特征圖像為ail,第l+1層中的第j個(gè)特征圖像zj,l+1是由第l層中ai,l與對(duì)應(yīng)的卷積核wjil經(jīng)過(guò)卷積運(yùn)算并求和后得到的結(jié)果,則有
(1)
將式(1)展開(kāi),設(shè)圖像zj,l+1中有一點(diǎn)坐標(biāo)為zj,l+1(p,q),則有
2)反饋:設(shè)L為損失函數(shù),則反向求導(dǎo)的公式為
1.2.2.1數(shù)據(jù)層
經(jīng)人工標(biāo)定的訓(xùn)練圖像需打包成特定的數(shù)據(jù)庫(kù)格式作為網(wǎng)絡(luò)的數(shù)據(jù)輸入,以減少數(shù)據(jù)讀取時(shí)間,加速模型優(yōu)化。Caffe支持HDF5、LevelDB及LMDB等數(shù)據(jù)庫(kù)格式,因LMDB數(shù)據(jù)庫(kù)讀寫(xiě)速度較快,且允許多種訓(xùn)練模型同時(shí)讀取同一組數(shù)據(jù)集。因此,本研究選擇LMDB數(shù)據(jù)庫(kù)格式。
1.2.2.2卷積層
卷積操作的基本原理是用一組可學(xué)習(xí)權(quán)值的卷積核對(duì)輸入的圖像進(jìn)行卷積操作。卷積運(yùn)算的本質(zhì)是線(xiàn)性變換,具有提取特征信息的作用,圖3演示了一個(gè)簡(jiǎn)單的卷積過(guò)程。
圖3 卷積層操作示意圖Fig.3 The schematic diagram of convolution operation
1.2.2.3池化層
池化(pooling)是一種下采樣操作,目的是降低CNN模型中間數(shù)據(jù)的維度。池化操作分為最大池化(max pooling)、均值池化(average pooling)、混合池化等不同類(lèi)型。以本研究采用的max pooling為例,圖4是其具體的實(shí)現(xiàn)過(guò)程。
圖4 最大池化的計(jì)算方法Fig.4 The calculation method of max pooling
1.2.2.4非線(xiàn)性激活層
非線(xiàn)性激活層的主要作用是使網(wǎng)絡(luò)的非線(xiàn)性建模能力。常用的非線(xiàn)性激活函數(shù)有Sigmoid、tanh(hyperbolic tangent)與ReLU(rectified linear unit)等,本研究選用目前在圖像識(shí)別領(lǐng)域應(yīng)用效果較好的ReLU作為非線(xiàn)性激活函數(shù)[22],圖5是幾種常見(jiàn)的非線(xiàn)性激活函數(shù)。
圖5 3種激活函數(shù)的公式及曲線(xiàn)Fig.5 The formula and curves of nonlinear activation functions
1.2.2.5損失函數(shù)層
損失函數(shù)層有兩個(gè)作用:一是根據(jù)損失函數(shù)計(jì)算訓(xùn)練誤差與分類(lèi)準(zhǔn)確率;二是計(jì)算誤差值對(duì)前一層網(wǎng)絡(luò)參數(shù)的導(dǎo)數(shù),是反向傳播誤差并調(diào)整網(wǎng)絡(luò)參數(shù)的開(kāi)始。對(duì)于分類(lèi)任務(wù)最常用的是softmax_loss,此外,損失函數(shù)hinge_loss具有支持向量機(jī)(support vector machine, SVM)的特性,也常用在分類(lèi)任務(wù)中。
1.2.3網(wǎng)絡(luò)訓(xùn)練
1.2.3.1網(wǎng)絡(luò)模型
以AlexNet、LeNet模型為基礎(chǔ)編制網(wǎng)絡(luò)結(jié)構(gòu)文件net.prototxt,其中數(shù)據(jù)層中的data_param應(yīng)根據(jù)數(shù)據(jù)庫(kù)的實(shí)際情況設(shè)定:
data_param {
#數(shù)據(jù)庫(kù)的路徑和文件名
source: "d: /wbc_dif/data/train_db1"
backend: LMDB #數(shù)據(jù)庫(kù)類(lèi)型
batch_size: 64 #一次迭代的樣本數(shù)
prefetch: 256 #預(yù)取標(biāo)本數(shù)
}
根據(jù)訓(xùn)練結(jié)果調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),最終確定適宜的網(wǎng)絡(luò)模型。
1.2.3.2訓(xùn)練參數(shù)
網(wǎng)絡(luò)的訓(xùn)練參數(shù)在solver.prototxt文件中設(shè)定,其中學(xué)習(xí)速率(learning rate, LR)是模型優(yōu)化算法中重要的參數(shù),通常在優(yōu)化的初始階段采用較大的學(xué)習(xí)率使模型有更大的搜索范圍,避免過(guò)早陷入局部極小值。隨著模型在較大的學(xué)習(xí)速率下持續(xù)訓(xùn)練,誤差函數(shù)的輸出曲線(xiàn)呈現(xiàn)震蕩的態(tài)勢(shì),此時(shí)需降低學(xué)習(xí)速率使模型誤差進(jìn)一步減少(通常以0.1倍的步長(zhǎng)降低,即gamma=0.1),學(xué)習(xí)參數(shù)的基本設(shè)定如下所示:
base_lr: 0.01~0.001
momentum: 0.9
weight_decay: 0.001~0.0001
lr_policy: “multistep“or “fixed”
gamma: 0.1
stepvalue: 5000(lr_policy=“multistep”時(shí)設(shè)定)
文件中test_iter參數(shù)用于設(shè)定完成一輪校驗(yàn)的迭代數(shù),其值與net.prototxt文件中校驗(yàn)數(shù)據(jù)庫(kù)的batch_size參數(shù)有關(guān),二者的乘積應(yīng)等于校驗(yàn)集樣本總數(shù);而max_iter參數(shù)是用于定義每次訓(xùn)練的最大迭代次數(shù),一般取10~100個(gè)epoch(1個(gè)epoch的迭代次數(shù)等于訓(xùn)練集樣本總數(shù)除以net.prototxt文件中訓(xùn)練數(shù)據(jù)庫(kù)的batch_size值)。
1.2.3.3網(wǎng)絡(luò)訓(xùn)練方法
完成net.prototxt 和solver.prototxt文件的配置后,在DOS控制臺(tái)執(zhí)行下列命令即可開(kāi)始訓(xùn)練:
caffe.exe train-solver=..solver.prototxt-model =.. net.prototxt-gpu=0
訓(xùn)練中,根據(jù)solver.prototx的設(shè)定,可在目標(biāo)目錄中按照設(shè)定間隔生成權(quán)值文件*.caffemodel和中間狀態(tài)文件*. solverstate。前者用于模型評(píng)價(jià)和移植應(yīng)用,后者用于在某斷點(diǎn)處恢復(fù)訓(xùn)練:
caffe.exe train-solver=..solver.prototxt-model=.. et.prototxt-snapshot=..xxx.solverstatec-gpu=0
通過(guò)觀察訓(xùn)練的loss值和校驗(yàn)的Accurate值變換趨勢(shì)來(lái)判斷本次實(shí)驗(yàn)的結(jié)局。
圖6 不同CNN模型的訓(xùn)練曲線(xiàn)。(a) AlexNet;(b) LeNet;(c) CCNetFig.6 The training curves of 3 CNN models. (a)AlexNet; (b)LeNet; (c)CCNet
1.2.3.4網(wǎng)絡(luò)模型評(píng)價(jià)
對(duì)完成訓(xùn)練的網(wǎng)絡(luò),用caffe-Matlab接口調(diào)用網(wǎng)絡(luò)結(jié)構(gòu)文件和最佳訓(xùn)練正確率的權(quán)值文件,用測(cè)試集對(duì)其進(jìn)行分類(lèi)性能的評(píng)價(jià),計(jì)算識(shí)別正確率和識(shí)別效率。調(diào)用、判斷語(yǔ)句如下。
網(wǎng)絡(luò)定義:
net=caffe.Net (net_model, net_weights, ‘test’);
計(jì)算分類(lèi)概率:
result=net.forward({single(im) * 0.00390625});
在輸出數(shù)組中取概率最大的標(biāo)簽值:
[~, max_i]=max(result{1});
表1匯總了本研究所用5種白細(xì)胞原始數(shù)量及最終擴(kuò)充數(shù)量,從中可以看出,訓(xùn)練集圖像數(shù)據(jù)從原始的9 773個(gè)圖像,經(jīng)過(guò)平移剪切、旋轉(zhuǎn)和鏡像操作,最大可擴(kuò)充到703 656個(gè)圖像(3個(gè)數(shù)據(jù)集的db3總數(shù)之和)。根據(jù)數(shù)據(jù)集的圖像組成分別命名為db1(Center)、db2(Center+旋轉(zhuǎn)+鏡像,比db1擴(kuò)大8倍)和db3(Center+平移+旋轉(zhuǎn)+鏡像,比db1擴(kuò)大72倍)并按照訓(xùn)練∶校驗(yàn)∶測(cè)試=7∶2∶1的比例隨機(jī)分配圖像。訓(xùn)練和校驗(yàn)集圖像轉(zhuǎn)換成LMDB格式,測(cè)試集圖像保存在各自的分類(lèi)名目錄中。
表1用于訓(xùn)練、校驗(yàn)及測(cè)試的數(shù)據(jù)集構(gòu)成
Tab.1Thenumberofdatasetsusedfortraining,validationandtesting
數(shù)據(jù)集白細(xì)胞分類(lèi)數(shù)據(jù)嗜堿嗜酸淋巴單核中性總數(shù)數(shù)據(jù)庫(kù)大小/GB原始圖像2557462570108451189773訓(xùn)練集db11795221799756358368391.06db21432417614392604828664547128.52db312888375841295285443225797649240876.70校驗(yàn)集db150149514219102319550.30db24001192411217528184156402.43db336001072837008157687365614076021.90測(cè)試集db12675257109512979db2208600205687240967832db3187254001850478483686470488
2.2.1AlexNet、LeNet網(wǎng)絡(luò)訓(xùn)練結(jié)果
分別用3個(gè)不同大小的數(shù)據(jù)集訓(xùn)練AlexNet網(wǎng)絡(luò)和LeNet網(wǎng)絡(luò),結(jié)果AlexNet網(wǎng)絡(luò)均快速陷入局部最小值,無(wú)法完成訓(xùn)練,即使改用其他梯度優(yōu)化方法(如AdaDelta、AdaGrad等)均無(wú)法收斂,圖6(a)是其中一個(gè)典型的訓(xùn)練曲線(xiàn)圖;而LeNet網(wǎng)絡(luò)則表現(xiàn)出良好的訓(xùn)練效果(見(jiàn)圖6(b)),校驗(yàn)數(shù)據(jù)集的測(cè)試正確率均大于95.0%。
2.2.2網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化
盡管LeNet可以獲得滿(mǎn)意的結(jié)果,但是其網(wǎng)絡(luò)參數(shù)模型較大,運(yùn)算耗時(shí)較長(zhǎng),對(duì)訓(xùn)練系統(tǒng)的內(nèi)存和顯存要求較高,不利于移植應(yīng)用。通過(guò)大量的網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整實(shí)驗(yàn),最終優(yōu)化出一個(gè)高效、輕量的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),圖6(c)是其訓(xùn)練曲線(xiàn)。為了方便表述,將其命名為CCNet(cell classification net)。
從表2可見(jiàn),CCNet與LeNet網(wǎng)絡(luò)結(jié)構(gòu)最大的區(qū)別在于刪減了一個(gè)有500輸出量的全鏈接層,同時(shí)增大了第一卷積層的卷積核,并在其后增加了一個(gè)非線(xiàn)性激活層。
表2 CCNet與LeNet結(jié)構(gòu)參數(shù)的比較
2.3.1網(wǎng)絡(luò)訓(xùn)練時(shí)效比較
表3比較了CCNet和LeNet用3個(gè)不同大小數(shù)據(jù)集訓(xùn)練時(shí)的用時(shí)情況。從表中可見(jiàn),隨著訓(xùn)練集規(guī)模的增加,兩個(gè)網(wǎng)絡(luò)訓(xùn)練用時(shí)皆同步增加;而對(duì)于相同規(guī)模的訓(xùn)練集,CCNet的訓(xùn)練用時(shí)明顯少于LeNet。特別是CCNet生成的模型只有276 KB,是LeNet模型大小的1%。
表3網(wǎng)絡(luò)訓(xùn)練用時(shí)與模型大小比較
Tab.3Thecomparisonoftrainingtimeconsumingandmodelsize
網(wǎng)絡(luò)完成1epoch訓(xùn)練用時(shí)/sdb1db2db3模型大小CCNet555732276KBLeNet201501775278MB
2.3.2網(wǎng)絡(luò)分類(lèi)性能比較
對(duì)分別采用db1、db2和db3的3個(gè)訓(xùn)練集訓(xùn)練的CCNet和LeNet,按表4的配對(duì)方式進(jìn)行細(xì)胞分類(lèi)性能評(píng)價(jià)。
從表4中可以看出,不論是配對(duì)識(shí)別還是針對(duì)同一測(cè)試集的識(shí)別,兩個(gè)網(wǎng)絡(luò)的識(shí)別正確率都隨著訓(xùn)練集規(guī)模的擴(kuò)大而提高。對(duì)原圖(db1)的最佳識(shí)別正確率(db3~db1)都高于文獻(xiàn)[14]的99.11%。
從數(shù)據(jù)擴(kuò)充效果上分析,db1到db2的識(shí)別率增幅較為明顯,CCNet和LeNet分別增加了1.66%和3.22%,而增加了平移擴(kuò)充的db3,識(shí)別率僅分別提升了0.1%和0.63%,說(shuō)明CNN對(duì)圖像平移不具敏感性。在識(shí)別效率方面,輕量級(jí)的CCNet具有明顯的速度優(yōu)勢(shì),特別在CPU運(yùn)算模式下,其優(yōu)勢(shì)更加明顯,用時(shí)僅為L(zhǎng)eNet的1/30。
表4CCNet和LeNet分類(lèi)性能比較
Tab.4ThecomparisonofclassificationperformancebetweenCCNetandLeNet
訓(xùn)練集-測(cè)試集綜合識(shí)別正確率/%平均識(shí)別效率/(ms/圖)CCNetLeNetCCNetLeNetdb1-db197.7595.40db2-db199.3998.37db3-db199.6999.18db2-db299.4198.62db3-db399.5199.253.73a1.08b99.59a4.09b
注:a為CPU運(yùn)算模式,b為GPU運(yùn)算模式。
Note:aCPU running time,bGPU running time.
從卷積層輸出的特征映射圖可以看出,網(wǎng)絡(luò)提取特征的能力在“端對(duì)端”的優(yōu)化中被訓(xùn)練出來(lái)。本研究提取了CCNet 第一卷積層的特征映射圖,與原細(xì)胞圖像進(jìn)行比較。從圖7可以看出,卷積層對(duì)原圖細(xì)胞的幾何特征、灰度特征和亮度特征進(jìn)行了充分的提取和表征,并隨著訓(xùn)練次數(shù)的增加,對(duì)輸入圖像的特征提取也不斷強(qiáng)化。
圖7 細(xì)胞原圖與卷積特征映射圖。(a)細(xì)胞原圖;(b)1 000次迭代特征映射圖;(c)10 000次迭代特征映射圖Fig.7 The original image and it′s feature maps.(a)original image; (b)feature maps with one thousand iterations;(c) feature maps with ten thousand iterations
近年來(lái),深度學(xué)習(xí)在圖像識(shí)別方面異軍突起,在多項(xiàng)圖像識(shí)別大賽中已經(jīng)超越了人類(lèi)的水平。一方面,這得益于CNN集圖像特征提取與分類(lèi)識(shí)別于一身的優(yōu)異能力;另一方面,訓(xùn)練數(shù)據(jù)的擴(kuò)增與計(jì)算能力的提高,使得CNN模型能挖掘圖像中關(guān)鍵的特征信息,在特征提取的深度和廣度上是傳統(tǒng)方法無(wú)法比擬的。在實(shí)際訓(xùn)練中,為了提升模型的魯棒性和泛化能力,首先需保證訓(xùn)練圖像多樣性和真實(shí)性。本研究所收集的圖像資料皆來(lái)自日常工作標(biāo)本,包含多位操作員制作的涂片,其質(zhì)量品相各異,入選的唯一標(biāo)準(zhǔn)是其人工可識(shí)別性。為充分發(fā)揮CNN強(qiáng)大的學(xué)習(xí)能力,更好地從樣本中提取高維特征信息,本研究采取了多種圖像變換方法擴(kuò)充訓(xùn)練圖像數(shù)量,發(fā)現(xiàn)圖像的“旋轉(zhuǎn)”和“鏡像”變換能有效增加細(xì)胞圖像的多樣性,提升CNN訓(xùn)練的正確率;而“平移”變換雖然可大幅度擴(kuò)充數(shù)據(jù)量,但因CNN對(duì)圖像的“平移不變性”使得實(shí)際效果提升有限,相反卻大大增加了訓(xùn)練時(shí)間的開(kāi)銷(xiāo)。
在CNN的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)及訓(xùn)練方面,目前還沒(méi)有規(guī)范的理論指導(dǎo)。通常以一個(gè)有效的網(wǎng)絡(luò)結(jié)構(gòu)為原型,通過(guò)大量實(shí)驗(yàn)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),調(diào)整并選取適合網(wǎng)絡(luò)結(jié)構(gòu)的超參數(shù)(學(xué)習(xí)速率、損失函數(shù)、激活函數(shù)等)。就本研究而言,從經(jīng)典的AlexNet、LeNet著手,逐步調(diào)整優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。除了對(duì)全連接層的優(yōu)化,通過(guò)監(jiān)視卷積層輸出的特征映射圖與分類(lèi)正確率的變化關(guān)系,發(fā)現(xiàn)對(duì)于細(xì)胞分類(lèi)問(wèn)題,區(qū)分不同類(lèi)別細(xì)胞的關(guān)鍵信息更多地在于全局信息(如形狀結(jié)構(gòu)、邊緣特征等)。所以通過(guò)增加卷積層的步長(zhǎng)(Stride)對(duì)圖像進(jìn)一步降維,提取出具有顯著性的全局特征作為全連接分類(lèi)器的輸入特征向量。這使得CCNet在提高了正確率的同時(shí),顯著地加快了運(yùn)算速度(較LeNet約平均提速30倍)。
相對(duì)AlexNet的高斯初始化方法,CCNet與LeNet均采用了Xavier初始化方式對(duì)卷積核的權(quán)值進(jìn)行初始化。Xavier方法由Bengio等于2010年提出[23],充分考慮了輸入輸出神經(jīng)元個(gè)數(shù)與數(shù)據(jù)流方差的關(guān)系,是高斯初始化方式的改進(jìn)。CCNet對(duì)LeNet的主要改進(jìn)在于優(yōu)化了全連接層的數(shù)量。對(duì)于5分類(lèi)問(wèn)題,高輸出的全連接層帶來(lái)過(guò)多的參數(shù),擴(kuò)大了解空間的搜索范圍,不利于網(wǎng)絡(luò)的收斂,同時(shí)也增加了模型運(yùn)算的時(shí)間成本。在損失函數(shù)方面,CCNet采用了HingeLoss來(lái)替代SoftmaxLoss。HingeLoss與全連接層共同構(gòu)成了SVM作為分類(lèi)器,SVM通過(guò)支持向量學(xué)習(xí)超平面,對(duì)卷積層降維輸出的低維特征向量有較好的分類(lèi)效果。
卷積神經(jīng)網(wǎng)絡(luò)因需要大量的運(yùn)算而限制了其在便攜和嵌入系統(tǒng)的應(yīng)用,本研究提出的CCNet具有輕量、高效、低計(jì)算量需求的特點(diǎn),有望擴(kuò)大CNN在細(xì)胞識(shí)別領(lǐng)域的應(yīng)用平臺(tái)。
由于缺乏統(tǒng)一的細(xì)胞圖庫(kù),不同方法之間一般難以量化比較。而Su等的研究也是基于CellaVision DM96平臺(tái)收集細(xì)胞圖像,其99.11%的識(shí)別正確率是對(duì)450張標(biāo)準(zhǔn)圖像的分析結(jié)果[14],而本研究99.69%的識(shí)別正確率是對(duì)979張臨床實(shí)際標(biāo)本圖像的分析結(jié)果,圖像數(shù)量比前者多了1倍多,結(jié)果應(yīng)更具說(shuō)服力。
盡管本文的初步研究取得良好的效果,但應(yīng)該說(shuō)明,本研究所采集的細(xì)胞圖像僅限于正常白細(xì)胞的5分類(lèi)圖像,不含各種非白細(xì)胞的干擾圖像如紅細(xì)胞聚集、重疊的圖像(DM96常將其識(shí)別為嗜酸細(xì)胞)、異常淋巴細(xì)胞圖像以及粘連、重疊細(xì)胞圖像等。對(duì)干擾圖像的魯棒性是本課題進(jìn)一步研究的一個(gè)主要方向。
實(shí)驗(yàn)結(jié)果表明,CNN可用于外周血白細(xì)胞的“端對(duì)端”分類(lèi)識(shí)別,特別是本研究提出的CCNet模型兼具準(zhǔn)確與效率優(yōu)勢(shì),為下一階段在干擾條件下更多類(lèi)別細(xì)胞的識(shí)別及鏡下自動(dòng)識(shí)別的研究打下良好基礎(chǔ)。
[1] Chabot-Richards DS,George TI. White blood cell counts- Reference methodology[J].Clin Lab Med,2015,35(1):11-24.
[2] Kim SJ, Kim Y, Shin S,et al.Comparison study of the rates of manual peripheral blood smear review from 3 automated hematology analyzers, UnicelDxH 800, ADVIA 2120i, and XE 2100 using international consensus group guidelines[J].Arch Pathol Lab Med, 2012,136(11): 1408-1413.
[3] Bain BJ.Diagnosis from the blood smear[J]. N Engl J Med, 2005; 353(5):498-507.
[4] Rabizadeh E,Pickholtz I,Barak M,et al.Acute leukemia detection rate by automated blood count parameters and peripheral smear review[J].Int J Lab Hem,2014,37(1):44-49.
[5] Da Costa L.Digital image analysis of blood cells[J]. Clin Lab Med, 2014,35(1):105-122.
[6] Mohammed EA,Mohamed MM,Far BH,et al.Peripheral blood smear image analysis:A comprehensive review[J].J Pathol Inform,2014,5(1):9.
[7] Sadeghian F,Seman Z,Ramli AR,et al.A Framework for white blood cell segmentationin microscopic blood images using digital image processing[J].Biol Proced Online, 2009,11(1):196-206.
[8] Ko BC,Gim JW,Nam JY.Automatic white blood cell segmentation using stepwise merging rules and gradient vector flow snake[J]. Micron,2011, 42(7):695-705.
[9] Mohapatra S,Patra D,Kumar K.Fast leukocyte image segmentation using shadowsets[J].Int J Comput Biol Drug Des, 2012,5(1):49-65.
[10] 郝連旺,洪文學(xué).基于多顏色空間特征融合的彩色白細(xì)胞圖像識(shí)別[J].生物醫(yī)學(xué)工程學(xué)雜志,2013,30(5):909-913.
[11] 陳愛(ài)斌,江霞.細(xì)胞分割算法研究方法綜述[J].電子世界,2011,15:76-79.
[12] Pore YN,Kalshetty YR. Review on blood cell image segmentation and counting[J].International Journal of Application or Innovation in Engineering & Management,2014,3(11):369-372.
[13] Saraswat M,Arya KV.Automated microscopic image analysis for leukocytes identification:A survey[J]. Micron,2014;65:20-33.
[14] Su Muchun, Cheng Chunyen, Wang Pachun. Neural-network-based approach to white blood cell classification[J].Scientific World Journal,2014:796371.
[15] 郝連旺,洪文學(xué).屬性多層次結(jié)構(gòu)關(guān)系在白細(xì)胞形態(tài)六分類(lèi)技術(shù)中的應(yīng)用[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2015,34(5):533-539.
[16] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[17] Krizhevsky A, Sutskever I, Hinton GE. ImageNet Classification with Deep Convolutional Neural Networks[C]// Proceedings of the 25th International Conference on Neural Information Processing. Lake Tahoe:Curran Associates Inc,2012:1097-1105.
[18] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[EB/OL]. https://arxiv.org/pdf/ 1512.03385v1.pdf,2015-12-10/2016-08-17.
[19] Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions [EB/OL]. https://arxiv.org/pdf/1409.4842v1.pdf,2014-09-17/2016-08-17.
[20] Gu Jiuxiang, Wang Zhenhua,Kuen J,et al. Recent advances in convolutional neural networks[EB/OL]. https://arxiv.org/pdf/ 1512.07108v4.pdf,2016-08-06/2016-08-17.
[21] Jia Yingqing, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[C]// Proceedings of the 22nd ACM international conference on Multimedia. Orlando:ACM,2014:675-678.
[22] Nair V, Hinton GE.Rectified linear units improve restricted Boltzmann machines[C]// Proceedings of the 27th International Conference on Machine Learning. Haifa:IMLS, 2010:807-814.
[23] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[J].J Mach Learn Res,2010,9:249-256.