楊曉玲 王振奇 李嘉
摘 要:癌癥是發(fā)病率和死亡率極高的疾病,癌細(xì)胞正確識(shí)別與癌癥等級(jí)正確判斷具有極其重要的意義。深度神經(jīng)網(wǎng)絡(luò)(DNN)可用神經(jīng)網(wǎng)絡(luò)模擬大腦識(shí)別過(guò)程,底層提取初級(jí)特征,高層對(duì)底層特征進(jìn)行組合與抽象。以乳腺癌細(xì)胞圖像為例,采用BreaKHis官網(wǎng)數(shù)據(jù)集,在Linux操作系統(tǒng)安裝Pycharm開(kāi)發(fā)軟件,以Tensorflow為框架,搭載Python2.7編譯環(huán)境,增加現(xiàn)有神經(jīng)網(wǎng)絡(luò)的卷積層數(shù)和全連接層數(shù),提出一種優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)癌細(xì)胞識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,該方法能更加準(zhǔn)確地識(shí)別癌細(xì)胞圖像特征,有效降低現(xiàn)有神經(jīng)網(wǎng)絡(luò)分類(lèi)錯(cuò)誤,對(duì)癌細(xì)胞平均識(shí)別率達(dá)89.58%,對(duì)惡性癌細(xì)胞識(shí)別率最高可達(dá)96.75%。
關(guān)鍵詞:癌細(xì)胞識(shí)別;數(shù)據(jù)集;神經(jīng)網(wǎng)絡(luò);訓(xùn)練速度
DOI:10. 11907/rjdk. 191574
中圖分類(lèi)號(hào):TP303 ? 文獻(xiàn)標(biāo)識(shí)碼:A??????????????? 文章編號(hào):1672-7800(2020)003-0065-04
Research Cancer Cell Recognition System Based on Deep Neural Network
YANG Xiao-ling,WANG Zhen-qi,LI Jia
(School of Electronic Information Engineering,Zhuhai College of Jilin University,Zhuhai 519041,China)
Abstract: Cancer has become a major disease with high morbidity and mortality in China. Correct identification of cancer cells and correct judgement of cancer grade are of great significance to the development of Chinese medicine. This system employs official websites BreaKHis Data and takes breast cancer cell image as an example. Pycharm development software was installed on Linux operating system in Python2.7 compiler environment within the framework of Tensorflow to speed up network training and deepen convolutional layers and fully layers of existing neural networks. A cancer cell recognition method based on optimized deep neural network is proposed.? The experimental results show that, this method can recognize the image features of cancer cells more accurately, effectiving reduce the existing neural networks classification errors, the average recognition rate of cancer cells was 89.58%, and the highest recognition rate of malignant cancer cells was 96.75%.
Key Words: cancer cell recognition; data set; neural network; training speed
0 引言
深度學(xué)習(xí)算法是近幾年興起的特征學(xué)習(xí)及分類(lèi)算法,具有強(qiáng)大的特征學(xué)習(xí)能力,可同時(shí)實(shí)現(xiàn)特征學(xué)習(xí)與分類(lèi)。深度學(xué)習(xí)在癌細(xì)胞識(shí)別中的應(yīng)用尚不普遍,目前最具代表性的研究是Cruz-Roa等[1]基于深度學(xué)習(xí)網(wǎng)絡(luò)的基底細(xì)胞癌(Basal-Cell Carcinoma Cancer)自動(dòng)檢測(cè)系統(tǒng)。深度學(xué)習(xí)模型不僅能大幅提高圖像識(shí)別精度,而且避免消耗大量時(shí)間進(jìn)行人工特征提取,使運(yùn)行效率大大提升。普通神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)區(qū)別如圖1所示[2]。深度學(xué)習(xí)通過(guò)多個(gè)處理層組成復(fù)雜的計(jì)算模型,自動(dòng)獲取數(shù)據(jù)的表示與多個(gè)抽象級(jí)別,利用深度神經(jīng)網(wǎng)絡(luò)具有的網(wǎng)絡(luò)深度和大樣本量訓(xùn)練集,將其應(yīng)用于癌細(xì)胞識(shí)別,可以更好地表達(dá)癌細(xì)胞圖像特征并區(qū)分細(xì)胞,提高癌細(xì)胞識(shí)別率。本文以乳腺癌細(xì)胞識(shí)別為例,通過(guò)深度學(xué)習(xí)進(jìn)行癌細(xì)胞識(shí)別應(yīng)用,對(duì)癌癥的臨床判斷具有極其重要的意義。
1 深度神經(jīng)網(wǎng)絡(luò)模型架構(gòu)
基于經(jīng)典的LeNet-5[3]構(gòu)建深度神經(jīng)網(wǎng)絡(luò),主要包括兩個(gè)卷積層、一個(gè)池化層和兩個(gè)全鏈接層。卷積神經(jīng)網(wǎng)絡(luò)為癌細(xì)胞識(shí)別系統(tǒng)的主體部分,通過(guò)網(wǎng)絡(luò)中的多個(gè)隱含層實(shí)現(xiàn)對(duì)癌細(xì)胞數(shù)據(jù)更深層次的特征提取。對(duì)現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,通過(guò)增加并聯(lián)卷積層擴(kuò)寬網(wǎng)絡(luò)寬度,生成一個(gè)訓(xùn)練樣本學(xué)習(xí)系統(tǒng)。通過(guò)增加訓(xùn)練樣本數(shù)量使網(wǎng)絡(luò)學(xué)到更多并且更加準(zhǔn)確。深度神經(jīng)網(wǎng)絡(luò)模型如圖2所示。
2 癌細(xì)胞識(shí)別模型
基于深度神經(jīng)網(wǎng)絡(luò)的癌細(xì)胞識(shí)別系統(tǒng)流程分為癌細(xì)胞圖像預(yù)處理、癌細(xì)胞特征提取和分類(lèi)3個(gè)部分,實(shí)現(xiàn)方案如圖3所示。
癌細(xì)胞圖像預(yù)處理主要對(duì)癌細(xì)胞圖像的形態(tài)學(xué)特征進(jìn)行融合,將融合后的一維向量轉(zhuǎn)化為二維圖像。特征提取由深度卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)完成,最后使用一種常用的分類(lèi)器Softmax[4]進(jìn)行分類(lèi)并得到識(shí)別結(jié)果。癌細(xì)胞識(shí)別過(guò)程如圖4所示。通過(guò)加深卷積層數(shù)和全連接層數(shù),提高訓(xùn)練速度與識(shí)別率,圖4右邊為每層網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu)。
2.1 癌細(xì)胞圖像預(yù)處理
首先通過(guò)使用高階中值濾波器算法檢測(cè)癌細(xì)胞圖像噪聲,去除癌細(xì)胞圖像漂移噪聲,并利用小波變換算法,選擇合適的小波基函數(shù)和閾值去除信號(hào)干擾并重構(gòu)時(shí)域信號(hào),得到去噪后的癌細(xì)胞圖像;然后利用融合技術(shù)將癌細(xì)胞圖像的形態(tài)學(xué)特征進(jìn)行融合,將特征的時(shí)間值歸一化到[0,1]之間,實(shí)現(xiàn)數(shù)據(jù)的歸一化處理;最后將一維特征融合向量轉(zhuǎn)化為二維的二值圖像,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,利用跳白格和游程編碼對(duì)二值圖像進(jìn)行降維。
2.2 癌細(xì)胞圖像特征提取
癌細(xì)胞圖像特征提取步驟如下:①對(duì)特定類(lèi)型癌細(xì)胞圖像通過(guò)特定選擇程序進(jìn)行預(yù)提取,選擇出更具代表性的癌細(xì)胞圖像作為訓(xùn)練樣本集;②構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)模型,如圖2所示。設(shè)置模型中的特征圖片數(shù)量及各層參數(shù)(卷積核、步長(zhǎng)等);③確定訓(xùn)練集、驗(yàn)證集及樣本集中的癌細(xì)胞數(shù)量;④利用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入自動(dòng)提取高層特征;⑤利用改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)方法(如圖4所示)加快訓(xùn)練的收斂速度、提高分類(lèi)準(zhǔn)確率。
2.3 Softmax分類(lèi)
使用Softmax分類(lèi)器進(jìn)行特征識(shí)別,將目標(biāo)變量分為多類(lèi)算法。分類(lèi)器利用Logistic 模型[3]對(duì)多分類(lèi)問(wèn)題進(jìn)行推廣。假設(shè)有[N]幅輸入圖像[xi,yiNi=1],每幅圖像標(biāo)記[yi∈{1,2,?,k},k2]共[k] 類(lèi),本文設(shè)[k=2]。對(duì)于給定的測(cè)試圖像[xi],用假設(shè)函數(shù)估計(jì)出其屬于每個(gè)類(lèi)別[j]的概率值[p(yi=j|xi)],則假設(shè)函數(shù)[hθ(xi)]為:
式(1)中,[1j=1keθTjxi]代表對(duì)概率分布進(jìn)行歸一化,全部概率之和為1。[θ]表示Softmax分類(lèi)器的參數(shù)。
Softmax分類(lèi)器損失函數(shù)為:
其中[1(yi=j)]為指示性函數(shù),其取值規(guī)則為:1{值為真的表達(dá)式}=1,1{值為假的表達(dá)式}=0。最后通過(guò)隨機(jī)梯度下降法得到最小化誤差loss函數(shù)。
3 方案實(shí)現(xiàn)與實(shí)驗(yàn)結(jié)果分析
3.1 數(shù)據(jù)集
本文采用BreaKHis官網(wǎng)公開(kāi)的數(shù)據(jù)集[5],該數(shù)據(jù)集包含82位患者的7 909幅已標(biāo)注乳腺癌病理圖像,其中良性腫瘤圖像2 480幅,惡性腫瘤圖像5 429幅。每幅癌細(xì)胞圖像均采用4種不同的放大倍數(shù)(40X、100X、200X、400X),固定大小為700×460像素,模式為RGB三通道圖像(24位顏色,每個(gè)通道8位)。不同放大倍數(shù)的良、惡性腫瘤圖像分布情況如表1所示。
不同放大倍數(shù)的良性和惡性癌細(xì)胞圖例如圖5所示,肉眼可以直觀看到:隨著放大倍數(shù)的增大,良性癌細(xì)胞和惡性癌細(xì)胞的細(xì)胞核特征區(qū)別很大,惡性癌細(xì)胞明顯呈現(xiàn)顏色深等特點(diǎn)。
3.2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
首先讀取圖像數(shù)據(jù)和標(biāo)簽數(shù)據(jù),對(duì)封裝的數(shù)據(jù)加載并進(jìn)行亂序處理,如果不進(jìn)行亂序處理會(huì)有某種特征數(shù)據(jù)連續(xù)出現(xiàn)從而影響訓(xùn)練效果。把相關(guān)數(shù)據(jù)抽象為數(shù)據(jù)類(lèi)進(jìn)行處理,包括圖像信息、標(biāo)簽信息、圖像總數(shù)據(jù)、數(shù)據(jù)批次;然后對(duì)所得圖像進(jìn)行訓(xùn)練或預(yù)測(cè),將圖像數(shù)據(jù)傳入卷積層,經(jīng)過(guò)處理得到壓縮的圖像數(shù)據(jù)。把數(shù)據(jù)傳入全連接層,經(jīng)過(guò)數(shù)據(jù)分析輸出特征,再通過(guò)Softmax函數(shù)把特征提取出來(lái),對(duì)結(jié)果進(jìn)行誤差計(jì)算以及優(yōu)化,最后打印出訓(xùn)練和預(yù)測(cè)結(jié)果。系統(tǒng)實(shí)現(xiàn)過(guò)程如圖6所示。
3.3 實(shí)驗(yàn)結(jié)果分析
由于每個(gè)病變文件夾下都包含40X、100X、200X、400X 等幾種分辨率圖片,進(jìn)行數(shù)據(jù)提取后得到訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)兩種結(jié)構(gòu)的數(shù)據(jù)集,每部分包含良性和惡性?xún)煞N。兩種癌細(xì)胞的召回率、識(shí)別精確率和平均識(shí)別率如表2所示,可以看到系統(tǒng)對(duì)惡性癌細(xì)胞的整體識(shí)別效果更好。
隨著訓(xùn)練次數(shù)增加,通過(guò)模型預(yù)測(cè)的準(zhǔn)確率平均值是89.58%,最高可達(dá)96.75%。訓(xùn)練結(jié)束后的準(zhǔn)確率和誤差如圖7所示,可以看出,loss隨訓(xùn)練次數(shù)的增大衰減很快,到訓(xùn)練100次時(shí)基本衰減為0.012。第100次訓(xùn)練時(shí),訓(xùn)練集的loss為0.001 1,準(zhǔn)確率為100%;驗(yàn)證集的loss為0.510 3,準(zhǔn)確率為87.44%。
4 結(jié)語(yǔ)
本文以乳腺癌為例,研究了利用深度神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)癌細(xì)胞圖像識(shí)別系統(tǒng),采用加深現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的卷積層和全連層方法,使其具有更深、更復(fù)雜的結(jié)構(gòu),加快網(wǎng)絡(luò)訓(xùn)練速度。系統(tǒng)對(duì)乳腺癌癌細(xì)胞圖像識(shí)別分類(lèi)效果良好,識(shí)別準(zhǔn)確率最高可達(dá)96.75%,改善了現(xiàn)有神經(jīng)網(wǎng)絡(luò)分類(lèi)識(shí)別率不高的問(wèn)題。后續(xù)將繼續(xù)學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)模型,研究影響模型性能的因素,如染色對(duì)于圖片的影響、預(yù)處理方法、分類(lèi)器改進(jìn)等,滿足更高臨床要求。
參考文獻(xiàn):
[1]Y L, Y B, G H. Deep learning [J]. Nature, 2015, 521(7):353-436.
[2]M Y,WANG Y. Research on image classification model based on deep convolution neural network [J]. Springer,2019(1):1186-1191.
[3]AHIALE AKOGO,DARLINGTON,PALMER XAVIER LEWIS. End- to-end learning via a convolutional neural network for cancer cell line classification[J].? ResearchGate,2018(3):889-902.