卷積神經(jīng)網(wǎng)絡(luò)在生物醫(yī)學(xué)圖像上的應(yīng)用進(jìn)展

2021-04-12 05:16:42楊培偉周余紅田智強(qiáng)許夏瑜

計(jì)算機(jī)工程與應(yīng)用 2021年7期

楊培偉，周余紅，邢崗，田智強(qiáng)，許夏瑜

1.西安交通大學(xué) 生命科學(xué)與技術(shù)學(xué)院生物信息工程教育部重點(diǎn)實(shí)驗(yàn)室，西安 710049

2.西安交通大學(xué) 仿生工程與生物力學(xué)中心，西安 710049

3.西安交通大學(xué) 軟件學(xué)院，西安 710049

生物醫(yī)學(xué)是綜合生命科學(xué)、生物學(xué)和醫(yī)學(xué)發(fā)展起來的一門前沿交叉學(xué)科，通過生物學(xué)、醫(yī)學(xué)及工程技術(shù)手段研究和解決生命科學(xué)及醫(yī)學(xué)中的問題，從而提高醫(yī)療診斷技術(shù)，改善人類健康水平。成像技術(shù)是生物醫(yī)學(xué)中的核心技術(shù)之一，其應(yīng)用主要包括生物學(xué)圖像和醫(yī)學(xué)圖像兩個(gè)方面。研究者借助不同級(jí)別的圖像來分析研究從細(xì)胞到個(gè)體各個(gè)層次的問題。近年來，隨著成像技術(shù)不斷發(fā)展，一方面新的成像方式不斷出現(xiàn)，另一方面圖像在空間和時(shí)序上的分辨率在不斷提升，這不僅使得生物醫(yī)學(xué)圖像在數(shù)量上急劇增加，也使得圖像中的信息量爆炸式增長(zhǎng)。然而，能夠?qū)D像進(jìn)行分析和解讀的相關(guān)技術(shù)人員并沒有顯著增加，爆炸增長(zhǎng)的圖像信息將相關(guān)技術(shù)人員和醫(yī)師淹沒在重復(fù)枯燥的分析圖像的工作中，無法真正從事有效的信息歸納分析工作。因此，對(duì)生物醫(yī)學(xué)圖像的自動(dòng)分析就顯得越來越重要。

深度學(xué)習(xí)（Deep Learning，DL），尤其是卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）技術(shù)近年來迅速發(fā)展，為生物醫(yī)學(xué)圖像的自動(dòng)分析提供了有力的工具。近些年，伴隨計(jì)算機(jī)硬件的發(fā)展，CNN在處理圖像的速度、精度方面都在不斷提升，其在處理生物醫(yī)學(xué)圖像方面的優(yōu)勢(shì)也尤為凸顯。一方面，CNN 對(duì)原始圖像直接進(jìn)行學(xué)習(xí)，避免了傳統(tǒng)算法復(fù)雜的特征提取和參數(shù)設(shè)置；另一方面，CNN避免了全連接神經(jīng)網(wǎng)絡(luò)的空間信息丟失問題，又采用局部感受野及權(quán)重共享機(jī)制解決了參數(shù)過多的問題。由于其上述優(yōu)勢(shì)，CNN 模型在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用發(fā)展迅速并取得顯著成果。例如，在最近的新冠肺炎中，多款基于CNN 模型實(shí)現(xiàn)的新冠肺炎“CT+AI”輔助診斷系統(tǒng)落地，在此次抗擊疫情中發(fā)揮了有效的作用，極大地減輕了醫(yī)院和醫(yī)生的負(fù)擔(dān)。

近年來，隨著CNN 模型的發(fā)展，涌現(xiàn)出大量利用CNN模型進(jìn)行生物醫(yī)學(xué)圖像分析的方法。之前已有相關(guān)文獻(xiàn)對(duì)CNN 網(wǎng)絡(luò)在圖像處理中的應(yīng)用進(jìn)行了歸納，如梁蒙蒙等[1]以CNN的發(fā)展歷史為主線講述了CNN模型的各種改進(jìn)方法，并簡(jiǎn)要提及了CNN 在醫(yī)學(xué)圖像上的應(yīng)用。Shen 等[2]與Litjens 等[3]分別針對(duì)2017 年以前DL 在醫(yī)學(xué)方面的應(yīng)用進(jìn)行了調(diào)研與總結(jié)。然而，一方面，隨著近年來CNN網(wǎng)絡(luò)架構(gòu)的不斷發(fā)展，其在生物學(xué)和醫(yī)學(xué)中的應(yīng)用也取得了不少進(jìn)展。從2017到2019年底，在Web of Science 上共檢索到31 274 篇文章利用CNN 技術(shù)對(duì)生物醫(yī)學(xué)圖像進(jìn)行處理，其中11 202 篇針對(duì)細(xì)胞生物學(xué)圖像以及20 072 篇針對(duì)醫(yī)學(xué)圖像（如圖1）。另一方面，以上文章主要側(cè)重于總結(jié)CNN 在醫(yī)學(xué)圖像方面的應(yīng)用，沒有對(duì)其在生物學(xué)圖像中的應(yīng)用進(jìn)行總結(jié)。生物學(xué)圖像在生物醫(yī)學(xué)研究中起到重要作用，也存在與醫(yī)學(xué)圖像分析相似的挑戰(zhàn)，例如數(shù)據(jù)量大、精度要求高等。將CNN在生物學(xué)和醫(yī)學(xué)圖像中的應(yīng)用放在一起討論可對(duì)其在生物醫(yī)學(xué)領(lǐng)域的進(jìn)展有更全面的了解。因此，對(duì)近年來該領(lǐng)域的研究成果進(jìn)行了調(diào)查研究和梳理總結(jié)，一方面幫助生物醫(yī)學(xué)領(lǐng)域研究者了解CNN 模型在生物醫(yī)學(xué)圖像中可以解決的問題、能達(dá)到的效果等；另一方面幫助算法開發(fā)者了解CNN 在生物醫(yī)學(xué)領(lǐng)域的主要應(yīng)用領(lǐng)域、可用的數(shù)據(jù)集，以及面臨的挑戰(zhàn)等。

在后面的文章中，首先簡(jiǎn)要介紹CNN 的發(fā)展歷史和它的結(jié)構(gòu)和原理，之后著重從細(xì)胞生物學(xué)圖像和醫(yī)學(xué)影像兩個(gè)方面對(duì)CNN 在生物醫(yī)學(xué)圖像中的研究成果進(jìn)行梳理總結(jié)。最后，試著提出目前CNN 在生物醫(yī)學(xué)圖像研究中存在的問題，并對(duì)今后的發(fā)展方向進(jìn)行展望。

1 卷積神經(jīng)網(wǎng)絡(luò)發(fā)展簡(jiǎn)介

本章首先回顧早期神經(jīng)元模型到CNN模型的發(fā)展歷程（如圖2），然后重點(diǎn)分析CNN 模型架構(gòu)設(shè)計(jì)、應(yīng)用設(shè)計(jì)和評(píng)估方法。

1.1 CNN模型簡(jiǎn)介

CNN 模型由早期的人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來，使用卷積操作解決了人工神經(jīng)網(wǎng)絡(luò)計(jì)算量大和結(jié)構(gòu)信息丟失的缺點(diǎn)。1982 年，為模擬人類視覺認(rèn)知功能，F(xiàn)ukushima 等[4]提出神經(jīng)認(rèn)知機(jī)（neocognitron）的概念，這被認(rèn)為是CNN的起點(diǎn)。1989年，LeCun等[5]構(gòu)建起最初的LeNet 模型，其包含卷積層、全連接層。經(jīng)過改進(jìn)，1998年，LeCun 等[6]提出了經(jīng)典的LeNet-5 模型，較好地解決了手寫數(shù)字識(shí)別問題。該模型已經(jīng)包含了現(xiàn)代CNN網(wǎng)絡(luò)的全部基本模塊：卷積層、非線性激活層、池化層、全連接層。

卷積層是CNN 模型的核心，具有局部連接和權(quán)重共享的特性，其作用是通過卷積核對(duì)數(shù)據(jù)進(jìn)行特征提取，抽象出更高層次的特征。非線性激活函數(shù)則增加了模型的非線性，極大地豐富了模型的表達(dá)能力。池化層對(duì)特征圖進(jìn)行了壓縮，一方面增大了感受野，使得模型具有一定的平移、旋轉(zhuǎn)不變性；另一方面，也降低了優(yōu)化難度和計(jì)算量。全連接層在CNN模型末端將提取到的特征映射到樣本標(biāo)簽上，起到分類器的作用。

以LeNet-5 為基礎(chǔ)的CNN 模型在近些年得到了不斷改進(jìn)，模型性能也得到了極大提高。

1.2 CNN模型的架構(gòu)設(shè)計(jì)

圖1 2017—2019年底CNN在生物醫(yī)學(xué)圖像分析的應(yīng)用統(tǒng)計(jì)

圖2 CNN及其在生物醫(yī)學(xué)圖像分析上的應(yīng)用發(fā)展

CNN模型發(fā)展過程中，其優(yōu)化方式涉及架構(gòu)設(shè)計(jì)、激活函數(shù)和優(yōu)化策略的改進(jìn)等。CNN模型的架構(gòu)設(shè)計(jì)對(duì)于CNN 模型的性能提升起了很大作用。在CNN 模型發(fā)展初期，架構(gòu)設(shè)計(jì)主要集中在模型深度、寬度方面。

提升模型深度，能夠增強(qiáng)模型的抽象能力。一個(gè)更深的模型往往擁有更好的特征提取能力，但其優(yōu)化過程也更困難，會(huì)出現(xiàn)梯度爆炸或梯度彌散等問題。LeNet-5 由3 個(gè)卷積層、2 個(gè)池化層、2 個(gè)全連接層組成。2012年，Krizhevsky等[7]提出的AlexNet模型則由5個(gè)卷積層、5 個(gè)池化層、3 個(gè)全連接層組成。AlexNet 模型中使用ReLU 激活函數(shù)替換Sigmoid 函數(shù)，來解決梯度彌散問題；使用Dropout 方法在訓(xùn)練時(shí)隨機(jī)丟棄輸出來防止過擬合現(xiàn)象的發(fā)生。AlexNet 模型將ImageNet 圖像分類數(shù)據(jù)集[8]的Top-5錯(cuò)誤率降低到16.42%，以極大的優(yōu)勢(shì)獲得2012 年冠軍。2014 年，由牛津大學(xué)視覺組提出的VGG模型[9]深度比AlexNet模型提升了一倍。VGG模型中使用多個(gè)小卷積核來替換AlexNet 中的大卷積核，在減小計(jì)算量的同時(shí)增加了模型深度，豐富了模型非線性表達(dá)能力。VGG 模型在ImageNet 數(shù)據(jù)集上Top-5 錯(cuò)誤率降低到6.8%。然而，研究表明，增加模型深度對(duì)模型性能提升是有限的。這主要由如下兩個(gè)原因?qū)е拢阂皇钱?dāng)模型寬度過窄，每層提取的特征有限，增加模型深度也難以完全表達(dá)任務(wù)特征；二是深層模型仍會(huì)因梯度消失而優(yōu)化困難。在這之后的模型設(shè)計(jì)針對(duì)這兩個(gè)方面進(jìn)行了針對(duì)性改進(jìn)。

拓展模型寬度，能夠豐富模型提取的特征。模型的寬度，即每層特征通道數(shù)量，決定著模型每一層可以提取的特征圖的規(guī)模。常用的方法有直接調(diào)整通道數(shù)量，多分支網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)，通道特征融合。AlexNet 與VGG 模型在增加深度的同時(shí)，通過直接增加每層的通道數(shù)量來擴(kuò)展模型的寬度。2014 年，由Szegedy 等[10]提出的GoogLeNet 模型使多分支網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)來拓展模型寬度。該分支結(jié)構(gòu)被稱為Inception 結(jié)構(gòu)，主要由1×1、3×3、5×5 卷積核和3×3 最大池化操作4 個(gè)分支組合而成。不同大小的卷積核可以從圖像中提取不同尺度的特征，豐富模型表達(dá)能力。GoogLeNet 模型使得ImageNet 分類Top-5 錯(cuò)誤率降低到了6.67%，在精度和速度上均高于VGG，獲得2014 年冠軍。此后Inception結(jié)構(gòu)不斷迭代發(fā)展，在Inception v2模型[11]引進(jìn)了BN層來加快模型收斂速度并防止過擬合，Inception v3 模型[12]采用卷積拆分的思想，減少計(jì)算量，Inception v4模型[13]使用殘差連接來降低計(jì)算開銷。模型的寬度過寬會(huì)造成參數(shù)冗余，增加過擬合的風(fēng)險(xiǎn)。

殘差連接，降低深層模型的收斂難度。梯度消失造成深層次的網(wǎng)絡(luò)訓(xùn)練困難。2015 年，He 等[14]提出的ResNet 模型使用殘差連接來解決梯度消失問題。殘差連接的思想是，在模型設(shè)計(jì)中引入恒等變換，使得模型訓(xùn)練過程中能夠?qū)W習(xí)信號(hào)的差值，從而增強(qiáng)了模型的反向梯度傳播，簡(jiǎn)化了學(xué)習(xí)過程。ResNet模型將ImageNet圖像分類Top-5錯(cuò)誤率降低到了3.57%。由于使用殘差連接可以使得模型更深，更容易訓(xùn)練，該方法是CNN模型設(shè)計(jì)中最常用的結(jié)構(gòu)之一。2016年，DenseNet模型[15]設(shè)計(jì)的dense block進(jìn)一步發(fā)展了殘差連接，將模塊內(nèi)的每一層都與其他層相連，在加深模型的同時(shí)提高模型特征的利用率，相比ResNet使用的參數(shù)量和計(jì)算量更低。

增加深度和寬度是初期的CNN模型提高性能的關(guān)鍵因素，但也存在一定上限，且容易導(dǎo)致優(yōu)化困難、過擬合、計(jì)算量大難以部署的問題。之后，新的CNN模型的架構(gòu)設(shè)計(jì)主要通過探索能夠有效利用數(shù)據(jù)特征的方法以及能夠降低計(jì)算量的特殊卷積操作來解決上述問題。

提高數(shù)據(jù)特征利用的方法主要有，融合淺層和深層特征，增加感受野，使用注意力機(jī)制等。跳層連接能夠融合模型淺層和深層不同語義級(jí)別的特征信息，增強(qiáng)模型的特征表達(dá)能力。跳連接常被用于改善分割模型上采樣階段空間信息不足，提高分割的精度，如FCN[16]、U-Net[17]、SegNet[18]等模型。改善感受野常用的方法有多尺度和空洞卷積。多尺度模型的設(shè)計(jì)方案主要采用多尺度圖像輸入、融合多尺度特征以及融合多尺度預(yù)測(cè)結(jié)果的方法來獲得不同感受野?？斩淳矸e則通過加大卷積核各像素的間距來增加模型的感受野。豐富的感受野，可以使得模型更好地獲得上下文信息，這對(duì)于多尺度的圖像分割任務(wù)是十分重要的。如Deeplab v3[19]使用空洞卷積和多尺度特征融合方法設(shè)計(jì)了ASPP（Atrous Spatial Pyramid Pooling）模塊，有效地利用了上下文信息，提高了模型對(duì)不同尺度物體的分割精度。注意力機(jī)制能夠使模型自動(dòng)選擇圖像空間中、通道間對(duì)于任務(wù)最重要的部分進(jìn)行下一步處理。注意力機(jī)制主要分為空間和通道注意力兩種設(shè)計(jì)方法?？臻g注意力模型能夠定位感興趣區(qū)域，通道注意力模型能夠建模不同通道特征重要程度。2017年，SENet模型[20]利用通道注意力機(jī)制學(xué)習(xí)通道間相關(guān)性，突顯重要的特征通道，抑制不重要的特征通道，將ImageNet分類的Top-5錯(cuò)誤率降低到了2.25%，獲得最后一屆的冠軍。注意力機(jī)制可以直接嵌入到不同模型中，因此是最為常用的改進(jìn)方法之一。

特殊卷積操作可以在確保模型準(zhǔn)確率的情況下降低計(jì)算量，主要方法有卷積分組和拆分。卷積的分組是將輸入通道分為不同的組，每一個(gè)輸出通道只與某一個(gè)組的輸入通道相關(guān)。而卷積拆分則通過將k×k大小的卷積操作拆分成1×k和k×1 的卷積操作，以此來降低計(jì)算量，同時(shí)由于該操作加深了模型深度，也能夠增加模型的表達(dá)能力。

1.3 CNN模型的應(yīng)用設(shè)計(jì)

CNN模型能夠自動(dòng)從數(shù)據(jù)中抽象特征來實(shí)現(xiàn)特定任務(wù)，因此模型結(jié)構(gòu)具有很強(qiáng)的通用性，所以可用任務(wù)的數(shù)據(jù)直接訓(xùn)練常用CNN模型。如分類任務(wù)中常用的VGG、ResNet、Inception系列等，檢測(cè)任務(wù)中的Faster RCNN[21]、YOLO 系列[22]，分割任務(wù)中的FCN、U-Net、Seg-Net等。

分階段任務(wù)處理通常能幫助模型取得更好得結(jié)果。通常分為預(yù)處理、CNN模型預(yù)測(cè)、后處理階段。預(yù)處理是對(duì)任務(wù)原始數(shù)據(jù)進(jìn)行操作，能夠規(guī)范化數(shù)據(jù)、去除噪聲等，即可采用傳統(tǒng)圖像處理方法，也可以使用CNN 模型實(shí)現(xiàn)。如在新冠肺炎檢測(cè)中[23]，可以通過UNet進(jìn)行預(yù)處理獲得肺部區(qū)域，再使用ResNet模型進(jìn)行區(qū)分肺炎類別。后處理結(jié)合任務(wù)特點(diǎn)，使用特點(diǎn)規(guī)則對(duì)CNN模型輸出的進(jìn)行轉(zhuǎn)化或者進(jìn)一步改善。

常用的CNN模型不能直接應(yīng)用到三維數(shù)據(jù)上。三維卷積和多視圖方法被提出用于處理三維數(shù)據(jù)。三維卷積核對(duì)二維卷積核進(jìn)行改進(jìn)，增加了表示深度的維度，實(shí)現(xiàn)對(duì)三維數(shù)據(jù)進(jìn)行卷積操作?？梢杂糜诮鉀Q三維醫(yī)學(xué)影像，如CT、MR影像等的分類、分割等問題。三維卷積存在計(jì)算耗費(fèi)量大的問題。多視圖是指利用三維數(shù)據(jù)的多個(gè)不同方向的切面作為輸入，使得模型能夠獲得數(shù)據(jù)三維上下文信息來完成任務(wù)。由于不需要整個(gè)三維數(shù)據(jù)的輸入大大降低了計(jì)算量。

多模態(tài)輸入是CNN模型在醫(yī)學(xué)圖像分析應(yīng)用中常用的方法，不同的模態(tài)能夠?yàn)槟Ｐ吞峁┎煌男畔?，例如腦部病變?cè)赥1 加強(qiáng)模態(tài)和T2 加強(qiáng)模態(tài)的MRI 圖像中表現(xiàn)是不同的。

CNN模型可以通過遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)技術(shù)解決數(shù)據(jù)不足的問題。遷移學(xué)習(xí)是一種知識(shí)共享技術(shù)，是將已經(jīng)預(yù)訓(xùn)練好的模型中的部分知識(shí)遷移到一個(gè)未經(jīng)訓(xùn)練的模型上，通過固定模型特定層的參數(shù)，通常為模型淺層，再通過訓(xùn)練微調(diào)部分層參數(shù)，實(shí)現(xiàn)利用小規(guī)模數(shù)據(jù)集構(gòu)建新模型的設(shè)計(jì)。預(yù)訓(xùn)練好的模型的淺層通常已經(jīng)具備一定的提取通用圖像特征（如邊緣、紋理、形狀等）的能力，通過直接將這些知識(shí)引入到模型中，可以有效地減少新模型訓(xùn)練所需要的數(shù)據(jù)量和降低計(jì)算的復(fù)雜度。數(shù)據(jù)增強(qiáng)是豐富圖像訓(xùn)練數(shù)據(jù)集最常用的技術(shù)，常采用的方法有旋轉(zhuǎn)變換、水平與垂直翻轉(zhuǎn)、彈性變形、比例縮放、對(duì)比度變換、噪聲擾動(dòng)、顏色變換等。通過使用數(shù)據(jù)增強(qiáng)產(chǎn)生的數(shù)據(jù)可以幫助網(wǎng)絡(luò)模型更好地提取圖像特征，防止模型過擬合。

CNN 模型應(yīng)用及設(shè)計(jì)發(fā)展迅速，針對(duì)不同任務(wù)選擇合適的設(shè)計(jì)方法可以極大的提高模型的性能。

1.4 CNN模型性能的評(píng)估方法

分類是圖像處理中最基礎(chǔ)的任務(wù)，其評(píng)價(jià)指標(biāo)主要有準(zhǔn)確率、精確率、召回率，F(xiàn)1-Score、混淆矩陣、ROC曲線與AUC 等。準(zhǔn)確率表示所有樣本中正確分類的概率。精確率針對(duì)的是預(yù)測(cè)結(jié)果，表示真值為正的樣例在預(yù)測(cè)為正的樣本中所占的比例。召回率針對(duì)的是實(shí)際樣本，表示預(yù)測(cè)為正的樣例在真值為正的樣本所占的比例。如果想要同時(shí)關(guān)注準(zhǔn)確率和召回率，則可以使用它們的調(diào)和平均數(shù)F1-Score。F1-Score 只有精確率和召回率都高的情況下才會(huì)很高?；煜仃囀且环N使用矩陣形式表示誤差的方法，可以用于詳細(xì)展示預(yù)測(cè)結(jié)果和真值。ROC曲線可以描繪一個(gè)模型在不同參數(shù)閾值下的表現(xiàn)，AUC 為ROC 曲線下面積，AUC 的值可以量化一個(gè)分類模型的性能。

除了以上評(píng)估指標(biāo)外，在檢測(cè)和分割模型上常用的評(píng)價(jià)指標(biāo)還有IOU和Dice。IOU定義為兩個(gè)面積的交集和并集的比值；Dice 是兩個(gè)集合的相似度量方法，常用于評(píng)價(jià)分割模型的性能。值得注意的是，盡管Dice與F1-Score的公式定義形式不同，但實(shí)際值是相等的，因此有的文章中也會(huì)使用F1-Score作為分割模型的評(píng)估指標(biāo)。

為模型選擇合適的評(píng)價(jià)指標(biāo)能夠有效地評(píng)估模型性能，利于模型改進(jìn)與完善。

2 CNN在生物醫(yī)學(xué)圖像中的應(yīng)用

本章將從細(xì)胞生物學(xué)圖像和醫(yī)學(xué)影像兩個(gè)方面對(duì)CNN的應(yīng)用分別進(jìn)行闡述。

2.1 在細(xì)胞生物學(xué)圖像中的應(yīng)用

細(xì)胞生物學(xué)涉及細(xì)胞形態(tài)結(jié)構(gòu)、細(xì)胞分裂等。隨著成像技術(shù)的進(jìn)步，現(xiàn)代細(xì)胞生物學(xué)研究越來越依賴圖像對(duì)細(xì)胞和分子機(jī)制做出解釋。通過成像技術(shù)可以對(duì)細(xì)胞機(jī)制進(jìn)行觀察分析，揭示健康和疾病細(xì)胞的發(fā)生發(fā)展和轉(zhuǎn)化規(guī)律。生物成像技術(shù)發(fā)展至今，數(shù)據(jù)量呈指數(shù)增長(zhǎng)，如何高效地利用這些海量的圖像信息成為一個(gè)巨大挑戰(zhàn)。計(jì)算機(jī)輔助的圖像分析一方面可以緩解因分析人員的主觀性和易疲勞等因素導(dǎo)致的客觀性和可重復(fù)性的降低，另一方面可以在空間和時(shí)序上捕捉人眼無法察覺的細(xì)微圖像特征，進(jìn)而更高效地獲取圖像信息。以下將從細(xì)胞及其結(jié)構(gòu)檢測(cè)、細(xì)胞有絲分裂檢測(cè)等方面講述CNN在細(xì)胞生物圖像分析中的應(yīng)用（如圖3），并匯總在表1中。

圖3 CNN在細(xì)胞生物學(xué)圖像分析中的應(yīng)用實(shí)例

表1 卷積神經(jīng)網(wǎng)絡(luò)在細(xì)胞生物學(xué)圖像處理中的應(yīng)用

2.1.1 細(xì)胞及其結(jié)構(gòu)檢測(cè)

細(xì)胞檢測(cè)是細(xì)胞生物學(xué)圖像分析中的一個(gè)基本問題，常見的細(xì)胞檢測(cè)有全血細(xì)胞檢測(cè)、病變細(xì)胞檢測(cè)等。同類細(xì)胞形態(tài)多變，不同細(xì)胞形態(tài)相似以及細(xì)胞間局部重疊等是細(xì)胞檢測(cè)中的主要挑戰(zhàn)。全血細(xì)胞計(jì)數(shù)通過血液中各種血細(xì)胞數(shù)量的變化來反映疾病的狀態(tài)。在這方面，Wang 等[24]通過融合多個(gè)由CNN 構(gòu)建的分類器實(shí)現(xiàn)了單核細(xì)胞、淋巴細(xì)胞、嗜酸性粒細(xì)胞和中性粒細(xì)胞4 種白細(xì)胞的分類，該方法將多個(gè)CNN 分類器的輸出進(jìn)行融合以尋找局部一致的、有代表性的模式，提高模型的通用性。該方法在410 張載玻片圖像（https：//github.com/dhruvp/wbc-classification/tree/master/Original_Images）上對(duì)四類白細(xì)胞的分類準(zhǔn)確率達(dá)到99.90%。為實(shí)現(xiàn)血細(xì)胞的準(zhǔn)確計(jì)數(shù)，需要解決細(xì)胞間重疊區(qū)域的分離問題。Tran 等[25]通過先分割細(xì)胞再檢測(cè)其分割圖的方法解決了細(xì)胞局部重疊的問題，該方法利用VGG-16預(yù)訓(xùn)練的權(quán)值來初始化SegNet模型，首先實(shí)現(xiàn)紅細(xì)胞以及白細(xì)胞的分割，然后結(jié)合歐式距離變換、局部極大值和連通域標(biāo)記等方式來分離重疊細(xì)胞并實(shí)現(xiàn)細(xì)胞計(jì)數(shù)。該方法在包含108 張血液樣本顯微鏡圖像的ALL-IDB1數(shù)據(jù)集上，紅細(xì)胞和白細(xì)胞計(jì)數(shù)的最終準(zhǔn)確率分別達(dá)到了93.30%和97.38%。細(xì)胞重疊現(xiàn)象還會(huì)影響到病變細(xì)胞的檢測(cè)效果，細(xì)胞重疊現(xiàn)象也會(huì)影響到病變細(xì)胞的檢測(cè)。針對(duì)這一問題，Liu 等[26]則結(jié)合后處理技術(shù)實(shí)現(xiàn)重疊細(xì)胞的分離，該方法首先利用CNN網(wǎng)絡(luò)生成細(xì)胞候選區(qū)域并對(duì)候選區(qū)域進(jìn)行評(píng)分，然后將細(xì)胞候選對(duì)象作為頂點(diǎn)、評(píng)分作為權(quán)值構(gòu)造一個(gè)無向加權(quán)圖，將細(xì)胞檢測(cè)問題轉(zhuǎn)換為最大權(quán)重獨(dú)立集問題，從候選對(duì)象中選擇最佳檢測(cè)結(jié)果組成最終的細(xì)胞檢測(cè)結(jié)果。該方法能夠有效解決細(xì)胞重疊區(qū)域的細(xì)胞檢測(cè)問題，在24 張神經(jīng)內(nèi)分泌細(xì)胞圖像和16 張肺癌細(xì)胞圖像上準(zhǔn)確率分別達(dá)到了90.03%和88.43%。

細(xì)胞結(jié)構(gòu)包括細(xì)胞膜、細(xì)胞質(zhì)和細(xì)胞核等，細(xì)胞質(zhì)結(jié)構(gòu)的重疊會(huì)模糊圖像中的細(xì)胞邊界，因此往往需要先將細(xì)胞結(jié)構(gòu)分割出來再實(shí)現(xiàn)細(xì)胞邊界的分割。Song等[27]使用多尺度CNN從宮頸細(xì)胞圖像中分割出所有細(xì)胞核和細(xì)胞質(zhì)，進(jìn)而利用高斯核擬合細(xì)胞的形狀，通過優(yōu)化勢(shì)能函數(shù)來最優(yōu)化細(xì)胞質(zhì)的標(biāo)記結(jié)果，最后該方法利用后處理技術(shù)來獲得精確的細(xì)胞邊界。該方法在含有8張宮頸細(xì)胞的ISBI 2015數(shù)據(jù)集上分割細(xì)胞核與細(xì)胞質(zhì)結(jié)果的Dice值分別達(dá)到了0.93和0.91。

2.1.2 細(xì)胞有絲分裂檢測(cè)

細(xì)胞有絲分裂可為癌變細(xì)胞的檢測(cè)提供重要信息，例如乳腺蘇木精和伊紅染色切片中的有絲分裂細(xì)胞數(shù)量是判定乳腺癌侵襲性的重要指標(biāo)。有絲分裂自動(dòng)檢測(cè)主要受到兩方面影響：一是有絲分裂細(xì)胞在不同階段的形狀和結(jié)構(gòu)不同；二是其他細(xì)胞的外觀與有絲分裂細(xì)胞具有相似性。為解決有絲分裂的檢測(cè)問題，國際模式識(shí)別大會(huì)（International Conference on Pattern Recognition，ICPR）發(fā)布了ICPR2012（http：//ipal.cnrs.fr/ICPR2012/）（50 張有絲分裂全標(biāo)注圖像）和ICPR2014（http：//mitosatypia-14.grand-challenge.org/）（1 696 張有絲分裂質(zhì)心標(biāo)注圖像）有絲分裂數(shù)據(jù)集。基于上述數(shù)據(jù)集，Cire?an 等[28]利用全連接CNN 來檢測(cè)有絲分裂。針對(duì)圖像中的任意給定像素，該方法提取以該像素為中心的圖像塊并利用CNN網(wǎng)絡(luò)預(yù)測(cè)該像素接近有絲分裂質(zhì)心的概率，然后結(jié)合后處理得到有絲分裂的檢測(cè)結(jié)果。該方法在ICPR2012 數(shù)據(jù)集上F1-socre 達(dá)到0.782。Chen等[29]則通過級(jí)聯(lián)兩個(gè)CNN模型對(duì)有絲分裂進(jìn)行檢測(cè)，該方法首先利用一個(gè)FCN 模型輸出有絲分裂候選者的概率圖，從而快速檢索有絲分裂候選細(xì)胞，然后利用預(yù)訓(xùn)練的CaffeNet檢測(cè)模型[30]對(duì)候選細(xì)胞進(jìn)行進(jìn)一步區(qū)分。該方法在ICPR2012數(shù)據(jù)集上平均F1-score達(dá)到0.788，在ICPR2014 數(shù)據(jù)集上平均F1-score 達(dá)到0.482。此外，研究者通過將僅標(biāo)注質(zhì)心的弱標(biāo)注圖像轉(zhuǎn)化為強(qiáng)標(biāo)注圖像的方式對(duì)數(shù)據(jù)量進(jìn)行擴(kuò)充。Li 等[31]利用強(qiáng)標(biāo)注的ICPR2012 數(shù)據(jù)集訓(xùn)練一個(gè)FCN 分割模型，再將弱標(biāo)注的ICPR2014數(shù)據(jù)集輸入該模型從而得到像素級(jí)標(biāo)注的細(xì)胞有絲分裂圖像。其檢測(cè)方法繼續(xù)延用網(wǎng)絡(luò)級(jí)聯(lián)的方式，首先使用基于Faster R-CNN 的深度檢測(cè)模型產(chǎn)生初級(jí)檢測(cè)結(jié)果；然后利用ResNet-50 的驗(yàn)證模型去除誤檢結(jié)果。當(dāng)使用該方法的全部模型進(jìn)行處理時(shí)，在ICPR2014數(shù)據(jù)集上F1-score達(dá)到0.572。

目前，利用CNN 模型進(jìn)行細(xì)胞生物學(xué)圖像的分析正在逐步發(fā)展，通過對(duì)自動(dòng)化對(duì)細(xì)胞檢測(cè)計(jì)數(shù)以及細(xì)胞結(jié)構(gòu)、行為的檢測(cè)，可以極大減少研究者在處理數(shù)據(jù)過程中的工作量，使其有更多的時(shí)間關(guān)注實(shí)驗(yàn)本身的研究。生物學(xué)其他方向的圖像分析也可以此為借鑒與課題相結(jié)合，以提高研究效率，推動(dòng)實(shí)驗(yàn)進(jìn)展。

2.2 在醫(yī)學(xué)影像中的應(yīng)用

醫(yī)學(xué)影像是通過非侵入方式取得的人體內(nèi)部組織影像的技術(shù)，其目的是疾病診斷、手術(shù)引導(dǎo)等。對(duì)醫(yī)學(xué)影像的處理包含圖像重建、病變分割、疾病診斷、多模態(tài)和時(shí)序的影像配準(zhǔn)、三維可視化等。CNN 在基于影像的疾病分類與分期、器官及病變區(qū)域的檢測(cè)與分割等方面的應(yīng)用最為廣泛，這能夠輔助醫(yī)生更準(zhǔn)確地了解患者狀況，為疾病診斷、手術(shù)規(guī)劃及藥物劑量安排等提供有用信息。針對(duì)目前已有成果，將從腦、眼睛、乳腺、肺、骨骼、皮膚等方面介紹（如圖4），并匯總在表2 中。

圖4 CNN在醫(yī)學(xué)圖像分析中的應(yīng)用實(shí)例

2.2.1 腦醫(yī)學(xué)影像

大腦是人體最重要的器官，內(nèi)部的腦白質(zhì)、灰質(zhì)以及大腦脊液與人類健康和疾病有著重要聯(lián)系，因此實(shí)現(xiàn)大腦的自動(dòng)分割能夠?yàn)榧膊≡\斷提供重要信息。然而大腦結(jié)構(gòu)十分復(fù)雜，這給大腦分割任務(wù)帶來重大挑戰(zhàn)。針對(duì)這一問題，Moeskops 等[32]利用多尺度CNN 來學(xué)習(xí)腦部MR圖像中多尺度的結(jié)構(gòu)特征，對(duì)各年齡段人群的小腦、腦干、皮質(zhì)灰質(zhì)等8個(gè)組織類別進(jìn)行了精確分割，該方法在5 個(gè)來自不同年齡段的數(shù)據(jù)集[33-35]中，Dice 值分別為0.87、0.82、0.84、0.86 和0.91。Kleesiek 等[36]發(fā)現(xiàn)大多數(shù)大腦分割算法在非增強(qiáng)的T1加權(quán)MR圖像上表現(xiàn)良好，但是應(yīng)用于其他模式圖像時(shí)仍有困難。針對(duì)這一問題，他們?cè)O(shè)計(jì)了一種多模態(tài)輸入的CNN 網(wǎng)絡(luò)同時(shí)使用非增強(qiáng)和對(duì)比增強(qiáng)T1、T2 和T2-flair 這4 種模態(tài)進(jìn)行訓(xùn)練和預(yù)測(cè)，以增強(qiáng)模型在不同模態(tài)之間的魯棒性。在3個(gè)公共數(shù)據(jù)集（IBSR[37]、LPBA40[38]和OASIS[35]）上的測(cè)試結(jié)果Dice 值分別達(dá)到0.963 2、0.969 6 和0.950 2。嬰兒大腦存在等強(qiáng)度期，即6～8個(gè)月嬰兒大腦中的白質(zhì)灰質(zhì)區(qū)域存在大量重疊，并在T1和T2 MR圖像上展示出相同密度水平，這使得嬰兒腦組織的分割相當(dāng)困難。Zhang等[39]利用多模態(tài)輸入的CNN模型來提高等強(qiáng)度期嬰兒腦組織中白質(zhì)、灰質(zhì)和腦脊液區(qū)域的分割準(zhǔn)確率。考慮到核磁彌散張量成像的各向異性圖像（Fractional Anisotropy，F(xiàn)A）能夠提供大腦組織中主要纖維束的豐富信息，該方法將T1、T2 和FA 這3 個(gè)模態(tài)的圖像塊作為CNN 模型的輸入圖像來進(jìn)行嬰兒大腦組織的分割。該模型在從10 名健康嬰兒受試者獲取的MR 圖像數(shù)據(jù)集中分割結(jié)果的Dice值達(dá)到了0.850 3。

腦腫瘤是神經(jīng)外科最常見的疾病，其中腦膠質(zhì)瘤由于其高致死率而備受關(guān)注。目前，腦膠質(zhì)瘤在空間分布和結(jié)構(gòu)上的變異性是其圖像處理任務(wù)面臨的主要問題。針對(duì)上述問題，Havaei等[40]提出一個(gè)能夠有效利用局部細(xì)節(jié)特征和全局上下文特征的雙通道CNN模型來分割不同類別的腦膠質(zhì)瘤區(qū)域，該模型通過設(shè)計(jì)不同大小的卷積核實(shí)現(xiàn)對(duì)不同尺度信息的關(guān)注，局部路徑使用小卷積核來關(guān)注細(xì)節(jié)信息，全局路徑則使用大卷積核來關(guān)注上下文信息。作者還將此CNN模型的輸出作為另一個(gè)CNN輸入圖像的附加通道，從而形成級(jí)聯(lián)CNN結(jié)構(gòu)，該方法最終在BRATS2013[41]數(shù)據(jù)集上分割完整腫瘤、核心區(qū)域、強(qiáng)化區(qū)域的Dice 值分別為0.84、0.71 和0.57。為了充分利用圖像的三維信息，Zhao等[42]提出了一種基于FCN和條件隨機(jī)場(chǎng)（Conditional Random Fields，CRFs）的集成模型來實(shí)現(xiàn)腫瘤區(qū)域的分割。它將FCN生成的分割概率圖以及原始圖像輸入CRFs，根據(jù)像素強(qiáng)度和位置信息來優(yōu)化分割結(jié)果以保證外觀和空間一致性。該方法分別在軸向、冠狀面、矢狀面使用圖像塊來訓(xùn)練3個(gè)分割模型，然后使用基于投票的融合策略對(duì)腦腫瘤進(jìn)行分割。該方法在BRATS2013排名數(shù)據(jù)集上分割3 個(gè)區(qū)域（完整腫瘤、核心區(qū)域、和強(qiáng)化區(qū)域）的Dice值分別達(dá)到0.86、0.73和0.62。

2.2.2 眼醫(yī)學(xué)影像

眼底彩照獲取方式便捷，能夠?yàn)樘悄虿∫暰W(wǎng)膜病變、青光眼等眼底疾病提供豐富的顏色、對(duì)比度等信息，是目前臨床中常采用的眼底成像方式。糖尿病視網(wǎng)膜病變是糖尿病最常見的微血管并發(fā)癥之一，在眼底圖像上主要表現(xiàn)為微動(dòng)脈瘤、滲出、出血以及血管增生。對(duì)糖尿病視網(wǎng)膜病變檢測(cè)的難點(diǎn)在于病變種類多、形態(tài)尺度變化大。Gulshan等[43]基于Inception-v3模型實(shí)現(xiàn)了對(duì)可發(fā)病的糖尿病視網(wǎng)膜病變的篩查。該方法使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的Inception-v3模型進(jìn)行微調(diào)來實(shí)現(xiàn)病變圖像的篩查，在兩個(gè)測(cè)試集EyePACS-1 和Messidor-2[44]上敏感度達(dá)到90.3%和87.0%，特異度達(dá)到98.1%和98.5%。上述方法實(shí)現(xiàn)了對(duì)糖尿病視網(wǎng)膜病變的篩選和分期，但明確病變的位置和類別可以幫助醫(yī)生和患者更好地指定診療方案。在這方面，Yu等[45]實(shí)現(xiàn)了糖尿病視網(wǎng)膜病變中滲出液的分割。該方法首先使用形態(tài)學(xué)算法提取出滲出液候選點(diǎn)，然后利用CNN 模型對(duì)這些候選點(diǎn)進(jìn)行分類，最終在E-Ophtha EX數(shù)據(jù)集[46]上分割滲出液的準(zhǔn)確度、敏感度、特異度分別達(dá)到91.92%、88.85%和96.00%。Playout等[47]使用基于U-Net的多任務(wù)架構(gòu)同時(shí)分割紅色病變（出血斑和微動(dòng)脈瘤）和亮色病變（硬性滲出和軟性滲出）。該方法使用了一個(gè)U-Net的編碼塊和多個(gè)解碼塊并行完成分割任務(wù)，并在編碼塊中引入了殘差連接、基于空間壓縮的混合池化模塊、低尺度上使用大卷積核和密集連接機(jī)制，旨在通過聚合多個(gè)區(qū)域內(nèi)的最大激活值來增強(qiáng)對(duì)噪聲的魯棒性。該方法在DIARETDB1[48]數(shù)據(jù)集上紅色病變的Dice值、敏感度和特異度分別為0.598 0、0.669 1 和0.998 2，亮色病變的分別為0.789 7、0.753 5和0.998 6。

表2 卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像處理中的應(yīng)用

OCT 可以非侵入地實(shí)時(shí)獲得活體高分辨率橫截面圖像，在視網(wǎng)膜成像領(lǐng)域有廣泛的應(yīng)用。與其他眼科圖像相比，OCT 圖像的對(duì)比度低、噪聲大，這給OCT 圖像分析任務(wù)帶來重大挑戰(zhàn)。一般地，OCT圖像分析主要包括組織分割（如視網(wǎng)膜層分割）以及病理分割（如視網(wǎng)膜滲出液體分割）。準(zhǔn)確量化OCT 圖像中視網(wǎng)膜層的厚度不僅能夠增強(qiáng)對(duì)病變程度和病理進(jìn)程的理解，更能夠幫助確定影響疾病進(jìn)展的潛在因素。在這方面，F(xiàn)ang等[49]將CNN 模型和圖搜索的方法結(jié)合，該方法使用CNN 預(yù)測(cè)的概率圖取代傳統(tǒng)的梯度圖，再通過圖搜索方法進(jìn)一步確定視網(wǎng)膜層之間的邊界實(shí)現(xiàn)視網(wǎng)膜層的分割。在由60 個(gè)OCT 卷組成的數(shù)據(jù)集上，其方法的平均視網(wǎng)膜層厚度偏差和標(biāo)準(zhǔn)差分別低至1.26 和1.24 個(gè)像素。脈絡(luò)膜由于邊界模糊、結(jié)構(gòu)不均勻、厚度變化大等因素使得脈絡(luò)膜分割任務(wù)存在一定的難度。為了解決這一問題，Sui等[50]將多尺度CNN和圖搜索方法相結(jié)合。該方法首先構(gòu)建脈絡(luò)膜兩個(gè)邊界的邊緣權(quán)重圖，再使用多尺度CNN 預(yù)測(cè)脈絡(luò)膜圖像的邊權(quán)值，最后利用圖形搜索算法進(jìn)一步分割邊界。最終，在健康和患有黃斑水腫的圖像數(shù)據(jù)集中脈絡(luò)膜平均厚度及偏差分別為7.3和11.1個(gè)像素。滲出液是由視網(wǎng)膜毛細(xì)血管引起的滲漏在視網(wǎng)膜空間內(nèi)積聚導(dǎo)致的中央視網(wǎng)膜腫脹，是引發(fā)老年黃斑變性、糖尿病性視網(wǎng)膜疾病等患者視力減退的主要原因。Schlegl等[51]使用多尺度CNN以逐圖像體素分類的方式實(shí)現(xiàn)了OCT中視網(wǎng)膜下液和視網(wǎng)膜內(nèi)液的分割，在157個(gè)臨床高分辨率OCT卷驗(yàn)證得到的準(zhǔn)確率分別為89.61%、91.98%。Roy 等[52]在U-Net 的基礎(chǔ)上，在編碼器部分使用矩形卷積核來與OCT 圖像尺寸保證一致從而確保最后一個(gè)編碼塊的感受野可以包含整個(gè)圖像。此外，該方法還使用帶權(quán)重的多類logistic損失函數(shù)和Dice損失函數(shù)來改善類不平衡問題。最終，在Duke SD-OCT[53]數(shù)據(jù)集上分割各視網(wǎng)膜層的Dice值達(dá)到0.94，分割滲出液的Dice值也達(dá)到0.77。

2.2.3 乳腺醫(yī)學(xué)影像

乳腺癌是全球范圍內(nèi)女性死亡的主要原因之一，乳腺癌在侵入性癌癥中占22.9%，在全球女性癌癥相關(guān)死亡中占13.7%[54]。借助數(shù)字乳房X線光片觀測(cè)乳房中是否含有特定腫塊是常用的乳腺癌診斷方法。由于乳腺與腫瘤在X線光片下均呈現(xiàn)白色，外觀上的相似性給腫瘤檢測(cè)任務(wù)帶來重大挑戰(zhàn)。針對(duì)這一問題，Akselrod-Ballin等[55]首先利用基于閾值分割的方法實(shí)現(xiàn)乳腺和纖維腺組織的分割，從而產(chǎn)生一個(gè)解剖學(xué)的先驗(yàn)知識(shí)。然后將圖像分割為多個(gè)重疊的網(wǎng)格，利用Faster R-CNN來實(shí)現(xiàn)乳腺腫瘤區(qū)域的檢測(cè)和分類。該方法在850 張臨床數(shù)據(jù)上檢測(cè)的準(zhǔn)確率達(dá)到72%，分類的準(zhǔn)確率達(dá)到77%。Almasni 等[56]使用在ImageNet 上預(yù)訓(xùn)練的YOLO[22]模型實(shí)現(xiàn)了數(shù)字乳房X光片中腫塊的檢測(cè)及分類。該模型首先利用多個(gè)卷積層進(jìn)行特征提取，然后基于置信模型進(jìn)行腫塊的檢測(cè)，最后使用全連接神經(jīng)網(wǎng)實(shí)現(xiàn)乳腺腫塊良惡性的判定。該方法在DDSM[57]數(shù)據(jù)庫中腫瘤檢測(cè)的準(zhǔn)確率為99.7%，良惡性病變分類的準(zhǔn)確率達(dá)97%。為了能夠小數(shù)據(jù)集上獲得性能更好的模型，Sheng等[58]提出了基于RNN+CNN的注意力記憶網(wǎng)絡(luò)進(jìn)行乳腺癌診斷。該方法中使用注意力模塊來提取圖像特征，使用記憶模塊在RNN 模型中加入注意力權(quán)重來增強(qiáng)特征描述。使用INbreast 數(shù)據(jù)集上的測(cè)試結(jié)果比Inceptionv2、ResNet50、VGG16模型的結(jié)果都要好，準(zhǔn)確率達(dá)到84.1%，且運(yùn)行時(shí)間更快。

在組織密度變高或發(fā)生組織重疊時(shí)，使用數(shù)字乳房X 光片難以準(zhǔn)確診斷腫瘤類別。數(shù)字乳腺斷層合成（Digital Breast Tomosynthesis，DBT）通過使用多個(gè)乳房X線透視圖構(gòu)建三維乳房影像，可以清晰顯示乳房腫塊，因此癌癥檢測(cè)靈敏度比數(shù)字乳房X 線更高。目前，DBT圖像相對(duì)稀缺，公開數(shù)據(jù)集也較少。Samala等[59]使用遷移學(xué)習(xí)來解決這一問題，該方法利用乳房X光片來對(duì)CNN 模型進(jìn)行預(yù)訓(xùn)練，然后使用DBT 圖像來訓(xùn)練最后一層卷積層和全連接層，最終實(shí)現(xiàn)乳房腫塊的檢測(cè)和分類。該方法在94 張DBT-UM[60]測(cè)試數(shù)據(jù)集上檢測(cè)的最大靈敏度達(dá)到90%，分類的AUC達(dá)到0.90。

2.2.4 肺醫(yī)學(xué)影像

肺癌是全球癌癥死亡的主要原因之一，肺癌約占每年新增癌癥數(shù)量的13%，占癌癥相關(guān)死亡的19.5%[61]。肺癌非常具有侵襲性，患者的長(zhǎng)期生存率低，因此早期發(fā)現(xiàn)對(duì)肺癌的治療意義重大[62]。胸部CT影像是肺癌診斷的有力工具[63]。肺結(jié)節(jié)被定義為胸部CT中肺上的斑點(diǎn)，大多數(shù)肺癌由小的惡性結(jié)節(jié)引起的。肺結(jié)節(jié)分割的挑戰(zhàn)在于它們的形狀、大小以及紋理等方面存在的異質(zhì)性。為解決以上問題，Shen 等[64]提出了一種多尺度CNN模型來提取肺結(jié)節(jié)的判別特征。為了捕捉肺結(jié)節(jié)的異質(zhì)性，該模型使用三個(gè)并行的CNN 分別處理不同大小的圖像塊再將它們提取的特征進(jìn)行通道拼接，然后利用支持向量機(jī)和隨機(jī)森林分類器實(shí)現(xiàn)肺結(jié)節(jié)良惡性分類，最終在LIDC-IDRI數(shù)據(jù)集[65]中對(duì)惡性結(jié)節(jié)的分類準(zhǔn)確率為86.84%。為了更好地提取不同尺度的結(jié)節(jié)，Shen 等[66]使用一種多次裁剪池化層替換上述模型的最大池化層，該模型將卷積特征圖裁剪成不同的區(qū)域，分別使用不同次數(shù)的最大池化操作，來提取結(jié)節(jié)不同尺度的顯著性信息。該方法在LIDC-IDRI 數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)到87.14%。

肺結(jié)節(jié)是以三維立體形式存在的，通過多視圖、多層相鄰切片的方法可以充分利用肺結(jié)節(jié)的三維上下文信息，從而能夠有效提高肺結(jié)節(jié)的分類準(zhǔn)確率。在多視圖方面，Ciompi 等[67]首先使用ImageNet 上預(yù)訓(xùn)練的OverFeat[68]模型來分別提取軸向、冠狀和矢狀視圖上的肺結(jié)節(jié)特征向量，然后為每個(gè)特定視圖訓(xùn)練一個(gè)支持向量機(jī)或隨機(jī)森林分類器，最后將多個(gè)分類器的結(jié)果進(jìn)行融合生成最終分類結(jié)果。該方法在從NELSON[69]中心搜集的數(shù)據(jù)集上的分類AUC 達(dá)到0.847。Setio 等[70]提出了一個(gè)多視圖CNN 模型對(duì)CT 圖像中是否存在肺結(jié)節(jié)進(jìn)行診斷，該方法分別針對(duì)實(shí)性結(jié)節(jié)、亞實(shí)型性結(jié)節(jié)和大結(jié)節(jié)設(shè)計(jì)形態(tài)學(xué)方法提取肺結(jié)節(jié)候選區(qū)域，并將檢測(cè)到的肺結(jié)節(jié)候選區(qū)域分解成9個(gè)固定視圖平面（矢狀面、冠狀面、軸向面和六對(duì)角面）分別傳入到一個(gè)2D CNN 進(jìn)行訓(xùn)練，最后融合這9 個(gè)CNN 的輸出來實(shí)現(xiàn)肺結(jié)節(jié)分類。該方法很大程度上減小了結(jié)果的假陽性，在LIDC-IDRI 數(shù)據(jù)集的檢測(cè)靈敏度達(dá)到了90.1%。Xie等[71]提出了另一種融合多視圖多外觀的知識(shí)協(xié)同深度模型來分類肺結(jié)節(jié)，該方法將已知中心位置的三維結(jié)節(jié)分解成9 個(gè)固定視圖，然后針對(duì)每個(gè)視圖進(jìn)行如下操作：首先使用U-Net 分割肺結(jié)節(jié)；然后微調(diào)3 個(gè)預(yù)訓(xùn)練ResNet-50 子模型來分別描述結(jié)節(jié)的整體外觀、體素和形狀異質(zhì)性；最后對(duì)3 個(gè)子模型的輸出結(jié)果進(jìn)行加權(quán)求和。此方法對(duì)9 個(gè)視圖并行訓(xùn)練，最后將它們的結(jié)果進(jìn)行自適應(yīng)加權(quán)融合從而產(chǎn)生分類結(jié)果。該方法在LIDC-IDRI 數(shù)據(jù)集[65，72-73]上對(duì)肺結(jié)節(jié)分類的準(zhǔn)確率為91.60%，靈敏度為86.52%，AUC 為0.957。Li 等[74]提出的基于CNN的多層面二階特征融合模型提取肺結(jié)節(jié)的3個(gè)相鄰層面的切片中的特征，來避免肺結(jié)節(jié)周圍毛細(xì)血管、組織器官等干擾。該模型首先提取每一個(gè)切片的特征，然后融合3 個(gè)切片的特征用于肺結(jié)節(jié)3 種惡性程度的評(píng)估。該方法在LIDC-IDRI 數(shù)據(jù)集上精確度為91.27%，靈敏度為89.48%，AUC達(dá)到0.924。

自2019 年12 月以來，新型冠狀病毒在世界各地相繼爆發(fā)[75]?！缎滦凸跔畈《痉窝自\療方案（試行第七版）》[76]中指出新冠肺炎在胸部影像上表現(xiàn)為早期呈現(xiàn)多發(fā)小斑片影及間質(zhì)改變，以肺外帶明顯；進(jìn)而發(fā)展為雙肺多發(fā)磨玻璃影、浸潤(rùn)影，嚴(yán)重者可出現(xiàn)肺實(shí)變，胸腔積液少見。為實(shí)現(xiàn)新冠肺炎在臨床的快速診斷，多種利用CNN 模型對(duì)新冠肺炎CT 影像進(jìn)行分析的技術(shù)涌現(xiàn)出來（如圖5）。Xu等[77]首先利用CT圖像的亨氏值提取出肺部區(qū)域，再使用3D CNN模型分割出候選的感染區(qū)域，然后使用基于ResNet18 的3D CNN 模型結(jié)合位置注意力機(jī)制，從而將每個(gè)候選區(qū)域分為新冠肺炎、流感病毒肺炎和無關(guān)感染。該方法在30 個(gè)CT 樣本的總體準(zhǔn)確率86.7%。Gozes等[23]開發(fā)了一套具有篩查、定量描述和跟蹤隨訪功能的新冠肺炎CT 圖像自動(dòng)分析系統(tǒng)。該系統(tǒng)首先利用RADLogics 公司（http://radlogics.com/）的軟件對(duì)肺結(jié)節(jié)和局限性密度影進(jìn)行檢測(cè)和定量化測(cè)量，然后利用U-Net獲得肺部區(qū)域，最后使用在ImageNet上預(yù)訓(xùn)練的ResNet-50實(shí)現(xiàn)新冠肺炎篩查。該方法在來自中國和美國共157 名患者的測(cè)試數(shù)據(jù)集上分類的敏感度和特異度分別達(dá)到98.2%和92.2%。復(fù)旦大學(xué)上海公共衛(wèi)生臨床中心Shan與聯(lián)影智能Gao等[78]的“新冠肺炎CT+AI智能輔助分析系統(tǒng)”使用VB-Net模型結(jié)合CT影像實(shí)現(xiàn)了疑似病例優(yōu)先閱片，感染區(qū)域自動(dòng)勾畫，對(duì)同一個(gè)病人全肺和肺葉體積和密度提供隨訪評(píng)估等功能。該方法利用殘差連接結(jié)構(gòu)對(duì)V-Net[79]進(jìn)行改進(jìn)以適用于處理大型三維數(shù)據(jù)。同時(shí)，使用人工在環(huán)（Humanin-the-Loop，HITL）的迭代訓(xùn)練策略，幫助放射科醫(yī)生完善每個(gè)病例的自動(dòng)標(biāo)注。該方法在300個(gè)患者的CT影像上進(jìn)行測(cè)試，感染區(qū)域分割的Dice系數(shù)達(dá)到0.916，感染體積估算誤差0.3%，能在4分鐘之內(nèi)完成人工需要1～5個(gè)小時(shí)標(biāo)注的工作量。

2.2.5 骨骼醫(yī)學(xué)影像

骨骼成像可以輔助骨齡評(píng)估、對(duì)脊椎和膝關(guān)節(jié)等相關(guān)疾病進(jìn)行檢測(cè)等。骨骼的成熟經(jīng)歷了一系列不連續(xù)的發(fā)育階段，而骨骼和實(shí)際年齡之間的差異能反映一定的生長(zhǎng)問題。在臨床上，經(jīng)常通過未成年人的手骨X光片來對(duì)其骨齡進(jìn)行評(píng)估。X光片的光照不均勻性、個(gè)體間骨骼形態(tài)的差異性等因素加大了手骨分割的難度。Lee 等[80]使用GoogLeNet 實(shí)現(xiàn)了骨齡的自動(dòng)評(píng)估，并使用注意力圖實(shí)現(xiàn)模型的可視化。模型的注意力圖可以揭示模型關(guān)注哪些區(qū)域特征來執(zhí)行骨齡評(píng)估，該方法與人類專家手動(dòng)進(jìn)行骨齡評(píng)估時(shí)所觀察的情況相一致，而且只需更短的時(shí)間就能獲得更準(zhǔn)確、更高效的骨齡評(píng)估。在含有4 278 張女性和4 047 張男性的X 光片數(shù)據(jù)集上，該模型的骨齡預(yù)測(cè)結(jié)果的準(zhǔn)確率分別為57.32%和61.40%。Spampinato等[81]結(jié)合CNN與回歸網(wǎng)絡(luò)設(shè)計(jì)的BoNet模型實(shí)現(xiàn)了對(duì)不同年齡段、種族和性別的兒童進(jìn)行骨齡評(píng)估。該方法在一個(gè)1 391例兒童X光線掃描數(shù)字手部圖像集數(shù)據(jù)庫[82]上的結(jié)果顯示，在所有種族、性別和年齡范圍內(nèi)的骨齡預(yù)測(cè)平均絕對(duì)誤差為0.79歲。然而，來自不同設(shè)備和采集條件的手部X光片在尺度、方向、曝光等方面會(huì)存在差異，這會(huì)導(dǎo)致模型的性能下降。Iglovikov 等[83]通過對(duì)手部X 光片進(jìn)行嚴(yán)格的預(yù)處理來解決上述問題，提高了骨齡預(yù)測(cè)模型的魯棒性。該方法首先通過U-Net 模型來分割手部區(qū)域并去除背景；然后對(duì)圖像進(jìn)行對(duì)比度歸一化，并通過檢測(cè)中指指尖、小拇指指尖和頭狀骨中心3個(gè)關(guān)鍵點(diǎn)從而將圖像匹配到一個(gè)共同的坐標(biāo)空間中；最后從已完成匹配的圖像中裁出整個(gè)手部、腕骨頭、掌骨近端趾骨3 個(gè)特定區(qū)域來訓(xùn)練VGG 族的CNN 模型進(jìn)行骨齡的預(yù)測(cè)。該方法在RSNA2017兒童骨齡評(píng)估挑戰(zhàn)賽（http://rsnachallenges.cloudapp.net/competitions/4）中結(jié)果的平均絕對(duì)誤差為4.97個(gè)月。

基于CT 圖像的脊柱椎體分割對(duì)于引導(dǎo)診斷、手術(shù)計(jì)劃等方面具有重要意義。由于椎骨外觀相似、手術(shù)植入引起的異常病理曲度和圖像偽影等原因，椎體的自動(dòng)定位和識(shí)別仍然具有挑戰(zhàn)性。Chen[84]等設(shè)計(jì)了一個(gè)能夠在三維脊柱CT 圖像上對(duì)CT 椎體進(jìn)行自動(dòng)定位和識(shí)別的Joint-CNN模型。該方法首先利用隨機(jī)森林方法定位椎體候選區(qū)域，然后在CNN 模型末端使用兩個(gè)并行的分類層來同時(shí)考慮單個(gè)椎體外觀以及相鄰椎體之間的依賴關(guān)系以實(shí)現(xiàn)椎體的識(shí)別，最后使用形狀回歸模型來對(duì)預(yù)測(cè)的椎體質(zhì)心進(jìn)行微調(diào)。該方法在MICCAI 2014椎骨定位與鑒定計(jì)算挑戰(zhàn)（302個(gè)脊椎CT卷）的識(shí)別準(zhǔn)確率達(dá)到了84.16%。Lessmann 等[85]利用脊柱椎體的固有順序來簡(jiǎn)化檢測(cè)問題，用迭代的方法使用3D U-Net對(duì)圖像中椎體按順序分割和識(shí)別，提升了訓(xùn)練效率和分割精度。該方法首先在低分辨率圖像中利用3D U-Net 進(jìn)行脊椎粗略分割獲得可利用的上下文信息；然后在原始高分辨率圖像中利用另一個(gè)結(jié)構(gòu)相同的3D U-Net 重新分析，獲得精細(xì)的分割。該方法在MICCAI 2014椎骨定位與鑒定計(jì)算挑戰(zhàn)的數(shù)據(jù)集上將椎體分割的Dice值提升到了0.948。

2.2.6 皮膚醫(yī)學(xué)影像

皮膚癌是最常見的皮膚病，具有較高的死亡率[61]。各種皮膚病變?cè)谕庥^上的相似性成為臨床上實(shí)現(xiàn)皮膚癌準(zhǔn)確分類的一大挑戰(zhàn)。例如，皮膚癌中的黑色素瘤常被誤診為良性皮膚病變。因此，Lopez等[86]利用VGG-16結(jié)合遷移學(xué)習(xí)技術(shù)來解決皮膚病病變圖像的良惡性分類問題，可以實(shí)現(xiàn)皮膚癌中黑色素瘤的早期檢測(cè)。該方法在ISIC（www.isic-archive.com/）的數(shù)據(jù)集上的準(zhǔn)確度達(dá)到了81.33%，靈敏度達(dá)到了78.66%。Esteva等[87]使用由ISIC 皮膚鏡圖像庫、愛丁堡Dermofi 庫[88]和來自斯坦福醫(yī)院的數(shù)據(jù)組成的129 450張臨床圖像數(shù)據(jù)集來訓(xùn)練在ImageNet 預(yù)訓(xùn)練過的Inceptionv3 模型。該方法能夠?qū)?57類皮膚疾病進(jìn)行分類，并歸類為更常見的皮膚疾病類別。最后，用它檢測(cè)三類病變（惡性單一病變、良性單一病變、非腫瘤性病變）的準(zhǔn)確率達(dá)到72.1%，檢測(cè)九類病變（惡性黑色素病變、惡性上皮病變、惡性真皮病變等）的準(zhǔn)確率達(dá)到了55.4%。

3 總結(jié)與展望

深度學(xué)習(xí)，尤其是CNN模型的發(fā)展，給生物醫(yī)學(xué)圖像分析領(lǐng)域帶來諸多突破性進(jìn)展。在本文中，對(duì)近年來CNN模型在細(xì)胞生物學(xué)圖像及醫(yī)學(xué)圖像中應(yīng)用的最新研究成果進(jìn)行了總結(jié)和梳理。

首先，CNN 模型較好的通用性使得在實(shí)現(xiàn)應(yīng)用中往往不需要針對(duì)不同的圖像數(shù)據(jù)從零開始設(shè)計(jì)模型結(jié)構(gòu)，而是借用經(jīng)典CNN模型作為基礎(chǔ)骨架。例如，用于圖像分類任務(wù)的經(jīng)典模型有LeNet-5、VGG、Inception系列、ResNet 系列等，用于目標(biāo)檢測(cè)任務(wù)的經(jīng)典模型有Faster R-CNN 和YOLO 系列等，用于圖像分割任務(wù)的經(jīng)典模型有的FCN和U-Net等。

其次，通過對(duì)基礎(chǔ)骨架進(jìn)行修改，可以進(jìn)一步解決生物醫(yī)學(xué)圖像分析中的難點(diǎn)問題，包括目標(biāo)與背景的相似度高、目標(biāo)間的差異性小、類間不平衡、樣本量偏少等。對(duì)于前兩個(gè)問題，常見的處理方式包括多尺度卷積、多視圖卷積等，以期獲取更豐富的上下文信息，從而改進(jìn)網(wǎng)絡(luò)性能。另一種處理方法是構(gòu)建級(jí)聯(lián)網(wǎng)絡(luò)，使各級(jí)網(wǎng)絡(luò)聚焦于解決不同問題從而提高網(wǎng)絡(luò)的整體性能。對(duì)于類間不平衡問題，常通過改進(jìn)損失函數(shù)的方法來提高網(wǎng)絡(luò)性能，比如使用帶權(quán)重的交叉熵?fù)p失函數(shù)、focal loss 等。針對(duì)樣本量稀缺的問題，常采用的解決方法是利用遷移學(xué)習(xí)技術(shù)來提高網(wǎng)絡(luò)性能。

總的來講，CNN 網(wǎng)絡(luò)可以直接采用原始圖像作為輸入自動(dòng)學(xué)習(xí)和提取特征，避免了傳統(tǒng)算法的特征定義和參數(shù)設(shè)置的復(fù)雜過程，使其在各領(lǐng)域的表現(xiàn)相較于單純使用傳統(tǒng)算法更加優(yōu)秀，有些甚至可以達(dá)到專業(yè)技術(shù)人員的水平。然而，CNN 在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用也面臨不同于以往的新問題和挑戰(zhàn)。這里，對(duì)這些發(fā)展所帶來的挑戰(zhàn)以及可能的解決手段進(jìn)行了梳理。

（1）引起廣泛關(guān)注的問題是CNN的含義不夠明確，針對(duì)每一卷積層提取到的特征沒有明確的解釋。這導(dǎo)致的一個(gè)重要問題就是無法對(duì)結(jié)果進(jìn)行有效說明，這種過程中的不可解釋性可能導(dǎo)致研究者和臨床醫(yī)生的接受度不高。模型結(jié)構(gòu)可視化、模型參數(shù)解耦合等研究方向的發(fā)展有望逐漸改善這一問題。

（2）CNN網(wǎng)絡(luò)對(duì)數(shù)據(jù)的依賴較重。一般地，數(shù)據(jù)量越大，標(biāo)定越統(tǒng)一，結(jié)果往往越理想。然而，生物醫(yī)學(xué)圖像的許多特性都限制了CNN 模型優(yōu)勢(shì)的發(fā)揮。例如，公開數(shù)據(jù)量少、沒有統(tǒng)一的數(shù)據(jù)集制作標(biāo)準(zhǔn)，數(shù)據(jù)質(zhì)量參差不齊、標(biāo)注不一致等，這使得不同方法間缺少對(duì)比性和參考性。在這方面，對(duì)數(shù)據(jù)、評(píng)價(jià)指標(biāo)、運(yùn)行平臺(tái)、參數(shù)設(shè)定、邊界條件等的公開以及圖像標(biāo)注標(biāo)準(zhǔn)制定將有助于解決這些問題。另一方面，對(duì)半監(jiān)督或無監(jiān)督方法以及人工在環(huán)的模型訓(xùn)練策略的探索也是解決這一問題的重要方向。

（3）如何在特定問題的解決能力及算法的泛化能力之間找到平衡點(diǎn)非常重要。目前工程領(lǐng)域基于CNN模型的算法開發(fā)往往是針對(duì)特定任務(wù)的（例如特定細(xì)胞檢測(cè)、特定病變分割等），許多方法難以在實(shí)驗(yàn)數(shù)據(jù)之外的任務(wù)進(jìn)行推廣。另一方面，通用性的模型又往往在特定任務(wù)中表現(xiàn)不夠理想。例如，在利用眼底彩照的眼底疾病篩查中，實(shí)現(xiàn)通用性病變篩查的模型在對(duì)具體疾病的識(shí)別中表現(xiàn)不夠理想。在解決特定問題和通用問題間找到平衡點(diǎn)將極大推動(dòng)CNN模型在實(shí)際場(chǎng)景中的應(yīng)用。

（4）卷積神經(jīng)網(wǎng)絡(luò)“端對(duì)端”的特性雖然可以避免人為特征提取和復(fù)雜參數(shù)設(shè)定，但也一定程度上阻礙了領(lǐng)域先驗(yàn)知識(shí)對(duì)模型的貢獻(xiàn)。在某些任務(wù)中，是存在相對(duì)明確的規(guī)則的，例如在OCT 圖像上滲出液體的分割任務(wù)中，視網(wǎng)膜中液是指介于視網(wǎng)膜神經(jīng)纖維層與外網(wǎng)層之間的滲出液體，而視網(wǎng)膜下液是指介于視網(wǎng)膜外節(jié)層與色素上皮層之間的滲出液體。通過在CNN模型的改進(jìn)中融入這些相對(duì)明確的規(guī)則，對(duì)于特定任務(wù)的分析將非常有幫助。

隨著卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)理論和應(yīng)用研究的推進(jìn)，相信上述問題將得到很好的解決，進(jìn)而促進(jìn)CNN網(wǎng)絡(luò)及其他相關(guān)技術(shù)在生物醫(yī)學(xué)圖像的自動(dòng)處理和分析中的應(yīng)用，并最終實(shí)現(xiàn)方法和系統(tǒng)的落地應(yīng)用。

計(jì)算機(jī)工程與應(yīng)用2021年7期

計(jì)算機(jī)工程與應(yīng)用的其它文章: 無人機(jī)目標(biāo)檢測(cè)量子多模式識(shí)別優(yōu)化算法; 改進(jìn)Deeplab v3+網(wǎng)絡(luò)的手術(shù)器械分割方法; 多尺度殘差網(wǎng)絡(luò)的單幅圖像超分辨率重建; 基于鄰域圖的低秩投影學(xué)習(xí); 復(fù)雜場(chǎng)景下基于改進(jìn)YOLOv3的車牌定位檢測(cè)算法; 結(jié)合雙編碼器與對(duì)抗訓(xùn)練的圖像修復(fù)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡