陶 攀,付忠良,朱 鍇,王莉莉
(1.中國科學院 成都計算機應(yīng)用研究所,成都 610041; 2. 中國科學院大學,北京 100049)
基于深度學習的超聲心動圖切面識別方法
陶 攀1,2*,付忠良1,2,朱 鍇1,2,王莉莉1,2
(1.中國科學院 成都計算機應(yīng)用研究所,成都 610041; 2. 中國科學院大學,北京 100049)
(*通信作者電子郵箱284792640@qq.com)
提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)自動識別超聲心動圖標準切面的方法,并可視化分析了深度模型的有效性。針對網(wǎng)絡(luò)全連接層占有模型大部分參數(shù)的缺點,引入空間金字塔均值池層化替代全連接層,獲得更多空間結(jié)構(gòu)信息,并大大減少模型參數(shù)、降低過擬合風險,通過類別顯著性區(qū)域?qū)㈩愃谱⒁饬C制引入模型可視化過程。通過超聲心動圖標準切面的識別問題案例,對深度卷積神經(jīng)網(wǎng)絡(luò)模型的魯棒性和有效性進行解釋。在超聲心動圖上的可視化分析實驗表明,改進深度模型作出的識別決策依據(jù),同醫(yī)師辨別分類超聲心動圖標準切面的依據(jù)一致,表明所提方法的有效性和實用性。
深度學習;標準切面分類;超聲心動圖;可視化;卷積神經(jīng)網(wǎng)絡(luò)
在心臟病常規(guī)臨床檢查中,二維實時超聲心動圖常用于評測心臟的結(jié)構(gòu)和功能。臨床超聲檢查通常主要包括三個步驟:探頭掃描不同位置、選取標準切面和對標準切面的測量與診斷[1]。其中,醫(yī)師總結(jié)出來能更好輔助分析心臟功能結(jié)構(gòu)的特定位置和角度的超聲心動圖稱為標準切面,其正確快速選取不僅對臨床診斷具有至關(guān)重要的意義,也為病例研究提供比較依據(jù)。標準切面的自動識別是超聲心動圖智能分析和測量的基礎(chǔ)。與自然圖像相比,醫(yī)學超聲成像質(zhì)量差,存在斑點噪聲和偽影;并且各標準切面類內(nèi)、類間差異大,使得標準切面的識別成為一個非常具有挑戰(zhàn)性的問題。
目前的研究主要集中在利用機器學習和圖像處理等方法,進行超聲心動圖的自動識別、檢索及切面內(nèi)組織結(jié)構(gòu)的定位和分割等。針對超聲心動圖的自動識別,2004年Ebadollahi等[2]首次提出采用馬爾可夫隨機場設(shè)計通用腔室模板檢測心臟腔室來輔助三類標準切面識別,但需額外信號來指定處于舒張末期(End-Diastolic,ED)的切面。同樣利用處于ED的標準切面,Zhou等[3]基于多類別提升算法框架,提取哈爾矩形特征訓練弱分類器,同樣需要檢測心臟腔室的空間位置,輔助四類標準切面識別?;诮档吞卣骶S度的兩層級聯(lián)方法,把標準切面分類成心尖和胸骨旁兩大類,然后進一步區(qū)分四類標準切面[4-5]。在文獻[2]工作基礎(chǔ)上整合局部和全局模板特征,利用多類邏輯提升分類算法,并指出能擴展到任意標準切面[6]。在對心臟的循環(huán)跳動的時空信息進行統(tǒng)計分析的基礎(chǔ)上,利用主動外觀模型對形狀和紋理進行建模,統(tǒng)計追蹤一個心動周期并投影到運動空間進行分類[7],該方法處理對象是視頻序列, 還可以把不同標準切面視為不同的場景圖像,提取低層全局特征來表征不同切面,利用改進核支持向量機進行分類[8]。這些方法可以歸納為兩個階段:首先根據(jù)先驗人為設(shè)計特征來表征圖像;然后利用機器學習中不同分類方法對特征向量進行建模分析得到分類器。然而受限于“語義鴻溝”問題,根據(jù)特定先驗人為設(shè)計特征,如大多數(shù)方法都針對心動周期的某個特定時刻的切面(如ED),導(dǎo)致模型性能較差。
近來,深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在大規(guī)模自然圖像數(shù)據(jù)集(如ImageNet[9])上,識別性能遠超傳統(tǒng)方法[10],主要得益于深度學習利用大量標注數(shù)據(jù),從圖像原始像素出發(fā),逐層分級學習中高層的抽象語義特征[11]。
當前實踐中由于深度學習需要大量的標注數(shù)據(jù),所以僅在少數(shù)醫(yī)學任務(wù)中取得有限的成功應(yīng)用,且對深度模型的魯棒性和有效性也缺乏詳盡分析。文獻[1]利用CNN結(jié)合領(lǐng)域知識,在胎兒超聲心動圖標準切面的自動識別問題中取得良好的識別效果[1],但胎兒跟成人超聲心動圖差異大,具有很大特殊性。文獻[13]利用自然圖像訓練的模型對胸腔X-射線圖像進行特征提取并結(jié)合全局特征[12]得到最優(yōu)檢測結(jié)果,并沒有對特定醫(yī)學數(shù)據(jù)進行遷移訓練,僅是作為特征提取器[13]。文獻[14]針對心臟核磁共振圖像利用微調(diào)技術(shù),遷移從自然圖像學習的模型,但沒對模型有效性進行分析。
目前深度CNN模型的理論分析工作還不是很完善,能自動學習語義特征的工作機理還是個“黑箱”。對于不同的模型的比較除了準確率之外并沒有很好的評價方法,優(yōu)異的泛化能力從何而來仍是個開放問題。一些工作[15-18]通過可視化各層激活值和卷積核來更好理解深度CNN。對在給定數(shù)據(jù)集上訓練得到的深度CNN模型, 文獻[17]用反卷積來可視化每個神經(jīng)元的最大激活值。文獻[15]通過對學習到的每層的特征進行反編碼,建立每層特征和原圖像的映射關(guān)系。文獻[16]試圖通過梯度上升方法迭代尋找使得最大化激活某個或某些特定的神經(jīng)元。神經(jīng)元對圖像像素的梯度描述了當前像素的怎樣改變會影響分類結(jié)果的大小。文獻[15-17]的方法均是對已訓練的模型進行分析,而類激活映射圖(Class Activation Map, CAM)方法[18]用全局均值池化層代替全連接層改進訓練過程,分類性能雖略有降低,但能指示出特定類別的顯著性判別區(qū)域,能很好地解釋模型的有效性。
本文提出一種基于深度CNN識別超聲心動圖的方法(Deep Echocardiogram, Deep-Echo):1)引入空間金字塔均值池化層代替全連接層,一方面大幅減少模型參數(shù),降低過擬合風險;另一方面網(wǎng)絡(luò)結(jié)構(gòu)變?yōu)槿矸e網(wǎng)絡(luò),使得不用限制輸入圖像尺寸大小,這對醫(yī)學超聲圖像更為重要。2)為驗證該算法的魯棒性和有效性,針對數(shù)據(jù)集進行詳盡實驗,研究分析了深度學習方法的高識別率和優(yōu)異泛化能力的原因。
深度CNN是多層前饋神經(jīng)網(wǎng)絡(luò)的一種特例。隱藏層的神經(jīng)元設(shè)計成與上一層神經(jīng)元局部連接,并利用參數(shù)共享來減少模型復(fù)雜度。針對圖像這種結(jié)構(gòu)化數(shù)據(jù),由不同卷積核來探測不同空間位置上的局部統(tǒng)計特征。通過堆疊多層的卷積結(jié)構(gòu),實現(xiàn)從低層到高層語義空間的抽象映射。
(1)
模型的激活函數(shù)沒有采用Sigmoid函數(shù)或雙曲正切函數(shù),而是選擇ReLU函數(shù),目的是引入更多非線性來提高訓練收斂速度,解決多層網(wǎng)絡(luò)反向傳播中梯度彌散的問題。其函數(shù)表達式為:
(2)
σ(x)=max{0,x}
(3)
其中:σ(·)表示對第l層的激活函數(shù),該層一般嵌入在卷積層后。為了使得每層輸入的分布更平穩(wěn),一般引入批量歸一化層(Batch Normalization, BN),如圖1中所示。最大池化層進行下采樣,有時把“卷積-激活-歸一化-池化”統(tǒng)稱為卷積層。最后需連接全連接層(Fully Connected layers, FC),全連接層就不再保存空間信息,是對低層特征的高層抽象,最終輸出K維的向量,作為該圖像的特征向量送入最終的分類器進行分類評估。
深度CNN模型的分類器與傳統(tǒng)方法不同的是:把特征提取過程中的卷積核參數(shù)和分類器的參數(shù)整合到端到端的模型中。對一個有監(jiān)督的多分類問題,特征提取過程可表示為得分函數(shù)S(xi,W,b)、W、b是各層可學習的參數(shù)包括卷積核K、偏置B和全連接層的權(quán)值參數(shù)。對第i個樣本的得分函數(shù)分類誤差的交叉熵損失函數(shù)可定義為:
(4)
(5)
通過最小化Softmax函數(shù)的非負對數(shù)似然(式(5)),能帶來歸一化的概率解釋。一般采用L2損失正則化技術(shù)提升分類泛化性能。全部N個樣本的損失函數(shù)L為式(6)所示,其中λ表示正則化參數(shù)。損失函數(shù)最小化方法采用反向傳播算法,通過帶動量的批隨機梯度下降算法不斷調(diào)整參數(shù)使得模型整體誤差函數(shù)不斷降低, 并通過使用權(quán)重衰減項和Dropout技術(shù)控制過擬合。具體實現(xiàn)詳情請參考文獻[10]。
圖1 卷積網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖Fig. 1 Structure of CNN model
本章分別從如何構(gòu)建全卷積網(wǎng)絡(luò)、全局空間金字塔均值池化層,將類別顯著性圖納入可視化過程,如何擴增數(shù)據(jù)等方面介紹提出的Deep-Echo模型。
2.1 全卷積的網(wǎng)絡(luò)
與GoogleNet模型[20]、ResNet模型[21]類似,使用多層卷積層(每層包括ReLU層、BN層和Pooling層),用全局均值池化操作替代全連接層。Deep-Echo模型結(jié)構(gòu)中對最后卷積層輸出的特征圖,如圖2中所示的金字塔均值池化層(Spatial Average Pooling, SAP)[22]代替最大化池化層和全連接層。最后一層輸出單元數(shù)目為類別的數(shù)目,由于實驗采用的標準切面有7個類別,因此最后一層輸出7類相應(yīng)概率(圖2中Prob層),依次對應(yīng)相應(yīng)的類別, 采用交叉熵損失函數(shù)加L2正則化。卷積核數(shù)目從64開始, 每經(jīng)過一次最大池化層,卷積核數(shù)目翻倍,直到512為止。學習率初始化為0. 01。具體實驗步驟和參數(shù)設(shè)置見后文實驗部分。整個網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 Deep-Echo模型結(jié)構(gòu)示意圖Fig. 2 Structure of Deep-Echo model
2.2 空間金字塔均值池化層
針對深度CNN模型中全連接層的兩個缺點:全連接層失去了空間信息,限制了 CNN 只能接受固定尺度的輸入, 一般只能通過圖像尺度歸一化的方法來處理不同尺寸的輸入圖像,且使得模型可視化變得不可解釋;全連接層參數(shù)擁有大約90%的模型參數(shù),如AlexNet模型[10]和VGG16模型[23]中全連接層參數(shù)占全部參數(shù)分別為38 MB/61 MB和103 MB/138 MB,從而導(dǎo)致模型更容易過擬合[20]。
為解決這兩個問題,He等[22]提出空間金字塔池化(Spatial Pyramid Pooling, SPP)方法。 SPP通過使用多個不同大小的池化操作保證固定的特征向量輸出,從而允許 CNN 接受任何尺度的輸入, 增加了模型的尺度不變性, 抑制過擬合。與傳統(tǒng)的全連接層不同,對每個特征圖一整張圖片進行多尺度的空間金字塔均值池化,這樣每張?zhí)卣鲌D都可以得到多個尺度的輸出。本文方法跟空間金字塔池化網(wǎng)絡(luò)類似都是3個尺度的空間金字塔池化(1×1、2×2和4×4),其差異在于不再接多個全連接層,同時用均值池化代替最大化池化,目的在于方便可視化模型的空間位置信息。
2.3 微調(diào)遷移學習
利用深度學習進行超聲心動圖的標準切面識別,仍存在針對小數(shù)據(jù)量直接訓練是否會出現(xiàn)過擬合;能否跨領(lǐng)域進行遷移學習,即在自然圖像數(shù)據(jù)集上訓練得到的模型能否微調(diào)應(yīng)用到跨領(lǐng)域的超聲心動圖上的問題。文獻[18]中指出,用全局均值池化代替全連接層直接隨機初始化,從頭開始訓練, 模型收斂困難且分類性能下降,故對現(xiàn)有模型進行改造,即針對在自然圖像集上預(yù)先訓練得到的模型,如Alexnet模型等,變換最后的輸出層為所述金字塔均值池化層,調(diào)小學習率后在超聲心動圖標準切面數(shù)據(jù)上進行微調(diào)遷移學習。
訓練時,由于超聲心動圖的特殊性,人工標注費時費力,對數(shù)據(jù)集進行擴增能降低人工標注的需求, 但擴增數(shù)據(jù)需注意不能打亂標準切面圖像內(nèi)在的局部結(jié)構(gòu),因此對切面數(shù)據(jù)只進行水平鏡像翻轉(zhuǎn)和旋轉(zhuǎn)。通過引入BN歸一化層能減輕對Dropout的依賴,提高泛化能力,并且本文直接去掉全連接層,故并未采用Dropout技術(shù)。
遷移學習時,由于深度模型中低層的卷積核是跟人類視覺的初級細胞很類似,因此是可以直接遷移復(fù)用,高層要針對目標學習判別性信息需進行重新學習[18]。針對超聲心動圖的實驗支持這樣的結(jié)論,不同模型的分類準確率都很高,具體實驗見后文實驗部分, 但對于計算機醫(yī)學輔助診斷而言,模型怎樣決策判斷比分類準確率更重要, 即需解釋模型為什么有效和優(yōu)異的泛化能力從何而來。
2.4 類別顯著激活映射圖
前文所提模型能高效提取超聲心動圖標準切面的特征,對超聲心動圖的單扇形和雙扇形標準切面都能很好地識別,甚至對互聯(lián)網(wǎng)上隨意選取的標準切面也能識別。但對模型的有效性和解釋性缺乏有力分析,使得對模型決策判斷的可信性產(chǎn)生懷疑。
針對超聲心動圖,采用文獻[18]提出可視化分析的方法,將其和空間金字塔均值池化結(jié)合。對給定圖像,fj(x,y)表示卷積層(x,y)位置上第j個神經(jīng)元的激活值,對j神經(jīng)元的均值池化操作結(jié)果對給定類別k的得分函數(shù)S:
(6)
(7)
其中Mk表明在空間(x,y)的激活值對該類別分類結(jié)果影響的重要性。對類別激活映射圖直接雙線性插值得到與原圖大小相等的顯著性圖,該圖是對圖像空間顯著性區(qū)域的置信度判別,能輔助可視化分析深度模型的決策過程,在一定程度上解釋模型可效性。本文將其和多尺度空間金字塔均值池化結(jié)合,得到對多個空間尺度的類別顯著激活映射圖。值得注意的是,對不同的尺度可設(shè)置不同的權(quán)重,本文采用同等權(quán)重進行融合。
3.1 實驗數(shù)據(jù)選取和實驗方法
本文實驗數(shù)據(jù)來自四川大學華西醫(yī)院,為臨床檢查中的經(jīng)食道超聲心動圖。所選切面視頻包含單扇形和多普勒成像的雙扇形兩種,其中對雙扇形的切面視頻,僅取不包含彩色多普勒成像的切面(如圖3所示)。經(jīng)專業(yè)醫(yī)師標注的標準切面視頻中,至少包含2~3個心動周期,并依據(jù)醫(yī)師建議從視頻中截取包含一個心動周期的10幀圖像,并經(jīng)醫(yī)師檢驗篩選后得到最終數(shù)據(jù)集。
圖3 七類標準切面超聲心動圖及數(shù)量分布Fig. 3 Echocardiography and quantitative distribution of seven classes of standard views
實驗中所用標準切面類別和數(shù)量分布如圖3所示。依據(jù)探頭在食管中段(ME)和經(jīng)胃底(TG)的位置和角度不同,在圖3中7類標準切面分別為:(a)為升主動脈長軸(AescLAX),(b)為主動脈瓣長軸(MEAVLAX),(c)為主動脈瓣短軸(MEAVSAX),(d)為降主動脈長軸(DescLAX),(e)為降主動脈短軸(DescSAX),(f)為食管中段四腔心(ME4C),(g)為經(jīng)胃底心室短軸(TGLAX)。其中,(d)、(e)、(g)為單扇形切面,其余為雙扇形中截取的切面。訓練集(17 932張)和測試集(2 217張)由不同時期采集不同病人對象數(shù)據(jù)的隨機劃分。值得注意的是,所有數(shù)據(jù)都經(jīng)過裁剪操作以隱去患者信息。
3.2 識別實驗結(jié)果和分析
本文在構(gòu)建的超聲心動圖的數(shù)據(jù)集上測試分類性能。采用Caffe框架[24]實現(xiàn)深度卷積網(wǎng)絡(luò)結(jié)構(gòu), 預(yù)訓練模型來自Caffe model zoo。使用具有Intel Core i5 3.2 GHz處理器和12 GB內(nèi)存的Tian X GPU測量所需的時間,單個切面所需的分類識別時間平均需要10 ms,基本可滿足實時識別。
為驗證從自然圖像訓練的模型能遷移到經(jīng)食道超聲心動圖上,輸入圖像歸一化為256×256,網(wǎng)絡(luò)初始學習率設(shè)為0.001,迭代一定輪數(shù)動態(tài)調(diào)整學習率大小,其他參數(shù)的設(shè)置跟原文獻中訓練網(wǎng)絡(luò)結(jié)構(gòu)時一致。 不同網(wǎng)絡(luò)結(jié)構(gòu)的深度模型微調(diào)前后在同一測試集上的準確率隨著迭代次數(shù)的增加最后趨于一致,如表1所示,Scratch表示不經(jīng)過微調(diào),F(xiàn)inetune表示經(jīng)過微調(diào)。Deep-Echo模型結(jié)構(gòu)跟AlexNet模型類似,是在其結(jié)構(gòu)基礎(chǔ)上去掉全連接層,用空間金字塔池化層代替,比VGG16和GoogleNet模型的層數(shù)更少,模型結(jié)構(gòu)更簡單,而分類準確率卻接近,表明所提方法的有效性。針對VGG16模型和GoogleNet模型也可同樣設(shè)置,本文主要關(guān)注點不是得到分類精度最優(yōu)的分類模型,故并未全部加以實驗驗證。
表1 不同模型分類精度比較 %Tab. 1 Camparison of classification accuracy by different models %
為驗證訓練集數(shù)據(jù)量對深度卷積網(wǎng)絡(luò)的影響。網(wǎng)絡(luò)結(jié)構(gòu)采用AlexNet模型結(jié)合空間金字塔池化層,在不同數(shù)據(jù)量上微調(diào),平均分類精度(Mean Average Precision, MAP)實驗結(jié)果如圖4所示,數(shù)字代表每類至多的數(shù)目,隨著數(shù)據(jù)量的增加,模型準確率隨之提升,可知針對超聲心動圖標準切面識別問題,并不用構(gòu)建很大的數(shù)據(jù)集進行識別,如圖5中每類至多500達到的平均準確率接近使用全部訓練集的結(jié)果。可推斷采用微調(diào)技術(shù),能顯著減少深度模型對大數(shù)據(jù)量的依賴。
為了驗證最優(yōu)模型在不同類別的分類性能,7分類的混淆矩陣如圖5所示,每行代表實際的類別標簽,每列代表預(yù)測的標簽。最終的平均分類精度為97.49%。分類置信度較低的是升主動脈長軸(AescLAX),其他各類的準確率都較高。
3.3 模型可解釋性實驗結(jié)果分析
深度卷積網(wǎng)絡(luò)能在標準切面識別問題上得到較高的分類精度,但僅從分類準確率上評價模型存在局限性。為分析模型的有效性,采用文中所述可視化方法,對遷移后的Deep-Echo模型進行實驗。實驗結(jié)果如圖6所示,圖中為各類切面和對應(yīng)的類別顯著性熱力圖。
圖4 AlexNet模型不同數(shù)據(jù)量的平均分類精度Fig. 4 MAP of different numbers for AlexNet model
圖5 Deep-Echo模型分類的混淆矩陣Fig. 5 Confusion matrix of classification by Deep-Echo model
圖6 各類切面的原圖和顯著性熱力圖Fig. 6 Original maps and class activaion maps for seven classes of views
圖6類別顯著性圖中的顏色從藍到紅,表示原圖像素中對分類結(jié)果影響的重要性是從輕到重。圖中結(jié)果能很好地解釋模型的有效性,并且跟專業(yè)醫(yī)師的判斷一致,如圖6(c)中顯著性熱力圖紅色區(qū)域圖定位到圖中的圓圈;圖6(d)中定位到的干涉條紋;圖6(f)定位到左心室和右心室的邊界等;都跟醫(yī)師的決策判斷依據(jù)是一致的。
深度模型泛化性能可視化結(jié)果如圖7所示,原圖像分別是帶彩色多普勒的雙扇形切面(圖7(a))和經(jīng)胸的四腔心切面(圖7(b)),這兩個圖與數(shù)據(jù)集中的經(jīng)食道超聲心動圖差異較大,說明深度卷積網(wǎng)絡(luò)模型確實能對標準切面進行語義分類, 表明模型確實能提取到高層語義的特征, 深度卷積網(wǎng)絡(luò)泛化能力優(yōu)異。圖7中可視化結(jié)果也能很好地解釋模型的有效性,如圖7中顯著性熱力圖紅色區(qū)域圖定位到圖中的圓圈,也是醫(yī)師認定該切面的關(guān)鍵性結(jié)構(gòu),圖7(b)定位到左心室和右心室的邊界等,都跟醫(yī)師的決策判斷依據(jù)是一致的。并且該方法也能作為判斷學習模型是否有效的根據(jù),不經(jīng)過微調(diào)的模型雖然能得到較高的分類準確度,并不能得到類似的顯著性熱力圖。
圖7 深度模型泛化性能可視化分析Fig. 7 Visualization analysis of generalization performance of deep model
本文提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的超聲心動圖標準切面自動識別方法,利用所述全局空間金字塔均值池化方法進行微調(diào)遷移學習,實驗結(jié)果表明該方法識別準確率高,并實驗分析了數(shù)據(jù)規(guī)模對模型分類精度的影響,結(jié)果表明基于深度卷積網(wǎng)絡(luò)的識別方法應(yīng)成為超聲心動圖自動識別的基準方法,接下來會探索更精細類別分類問題,如舒張末期和收縮末期標準切面的識別等。通過可視化深度模型的實驗,對模型的可解釋性和有效性進行了分析,推斷深度模型的優(yōu)異的分類性能和泛化能力的原因以對類別顯著性區(qū)域進行判別,采用可視化方法增強了對網(wǎng)絡(luò)模型整體的理解,具體各層特征怎么耦合成語義信息仍需進一步探索。
References)
[1] 曹期齡,姜楞.經(jīng)食道超聲心動圖的標準切面及其臨床應(yīng)用[J].中國醫(yī)學影像技術(shù),1989,5(2):8-11.(CAO Q L, JIANG L. Standard cross-section of transesophageal echocardiography and its clinical application [J]. Chinese Medical Imaging Technology, 1989,5(2): 8-11.)
[2] EBADOLLAHI S, CHANG S F, WU H. Automatic view recognition in echocardiogram videos using parts-based representation[C]// Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 2-9.
[3] ZHOU K S, PARK J H, GEORGESCU B, et al. Image-based multiclass boosting and echocardiographic view classification[C]// Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006: 1559-1565.
[4] OTEY M, BI J, KRISHNA S, et al. Automatic view recognition for cardiac ultrasound images[C]// Proceedings of the 2006 International Workshop on Computer Vision for Intravascular and Intracardiac Imaging. Copenhagen: [s.n.], 2006: 187-194.
[5] ROY A, SURAL S, MUKHERJEE J, et al. Modeling of echocardiogram video based on views and states[C]// Proceedings of the 5th Indian Conference on Computer Vision, Graphics and Image Processing. Berlin: Springer, 2006: 397-408.
[6] PARK J H, ZHOU S K, SIMOPOULOS C, et al. Automatic cardiac view classification of echocardiogram[C]// Proceedings of the 2007 IEEE 11th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-8.
[7] BEYMER D, SYEDA-MAHMOOD T, WANG F. Exploiting spatio-temporal information for view recognition in cardiac eCho videos[C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2008: 1-8.
[8] WU H, BOWERS D, HUYNH T, et al. Echocardiogram view classification using low-level features[C]// Proceedings of the 2013 IEEE 10th International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE, 2013: 445-448.
[9] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Redhool, NY: Curran Associates Inc., 2012: 1097-1105.
[11] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: an astounding baseline for recognition[C]// Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2014: 512-519.
[12] OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145-175.
[13] BAR Y, DIAMANT I, WOLF L, et al. Chest pathology detection using deep learning with non-medical training[C]// Proceedings of the 2015 IEEE International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE, 2015: 294-297.
[14] MARGETA J, CRIMINISI A, LOZOYA R C, et al. Fine-tuned convolutional neural nets for cardiac MRI acquisition plane recognition[EB/OL].[2016-10-20].https://www.mendeley.com/research-papers/finetuned-convolutional-neural-nets-cardiac-mri-acquisition-plane-recognition/.
[15] MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 5188-5196.
[16] SIMONYAN K, VEDALDI A, ZISSERMAN A. Deep inside convolutional networks visualising image classification models and saliency maps[EB/OL].[2016-06-20]. http://www.robots.ox.ac.uk:5000/~vgg/publications/2014/Simonyan14a/simonyan14a.pdf.
[17] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]// Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[18] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2921-2929.
[19] JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multi-stage architecture for object recognition?[C]// Proceedings of the 2009 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[20] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9.
[21] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 171-180.
[22] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[23] CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: delving deep into convolutional nets[EB/OL].[2016-06-20]. http://web.cs.hacettepe.edu.tr/~aykut/classes/spring2016/bil722/slides/w04-DelvingDeepNets.pdf.
[24] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]// Proceedings of the 2014 ACM International Conference on Multimedia. New York: ACM, 2014: 675-678.
This work is supported by the the Project of West Light Foundation of the Chinese Academy of Sciences (R&D and Application of Cardiac Function Evaluation System based on Medical Image Modeling).
TAO Pan, born in 1988, Ph. D. candidate. His research interests include machine learning, medical image processing.
FU Zhongliang, born in 1967, M.S., professor. His research interests include machine learning, data mining.
ZHU Kai, born in 1991, Ph. D. candidate. His research interests include machine learning.
WANG Lili, born in 1987, Ph. D. candidate. Her research interests include machine learning.
Echocardiogram view recognition using deep convolutional neural network
TAO Pan1,2*, FU Zhongliang1,2, ZHU Kai1,2, WANG Lili1,2
(1.ChengduInstituteofComputerApplication,ChineseAcademyofSciences,ChengduSichuan610041,China;2.UniversityofChineseAcademyofSciences,Beijing100049,China)
A deep model for automatic recognition of echocardiographic standard views based on deep convolutional neural network was proposed, and the effectiveness of the deep model was analyzed by visualize class activation maps. In order to overcome the shortcomings of the fully connected layer occupying most of the parameters of the model, the spatial pyramid mean pool was used to replace the fully connected layer, and more spatial structure information was obtained. The model parameters and the over-fitting risk were reduced.The attention mechanism was introduced into the model visualization process by the class significance region. The robustness and effectiveness of the deep convolution neural network model were explained by the case recognizing echocardiographic standard views. Visualization analysis on echocardiography show that the decision basis made by the improved depth model is consistent with the standard view classification by the sonographer which indicates the validity and practicability of the proposed method.
deep learning; standard view classification; echocardiogram; visualization; Convolutional Neural Network (CNN)
2016-09-27;
2016-12-30。 基金項目:中國科學院西部之光人才培養(yǎng)計劃項目。
陶攀(1988—),男,河南安陽人,博士研究生,主要研究方向:機器學習、醫(yī)學圖像處理; 付忠良(1967—),男,重慶人,研究員,博士生導(dǎo)師,主要研究方向:機器學習、數(shù)據(jù)挖掘; 朱鍇(1991—),男,貴州安順人,博士研究生,主要研究方向:機器學習; 王莉莉(1987—),女,河南周口人,博士研究生,主要研究方向:機器學習。
1001-9081(2017)05-1434-05
10.11772/j.issn.1001-9081.2017.05.1434
TP391.41
A