国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)學(xué)圖像處理中的注意力機制研究綜述

2022-04-09 07:01陳朝一吳凱文
計算機工程與應(yīng)用 2022年5期
關(guān)鍵詞:圖像處理注意力顯著性

陳朝一,許 波,吳 英,吳凱文

1.廣東財經(jīng)大學(xué) 信息學(xué)院,廣州 510320

2.暨南大學(xué)附屬第一醫(yī)院 超聲科,廣州 510630

深度學(xué)習(xí)作為當(dāng)下最熱門的研究方向之一,與現(xiàn)有基于規(guī)則的算法或深度學(xué)習(xí)以外的機器學(xué)習(xí)算法相比,深度學(xué)習(xí)表現(xiàn)出卓越的特征提取能力和性能。因此,它被廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域,包括自動診斷[1]、反應(yīng)評估[2]和生存預(yù)測[3]。尤其是在醫(yī)學(xué)圖像處理領(lǐng)域,醫(yī)學(xué)圖像重建[4]、合成[5]、高分辨率圖像恢復(fù)[6]以及圖像去噪[7]等方面的研究成果顯著。

隨著為患者定制精準(zhǔn)醫(yī)療的趨勢越來越明顯,醫(yī)學(xué)圖像分析的方式也從傳統(tǒng)的定性分析轉(zhuǎn)變?yōu)槎糠治鯷8],通過從醫(yī)學(xué)圖像中提取特征來做出更復(fù)雜的預(yù)測。在這個過程中,除了基于機器學(xué)習(xí)的影像組學(xué)技術(shù)[9-10],最近正在積極研究使用深度學(xué)習(xí)的深度特征提取[11]、病變檢測[12]和分割技術(shù)[13-14]。有研究表明,可以通過計算機輔助診斷系統(tǒng)來提高專家的診斷準(zhǔn)確性[15],甚至有報道稱這些人工智能算法可以為某些部門進行專家級的分析[16]和診斷[17]。

然而迄今為止開發(fā)的大多數(shù)深度學(xué)習(xí)模型最大的問題是很難從檢測和分割結(jié)果中明確發(fā)現(xiàn)深度學(xué)習(xí)模型判斷的依據(jù),即無法深入理解深度學(xué)習(xí)模型在圖像的哪個部分做出了這樣的判斷[18]。因此,深度學(xué)習(xí)模型通常被稱為“黑盒”,因為人們無法完全解釋它的內(nèi)部機理[19]。

因此,通過注意力機制,不僅可以驗證深度學(xué)習(xí)模型的判斷依據(jù),而且可以讓深度學(xué)習(xí)模型更多地關(guān)注重要特征,而較少關(guān)注不重要的特征,以達(dá)到提升深度學(xué)習(xí)模型性能的目的。在這篇綜述中,首先講述注意力機制的基礎(chǔ)知識,然后根據(jù)應(yīng)用于醫(yī)學(xué)圖像處理的最新趨勢來討論未來前景和發(fā)展方向。

1 醫(yī)學(xué)圖像處理領(lǐng)域中注意力機制的種類

在醫(yī)學(xué)圖像處理領(lǐng)域中,注意力機制主要分為兩種類型:(1)用于尋找深度學(xué)習(xí)模型作用區(qū)域的“顯著性檢測”(saliency detection),目的是生成熱點圖,該圖以定量的方式表征了場景不同位置吸引“注意力”的強度。(2)與深度學(xué)習(xí)模型同時訓(xùn)練的“視覺注意力模型”(visual attention model),目的是為了讓模型實現(xiàn)有針對性的“聚焦”,以提高模型的性能。注意力機制分類示意圖如圖1所示。

圖1 醫(yī)學(xué)圖像中的注意力機制分類Fig.1 Classification of attention mechanism in medical image

顯著性檢測是一種用于圖像讀取和檢測等的網(wǎng)絡(luò)推理技術(shù),應(yīng)用于經(jīng)過訓(xùn)練的網(wǎng)絡(luò),用于識別深度學(xué)習(xí)模型作用區(qū)域作為分類或檢測的依據(jù)。類激活映射(class activation mapping,CAM)[20]、梯度加權(quán)類激活映射(gradient-weighted class activation mapping,Grad-CAM)[21]和顯著圖(saliency map,SM)[22]都屬于顯著性檢測,經(jīng)常被提及為可解釋的人工智能技術(shù)。

視覺注意力模型是一種“確定圖像的哪個區(qū)域要聚焦”的主動學(xué)習(xí)聚焦技術(shù),它將注意力機制插入到深度學(xué)習(xí)模型中,使其本質(zhì)上是跟深度學(xué)習(xí)模型一起訓(xùn)練,對根據(jù)相關(guān)性提取的特征賦予權(quán)重[23],而不是為了檢測深度學(xué)習(xí)模型專注于哪個區(qū)域。通過聚焦關(guān)鍵區(qū)域,可以克服醫(yī)學(xué)圖像數(shù)據(jù)不足和偏差現(xiàn)象導(dǎo)致的性能下降問題[24]。視覺注意力模型根據(jù)所表達(dá)的注意力區(qū)域的特點,大致可以分為硬注意力和軟注意力。

2 常用數(shù)據(jù)集和評價指標(biāo)

2.1 常用數(shù)據(jù)集

目前,注意力機制在醫(yī)學(xué)圖像處理中得到了廣泛的應(yīng)用,以下介紹醫(yī)學(xué)圖像處理常用數(shù)據(jù)集。

(1)MURA[25]

這是一個大型肌肉骨骼放射圖數(shù)據(jù)集,包含來自14 863項研究的40 561張圖像,其中每項研究都被放射科醫(yī)生手動標(biāo)記為正?;虍惓!A硗鈴乃固垢4髮W(xué)放射科醫(yī)生處收集了額外的標(biāo)簽,其中包括207項肌肉骨骼研究。

(2)DeepLesion[26]

這是一個擁有多種病變類型的數(shù)據(jù)集,包含肺部結(jié)節(jié)、肝臟腫瘤、腫大的淋巴結(jié)等,來自4 427名獨特病人的10 594項研究,一共32 735個病變,這些病變分布在32 120個CT圖像上。

(3)NSCLC[27]

該數(shù)據(jù)集共收集了211名轉(zhuǎn)診手術(shù)治療的受試者的臨床和CT成像數(shù)據(jù),并從切除的腫瘤中獲得組織樣本。同時還收集了臨床數(shù)據(jù),如:年齡、性別、體重、種族、吸煙狀況、TNM分期、組織病理學(xué)等級。

(4)NIH[28]

這是一個新的胸部X射線數(shù)據(jù)庫,它包含32 717名患者的108 948張正面X射線圖像,文本挖掘了8個疾病圖像標(biāo)簽(其中每個圖像可以有多標(biāo)簽)和來自使用自然語言處理的相關(guān)放射學(xué)報告。

(5)OASIS[29]

OASIS匯編了1 098名參與者的MRI和PET成像以及相關(guān)的臨床數(shù)據(jù),這些數(shù)據(jù)是在華盛頓大學(xué)奈特阿爾茨海默病研究中心的幾個正在進行的研究中收集的,時間長達(dá)15年,一共超過2 000個MR片段,包括多個結(jié)構(gòu)和功能序列。

醫(yī)學(xué)圖像數(shù)據(jù)集相比自然圖像數(shù)據(jù)集有很大區(qū)別。首先,醫(yī)學(xué)圖像數(shù)據(jù)集由于涉及到病患隱私,數(shù)據(jù)不公開是很常見的,導(dǎo)致收集難度較大。第二,醫(yī)學(xué)圖像數(shù)據(jù)集需要通過特殊設(shè)備生成,如X光、超聲和核磁共振等,存在對比度低、噪聲高、偽影等特點。第三,不同模態(tài)的圖像反應(yīng)的信息是不一樣的,比如CT看骨頭和出血的清晰度更高,而MRI顯示軟組織更好。第四,成像參數(shù)不一樣也會帶來巨大的區(qū)別,比如KV級和MV級的X光生成的圖像具有很大的差異。因此,評價實驗結(jié)果除了要考慮算法本身以外還要看數(shù)據(jù)集的好壞。

2.2 常用評價指標(biāo)

本節(jié)介紹了醫(yī)學(xué)圖像處理中的常用評價指標(biāo),為下文的性能評價提供基礎(chǔ)認(rèn)識。

(1)Dice系數(shù)

集合相似度度量的函數(shù),通常用于計算兩個樣本的相似度,范圍為[0,1]。公式如下:

其中,X和Y分別代表金標(biāo)準(zhǔn)和預(yù)測結(jié)果,通常用于評價醫(yī)學(xué)圖像分割效果。

(2)Precision(精確率)

表示預(yù)測為正的樣本中有多少是真正的正樣本,公式如下:

其中,TP(true positive)表示把正樣本預(yù)測為正樣本,F(xiàn)P(false positive)表示把負(fù)樣本預(yù)測為正樣本。

(3)Recall(召回率)

表示樣本中的正例有多少被預(yù)測正確了,公式如下:

其中,F(xiàn)N(false negative)表示把正樣本預(yù)測為負(fù)樣本。精確率越高越好,召回率也越高越好,但事實上這兩者在某些情況下有矛盾。因此精確率和召回率指標(biāo)有時候會出現(xiàn)矛盾的情況,這樣就需要綜合考慮它們,最常見的方法就是F1分?jǐn)?shù)。

(4)F1分?jǐn)?shù)

可以通過計算F1分?jǐn)?shù)來評價性能,公式如下:

F1分?jǐn)?shù)是精確率P和召回率R的加權(quán)調(diào)和平均,可知F1綜合了精確率和召回率的結(jié)果,當(dāng)F1較高時則能說明實驗方法比較有效。

(5)AUC

AUC是ROC曲線下的面積,介于0.1和1之間。AUC作為數(shù)值可以直觀地評價分類器的好壞,值越大越好。計算公式如下:

其中,rank為排名,M為正類樣本,N為負(fù)類樣本。AUC傾向于訓(xùn)練一個盡量不誤報的模型,也就是知識外推的時候傾向保守估計,而F1傾向于訓(xùn)練一個不放過任何可能的模型,即知識外推的時候傾向激進。

3 顯著性檢測

為了提高深度學(xué)習(xí)性能,深度學(xué)習(xí)模型的復(fù)雜度呈指數(shù)級增長,使得很難直觀地解釋模型內(nèi)部做了什么樣的處理,這在醫(yī)學(xué)圖像處理領(lǐng)域是非常致命的[30]。為了解決這個問題,已經(jīng)有研究人員開發(fā)出用于解釋基于卷積神經(jīng)網(wǎng)絡(luò)模型的各種方法,其中主要介紹最新研究中使用的三種代表性方法。

3.1 類激活映射

幾乎所有知名的基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,如U-Net[31]、ResNet[32]、DesenNet[33]和R-CNN[34]等層數(shù)都非常深,參數(shù)量很大,因此很難直觀地理解模型內(nèi)部的計算過程。CAM是一種旨在解釋深度學(xué)習(xí)模型在計算每個類別的概率時主要關(guān)注圖像的哪一部分的方法,主要應(yīng)用于分類和判別任務(wù)中。

首先,CAM經(jīng)過全局平均池化(global average pooling,GAP)過程,將最后的特征圖fk壓縮為卷積神經(jīng)網(wǎng)絡(luò)層之后的平均值。CAM的基本思想是,在特征圖上應(yīng)用GAP壓縮值對相應(yīng)級別的影響越高,越能形成較高的權(quán)重值。所以通過在特征圖上顯示權(quán)重值,可以顯示出圖像每個區(qū)域特定類被激活的程度。提取CAM的公式如下:

每個符號的含義如下:SC表示模型對于C類的輸出值,fk表示模型卷積層末尾的第k個特征圖,D表示圖像中的總像素數(shù),表示應(yīng)用于C類權(quán)重的第k個fk,MC表示C類的CAM。每個特征圖fk乘以其對應(yīng)的權(quán)重并求和得到CAM,因此,它具有很好地定位模型關(guān)注的部分[35]。

作為CAM應(yīng)用于醫(yī)學(xué)圖像分析的一個例子[35],該研究團隊使用自主開發(fā)的用于膝關(guān)節(jié)MRI的深度學(xué)習(xí)模型MRNet,開發(fā)了三種類型(非特異性異常、前十字韌帶撕裂、半月板撕裂),并通過CAM確診為診斷依據(jù)。圖2為膝關(guān)節(jié)MRI,其中每幅圖像的描述如下:

圖2 CAM應(yīng)用于膝關(guān)節(jié)MRIFig.2 CAM applied to knee MRI

圖2(a)顯示腓腸肌腱有大量滲出和破裂,MRNet將其歸類為異常。模型的CAM滲出區(qū)(箭頭)和腓腸肌腱斷裂部位(白環(huán))顯示相對較好。這表明該模型即使只學(xué)習(xí)了疾病的分類,也可以檢測到異常。

圖2(b)由于患者的運動,在嚴(yán)重偽影中顯示完整的前交叉韌帶撕裂,模型診斷該圖像為前交叉韌帶撕裂(箭頭),并且CAM也適當(dāng)?shù)丶せ盍似屏巡课弧?/p>

圖2(c)顯示完整的前交叉韌帶撕裂(箭頭),可以確認(rèn)CAM也能很好地檢測到前交叉韌帶撕裂。

圖2(d)與圖3中的其他圖像不同,這是一個CAM激活錯誤部位的例子。從圖像上看,可以外側(cè)半月板后角撕裂,并且該模型也有膝關(guān)節(jié)異常。然而CAM激活的是前部軟組織,而不是外側(cè)半月板。這證實了雖然模型將患者歸類為異常,但判斷的依據(jù)是錯誤的。

從上面的結(jié)果可以看出,在大多數(shù)情況下,模型的判斷標(biāo)準(zhǔn)和實際診斷的原因是一致的,但也有不一致的情況,這說明不能完全相信這個模型的結(jié)果[36]。除此之外,因為導(dǎo)致這種結(jié)果的因素可以在視覺上得到確認(rèn),所以它可以有效地用于實際的臨床診斷,并且可以起到輔助圖像醫(yī)師的作用[37]。

然而,CAM也有一定的局限性。第一,CAM受模型結(jié)構(gòu)約束,只適用于模型必須包含GAP的情況,但深度學(xué)習(xí)模型在輸出階段不一定都使用包含GAP的結(jié)構(gòu)。第二,這是一種基于分類問題的可視化技術(shù),用于回歸問題可能效果不佳。第三,它有分辨率低的缺點,原因是當(dāng)輸入圖像通過網(wǎng)絡(luò)時,池化很難擴大接收區(qū)域并提取更多信息,到最后的特征圖,尺寸變得比原圖小。為了對應(yīng)原圖,在CAM的尺寸上采樣的過程中將尺寸提高到與原圖一樣大。

3.2 梯度加權(quán)類激活映射

模型判斷在解釋基本原理,需要一種不受模型結(jié)構(gòu)約束的靈活方法,梯度加權(quán)類激活映射(Grad-CAM)就是根據(jù)這種需要而設(shè)計的。模型中必須至少包含一個卷積神經(jīng)網(wǎng)絡(luò)層,但是在圖像處理中使用深度學(xué)習(xí)模型的情況下,大多數(shù)情況下都會使用卷積神經(jīng)網(wǎng)絡(luò)層,因此這種限制實際上對模型的靈活性影響不大。

Grad-CAM和CAM一樣,也使用與卷積神經(jīng)網(wǎng)絡(luò)層的特征圖對特定類的影響相關(guān)的權(quán)重。通過反向傳播得到圖的每個像素的梯度值的全局平均值,并用作權(quán)重。對應(yīng)的梯度值會很大,通過對它們求平均,可以量化特定類的特征圖的權(quán)重。差分圖可以通過反向傳播對該類的特征圖的導(dǎo)數(shù)得到,而大部分的深度學(xué)習(xí)模型中,一階導(dǎo)數(shù)可以很容易地計算出來,所以不受模型結(jié)構(gòu)的限制,可以更靈活地應(yīng)用[21]。

作為應(yīng)用于基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分析的梯度加權(quán)激活圖的示例,Cheng等人[38]利用該模型產(chǎn)生的Grad-CAM如圖3所示。

圖3 Grad-CAM輔助解釋髖部骨折Fig.3 Grad-CAM aids in interpretation of hip fractures

從圖3第一列顯示為骨盆骨折,第二列可以看出模型的Grad-CAM也激活了骨折部分。第三列顯示沒有骨盆骨折,從第四列可以看出Grad-CAM沒有被專門激活。因此,Grad-CAM與CAM相比,以更局部化的形式成為可視化模型的判斷依據(jù),為高效安全的治療提供幫助。

雖然Grad-CAM與單純的CAM技術(shù)相比,對模型形式的限制較小,但依然未能克服分辨率問題,所以必須增大尺寸,像CAM一樣降低分辨率[39-40]。

3.3 顯著圖

顯著圖是按輸入圖像的微分計算的,假設(shè)輸入圖像的特定像素值變化相對較大,則意味著該像素對輸出值的貢獻更大。

如果把顯著圖看成一個公式,它是這樣的,即輸入C類對應(yīng)的模型,輸出的微分值就成為顯著圖。如公式(8)所示:

顯著圖的特點是它的運算完全獨立于模型的結(jié)構(gòu),這就是為什么它可以靈活地應(yīng)用于兩種模型。另外由于計算輸出的是微分值,所以顯著圖可以和輸入圖像保持相同的分辨率。

在最近的一項研究中,深度學(xué)習(xí)被用于胸部X射線圖像的結(jié)核病篩查。該研究使用顯著圖來理解模型并幫助放射科醫(yī)生進行視覺診斷[41],如圖4所示。

圖4 肺結(jié)核患者和正常人的X光圖像和生成的顯著圖Fig.4 X-ray images and saliency maps of tuberculosis patients and normal people

圖4上面的兩張圖是肺結(jié)核患者的X光圖像和顯著圖。深度學(xué)習(xí)模型診斷出肺結(jié)核患者,通過顯著圖可以理解模型的判斷。右上葉因胸膜增厚呈混濁,右肺門向上偏移,在顯著性圖中,可以看出右上葉被強烈激活。反之,下面兩張圖是沒有疾病的人的X光圖像和顯著圖,深度學(xué)習(xí)模型誤診了這個病人為肺結(jié)核,從顯著圖可以看到注意力都集中在了右上葉,由于上葉的混濁是鎖骨和肋骨重疊造成的,由此可見模型判斷是錯誤的。

然而,顯著圖在將梯度傳播到輸入階段的過程中,由于非線性激活函數(shù)等可能會出現(xiàn)梯度爆炸的問題,因此顯示的熱圖中會出現(xiàn)噪聲[42]。由于高維信息不使用壓縮特征圖,因此定位能力較差[41,43]。此外,如果出現(xiàn)數(shù)據(jù)集不足或者缺乏醫(yī)生標(biāo)注的標(biāo)簽時,可能無法達(dá)到理想效果。

綜上,CAM是適用于包含GAP的情況,在靈活性上要比Grad-CAM和SM差,而Grad-CAM因為只需要包含卷積神經(jīng)網(wǎng)絡(luò),而且得到每個特征圖的權(quán)重,所以在靈活性和準(zhǔn)確性要比CAM好。顯著圖的特點是它的運算完全獨立于模型的結(jié)構(gòu),所以它的靈活性要比CAM好。另外顯著圖可以和輸入圖像保持相同的分辨率,而CAM和Grad-CAM都要降低分辨率。為了更直觀表達(dá)每種顯著性檢測的優(yōu)缺點,表1對每種顯著性檢測的優(yōu)缺點進行了總結(jié)評價,其中+號表示正得分,-號表示負(fù)得分。表2總結(jié)了每種顯著性檢測在醫(yī)學(xué)圖像處理中的應(yīng)用案例。

表1 顯著性檢測的優(yōu)缺點評價Table 1 Evaluation of advantages and disadvantages of saliency detection

表2 顯著性檢測在醫(yī)學(xué)圖像處理中的應(yīng)用案例Table 2 Application cases of saliency detectionin medical image processing

4 視覺注意力模型

前面介紹的顯著性檢測,是一種通過將其應(yīng)用于已經(jīng)學(xué)習(xí)過的模型來確認(rèn)判斷基礎(chǔ)的技術(shù),但對性能提升沒有直接貢獻。它不會直接對性能提升做出貢獻,另一方面,視覺注意力模型可以讓網(wǎng)絡(luò)更多地關(guān)注重要特征,而較少關(guān)注不重要的特征。

視覺注意力模型主要分為硬注意力和軟注意力,硬注意力和軟注意力最大的區(qū)別在于創(chuàng)建的熱點圖的形式。在硬注意力的情況下,生成的熱點圖是一個二值掩碼的形式,其中重要的特征區(qū)域為1,其余的為0,關(guān)注區(qū)域中只存在一個特定的區(qū)域,而不是整個圖像。另一方面,由于裁剪的過程是非可微,它無法通過深度學(xué)習(xí)的反向傳播算法訓(xùn)練,訓(xùn)練過程往往是通過強化學(xué)習(xí)(reinforcement learning)來完成的[44-45]。另一方面,軟注意力通常比硬注意力需要更多的內(nèi)存和算力,但它的創(chuàng)建過程是可微的,因此它的優(yōu)點是可以輕松地使用反向傳播算法以及一般深度學(xué)習(xí)進行端到端學(xué)習(xí)模型,所以比硬注意力更積極地被使用。

4.1 硬注意力

硬注意力單純從技術(shù)本身來說它的復(fù)雜度比軟注意力要高,因為使用反向傳播算法很難進行端到端的學(xué)習(xí),必須使用強化學(xué)習(xí)。在這篇綜述中,介紹了硬注意力的相關(guān)研究,以幫助讀者理解基礎(chǔ)知識。使用循環(huán)注意力模型(recurrent attention model,RAM)是基于強化學(xué)習(xí)的硬注意力模型,它循環(huán)搜索包含核心信息的區(qū)域,并利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和強化學(xué)習(xí)來訓(xùn)練。

第一次將這種方法應(yīng)用于醫(yī)學(xué)圖像處理的是Guan等人[46],該方法與現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的方法相比,即使參數(shù)少得多,也表現(xiàn)出相對更好的性能。然而由于該方法是基于圖像塊的方法,提取的信息有限,因此可能需要非常大量的訓(xùn)練迭代才能訪問到核心區(qū)域。這種方法與基于CAM的熱點圖提取略有不同,其中基于CAM的方法使RAM依據(jù)特定類別的權(quán)重來顯示關(guān)注的區(qū)域,硬注意力不同之處在于該模型不使用權(quán)重,而是表現(xiàn)模型在計算過程中整體關(guān)注的部分。實驗結(jié)果顯示,使用全局和局部圖像的融合模塊的分類準(zhǔn)確度高于每個全局模塊和局部模塊的準(zhǔn)確度。然而對于病理范圍較廣的疾病,例如肺不張或心臟肥大,融合區(qū)域模塊有時會導(dǎo)致性能下降,推測這是因為在大面積中存在的疾病的信息丟失,這對準(zhǔn)確分類產(chǎn)生了不利影響。

因此,硬注意力機制可以分析模型關(guān)注的區(qū)域,并且可以讓模型更多地關(guān)注核心區(qū)域來獲得額外的性能改進。硬注意力等視覺注意力模型的優(yōu)勢在于,它通過允許網(wǎng)絡(luò)自行創(chuàng)建焦點區(qū)域,而無需創(chuàng)建邊界框來引導(dǎo)該區(qū)域聚焦,從而能夠?qū)^(qū)域進行更精確的分析[47]。

但是,硬注意力機制的缺點是實現(xiàn)起來不方便,因為它是不可微的,無法通過深度學(xué)習(xí)的反向傳播算法訓(xùn)練,很難進行端到端的學(xué)習(xí),必須像上面的案例那樣針對網(wǎng)絡(luò)的每個模塊進行拆分,所以往往只能通過強化學(xué)習(xí)來訓(xùn)練[48],導(dǎo)致靈活性不足。而且硬注意力在其大部分區(qū)域中有許多突然的變化,會給網(wǎng)絡(luò)模型的計算帶來一定的誤差[49]。

4.2 軟注意力

軟注意力與硬注意力不同,因為學(xué)習(xí)過程是可微的,所以它可以很容易地與深度學(xué)習(xí)模型結(jié)合。換句話說,在將軟注意力模塊與現(xiàn)有的深度學(xué)習(xí)模型(如UNet)結(jié)合后,注意力模塊和神經(jīng)網(wǎng)絡(luò)使用反向傳播算法共同進行端到端的學(xué)習(xí)。Attention U-Net[50]是最早將軟注意力用于醫(yī)學(xué)圖像分析的研究案例之一,當(dāng)軟注意力機制與U-Net相結(jié)合時,在腹部CT圖像分割方面,與一般U-Net相比,只添加非常少的參數(shù),就能得出提高很多的分割結(jié)果。

引進注意力機制的深度學(xué)習(xí)模型在運算效率方面也非常高,因為網(wǎng)絡(luò)本身主要通過對核心區(qū)域高度相關(guān)的特征賦予更大的權(quán)重來學(xué)習(xí)在核心區(qū)域激活,所以循環(huán)神經(jīng)網(wǎng)絡(luò)或前面的網(wǎng)絡(luò)首先提取核心區(qū)域,就像上面介紹的硬注意力方法。換句話說,硬注意力的作用可以通過軟注意力來有效替代,注意力機制的效果也體現(xiàn)在性能上。根據(jù)相關(guān)研究[51],雖然Attention U-Net比普通U-Net有更多的參數(shù),但它即使在訓(xùn)練數(shù)據(jù)數(shù)量極少的情況下,Dice系數(shù)和召回率等定量值上表現(xiàn)出更高的分割性能。因此,在一般U-Net上僅增加1.6%左右的參數(shù),Dice系數(shù)卻有效提升約3.2%。

雖然目前引入的注意力機制主要針對在空間軸上選擇集中區(qū)域,但有研究在通道方向而不是空間軸上應(yīng)用了注意力機制[52]。即在深度學(xué)習(xí)網(wǎng)絡(luò)生成的特征圖中,有與濾波器數(shù)量一樣多的通道,是一種重新校準(zhǔn)過程來增加模型表示能力的方法。

所提出的方法非常簡單,主要有兩個階段:壓縮(squeeze)和激勵(excitation),在壓縮階段,每個通道的重要全局信息通過GAP壓縮成一個值。在隨后的激勵階段,通過全連接層計算通道之間的相互依賴性,以生成通道中包含特征的重要性成比例的權(quán)重。之后,生成的權(quán)重乘以壓縮前的特征圖,并為每個通道賦予一個權(quán)重。

由于這種壓縮和激勵結(jié)構(gòu)也對應(yīng)于軟注意力機制,因此可以應(yīng)用于各種現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)。它的優(yōu)點是相比參數(shù)增加量,模型的性能提升非常大。換句話說,可以在不顯著增加模型復(fù)雜度的情況下獲得出色的性能提升效果。在最近的研究中,通道注意力出現(xiàn)大量的應(yīng)用,如在U-Net上結(jié)合壓縮及刺激結(jié)構(gòu)提高的性能及一般化能力[53]和應(yīng)用于大腦MRI及全身CT圖像的通道注意力[54]。

軟注意力機制可以像顯著性檢測一樣用于模型解釋的目的,也就是說可以通過觀察最終形成的注意力圖來找出模型關(guān)注的區(qū)域。相比于硬注意力,它更被積極用于醫(yī)學(xué)圖像相關(guān)研究。特別是在MRI、CT以及X線等各種醫(yī)學(xué)圖像中,主要研究提高腦[54-56]、胸[57-58]和甲狀腺[59]等各種器官和病變的分類和分割精度。它也被應(yīng)用于皮膚病變分類[60]和手術(shù)圖像中的手術(shù)機器分割[61]領(lǐng)域的研究。

然而,軟注意力準(zhǔn)確度受制于這樣一個假設(shè),即加權(quán)平均數(shù)能很好地代表關(guān)注的領(lǐng)域。另外,在計算上下文信息時,軟注意力為編碼器的每個時間步驟使用可訓(xùn)練的權(quán)重,如果編碼器的輸入圖像很大,這可能是一個非常大的權(quán)重參數(shù)。在圖像分割等這樣的任務(wù)中,模型越大(就參數(shù)數(shù)量而言),訓(xùn)練的時間就越長[62]。

綜上,視覺注意力模型可以讓網(wǎng)絡(luò)更多地關(guān)注重要特征,進而提高神經(jīng)網(wǎng)絡(luò)模型的性能。硬注意力相比軟注意力要更節(jié)約性能和內(nèi)存,但由于裁剪的過程是非可微,它無法通過深度學(xué)習(xí)的反向傳播算法訓(xùn)練,往往只能通過強化學(xué)習(xí)來訓(xùn)練,在靈活性方面要比軟注意力差許多。而軟注意力與現(xiàn)有的深度學(xué)習(xí)模型(如U-Net)結(jié)合后,注意力模塊和神經(jīng)網(wǎng)絡(luò)使用反向傳播算法共同進行端到端的學(xué)習(xí),不需要像硬注意力那樣對每個模塊進行強化學(xué)習(xí),相對于硬注意力在靈活性上具有一定的優(yōu)勢,但同時也會花更多的內(nèi)存和算力[63]。表3總結(jié)了每種視覺注意力模型在醫(yī)學(xué)圖像處理中的應(yīng)用案例。

表3 視覺注意力模型在醫(yī)學(xué)圖像處理中的應(yīng)用案例Table 3 Application cases of visual attention model in medical image processing

5 未來熱點與趨勢

深度學(xué)習(xí)正在逐步應(yīng)用于醫(yī)療領(lǐng)域,但要安全地、系統(tǒng)地、全面地用于臨床實踐還為時過早。雖然深度學(xué)習(xí)還有很多問題仍需解決,但是注意力機制可以有效推動深度學(xué)習(xí)應(yīng)用于臨床實踐。以下列出幾個未來值得去研究的方向。

5.1 可解釋性人工智能

在醫(yī)學(xué)領(lǐng)域中,確認(rèn)深度學(xué)習(xí)模型的判斷依據(jù)是直接關(guān)系到患者生命健康的一個非常重要的問題。此外,醫(yī)學(xué)圖像由于其固有的不確定性以及升級困難的醫(yī)院基礎(chǔ)設(shè)施等,特別容易受到對抗性攻擊。因為這些問題,深度學(xué)習(xí)模型要想在醫(yī)療領(lǐng)域安全使用,必須確認(rèn)其判斷依據(jù)的過程。最近提出的用于確認(rèn)決策和判斷過程的技術(shù)被稱為可解釋性人工智能(XAI),其中之一就是注意力機制。注意力機制通過對模型判斷的可視化,有望成為將深度學(xué)習(xí)應(yīng)用于臨床實踐的安全支撐[64]。

目前使用注意力機制的XAI已經(jīng)不罕見。Jiang等人[65]提出了一種基于深度學(xué)習(xí)的多標(biāo)簽分類模型,該模型采用Grad-CAM,既能進行DR分類,又能自動定位不同病變的區(qū)域。減少了人工注釋工作,提高了為圖像打標(biāo)簽的效率。Cai等人[66]開發(fā)了一個基于深度神經(jīng)網(wǎng)絡(luò)的前列腺癌臨床決策支持系統(tǒng),以注意力機制視覺疊加的方式在圖像上呈現(xiàn)其預(yù)測結(jié)果,提高模型的可解釋性。了解模型預(yù)測對于醫(yī)療保健至關(guān)重要,有助于快速驗證模型正確性,并防止使用利用混淆變量的模型。Draelos等人[67]提出了一種新型的特定標(biāo)簽關(guān)注機制,可以證明只突出模型用于進行每個預(yù)測的位置,推進了醫(yī)學(xué)圖像中多重異常建模的卷積神經(jīng)網(wǎng)絡(luò)解釋方法和臨床適用性。

在參考文獻中,注意力機制在可解釋性人工智能應(yīng)用上的趨勢十分明顯。大多數(shù)論文使用了顯著性檢測,即解釋是在已經(jīng)訓(xùn)練好的模型上提供的,而不是在模型訓(xùn)練中納入。此外,大多數(shù)文獻都運用局部解釋,而不是全局解釋,也就是說,解釋是針對每個病例,而不是針對所有病人。

大多數(shù)適合卷積神經(jīng)網(wǎng)絡(luò)的現(xiàn)成的可解釋性人工智能方法是CAM,它通常提供訓(xùn)練后的、針對模型的和局部的解釋。此外,因為顯著性檢測可以在神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后使用,這使得它們的結(jié)果比視覺注意力模型更容易獲得。

5.2 計算機智能輔助診斷系統(tǒng)

許多人正在提出將基于人工智能的自動診斷系統(tǒng)引入醫(yī)療薄弱地區(qū)的想法。與普通圖像相比,醫(yī)學(xué)圖像在每幅圖像的特征(對比度、形狀、直方圖等)上非常相似。也就是說,因為醫(yī)學(xué)圖像是在患者每個身體部位的固定位置獲取的,在要拍攝區(qū)域的方向和范圍上,與一般圖像相比偏差較小。換句話說,注意力機制使深度學(xué)習(xí)模型專注于哪個區(qū)域基本上是確定的,這可以輔助專業(yè)水平不高的醫(yī)務(wù)人員逐漸獲得重點查看哪些特征區(qū)域然后找到特定病變的能力,提高其診斷的速度、準(zhǔn)確性和安全性,以解決醫(yī)療服務(wù)不平衡的問題。

另一方面,在醫(yī)療條件相對發(fā)達(dá)的地區(qū),雖然醫(yī)生普遍擁有較高的醫(yī)學(xué)水平,但服務(wù)的病人多,工作壓力大,難免會出現(xiàn)疲勞等情況,而注意力機制可為醫(yī)生提供一層安全保障,減少發(fā)生醫(yī)療事故的風(fēng)險。

Gotkowski等人[68]提出了一個用于生成基于CNN的PyTorch模型的注意力熱圖的代碼庫,提高了模型預(yù)測能力。該代碼庫支持2D和3D數(shù)據(jù)的分類任務(wù)以及分割。一個關(guān)鍵的特點是,在大多數(shù)情況下,只需要一行代碼就可以為一個模型生成注意力熱圖,基本上是即插即用,可以提高臨床醫(yī)生對計算機智能輔助診斷系統(tǒng)的可接受性,增加了復(fù)雜AI系統(tǒng)采用的機會和新型計算機智能輔助診斷系統(tǒng)的臨床可行性。此外,在基于注意力機制的計算機智能輔助診斷系統(tǒng)的臨床實施方面還存在一些挑戰(zhàn)。Cai等人[66]采訪了病理學(xué)家,發(fā)現(xiàn)除了局部解釋外,臨床醫(yī)生還需要對模型的整體特性進行深入的了解,例如,他們的能力、局限性、功能、醫(yī)學(xué)視角、特征和設(shè)計目標(biāo)。這些信息豐富了計算機智能輔助診斷系統(tǒng)的可行性,在常規(guī)實踐中采用這些系統(tǒng)之前是有必要的。

在參考文獻中,大多數(shù)文獻在智能輔助診斷系統(tǒng)的應(yīng)用上都是集中在視覺注意力模型方面。視覺注意力模型的聚焦區(qū)域集中在包含關(guān)鍵信息的病變區(qū)域而不是整個圖像中存在的不必要的噪聲,從而提高了性能。在肺結(jié)節(jié)等非常局部分布的病變的情況下,提取與整個圖像相比占據(jù)非常小的區(qū)域的核心區(qū)域并執(zhí)行特定分析使得性能顯著提高。

5.3 發(fā)現(xiàn)潛在診斷方法

注意力機制似乎可以有效地用于發(fā)現(xiàn)醫(yī)學(xué)上尚未明確研究的新診斷方法。通過結(jié)合注意力機制,深度學(xué)習(xí)模型可以更多地關(guān)注與目的相關(guān)的核心區(qū)域。這將有助于提高深度學(xué)習(xí)在分析醫(yī)學(xué)圖像時的多功能性,使得醫(yī)學(xué)圖像的圖像質(zhì)量和對比度可以根據(jù)成像設(shè)備而改變,達(dá)到兼容MRI、CT以及超聲等醫(yī)學(xué)圖像的目的。此外,有研究將深度學(xué)習(xí)應(yīng)用于胸部CT圖像,以比較具有相似圖像特征的社區(qū)獲得性肺炎和新型冠狀病毒(COVID-19)患者的圖像,提出了通過熱點圖可視化為深度學(xué)習(xí)和注意力機制快速診斷新型冠狀病毒做出貢獻的可能性[68]。

Tosun等人[69]開發(fā)了一個初步的應(yīng)用軟件,用于乳腺核心活檢。該軟件自動預(yù)覽乳腺核心全切片圖像,并識別感興趣的區(qū)域,以互動和可解釋的方式快速呈現(xiàn)關(guān)鍵診斷區(qū)域。胡耿等人[70]受到注意力機制等最新研究啟發(fā),通過長短注意力機制,增加有效對抗擾動的同時減少冗余擾動,并探討注意力引導(dǎo)機制與DNN對抗攻擊的相互關(guān)系,將深度學(xué)習(xí)應(yīng)用于新型冠狀病毒肺炎CT智能識別。Chen等人[71]提出了一種新的半監(jiān)督圖像分割方法,重建目標(biāo)使用一種注意機制,將不同類別的圖像區(qū)域的重建分開,在未標(biāo)記和少量標(biāo)記圖像上進行培訓(xùn),優(yōu)于接受過相同數(shù)量圖像和CNN的受監(jiān)督CNN,并應(yīng)用于腦腫瘤圖像分割。

將來,注意力機制可能會協(xié)助醫(yī)護人員,結(jié)合大數(shù)據(jù)等技術(shù),為單個患者最佳定制圖像劑量。其中,視覺注意力模型可以在圖像采集時結(jié)合深度學(xué)習(xí)運用,以提高圖像質(zhì)量。在圖像評估的方面,顯著性檢測可用于生成感興趣區(qū)域,然后由監(jiān)督醫(yī)生進行修改,這是提高效率的各種潛在步驟中的一步?;蛟S通過運用注意力機制,人類利用人工智能發(fā)現(xiàn)新醫(yī)學(xué)知識的時代即將展開。

6 結(jié)束語

本文首先講述注意力機制的基礎(chǔ)知識,然后介紹了注意力機制在醫(yī)學(xué)圖像處理中的類別,并且從不同類別介紹了注意力機制可以有效地用于醫(yī)學(xué)圖像分析、分類、分割以及診斷方面的例子,最后根據(jù)應(yīng)用于醫(yī)學(xué)圖像處理的最新趨勢來討論未來前景和發(fā)展方向,為注意力機制在醫(yī)學(xué)圖像處理領(lǐng)域的進一步研究與應(yīng)用提供參考和研究思路。

猜你喜歡
圖像處理注意力顯著性
對統(tǒng)計結(jié)果解釋和表達(dá)的要求
海戰(zhàn)場偵察圖像處理技術(shù)圖譜及應(yīng)用展望
人工智能輔助冠狀動脈CTA圖像處理和診斷的研究進展
讓注意力“飛”回來
本刊對論文中有關(guān)統(tǒng)計學(xué)表達(dá)的要求
如何培養(yǎng)一年級學(xué)生的注意力
基于ARM嵌入式的關(guān)于圖像處理的交通信號燈識別
基于顯著性權(quán)重融合的圖像拼接算法
機器學(xué)習(xí)在圖像處理中的應(yīng)用
A Beautiful Way Of Looking At Things