李居朋,王穎慧,李 剛
(1.北京交通大學(xué)電子信息工程學(xué)院,北京 100044;2.北京大學(xué)口腔醫(yī)學(xué)院,北京 100081)
醫(yī)學(xué)解剖學(xué)意義上的“關(guān)鍵點”定義為人體普遍具有特定特征的、位置和拓?fù)渖洗嬖趯?yīng)關(guān)系的一些點或者曲線[1].醫(yī)學(xué)圖像解剖學(xué)關(guān)鍵點的自動檢測是醫(yī)學(xué)圖像處理研究領(lǐng)域中一個重要而活躍的課題,作為眾多醫(yī)學(xué)圖像分析應(yīng)用的前提基礎(chǔ),已被廣泛用于醫(yī)學(xué)圖像配準(zhǔn)[2~4]、組織分割[5~8]、參數(shù)測量[6,7,9,10]、病理診斷[1,11~16]以及治療規(guī)劃[17~20]、手術(shù)引導(dǎo)[21~24]或其他醫(yī)學(xué)圖像處理的初始化[25]等.形式上,對應(yīng)給定的醫(yī)學(xué)圖像X,關(guān)鍵點檢測算法預(yù)測關(guān)鍵點集合L的位置x={(x1,y1,z1),(x2,y2,z2),…,(xL,yL,zL)},其中x·、y·和z·表示關(guān)鍵點坐標(biāo).
然而由于人體解剖結(jié)構(gòu)的多樣性,尤其是潛在局部相似關(guān)鍵點的情況下,精確而魯棒的解剖學(xué)關(guān)鍵點定位變得充滿挑戰(zhàn)[26].在過去的幾十年里,醫(yī)學(xué)圖像關(guān)鍵點檢測取得了較多的研究進(jìn)展,當(dāng)前主要的解決方案可以分為五大類,即基于知識、模式匹配、統(tǒng)計學(xué)習(xí)、混合技術(shù)和深度學(xué)習(xí)的方法.第一類是利用人類對關(guān)鍵點結(jié)構(gòu)知識模擬手動檢測過程[27,28],但由于模式過于復(fù)雜,無法隨圖像復(fù)雜度的增加而制定規(guī)則.隨后,一些研究人員采用了模式匹配搜索的策略[29,30],但這類方法對個體間的差異異常敏感.考慮到全局空間約束和關(guān)鍵點位置局部信息的同等重要性,基于統(tǒng)計學(xué)習(xí)的關(guān)鍵點檢測方法脫穎而出,如“主動形狀模型”[31]和“主動外觀模型”[32],也出現(xiàn)了一些基于上述混合技術(shù)的方法[33].在IEEE ISBI 2014 和Grand Challenge 2015 挑戰(zhàn)賽中[19,20],結(jié)合隨機(jī)森林回歸投票和統(tǒng)計形狀分析技術(shù)的兩個框架性能表現(xiàn)良好[17,18].后續(xù)多個研究都以Grand Challenge 數(shù)據(jù)集(https://grand-challenge.org/)為基礎(chǔ)開始了相關(guān)技術(shù)研究[34~36].以上這些傳統(tǒng)的檢測方法超出了本文的討論范圍,如有興趣可參考相關(guān)的研究論文.
最新的深度學(xué)習(xí)技術(shù)在計算機(jī)視覺領(lǐng)域取得了巨大的成功,激發(fā)了國內(nèi)外學(xué)者們將其應(yīng)用于醫(yī)療圖像分析的研究熱情,已在醫(yī)學(xué)圖像分類、檢測、分割、配準(zhǔn)和檢索等方面表現(xiàn)出傳統(tǒng)技術(shù)無法比擬的性能[37,38],正如哈佛大學(xué)醫(yī)學(xué)院Wells 教授給出的判斷,應(yīng)用深度學(xué)習(xí)解決醫(yī)學(xué)圖像分析任務(wù)是本領(lǐng)域的發(fā)展趨勢[39,40].自2016年開始,已有多位專家充分利用深度學(xué)習(xí)技術(shù)的多級語義自動學(xué)習(xí)特征,克服先前方法在特征定義和提取中的局限性,提出了多種用于醫(yī)學(xué)關(guān)鍵點檢測的有效解決方案.在此基礎(chǔ)上,本文依托于課題組在國家自然科學(xué)基金項目中的相關(guān)研究工作,聚焦于深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)圖像關(guān)鍵點檢測這一特定應(yīng)用領(lǐng)域的研究現(xiàn)狀和挑戰(zhàn),使用谷歌學(xué)術(shù)搜索引擎(https://scholar.google.com/),設(shè)定檢索主題詞包括
medical images AND(landmark detection OR landmark localization OR landmark digitization),范圍涵蓋了醫(yī)學(xué)圖像處理領(lǐng)域頂級的期刊和知名的國際會議論文集(包括Medical Image Analysis 等在內(nèi)的多個刊源),以及最新發(fā)表在arXiv 網(wǎng)站上的論文,并逐一篩選出以深度學(xué)習(xí)技術(shù)重點解決醫(yī)學(xué)圖像關(guān)鍵點檢測問題的文獻(xiàn).據(jù)知,這是第一份關(guān)于醫(yī)學(xué)圖像關(guān)鍵點檢測的深度學(xué)習(xí)論文綜述,相信這份清單對于相關(guān)領(lǐng)域的學(xué)習(xí)者或研究者而言將是一個很好的助力.
圖像關(guān)鍵點本質(zhì)上是一種特征,是對圖像中一個固定區(qū)域或者空間物理關(guān)系的抽象描述,描述的是一定鄰域范圍內(nèi)的上下文關(guān)系[41].醫(yī)學(xué)圖像關(guān)鍵點檢測與人臉關(guān)鍵點檢測(Facial Landmark Detection)[42]、人體關(guān)鍵點檢測(Human Pose Estimation)[43]、手勢關(guān)鍵點檢測(Hand Pose Estimation)[44]、服裝關(guān)鍵點檢測(Fashion Landmark Detection)[45]等研究內(nèi)容(圖1)是計算機(jī)視覺研究領(lǐng)域中的核心任務(wù)和熱點問題,也是相關(guān)的更深層次應(yīng)用的基礎(chǔ).同屬于關(guān)鍵點檢測范疇的這些任務(wù)間的研究目標(biāo)和方法存在著一定的相通之處.醫(yī)學(xué)圖像關(guān)鍵點檢測中很多思路來自于具有更多研究基礎(chǔ)的人臉、人體等檢測研究成果.為了更好地展開問題的討論,下文將對相關(guān)研究進(jìn)行簡要論述.
圖1 多個不同的關(guān)鍵點檢測任務(wù)實例
傳統(tǒng)的圖像關(guān)鍵點檢測主要包括基于模型匹配、約束模型、形態(tài)回歸等方法,但由于容易受到姿態(tài)變化、物體遮擋等因素的影響,關(guān)鍵點檢測性能提升有限從而大大限制了技術(shù)的實際應(yīng)用.2012 年Hinton 課題組為了證明深度學(xué)習(xí)的潛力,首次參加ImageNet 圖像識別比賽,其通過構(gòu)建的CNN 網(wǎng)絡(luò)AlexNet 一舉奪得冠軍,也正是由于該比賽CNN 吸引了眾多研究者的注意,深度學(xué)習(xí)開始迎來超級發(fā)展時期,借助深度學(xué)習(xí)技術(shù),圖像關(guān)鍵點檢測也完成了從傳統(tǒng)方法到深度學(xué)習(xí)的轉(zhuǎn)變[44].此后,研究者們提出了人臉檢測的Face++版DCNN、TCNN、DAN 框架,以及人體檢測的Convolutional Pose Machines、Stacked Hourglass Network 等諸多優(yōu)秀的關(guān)鍵點檢測網(wǎng)絡(luò)模型,關(guān)鍵點檢測與定位性能得到不斷提升,相關(guān)領(lǐng)域的更多研究可參考文獻(xiàn)[43,45~47]等綜述類文獻(xiàn).
用于人體、人臉等關(guān)鍵點檢測的研究思路和方法可以作為醫(yī)學(xué)圖像關(guān)鍵點檢測研究的借鑒,但醫(yī)學(xué)圖像關(guān)鍵點與上述問題在圖像數(shù)據(jù)類型、檢測精度要求等方面也存在著區(qū)別.依據(jù)Bookstein 等人[41]給出的醫(yī)學(xué)關(guān)鍵點定義將其分為三類:①相鄰組織間的位置;②具有最大曲率或局部形態(tài)突變的位置;③幾何形態(tài)上極值點的位置.其中第①類關(guān)鍵點多被冠以特定醫(yī)學(xué)名稱或標(biāo)簽,具有明確的解剖學(xué)意義和更可靠的點-點對應(yīng)關(guān)系,被廣泛用于醫(yī)學(xué)研究與臨床應(yīng)用.
醫(yī)學(xué)圖像關(guān)鍵點存在以下特點:①患者個體間關(guān)鍵點形狀存在差異性,而且這種差異可能表現(xiàn)得非常巨大,例如顳下頜關(guān)節(jié)髁突頂(藍(lán)點)受多方面的影響,因而其外觀在個體間存在很大的差異[圖2(a)和(b)];②患者個體內(nèi)關(guān)鍵點形狀存在歧義性,人體可能存在與待檢測關(guān)鍵點具有相似局部外觀的多個點,最極端示例是在重復(fù)的人體骨骼結(jié)構(gòu)上定義的關(guān)鍵點類別,包括人體中的手部骨骼和胸部肋骨[圖2(c)和(d)]等.正是由于這些特點的存在,使得醫(yī)學(xué)圖像關(guān)鍵點檢測問題存在巨大的挑戰(zhàn).在以上檢測難點共存的情況下,如何提升醫(yī)學(xué)圖像關(guān)鍵點檢測的定位精度是眾多研究者們的關(guān)注重點.本文首先對醫(yī)學(xué)圖像關(guān)鍵點檢測方法的國內(nèi)外研究現(xiàn)狀進(jìn)行分類與整理;然后探討并歸納醫(yī)學(xué)圖像分析深度學(xué)習(xí)方法的挑戰(zhàn)及主要應(yīng)對策略;最后給出對該領(lǐng)域相關(guān)技術(shù)發(fā)展趨勢的思考與討論.
圖2 醫(yī)學(xué)圖像關(guān)鍵點形態(tài)表現(xiàn)差異
醫(yī)學(xué)圖像關(guān)鍵點檢測深度學(xué)習(xí)的方法廣泛采用監(jiān)督學(xué)習(xí)的方式,即利用一組關(guān)鍵點標(biāo)注數(shù)據(jù)樣本訓(xùn)練與調(diào)整深度學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),使其達(dá)到所要求分類或者回歸性能的過程.根據(jù)學(xué)習(xí)問題的類型可以將現(xiàn)有的醫(yī)學(xué)圖像關(guān)鍵點檢測深度學(xué)習(xí)方法劃分為兩大類:一類利用像素點分類方式解決,另一類則是關(guān)鍵點坐標(biāo)回歸的方法.圖3 統(tǒng)計了這兩類方法的研究論文數(shù)量,其中采用分類框架的方法遠(yuǎn)低于基于回歸分析的研究,針對每一類方法的類型細(xì)分將在后續(xù)研究現(xiàn)狀分析中給出更為詳細(xì)的梳理與討論.
圖3 醫(yī)學(xué)圖像關(guān)鍵點檢測深度學(xué)習(xí)方法分類統(tǒng)計
分類問題(Classification Problem)是有監(jiān)督學(xué)習(xí)中的核心問題,用于解決要預(yù)測樣本屬于哪個或者哪些預(yù)定義的類別,此時輸出變量通常取有限的離散值.如何將關(guān)鍵點定位問題轉(zhuǎn)化為分類問題,現(xiàn)有的基于深度學(xué)習(xí)的醫(yī)學(xué)圖像關(guān)鍵點檢測方法提出了兩種問題解決思路(圖4).
圖4 基于分類的關(guān)鍵點檢測框架
3.1.1 基于像素點的分類檢測方法
Tuysuzoglu 等人[48]在研究直腸超聲2D 圖像的前列腺關(guān)鍵點定位問題時,提出了一種對抗性的多任務(wù)深度學(xué)習(xí)方法,對超聲圖像中的每個像素分配7種類別的概率分布(Probability Distribution)特征向量,將每個關(guān)鍵點和背景分配單獨(dú)的類別標(biāo)簽.分類網(wǎng)絡(luò)學(xué)習(xí)像素到概率分布的映射,在映射后的特征圖中找到每一類關(guān)鍵點標(biāo)簽的極大值作為定位位置.經(jīng)32 位直腸超聲檢查患者的4799幅圖像實驗測試,6個關(guān)鍵點的平均定位誤差為3.56 mm.
3.1.2 基于圖像塊的分類檢測方法
準(zhǔn)確檢測和識別骨盆解剖學(xué)關(guān)鍵點是診斷髖關(guān)節(jié)發(fā)育不良(Developmental Dysplasia of Hip,DDH)的關(guān)鍵步驟.Liu 等人[9]提出一種用于盆骨X-Ray 2D 圖像的FR-DDH 關(guān)鍵點檢測網(wǎng)絡(luò),將關(guān)鍵點檢測任務(wù)轉(zhuǎn)換為關(guān)鍵點局部鄰域圖像塊的分類問題,以最匹配的檢測區(qū)域中心作為關(guān)鍵點坐標(biāo).通過含有9813 例骨盆X-Ray圖像的數(shù)據(jù)集驗證了FR-DDH 關(guān)鍵點檢測網(wǎng)絡(luò)的關(guān)鍵點定位(平均誤差為1.24 mm)精度.與其相似的一份研究工作,Zheng 等人[10]針對頭頸CT 掃描中的頸動脈分叉關(guān)鍵點檢測問題,首先由淺層網(wǎng)絡(luò)完成所有體素為中心的圖像塊篩選以獲取少量候選區(qū)域,然后使用深層網(wǎng)絡(luò)結(jié)合Haar小波等特征進(jìn)行更準(zhǔn)確的后續(xù)圖像塊的分類,在455 例患者的頭頸部CT 數(shù)據(jù)集上進(jìn)行了頸動脈分叉檢測的定量評估,平均誤差降低到2.64 mm的定位精度.
回歸分析(Regression Analysis)是確定兩種或兩種以上變量之間相互依賴的定量關(guān)系的統(tǒng)計分析方法.回歸分析側(cè)重從定量關(guān)系的分析直接輸出實數(shù)數(shù)值,而分類處理的輸出通常為若干指定的類別標(biāo)簽.基于回歸分析的關(guān)鍵點檢測方法,依據(jù)學(xué)習(xí)網(wǎng)絡(luò)回歸輸出數(shù)據(jù)類型的不同,可分為坐標(biāo)值回歸(Coordinate Regression)、熱度圖回歸(Heat-Map Regression)和位移圖回歸(Displacement Regression)三種不同類別,圖5 給出了基于回歸分析的關(guān)鍵點檢測框架.回歸網(wǎng)絡(luò)將整幅圖像或者圖像塊作為數(shù)據(jù)輸入,由不同的Ground Truth 設(shè)置不同的網(wǎng)絡(luò)輸出,對熱度圖和位移圖一般再經(jīng)過后處理獲得關(guān)鍵點的坐標(biāo).
圖5 基于回歸分析的關(guān)鍵點檢測框架
3.2.1 基于坐標(biāo)值回歸的檢測方法
深度學(xué)習(xí)網(wǎng)絡(luò)通過輸入的醫(yī)學(xué)圖像回歸出關(guān)鍵點坐標(biāo)是一種最直接解決思路,對于給定的含有L個關(guān)鍵點的3D 圖像Χn,網(wǎng)絡(luò)輸出層一般設(shè)計為1 個或多個全連接層,通過端到端的(End-to-End)訓(xùn)練方式直接回歸出3L長度的向量,即為L個關(guān)鍵點的坐標(biāo)(或歸一化的坐標(biāo)).
Andermatt 等人[49]在研究3D MRI 圖像中髓腦溝關(guān)鍵點定位問題時,構(gòu)建了由三個下采樣MD-GRU 層、全連接層和Tanh 激活函數(shù)層組成的定位網(wǎng)絡(luò),網(wǎng)絡(luò)輸出經(jīng)全連接層和LReLU 層回歸為關(guān)鍵點的坐標(biāo)數(shù)據(jù).經(jīng)1218 例圖像的訓(xùn)練和測試,該方法的平均定位誤差為1.70 mm,與神經(jīng)病學(xué)專家標(biāo)注精度相當(dāng).Tiulpin 等人[16]借助堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Network)完成輸入圖像到特征表示,由2D Soft-Max 層回歸每一個關(guān)鍵點的坐標(biāo).對膝蓋骨X-Ray 圖像中16 個關(guān)鍵點定位測試結(jié)果,關(guān)鍵點正確估計比例(Percentage of Correct Key-Points,PCK)參數(shù)在定位偏差為2.50 mm 時達(dá)到90.91%.Zhang 等人[14]提出了兩階段的、面向任務(wù)的深度學(xué)習(xí)網(wǎng)絡(luò)(Two-stage Task-Oriented Deep Learning,T2DL)實現(xiàn)顱腦3D T1W-MRI 圖像關(guān)鍵點的自動檢測.第一階段采用基于CNN 的回歸模型使用數(shù)百萬個圖像塊作為網(wǎng)絡(luò)輸入,旨在學(xué)習(xí)局部圖像斑塊和目標(biāo)解剖學(xué)關(guān)鍵點之間的空間距離關(guān)系.第二階段進(jìn)一步建模圖像塊之間的相關(guān)性,與第一階段CNN 共享相同的網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重直接回歸3L長度的向量即L個關(guān)鍵點的空間坐標(biāo),同時增加額外卷積層實現(xiàn)大規(guī)模關(guān)鍵點檢測.
3.2.2 基于熱度圖回歸的檢測方法
關(guān)鍵點檢測的最終任務(wù)是輸出預(yù)測關(guān)鍵點位置的坐標(biāo),然而直接通過學(xué)習(xí)網(wǎng)絡(luò)輸出坐標(biāo)進(jìn)行優(yōu)化學(xué)習(xí)是一個極其非線性的過程,而且損失函數(shù)對權(quán)重的約束會比較弱,因此,Tompson 等人[42]提出了構(gòu)造一個中間態(tài)熱度圖作為網(wǎng)絡(luò)回歸輸出,再經(jīng)過非極大值抑制(Non-Maximum Suppression,NMS)等算法尋找并確定關(guān)鍵點的坐標(biāo).
一般地對于給定L個關(guān)鍵點,將坐標(biāo)為∈Rd目標(biāo)關(guān)鍵點Li(i=1,2,…,L)的d維熱度圖gi(x):Rd→R 定義為高斯函數(shù),計算式為
因此,目標(biāo)關(guān)鍵點坐標(biāo)附近的熱度圖像素具有較高的值,并在遠(yuǎn)離關(guān)鍵點的位置平滑而迅速減小.引入比例因子γ可以有效避免回歸網(wǎng)絡(luò)訓(xùn)練期間由于高斯函數(shù)中微小值而引起的不穩(wěn)定.對于每個維度d,標(biāo)準(zhǔn)偏差σi定義了關(guān)鍵點Li的熱度圖中高斯函數(shù)的峰寬.在網(wǎng)絡(luò)推斷時,獲取熱度圖中最高值的坐標(biāo)并將其作為每個關(guān)鍵點Li的預(yù)測坐標(biāo)∈Rd,計算式為
其中,預(yù)測熱度圖hi(x;w,b)中參數(shù)w和b表示網(wǎng)絡(luò)權(quán)重和偏置參數(shù).
Payer 等人[50]提出一種全卷積空間配置網(wǎng)絡(luò)(Spatial Configuration-Net,SCN)架構(gòu),局部外觀模塊(Local Appearance Model)映射局部外觀特征回歸生成候選關(guān)鍵點熱度圖,空間配置模塊(Spatial Configuration Model)著重于減少形狀歧義以提高對關(guān)鍵點錯誤識別的魯棒性,在數(shù)量有限的手部2D/3D醫(yī)學(xué)圖像上獲得了良好的關(guān)鍵點定位性能.相關(guān)工作經(jīng)作者進(jìn)一步完善后發(fā)表在醫(yī)學(xué)圖像處理頂級期刊Medical Image Analysis上[51].更多相似的方法可參考表1列出的文獻(xiàn).
表1 基于熱度圖回歸分析的關(guān)鍵點檢測研究方法
3.2.3 基于位移圖回歸的檢測方法
關(guān)鍵點定位任務(wù)中的位移圖一般定義為與關(guān)鍵點間位移參數(shù)的特定數(shù)據(jù)形式,具有V體素的3D 圖像Χn表示從該體素到特定軸空間中某個關(guān)鍵點的位移.也就是說,Χn中的第l個關(guān)鍵點有3 個位移圖(即和),分別對應(yīng)于x、y和z軸三個方向上的偏移.從而給定L個關(guān)鍵點,每個輸入圖像Χn則都有3L個位移圖.
在解決頜面部CBCT 圖像多個關(guān)鍵點檢測問題中,Zhang 等人[6]提出了上下文指導(dǎo)的全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)用于聯(lián)合顱骨骨骼分割和關(guān)鍵點數(shù)字化,首先訓(xùn)練FCN-1 學(xué)習(xí)圖像空間體素相對于關(guān)鍵點的位移圖以捕獲CBCT 圖像空間上下文信息,然后結(jié)合原始圖像經(jīng)多任務(wù)的FCN-2 網(wǎng)絡(luò)以共同執(zhí)行骨骼分割和關(guān)鍵點檢測.在此工作基礎(chǔ)上,Zhang等人[7]增加了更多的實驗測試工作并將相關(guān)內(nèi)容發(fā)表在Medical Image Analysis 期刊,15個關(guān)鍵點的平均定位誤差為1.10±0.71 mm.
在研究胎兒3D 超聲圖像關(guān)鍵點自動檢測問題時,Li 等人[55]提出了一種新穎的基于圖像塊的迭代網(wǎng)絡(luò)(Patch-based Iterative Network,PIN),網(wǎng)絡(luò)學(xué)習(xí)圖像塊與關(guān)鍵點之間的空間位移關(guān)系,推理時使用迭代的、稀疏的采樣方法將圖像塊引導(dǎo)至目標(biāo)關(guān)鍵點位置.實驗采用72 例人工標(biāo)注圖像進(jìn)行網(wǎng)絡(luò)的訓(xùn)練和性能測試,獲得了5.47±4.23 mm的定位誤差.
為了驗證關(guān)鍵點檢測的準(zhǔn)確性,常用的點對點誤差(Point-to-point Error for Landmark,PEL)衡量參數(shù)定義為
其中,N表示測試圖像數(shù)量∈Rd表示標(biāo)記的關(guān)鍵點坐標(biāo)∈Rd表示網(wǎng)絡(luò)推斷識別結(jié)果.將PEL 的平均值定義為平均點對點誤差(Average Point-to-Point Errors,APE),其計算式為
其中,L表示每幅圖像的關(guān)鍵點總數(shù).為了衡量點對點誤差的分散程度,一般在上述兩衡量參數(shù)后面加入對應(yīng)的標(biāo)準(zhǔn)差,變?yōu)镻EL(Li)±Std(mm)和APE(Li)±Std(mm)形式.
關(guān)鍵點的成功檢測率(Successful Detection Rate,SDR)是另外一個常用的定位精度評價指標(biāo),定義為關(guān)鍵點Li位于一系列定位精度范圍Δ={1.0 mm,2.0 mm,3.0 mm,…}內(nèi)的百分比,計算式為
定位精度范圍Δ中的精度值可以依據(jù)實際適當(dāng)調(diào)整.
利用深度學(xué)習(xí)進(jìn)行醫(yī)學(xué)圖像關(guān)鍵點檢測時,獲取大規(guī)模的學(xué)習(xí)訓(xùn)練樣本數(shù)據(jù)集非常困難,且需要臨床專家標(biāo)注,因此目前公開可用的醫(yī)學(xué)圖像關(guān)鍵點檢測數(shù)據(jù)集偏少,為了解決數(shù)據(jù)集的限制,可以從兩個方面嘗試解決大規(guī)模的醫(yī)學(xué)數(shù)據(jù)標(biāo)注樣本數(shù)據(jù)的問題.
一方面,醫(yī)學(xué)圖像領(lǐng)域的挑戰(zhàn)賽及大型公開數(shù)據(jù)集的出現(xiàn)對醫(yī)學(xué)圖像分析的發(fā)展有著極大的幫助,自2007 年以來,MICCAI、ISBI 和SPIE 等醫(yī)學(xué)成像研討會組織挑戰(zhàn)賽數(shù)據(jù)集已經(jīng)成為慣例,開放了大量用于基準(zhǔn)研究的醫(yī)學(xué)數(shù)據(jù)集[56],收錄在網(wǎng)站http://www.grandchallenge.org/.另外通過追蹤相關(guān)研究文獻(xiàn)中研究者們給出的數(shù)據(jù)集,表2給出本文整理的可用于醫(yī)學(xué)圖像關(guān)鍵點檢測的圖像庫及其鏈接.
表2 醫(yī)學(xué)圖像關(guān)鍵點檢測可用數(shù)據(jù)集及參數(shù)
另一方面,臨床醫(yī)學(xué)數(shù)據(jù)的收集為深度學(xué)習(xí)提供了另一個解決方案.2016 年我國科技部已經(jīng)啟動國家重點研發(fā)計劃“精準(zhǔn)醫(yī)學(xué)研究”專項,可望在解決醫(yī)學(xué)圖像隱私問題的同時,為深度學(xué)習(xí)在醫(yī)學(xué)圖像處理領(lǐng)域的研究提供可用的大規(guī)模醫(yī)療數(shù)據(jù)集.目前,本文項目組承擔(dān)的國家自然科學(xué)基金項目“三維多模態(tài)融合圖像診治顳下頜關(guān)節(jié)紊亂病的關(guān)鍵技術(shù)研究”進(jìn)展順利,通過與北京大學(xué)口腔醫(yī)學(xué)院和解放軍306 醫(yī)院合作,以臨床醫(yī)生標(biāo)注的顳下頜關(guān)節(jié)CBCT 圖像以及MRI圖像兩種模態(tài)對應(yīng)的5 組關(guān)鍵點信息為金標(biāo)準(zhǔn)訓(xùn)練學(xué)習(xí)的樣本集,結(jié)合熱度圖回歸搭建了帶有注意力機(jī)制的端到端的3D FCN 關(guān)鍵點深度學(xué)習(xí)檢測框架,以103對CBCT 圖像進(jìn)行測試,初步實驗結(jié)果APE=2.13±1.84 mm.在進(jìn)一步數(shù)據(jù)整理的基礎(chǔ)上,計劃將其發(fā)布并作為一份3D醫(yī)學(xué)關(guān)鍵點檢測的公開數(shù)據(jù)集.
深度學(xué)習(xí)技術(shù)以自動學(xué)習(xí)和應(yīng)用多級語義特征,很大程度上克服了傳統(tǒng)方法在特征定義和提取中的局限性,但基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分析(特別的針對研究相對較少的醫(yī)學(xué)圖像關(guān)鍵點檢測)上依然存在巨大挑戰(zhàn)[55].在上述研究現(xiàn)狀分析的基礎(chǔ)上,本文嘗試將基于深度學(xué)習(xí)的醫(yī)學(xué)圖像關(guān)鍵點檢測面臨的挑戰(zhàn)總結(jié)為以下三點:①通常只有數(shù)量有限的且?guī)в嗅t(yī)生標(biāo)注的醫(yī)學(xué)圖像數(shù)據(jù)集可用,難以處理學(xué)習(xí)模型訓(xùn)練過程中的過擬合問題;②醫(yī)學(xué)關(guān)鍵點高精度的檢測需要綜合應(yīng)用醫(yī)學(xué)圖像多種信息,設(shè)計能夠挖掘和綜合應(yīng)用多種信息的深度學(xué)習(xí)網(wǎng)絡(luò)具有較大的難度;③醫(yī)學(xué)圖像(特別是3D 醫(yī)學(xué)圖像)數(shù)據(jù)量過大,規(guī)模巨大的網(wǎng)絡(luò)模型參數(shù)對GPU 內(nèi)存提出了更高的要求,同時這也對關(guān)鍵點檢測的實時性帶來了更大的挑戰(zhàn).那么為了提高特征表示能力和關(guān)鍵點定位的準(zhǔn)確性以滿足臨床的實際應(yīng)用,當(dāng)標(biāo)注數(shù)據(jù)集樣本量不足時該怎么處理?如何利用關(guān)鍵點的空間上下文信息(Spatial Context Information)以及與醫(yī)學(xué)圖像處理的其他任務(wù)間的互補(bǔ)關(guān)系?如何降低醫(yī)學(xué)圖像數(shù)據(jù)量大對計算空間和時間的壓力?目前,主要的應(yīng)對策略如下文所述.
數(shù)據(jù)是深度學(xué)習(xí)算法研究所需的核心資源,深度學(xué)習(xí)方法在多個自然圖像處理任務(wù)中的成功很大程度上歸功于高達(dá)百萬級別圖像庫的支撐,但醫(yī)學(xué)圖像由于疾病病例稀缺等,因此可獲取的圖像數(shù)量普遍偏少(一般在幾十至幾百數(shù)量級),而更高質(zhì)量的醫(yī)學(xué)圖像標(biāo)注將耗費(fèi)大量人力和時間,因此在醫(yī)學(xué)影像領(lǐng)域獲取大量且具有高可靠性的標(biāo)注數(shù)據(jù)是基于深度學(xué)習(xí)的醫(yī)學(xué)圖像處理研究的首要挑戰(zhàn).
針對這一挑戰(zhàn),Urschler 等人[26]將關(guān)鍵點定位任務(wù)分為兩個更簡單的子問題,以減少對大型訓(xùn)練數(shù)據(jù)集的總體需求,實驗結(jié)果證實了即使在可用訓(xùn)練圖像數(shù)量有限的情況下,也可獲得2D和3D醫(yī)學(xué)圖像關(guān)鍵點的良好定位性能.Zhang 等人[6,7]采用兩階段的、面向任務(wù)的深度學(xué)習(xí)網(wǎng)絡(luò)實現(xiàn)腦部圖像關(guān)鍵點檢測,同時使用數(shù)百萬個圖像塊作為網(wǎng)絡(luò)輸入回歸局部圖像塊和關(guān)鍵點之間的空間距離關(guān)系以進(jìn)一步降低有限訓(xùn)練數(shù)據(jù)的影響.類似地,Li等人[55]在網(wǎng)絡(luò)訓(xùn)練時利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像塊與解剖學(xué)關(guān)鍵點之間的空間關(guān)系,推理時PIN網(wǎng)絡(luò)使用迭代地、稀疏地采樣方法將圖像塊引導(dǎo)至目標(biāo)關(guān)鍵點位置,實驗采用72 例人工標(biāo)注圖像進(jìn)行網(wǎng)絡(luò)的訓(xùn)練和性能測試,獲得了5.47±4.23 mm 的定位誤差.
從以上研究思路來看,并沒有出現(xiàn)類似于處理自然圖像數(shù)據(jù)量不足問題中常用的遷移學(xué)習(xí)、數(shù)據(jù)增廣或者生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)樣本生成等技術(shù)[57],本文認(rèn)為這正是由醫(yī)學(xué)圖像關(guān)鍵點檢測中數(shù)據(jù)集特有的需求所決定,特征點標(biāo)記是位于圖像空間中一個精確的坐標(biāo)向量,而非類似與目標(biāo)分割、分類等問題中區(qū)域的標(biāo)記.文獻(xiàn)[50,51]傾向于將復(fù)雜的關(guān)鍵點定位問題分解為多個子問題,以降低有限數(shù)據(jù)訓(xùn)練大型網(wǎng)絡(luò)的難度.文獻(xiàn)[36,58]結(jié)合了特殊應(yīng)用中的醫(yī)師注視點信息用于替代標(biāo)注,這種方法與精確的數(shù)據(jù)標(biāo)注還是存在較大的偏差,在一些對定位精度要求相對偏低的場合是一種選擇.而文獻(xiàn)[55]提出的PIN 模型的迭代優(yōu)化思路(圖6)最為新穎,值得研究者參考和學(xué)習(xí).
圖6 文獻(xiàn)[55]提出的多個關(guān)鍵點檢測的迭代更新網(wǎng)絡(luò)結(jié)構(gòu)
深度學(xué)習(xí)算法的設(shè)計歸根結(jié)底是適用于特定應(yīng)用場景需求的CNN 網(wǎng)絡(luò)架構(gòu)的設(shè)計.如何定義網(wǎng)絡(luò)的“適用性”?本文認(rèn)為,網(wǎng)絡(luò)能夠有效挖掘數(shù)據(jù)中可用于表示待解決特定問題信息的能力,是衡量網(wǎng)絡(luò)適用性的唯一標(biāo)準(zhǔn).針對這一問題,建議從三個角度思考:①人體組織存在較大的近似性,這就決定了關(guān)鍵點的空間信息具有相當(dāng)固定的關(guān)系,形成了特有的空間上下文信息,在設(shè)計提取關(guān)鍵點局部信息的同時應(yīng)更加重視空間關(guān)系的全局信息;②采用更加符合人類認(rèn)知過程的多階段關(guān)鍵點檢測網(wǎng)絡(luò),將關(guān)鍵點檢測任務(wù)劃分為從粗略到精細(xì)的推理過程,以提高檢測的正確性和精準(zhǔn)度;③合理結(jié)合醫(yī)學(xué)圖像處理的其他任務(wù),設(shè)計多任務(wù)處理的學(xué)習(xí)網(wǎng)絡(luò).
4.2.1 空間上下文信息應(yīng)用
關(guān)鍵點位置的圖像亮度信息是最直接可用的信息,除此之外,醫(yī)學(xué)圖像關(guān)鍵點之間的空間位置分布(也稱為空間上下文信息)一般具有相對穩(wěn)定且相對統(tǒng)一的特性.這對醫(yī)學(xué)圖像關(guān)鍵點的檢測起到顯著的幫助作用.同時也有相關(guān)研究表明,即使對專家注釋者/臨床醫(yī)師而言,空間上下文信息在手工標(biāo)注具有挑戰(zhàn)性的醫(yī)學(xué)關(guān)鍵點過程中也是必不可少的,特別是在圖像信號或線索很少的區(qū)域,將關(guān)鍵點的拓?fù)?空間先驗信息整合到檢測任務(wù)中是一個活躍的研究領(lǐng)域且有著廣泛的應(yīng)用.Zhang等人[25]使用低維形狀模型捕獲內(nèi)耳對之間的空間關(guān)系,并使用此先驗信息進(jìn)一步評估了后處理步驟中檢測到的內(nèi)耳對的合理性.Liu 等人[9]挖掘盆骨關(guān)鍵點空間局部相關(guān)性巧妙地將檢測任務(wù)轉(zhuǎn)換為局部鄰域圖像塊的分類問題.Tuysuzoglu等人[48]利用待檢測的6 個解剖關(guān)鍵點均位于前列腺邊界上為已知的拓?fù)?空間先驗信息,網(wǎng)絡(luò)顯式地學(xué)習(xí)關(guān)鍵點標(biāo)志性位置特征,實現(xiàn)了通過使用空間上下文告知地標(biāo)位置來改善邊界不明確的區(qū)域的檢測性能.Mader 等人[4]利用條件隨機(jī)場(Conditional Random Field,CRF)規(guī)范化建模肋骨關(guān)鍵點間的空間關(guān)系,最后在局部子圖上優(yōu)化關(guān)鍵點的定位推斷.
4.2.2 多階段學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)設(shè)計
圖像處理中的很多算法都符合人類由粗到細(xì)的認(rèn)知過程的視覺機(jī)制,更加適合圖像的變換信息處理,如多分辨率處理等.對于醫(yī)學(xué)圖像關(guān)鍵點檢測問題,多個基于深度學(xué)習(xí)方法的研究同樣表明,由粗到細(xì)的檢測技術(shù)顯示了更好的解剖學(xué)關(guān)鍵點檢測與定位的精度.Zhong 等人[52]提出了兩階段注意導(dǎo)向的深度回歸模型(Attention-Guided Deep Regression Model,AGDRM)關(guān)鍵點檢測框架,Andermatt等人[49]提出了兩階段多維門控循環(huán)單元(Multi-Dimensional Gated Recurrent Units,MDGRUs)網(wǎng)絡(luò).Zheng等人[10]采用了淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)相結(jié)合的檢測網(wǎng)絡(luò).Chen 等人[27]提出了結(jié)合特征提取模塊、注意力特征金字塔融合(Attentive Feature Pyramid Fusion,AFPF)模塊和預(yù)測模塊實現(xiàn)關(guān)鍵點端到端檢測的深度學(xué)習(xí)框架.這些研究成果表明,多階段的關(guān)鍵點檢測框架可以更加有效地提高關(guān)鍵點的定位精度.
4.2.3 多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)框架設(shè)計
多任務(wù)學(xué)習(xí)(Multi-Task Learning)是一種基于共享表示(Shared Representation)技術(shù)將多個相關(guān)的任務(wù)綜合在一起學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,充分利用任務(wù)之間所富含的關(guān)聯(lián)信息,提升單任務(wù)學(xué)習(xí)網(wǎng)絡(luò)的泛化(Network Generalization)性能.研究者們將醫(yī)學(xué)圖像關(guān)鍵點檢測任務(wù)與其相關(guān)聯(lián)的諸如分割等醫(yī)學(xué)任務(wù)相結(jié)合,展示了優(yōu)異的檢測性能.
Zhang 等人[6,7]提出了一個上下文指導(dǎo)的全卷積網(wǎng)絡(luò)(FCN)用于聯(lián)合顱骨骨骼分割和關(guān)鍵點數(shù)字化處理兩個任務(wù).Duan 等人[15]將心臟磁共振(Cardiac Magnetic Resonance,CMR)圖像雙心室分割與關(guān)鍵點檢測相結(jié)合構(gòu)建多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)——同步分段和地標(biāo)本地化網(wǎng)絡(luò)(Simultaneous Segmentation and Landmark Localization Network,SSLLN),以此網(wǎng)絡(luò)輸出配合地圖集傳播實現(xiàn)具有解剖學(xué)意義的雙心室分割.Tuysuzoglu等人[48]基于解剖學(xué)關(guān)鍵點均位于光滑封閉的前列腺邊界這一先驗知識,提出了一種多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),在學(xué)習(xí)標(biāo)志性位置的同時,還建立了學(xué)習(xí)前列腺輪廓的機(jī)制,通過預(yù)測每個關(guān)鍵點位置之外的完整邊界輪廓,以增強(qiáng)整體網(wǎng)絡(luò)的上下文感知能力并提高關(guān)鍵點的檢測性能.
在醫(yī)學(xué)圖像關(guān)鍵點檢測問題的研究中關(guān)于深度學(xué)習(xí)網(wǎng)絡(luò)模型相關(guān)的研究成果最多,設(shè)計多階段、多任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu),同時將關(guān)鍵點空間上下文信息引入網(wǎng)絡(luò)學(xué)習(xí)內(nèi)容之中,用來提升醫(yī)學(xué)關(guān)鍵點檢測的精準(zhǔn)度,這正體現(xiàn)了網(wǎng)絡(luò)更深層、更全面地學(xué)習(xí)和挖掘醫(yī)學(xué)圖像中與關(guān)鍵點有關(guān)的信息是提升性能的唯一途徑的思路,同時也存在網(wǎng)絡(luò)參數(shù)調(diào)優(yōu)的需求,以進(jìn)一步改善檢測任務(wù)的性能[24].
利用小型數(shù)據(jù)集中訓(xùn)練諸如CNN 等網(wǎng)絡(luò)是一項艱巨的任務(wù),另外醫(yī)學(xué)圖像數(shù)據(jù)量過大易于造成網(wǎng)絡(luò)學(xué)習(xí)的過擬合問題,再者也會需要更大容量的GPU 存儲方可實現(xiàn)網(wǎng)絡(luò)的訓(xùn)練和推理.因此,難以以端到端的方式利用有限的醫(yī)學(xué)成像數(shù)據(jù)實現(xiàn)準(zhǔn)確的醫(yī)學(xué)關(guān)鍵點檢測模型的訓(xùn)練.如何有效解決醫(yī)學(xué)圖像對深度學(xué)習(xí)算法帶來的訓(xùn)練與計算困難也是研究者們無法回避的問題.
一方面,通過多種圖像降采樣方式降低圖像數(shù)據(jù)量的大小.Li 等人[55]在特定點x、y和z三個方向(或者說醫(yī)學(xué)圖像的橫斷面、矢狀位和冠狀位三個斷層方向)上各提取一幅二維圖像,將其疊加在一起組成三通道的2D 圖像作為網(wǎng)絡(luò)輸入,實驗驗證了該方法能提供與全3D圖像相近的識別性能.Duan等人[15]從心臟CMR三維體數(shù)據(jù)中選擇位于基底部(basal)、中部(mid-cavity)和心尖部(apical)軸位上的三個切片作為多通道矢量圖像(2.5D)作為網(wǎng)絡(luò)數(shù)據(jù)輸入.Yang 等人[22]從x,y,z軸方向?qū)?D 圖像轉(zhuǎn)換為三組2D 圖像,分別對每個軸采用CNN 分類方式實現(xiàn)2D 圖像包含有特定關(guān)鍵點的概率分布.三種方法如圖7所示.
圖7 三種不同的3D醫(yī)學(xué)圖像抽取方式可以有效降低醫(yī)學(xué)圖像數(shù)據(jù)量大對網(wǎng)絡(luò)計算帶來的壓力
另一方面,可選擇更為輕量級的深度學(xué)習(xí)網(wǎng)絡(luò)作為特征提取的主干網(wǎng)絡(luò),以解決使用類似V-Net的體系結(jié)構(gòu)對大量關(guān)鍵點檢測時遇到的內(nèi)存問題.Mader 等人[4]從深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)簡化入手,采用參數(shù)更少的卷積位姿機(jī)(Convolutional Pose Machines,CPM)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu);Probst 等人[23]為解決手術(shù)導(dǎo)航立體視覺中full-HD 圖像(分辨率為1920 像素×1080 像素)中的工具鉗尖端3 個關(guān)鍵點的快速檢測,提出了利用堆疊沙漏網(wǎng)絡(luò)將關(guān)鍵點檢測問題轉(zhuǎn)化為熱度圖回歸的任務(wù).Tiulpin 等人[16]采用相同的網(wǎng)絡(luò)結(jié)構(gòu)解決膝部X 線圖像中解剖關(guān)鍵點自動定位的問題.
醫(yī)學(xué)圖像(特別是3D 醫(yī)學(xué)圖像)數(shù)據(jù)量巨大是造成網(wǎng)絡(luò)模型參數(shù)占用動輒幾百兆字節(jié)甚至上G 字節(jié)的存儲空間,而網(wǎng)絡(luò)訓(xùn)練階段的誤差反向傳播更是帶來所占用GPU 內(nèi)存的成倍增大.現(xiàn)有的方法分別從降低網(wǎng)絡(luò)輸入數(shù)據(jù)和降低網(wǎng)絡(luò)規(guī)模兩個方面入手:文獻(xiàn)[15,22,55]充分利用了醫(yī)學(xué)圖像的特點,通過多種數(shù)據(jù)抽取降維方式實現(xiàn)數(shù)據(jù)量的大幅降低,從而得以利用通用的GPU 計算卡完成原本不可完成的任務(wù),并通過實驗驗證了數(shù)據(jù)抽取處理并未明顯降低關(guān)鍵點檢測精度;文獻(xiàn)[4,16,23]則選用參數(shù)量較U-Net 網(wǎng)絡(luò)更少的CPM、SHN網(wǎng)絡(luò)解決問題.
深度學(xué)習(xí)方法有效促進(jìn)了不同尺度和不同任務(wù)信息之間的融合,使得信息的結(jié)合方式由平面開始向立體方法發(fā)展,對于醫(yī)學(xué)圖像關(guān)鍵點檢測模型的發(fā)展具有突出的實際意義.正因為如此,本文對醫(yī)學(xué)圖像關(guān)鍵點檢測的深度學(xué)習(xí)方法進(jìn)行了梳理和綜述.從本文篩選出的在此研究領(lǐng)域具有特別貢獻(xiàn)的論文研究成果可知,研究者們結(jié)合各自的醫(yī)學(xué)應(yīng)用需求開展的特定醫(yī)學(xué)圖像上的關(guān)鍵點深度學(xué)習(xí)檢測算法中,大多有意識地去解決醫(yī)學(xué)標(biāo)注數(shù)據(jù)少、醫(yī)學(xué)圖像數(shù)據(jù)量大對CNN網(wǎng)絡(luò)帶來的訓(xùn)練與預(yù)測中的問題,并取得了良好的檢測與定位性能(需要注意的是,由于各自任務(wù)目標(biāo)、數(shù)據(jù)等不具有統(tǒng)一對比性,這里并未給出關(guān)鍵點定位精度的統(tǒng)計).
盡管已經(jīng)取得了良好的檢測效果,但進(jìn)一步提高醫(yī)學(xué)解剖關(guān)鍵點的檢測精度并將實現(xiàn)研究成果的臨床應(yīng)用還有較長的路要走.本文作者結(jié)合自身在這個領(lǐng)域的研究經(jīng)驗對其存在的關(guān)鍵難題和開放的研究方向給出一些思考和討論:①醫(yī)學(xué)圖像關(guān)鍵點個體間差異性和個體內(nèi)歧義性的固有特征無法回避,在這種情況下要實現(xiàn)高精度醫(yī)學(xué)關(guān)鍵點檢測,就需要建立一個充分挖掘醫(yī)學(xué)圖像關(guān)鍵點信息并能夠綜合應(yīng)用信息的最優(yōu)深度學(xué)習(xí)網(wǎng)絡(luò)框架,同時考慮可用的小規(guī)模醫(yī)學(xué)圖像數(shù)據(jù)集對網(wǎng)絡(luò)規(guī)模的限制;②深度學(xué)習(xí)只是解決問題的一種方法,同樣存在各種各樣的局限性,在很好地把握深度學(xué)習(xí)方法優(yōu)劣勢的基礎(chǔ)上,能夠結(jié)合幾十年累積起來的經(jīng)典的圖像處理方法和思路不失為明智的選擇,同時還要關(guān)注能對醫(yī)學(xué)圖像關(guān)鍵點檢測帶來啟發(fā)的其他計算機(jī)視覺、機(jī)器學(xué)習(xí)領(lǐng)域的新成果.
醫(yī)學(xué)圖像關(guān)鍵點檢測是一個十分重要的研究領(lǐng)域,具有重要的研究價值和廣泛的應(yīng)用前景.本文對近年來醫(yī)學(xué)圖像關(guān)鍵點檢測的深度學(xué)習(xí)方法研究進(jìn)行了分類梳理和詳細(xì)綜述,在所面臨的挑戰(zhàn)問題和研究趨勢方面,本文亦拋磚引玉,希望為相關(guān)科研人員進(jìn)一步深入了解醫(yī)學(xué)圖像關(guān)鍵點檢測問題并開展相關(guān)研究盡微薄之力.