潘沛克 王艷 羅勇 周激流
摘 要:鼻咽腫瘤生長方向不確定,解剖結(jié)構(gòu)復(fù)雜,當(dāng)前主要依靠醫(yī)生手動分割,該方法耗時久同時嚴(yán)重依賴于醫(yī)生的經(jīng)驗。針對這一問題,基于深度學(xué)習(xí)理論,提出一種基于U-net模型的全自動鼻咽腫瘤MR圖像分割算法,利用卷積操作替換原始U-net模型中的最大池化操作以減少特征信息的損失。首先,從所有患者的腫瘤切片中提取大小為128×128的區(qū)域作為數(shù)據(jù)樣本;然后,將患者樣本分為訓(xùn)練樣本集和測試樣本集,并對訓(xùn)練樣本集進(jìn)行數(shù)據(jù)擴(kuò)充;最后,選擇訓(xùn)練樣本集中所有數(shù)據(jù)用于訓(xùn)練網(wǎng)絡(luò)模型。為了驗證所提模型的有效性,選取測試樣本集中患者的所有腫瘤切片進(jìn)行分割,最終平均分割精度可達(dá)到:DSC(Dice Similarity Coefficient)為80.05%,PM系數(shù)為85.7%,CR系數(shù)為71.26%,ASSD(Average Symmetric Surface Distance)指標(biāo)為1.1568。與基于圖像塊的卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,所提算法DSC,PM(Prevent Match)、CR(Correspondence Ratio)系數(shù)分別提高了9.86個百分點、19.61個百分點、16.02個百分點,ASSD指標(biāo)下降了0.4364;與全卷積神經(jīng)網(wǎng)絡(luò)(FCN)模型及基于最大池化的U-net網(wǎng)絡(luò)相比,所提算法的DSC、CR系數(shù)均取得了最優(yōu)結(jié)果,PM系數(shù)較兩種對比模型中的最大值低2.55個百分點,ASSD指標(biāo)較兩種對比模型中的最小值略高出0.0046。實驗結(jié)果表明,所提算法針對鼻咽腫瘤圖像可以實現(xiàn)較好的自動化分割效果以輔助醫(yī)生進(jìn)行診斷。
關(guān)鍵詞:鼻咽腫瘤;醫(yī)學(xué)圖像分割;深度學(xué)習(xí)模型;端到端模型;U-net模型
中圖分類號:TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-9081(2019)04-1183-06
Abstract: Because of the uncertain growth direction and complex anatomical structure for nasopharyngeal tumors, doctors always manually delineate the tumor regions in MR images, which is time-consuming and the delineation result heavily depends on the experience of doctors. In order to solve this problem, based on deep learning algorithm, a U-net based MR image automatic segmentation algorithm of nasopharyngeal tumors was proposed, in which the max-pooling operation in original U-net model was replaced by the convolution operation to keep more feature information. Firstly,the regions of 128×128 were extracted from all slices with tumor regions of the patients as data samples. Secondly, the patient samples were divided into training sample set and testing sample set, and data augmentation was performed on the training samples. Finally, all the training samples were used to train the model. To evaluate the performance of the proposed U-net based model, all slices of patients in testing sample set were selected for segmentation, and the final average results are: Dice Similarity Coefficient (DSC) is 80.05%, Prevent Match (PM) coefficient is 85.7%, Correspondence Ratio (CR) coefficient is 71.26% and Average Symmetric Surface Distance (ASSD) is 1.1568. Compared with Convolutional Neural Network (CNN) based model, DSC, PM and CR coefficients of the proposed method are increased by 9.86 ?percentage points, 19.61 ?percentage points and 16.02 ?percentage points respectively, and ASSD is decreased by 0.4364. Compared with Fully Convolutional Network (FCN) model and max-pooling based U-net model, DSC and CR coefficients of the proposed method achieve the best results, while PM coefficient is 2.55 ?percentage points lower than the maximum value in the two comparison models, and ASSD is slightly higher than the minimum value of the two comparison models by 0.0046. The experimental results show that the proposed model can achieve good segmentation results of nasopharyngeal neoplasm, which assists doctors in diagnosis.
Key words: nasopharyngeal neoplasm; medical image segmentation; deep learning model; end-to-end model; U-net model
0?引言
醫(yī)學(xué)圖像在臨床診斷中發(fā)揮著極其重要的作用。近年來,隨著醫(yī)學(xué)成像技術(shù)的進(jìn)步和圖像處理技術(shù)的不斷發(fā)展,針對醫(yī)學(xué)圖像的圖像處理技術(shù)逐漸發(fā)展成為一個重要的研究領(lǐng)域,其中醫(yī)學(xué)圖像分割更是一個具有很高臨床應(yīng)用價值的研究方向。醫(yī)學(xué)圖像分割技術(shù)的目的是通過設(shè)計自動或半自動的分割算法,將醫(yī)學(xué)圖像中醫(yī)生感興趣的部分分割出來,并使分割結(jié)果盡可能地接近該區(qū)域的原始結(jié)構(gòu)。醫(yī)學(xué)圖像分割在臨床診斷、病理診療方面具有重要意義,利用分割后的圖像測量病灶體積可以輔助醫(yī)生確定病情以制定治療計劃,利用腫瘤分割圖像可以輔助醫(yī)生標(biāo)定放療靶區(qū)。在醫(yī)學(xué)圖像分割問題中,針對腫瘤的圖像分割問題是一個難點,其中針對鼻咽腫瘤的分割尤其困難。
鼻咽腫瘤是一種常見的惡性頭頸部腫瘤,其生長于鼻咽部位置,具有較高的致死率。鼻咽腫瘤多發(fā)于中國的南部地區(qū)、中東地區(qū)、東南亞地區(qū)以及北非地區(qū)[1],根據(jù)一份公開的報道[2],2012年在世界范圍內(nèi)有超過8萬例的新增鼻咽腫瘤患者被診斷出,有3萬例患者因患鼻咽腫瘤死亡,在這些患者中,有大量患者被檢出時已是腫瘤晚期,因而錯過了最佳的治療階段。當(dāng)前,醫(yī)生對鼻咽腫瘤的診斷大部分基于病人的核磁共振成像(Magnetic Resonance Imaging, MRI)圖像,通過醫(yī)生的手工勾畫實現(xiàn)對MRI圖像中鼻咽腫瘤區(qū)域的提取。手工勾畫的方式主要存在兩個問題:一是耗時長,醫(yī)生需要花費大量的時間為病人勾畫腫瘤區(qū)域,效率低下;第二是手工勾畫結(jié)果嚴(yán)重依賴于醫(yī)生的經(jīng)驗,對于同一個病人的MRI圖像不同醫(yī)生可能得到不同的勾畫結(jié)果。針對傳統(tǒng)的由醫(yī)生手工進(jìn)行勾畫存在的問題,一些研究人員開始研究自動化或半自動化的鼻咽腫瘤圖像分割算法,通過軟件對鼻咽腫瘤區(qū)域進(jìn)行分割,從而輔助醫(yī)生進(jìn)行鼻咽腫瘤的診斷和治療。
1?國內(nèi)外研究現(xiàn)狀
當(dāng)前,在醫(yī)學(xué)圖像分割領(lǐng)域,已經(jīng)有大量應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)算法的模型,這些模型被廣泛應(yīng)用到如腦腫瘤分割、海馬體分割等領(lǐng)域[3-5]。但對于鼻咽腫瘤分割,由于鼻咽腫瘤生長區(qū)域不確定,在電子計算機(jī)斷層掃描(Computed Tomography, CT)圖像和MRI圖像中邊界不明顯,同時鼻咽部解剖結(jié)構(gòu)復(fù)雜,包含多種組織,且鼻咽腫瘤區(qū)域常與正常組織發(fā)生混疊,因此針對鼻咽腫瘤的分割十分困難。當(dāng)前國內(nèi)外對鼻咽腫瘤自動分割算法的研究較少,但仍有一些研究學(xué)者在該領(lǐng)域作出了卓有成效的工作。如Tatanun等[6]提出了一種基于區(qū)域生長的分割算法,該算法利用像素點灰度值、非腫瘤區(qū)域等先驗知識初始化種子點實現(xiàn)對鼻咽腫瘤CT圖像的分割;Fitton等[7]采用加權(quán)CT及MRI圖像進(jìn)行鼻咽腫瘤分割,該方法基于一種交互的方式,以醫(yī)生初步勾畫的腫瘤區(qū)域為基準(zhǔn)進(jìn)行優(yōu)化,該方法在一定程度上可以提高分割效率,但無法顯著提升腫瘤分割精度;Huang等[8]提出了一種基于最大熵的隱馬爾可夫隨機(jī)場模型對鼻咽腫瘤MRI圖像進(jìn)行分割;Zhou等[9]提出了一種基于支持向量機(jī)的模型,其將T1權(quán)重及加權(quán)的T1權(quán)重MRI圖像的特征投影到多維空間,通過支持向量機(jī)對多維空間中的特征進(jìn)行分類,從而實現(xiàn)對鼻咽腫瘤圖像的分割。
近些年來,隨著深度學(xué)習(xí)的發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)及其變種的模型被廣泛應(yīng)用于醫(yī)學(xué)圖像處理的各個領(lǐng)域中并取得了相當(dāng)好的效果[10-12]。其中醫(yī)學(xué)圖像分割是最為常見的一類研究課題,而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)及其變種是醫(yī)學(xué)圖像分割問題中最為常見的算法模型之一。如Ciresan等[13]利用二維卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了對電子顯微鏡成像圖像的分割;Zhang等[14]利用深度卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)對多模態(tài)腦部圖像的分割。雖然這些基于CNN的算法模型在相關(guān)問題上已經(jīng)取得了較好的表現(xiàn),但是這些方法都存在著共同的問題,即:所有網(wǎng)絡(luò)都是以圖像塊作為輸入,大量重疊的圖像塊帶來的冗余計算增大了對網(wǎng)絡(luò)進(jìn)行測試的時間開銷,同時圖像塊大小會影響所訓(xùn)練網(wǎng)絡(luò)的性能。針對這一問題,有很多研究人員開始采用基于全卷積神經(jīng)網(wǎng)絡(luò)的模型來解決圖像分割問題,全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[15]是一種端到端模型,它可以將整張圖片作為網(wǎng)絡(luò)的輸入并生成相應(yīng)整張圖片輸出,從而避免了使用圖像塊帶來的問題。
雖然目前深度學(xué)習(xí)模型被廣泛應(yīng)用到醫(yī)學(xué)圖像分割中,但針對鼻咽腫瘤的深度學(xué)習(xí)算法模型還很少,受此啟發(fā),本文基于深度學(xué)習(xí)理論,提出一種基于U-net模型[16]的鼻咽腫瘤分割算法,U-net模型作為一種端到端模型,因其在少量訓(xùn)練數(shù)據(jù)下仍能獲得較好的訓(xùn)練效果因而適用于往往只有少量可用數(shù)據(jù)的醫(yī)學(xué)圖像處理領(lǐng)域。
2?相關(guān)知識
2.1?線性整流激活函數(shù)
相對于最原始的感知機(jī)結(jié)構(gòu)不采用激活函數(shù),輸出始終是輸入的線性組合。
在當(dāng)前的神經(jīng)網(wǎng)絡(luò)模型中,往往在卷積層之后引入非線性激活函數(shù),從而使得神經(jīng)網(wǎng)絡(luò)的輸出不再是輸入的線性組合,因此相關(guān)網(wǎng)絡(luò)模型理論上可以逼近任意函數(shù),從而有效地提升了網(wǎng)絡(luò)模型的表達(dá)能力。常用的非線性激活函數(shù)主要有:sigmoid函數(shù)、tanh函數(shù)、線性整流(Rectified Linear Unit, ReLu)函數(shù)及maxout函數(shù)。其中ReLu激活函數(shù)定義如下:
相對于sigmoid函數(shù)和tanh函數(shù)由于飽和區(qū)域帶來的梯度消失的問題,ReLu激活函數(shù)采用單側(cè)抑制非飽和計算公式,能有效解決深層網(wǎng)絡(luò)的收斂問題并加速收斂過程。同時相對于maxout函數(shù),ReLu函數(shù)參數(shù)數(shù)量較少,更易于使用。當(dāng)前ReLu函數(shù)被廣泛應(yīng)用于各類網(wǎng)絡(luò)模型中,在本文網(wǎng)絡(luò)結(jié)構(gòu)中同樣選擇采用ReLu函數(shù)作為激活函數(shù)。