張 瑞,程 超,沈琳琳,左長(zhǎng)京*
(1.深圳信息職業(yè)技術(shù)學(xué)院軟件學(xué)院,深圳 518172;2.海軍軍醫(yī)大學(xué)長(zhǎng)海醫(yī)院核醫(yī)學(xué)科,上海 200433;3.深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院,深圳 518060)
肺癌是發(fā)病率和死亡率增長(zhǎng)最快,對(duì)人群健康和生命威脅最大的惡性腫瘤之一。早期確診對(duì)提高肺癌患者的生存率具有重要意義[1]。影像學(xué)技術(shù)對(duì)于肺癌的確診起著關(guān)鍵作用[2],它可以發(fā)現(xiàn)肺部早癌細(xì)胞,保證對(duì)癌癥的早期診斷和治療。正電子發(fā)射斷層掃描/計(jì)算機(jī)斷層掃描(PET/CT混合成像)是用于檢測(cè)肺癌的重要三維掃描成像技術(shù)[3]。隨著影像掃描應(yīng)用的日益廣泛以及人工智能大數(shù)據(jù)時(shí)代的到來,利用PET/CT圖像進(jìn)行基于肺癌的計(jì)算機(jī)輔助診斷系統(tǒng)的研究越來越多[4-9]。Punithavathy等[10]提出了一種基于模糊C均值(FCM)聚類的方法自動(dòng)檢測(cè)PET/CT圖像中的肺癌。文獻(xiàn)[11]提出一種基于人工神經(jīng)網(wǎng)絡(luò)模型的肺癌CT圖像分割算法。Wang[12]比較了四種經(jīng)典機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法在PET/CT圖像中肺癌分類中的應(yīng)用。Ding[13]提出了一個(gè)新的基于深度卷積神經(jīng)網(wǎng)絡(luò)的肺結(jié)節(jié)檢測(cè)方法。Xie等[14]提出了一種融合3種類型信息(Fuse-TSD)的肺結(jié)節(jié)分類方法。文獻(xiàn)[15]通過基因數(shù)據(jù)與PET/CT影像數(shù)據(jù)相結(jié)合,提出了一種基于超體素的3D區(qū)域增長(zhǎng)的肺結(jié)節(jié)分割方法以及一種多級(jí)加權(quán)的深度森林模型用于肺腺癌亞型分類。文獻(xiàn)[16]提出了一種基于Mask R-CNN[17-18]的肺癌診斷方法。該方法僅針對(duì)PET數(shù)據(jù)進(jìn)行了多尺度深度學(xué)習(xí)模型構(gòu)建。文獻(xiàn)[19]提出了一種基于集成學(xué)習(xí)的對(duì)PET/CT圖像進(jìn)行肺癌檢測(cè)的方法,但該研究的數(shù)據(jù)量較少。文獻(xiàn)[20]利用了集成學(xué)習(xí)的思想對(duì)PET/CT數(shù)據(jù)對(duì)初代CNN進(jìn)行建模融合,實(shí)現(xiàn)了肺部腫瘤分類模型。
利用深度學(xué)習(xí)技術(shù)對(duì)PET/CT混合成像進(jìn)行肺癌診斷的研究具有重要意義。基于多模態(tài)圖像的肺癌智能檢測(cè)的研究中的一個(gè)研究難點(diǎn)就是如何有效利用PET及CT圖像特征減少檢測(cè)中出現(xiàn)的過多假陽性結(jié)果。本研究提出一個(gè)新的方法解決該難點(diǎn)。
本研究利用多尺度多模態(tài)的集成掩模區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask region-based convolutional neural network,Mask R-CNN)來解決偽陽性過多問題。首先建立5個(gè)Mask R-CNN模型用于肺癌候選區(qū)的抽取。5個(gè)模型基于PET與CT兩種模態(tài)數(shù)據(jù)生成:3個(gè)模型用3種不同尺度的PET圖像訓(xùn)練獲得,2個(gè)模型用不同尺度CT圖像訓(xùn)練生成。之后采用集成學(xué)習(xí)中的加權(quán)投票策略對(duì)5個(gè)Mask R-CNN模型進(jìn)行融合。方法框架流程如圖1所示。
圖1 基于多尺度Mask R-CNN的肺腫瘤檢測(cè)方法框架Fig.1 Framework of multi-scale Mask R-CNN based lung tumor detection approach
研究使用的圖片均來自上海長(zhǎng)海醫(yī)院核醫(yī)學(xué)部(圖片均已做脫敏處理)。利用西門子biograph64高清PET/CT掃描系統(tǒng)獲得PET/CT圖像進(jìn)行實(shí)驗(yàn)。共采集80個(gè)病患的PET/CT數(shù)據(jù)?;颊吣信藬?shù)分別為48和32;年齡為20~80;體重范圍為35~80 kg,身高范圍為150~180cm。本次研究的病患診斷的金標(biāo)準(zhǔn)為組織病理學(xué)檢查。本研究每個(gè)訓(xùn)練數(shù)據(jù)集包含來自62例肺癌患者的軸向橫斷面。其中PET數(shù)據(jù)訓(xùn)練集為594張軸向橫斷面,CT數(shù)據(jù)訓(xùn)練集為648張軸向橫斷面。測(cè)試數(shù)據(jù)包括270張軸位橫斷面,其中135個(gè)為PET橫斷面,135個(gè)為CT橫斷面:肺癌患者7例,PET橫斷面58張,CT橫斷面58張;正常人11例,PET橫斷面77張,CT橫斷面77張。圖片數(shù)據(jù)詳情信息見表1。
表1 訓(xùn)練數(shù)據(jù)及測(cè)試數(shù)據(jù)Tab 1 Training and test datas
F-score、Precision和Recall是人工智能癌癥檢測(cè)研究中最有效權(quán)威的評(píng)價(jià)指標(biāo)。在本研究中,我們也使用這3個(gè)參數(shù)作為評(píng)價(jià)指標(biāo)。F-score、Precision和Recall的計(jì)算方法如下:
(1)
(2)
(3)
其中TP表示真陽數(shù),F(xiàn)P表示假陽數(shù),F(xiàn)N表示假陰數(shù)[21]。Precision代表模型檢測(cè)出的陽性中正確陽性所占比例,Recall代表模型檢測(cè)出的陽性在所有正確陽性中所占比例。F-score是用來衡量二分類模型精確度的一種指標(biāo),它同時(shí)兼顧了分類模型的精確率和召回率,是最具有綜合性評(píng)價(jià)的指標(biāo)。
利用PET/CT混合成像生成5個(gè)訓(xùn)練數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)集1:分辨率為512×512的PET圖像數(shù)據(jù);訓(xùn)練數(shù)據(jù)集2:分辨率為768×768的PET圖像數(shù)據(jù);訓(xùn)練數(shù)據(jù)集3:分辨率為1024×1024的PET圖像數(shù)據(jù);訓(xùn)練數(shù)據(jù)集4:分辨率為768×768的CT圖像數(shù)據(jù);訓(xùn)練數(shù)據(jù)集5:分辨率為1280×1280的CT圖像數(shù)據(jù)。
PET和CT圖像的原始分辨率分別為168×168和512×512。PET和CT全身掃描分別由274個(gè)橫斷面組成,其中第40~120層的軸位橫斷面與肺區(qū)的位置相對(duì)應(yīng),故取第40~120層PET和CT橫斷面進(jìn)行實(shí)驗(yàn)。在來自兩名有資格且經(jīng)驗(yàn)豐富的讀影醫(yī)生指導(dǎo)下,使用“Labelme”軟件對(duì)所有訓(xùn)練圖像進(jìn)行標(biāo)記。原始PET/CT圖像和分割出肺癌的mask圖像都包含在訓(xùn)練集中,如圖2所示,左上圖和左下圖分別為PET和CT原圖;右上圖和右下圖分別為肺癌在PET掃描和CT掃描中的mask圖;中上圖是肺癌mask圖與PET原圖的疊加圖,中下圖為肺癌mask圖與CT原圖的疊加圖。
圖2 PET和CT訓(xùn)練數(shù)據(jù)示例Fig.2 Examples of training image
為了適應(yīng)不同分辨率和不同形態(tài)的肺癌大小,我們?cè)诿總€(gè)模型中設(shè)置了5個(gè)anchors的比例參數(shù):分辨率為512×512的PET圖片設(shè)置為4,8,16,32和64;分辨率為768×768的PET圖設(shè)置為8,16,32,64和128;分辨率為1024×1024的PET圖設(shè)置為16,32,64,128和256;分別率為768×768的CT圖像設(shè)置為16,32,64,128和512;分別率為1280×1280的CT圖像設(shè)置為32,64,128,512和1024。對(duì)于3個(gè)PET模型,batch size設(shè)置為8;每個(gè)epoch的步數(shù)=50;epoch數(shù)量=300,學(xué)習(xí)率=0.000 1。對(duì)于兩個(gè)CT模型,batch size=2;每個(gè)epoch的步數(shù)=200;epoch數(shù)量=300,學(xué)習(xí)率=0.000 1。
記錄為Model-PET512、Model-PET768和Model-PET1024的3個(gè)PET模型可以得到不同PET圖像尺度下的肺癌特征,為肺癌檢測(cè)提供更深入的特征和信息。記錄為Model-CT768和Model-CT1280的兩個(gè)CT模型可以從另一種模態(tài)的成像方式提取肺癌的特征。之后通過集成學(xué)習(xí)將5個(gè)Mask R-CNN單模型進(jìn)行組合以減少假陽性結(jié)果。
上步驟中的PET與CT訓(xùn)練圖像被用來訓(xùn)練生成PET與CT的Mask R-CNN模型。3個(gè)PET Mask R-CNN模型和兩個(gè)CT Mask R-CNN模型用于肺癌候補(bǔ)區(qū)的檢出。在這一步中,集成學(xué)習(xí)模型被用來將上一步驟的多尺度和多模態(tài)Mask R-CNN模型進(jìn)行集合。集成學(xué)習(xí)模型包括兩個(gè)部分:(1)癌癥候選區(qū)配準(zhǔn);(2)單模型集成。
(1)癌癥候選區(qū)配準(zhǔn)
圖3顯示了5個(gè)單模型中的癌癥候選區(qū)配準(zhǔn)過程。圖3(a)是測(cè)試圖像在Model-PET512、Model-PET768、Model-PET1024、Model-CT768和 Model-CT1280的測(cè)試結(jié)果,每個(gè)圓形代表檢測(cè)出來的陽性結(jié)果,即癌癥候選區(qū)(Mask)。在圖3(b)中,從 Model-PET512中的第一個(gè)癌癥候選區(qū)開始,該癌癥候選區(qū)被命名為Mask1,將其標(biāo)簽標(biāo)記為1并先后與其他四個(gè)單模型中的癌癥候選區(qū)Mask進(jìn)行比較配準(zhǔn):如果Mask1與Model-PET768中某個(gè)癌癥候選區(qū)的重疊率大于0.5,則將兩個(gè)癌癥候選區(qū)認(rèn)定為同一個(gè)區(qū)域,將Model-PET768中的癌癥候選區(qū)也標(biāo)記為1。同理這種匹配過程用于Model-PET512與其他3個(gè)模型的癌癥候選區(qū)配準(zhǔn)。當(dāng)Model-PET512中的所有的癌癥候選區(qū)都被配準(zhǔn)標(biāo)號(hào)后,再從Model-PET768中還未被匹配的癌癥候選區(qū)開始進(jìn)行與后續(xù)3個(gè)模型進(jìn)行配準(zhǔn)操作,如圖3(c)所示。以此類推5個(gè)模型中的所有癌癥候選區(qū)都可以進(jìn)行該配準(zhǔn)操作,如圖3(d)和(e)所示,即所有模型中的癌癥候選區(qū)都被標(biāo)號(hào)。圖3(f)為最后的配準(zhǔn)結(jié)果。
圖3 對(duì)于5個(gè)單模型的匹配過程Fig.3 Matching and labeling operation
(2) 單模型加權(quán)集成
使用集成學(xué)習(xí)中的加權(quán)投票過程將5個(gè)單模型集成。每一個(gè)癌癥候選區(qū)的置信度值被提取出來用做權(quán)值來進(jìn)行投票。對(duì)于具有同一個(gè)標(biāo)號(hào)的癌癥候選區(qū),即被認(rèn)定為同一Mask,將其置信度值進(jìn)行加和再重新賦值給這個(gè)癌癥候選區(qū)。如果最終的置信度值小于某個(gè)固定的值,則該癌癥候選區(qū)被認(rèn)定為假陽,否則認(rèn)定為真陽。
具有相同標(biāo)簽“i”的癌癥候選區(qū)被視為同一腫瘤候選區(qū),其表示為Maski;Ci表示其置信度。例如,Ci-PET512表示Model-PET512中Maski的置信度。Ci-PET512,Ci-PET768,Ci-PET1024,Ci-CT768,Ci-CT1280的值都在[0,1]的范圍內(nèi),其中0表示在模型中找不到匹配的癌癥候選區(qū)。具體集成投票操作偽代碼如表2所示:
表2 集成投票偽碼Tab.2 Pseudo code of voting
對(duì)集成模型和5個(gè)單模型結(jié)果及性能進(jìn)行了分析。圖4顯示了5個(gè)單模型和集成模型的Precision、Recall和F-score的對(duì)比直方圖。Model-PET512、Model-PET768、Model-PET1024、Model-CT768和Model-CT1280的Precision分別為0.87,0.83,0.72,0.69和0.75,說明每個(gè)單模型都有較多假陽性結(jié)果產(chǎn)生。集成模型的Precision為0.90,比性能最好的單模型Model-PET512高0.03。顯然,最精確的結(jié)果是由集成模型產(chǎn)生。Model-PET512、Model-PET768、Model-PET1024、Model-CT768和Model-CT1280的Recall分別為0.86,0.94,0.94,0.82和0.75,最優(yōu)單模型Model-PET768的值也低于集成模型0.06,說明集成模型對(duì)真陽結(jié)果的識(shí)別能力較好。最具代表性的綜合性評(píng)價(jià)指標(biāo)F-score在Model-PET512、Model-PET768、Model-PET1024、Model-CT768和Model-CT1280的值分別為0.86,0.88,0.82,0.75和0.75,集成模型中的F-score值為0.95,高于所有單模型。說明集成模型提取了最全面的特征,同時(shí)在減少偽陽性的誤診方面更加有效和精確。
圖4 集成模型和單模型precision,recall和F-score對(duì)比直方圖Fig.4 Comparative histograms of precision,recall and F-score between single model and integrated model
圖5顯示了單模型Model-PET512、Model-PET768、Model-PET1024、Model-CT768、Model-CT1280和集成模型的P-R曲線。從圖4可以看出,與5個(gè)單模型相比集成模型性能最好。說明集成模型可以融合五種單模型的優(yōu)點(diǎn)。雖然每個(gè)單模型都會(huì)產(chǎn)生許多假陽性結(jié)果,但5個(gè)單模型的假陽性結(jié)果在空間位置上呈現(xiàn)交錯(cuò)分布,見圖6。這五張圖片來自同一個(gè)病人的同一個(gè)位置。左上圖為Model-PET512試驗(yàn)結(jié)果,中上圖為Model-PET768試驗(yàn)結(jié)果,右上圖為Model-PET1024試驗(yàn)結(jié)果,左下圖為Model-CT768實(shí)驗(yàn)結(jié)果,右下為Model-CT1280實(shí)驗(yàn)結(jié)果。經(jīng)過測(cè)試后,Model-PET512出現(xiàn)假陽性結(jié)果,但由于在其他四個(gè)單模型中未提取出該假陽性結(jié)果,因此集成模型中該候選肺癌的加權(quán)投票值為0.983。由于該值較低,該候選癌癥在集成學(xué)習(xí)中會(huì)被認(rèn)定是假陽性結(jié)果,因此假陽性結(jié)果可以順利排除。將這五種模型集成起來,從空間分布和加權(quán)置信度兩個(gè)角度對(duì)每個(gè)癌癥候選區(qū)進(jìn)行分析和識(shí)別可以有效減少假陽性結(jié)果的發(fā)生,因此集成模型對(duì)肺癌檢測(cè)的有效性更為顯著。
圖5 單模型與集成模型P-R曲線Fig.5 P-R curves for single model and integrated model
圖6 假陽性的交錯(cuò)分布示例Fig.6 Staggered spatial distribution for false positives
本節(jié)比較了集成學(xué)習(xí)中的2種投票策略:簡(jiǎn)單投票和加權(quán)投票。簡(jiǎn)單投票使用1作為權(quán)重,5票被視為陽性結(jié)果的標(biāo)準(zhǔn)。加權(quán)投票和簡(jiǎn)單投票的Precision、Recall和F-score的數(shù)值如圖7所示。簡(jiǎn)單投票和加權(quán)投票的precision值都為0.90;加權(quán)投票的recall為1,比簡(jiǎn)單投票高0.26。加權(quán)投票的F-score值為0.95,比簡(jiǎn)單投票高0.09。與簡(jiǎn)單投票相比,加權(quán)投票策略將Mask R-CNN產(chǎn)生的置信度作為分析和識(shí)別癌癥的重要指標(biāo),有效的減少了假陽性結(jié)果,加權(quán)投票方法的性能優(yōu)于簡(jiǎn)單投票方法。
圖7 簡(jiǎn)單投票和加權(quán)投票的對(duì)比直方圖Fig.7 Comparative histograms of precision,recall and F-score between major voting and weighted voting
集成模型由于兼具了不同單模型所提取出來的特征,因此具有比單模型更優(yōu)的肺癌檢測(cè)結(jié)果。將該集成模型與由3個(gè)最優(yōu)單模型(Model-PET512、Model-PET768、Model-CT768)集成的Integrated Model-3[19]進(jìn)行對(duì)比可以看出,本次實(shí)驗(yàn)的5個(gè)單模型集成效果更優(yōu)。將單模型Model-CT512和Model-CT1024相繼累加集成到本實(shí)驗(yàn)的集成模型上,分別生成模型Integrated Model-6和Integrated Model-7,通過其對(duì)應(yīng)的PR曲線對(duì)比圖和F-score對(duì)比圖的圖8可以看出,模型Integrated Model-6和Integrated Model-7效果沒有更優(yōu)。本文提出的方法F-score值為0.95,其他集成模型的F-score值:Integrated Model-3為0.94:Integrated Model-6為0.93:Integrated Model-7為0.92。說明數(shù)量過多的單模型進(jìn)行集成不會(huì)使模型的精度提升,5個(gè)單模型進(jìn)行集成的集成模型已經(jīng)達(dá)到了最優(yōu)的結(jié)果。
圖8 集成模型規(guī)模對(duì)比圖Fig.8 Comparative P-R curves and histograms of different Integrated Models
本研究提出了一種對(duì)PET/CT混合成像進(jìn)行人工智能肺癌檢測(cè)的基于多模態(tài)多尺度的Mask R-CNN集成學(xué)習(xí)新方法。集成學(xué)習(xí)是一種有效的將多個(gè)學(xué)習(xí)個(gè)體模型進(jìn)行融合,使其可以執(zhí)行深層次學(xué)習(xí)任務(wù)的框架思想,是目前多尺度多維度的深度學(xué)習(xí)熱點(diǎn)研究方向之一。本研究結(jié)合不同尺度的CT特征和PET特征提取候選癌癥區(qū)域,并利用集成學(xué)習(xí)將5個(gè)模型融合從而減少偽陽性結(jié)果數(shù)量。本研究使用的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)總和達(dá)到了1512個(gè)PET/CT橫截面,對(duì)比文獻(xiàn)[19],本研究實(shí)驗(yàn)中的病患人數(shù)增加了26例,增幅為48%,訓(xùn)練數(shù)據(jù)數(shù)量增加了712個(gè)橫斷面,增幅為89%;測(cè)試數(shù)據(jù)量增加了110個(gè)橫斷面,增幅為69%;研究總數(shù)據(jù)量增加了552個(gè)橫斷面,總數(shù)據(jù)量增幅為59%。同時(shí)在集成方法上,本次研究采用了5個(gè)模型共同集成,比單模型所提取出來的特征更加詳實(shí),實(shí)驗(yàn)結(jié)果也證明本次實(shí)驗(yàn)所得到的訓(xùn)練模型相比文獻(xiàn)[19]的三模型集成的準(zhǔn)確率更高更穩(wěn)定。文獻(xiàn)[20]采用初代深度學(xué)習(xí)模型CNN LeNet-5進(jìn)行建模,該深度學(xué)習(xí)模型主要用于圖像的分類問題。方法需要首先對(duì)PET/CT圖像進(jìn)行事先的病灶手動(dòng)分割,以分割出的病灶圖塊作為實(shí)驗(yàn)的輸入。因此該文獻(xiàn)方法實(shí)現(xiàn)了對(duì)肺癌病灶的分類,并不具有對(duì)整張PET/CT圖像進(jìn)行肺癌檢測(cè)功能;同時(shí)方法采用少數(shù)服從多數(shù)的投票對(duì)3個(gè)分割圖構(gòu)成的模型進(jìn)行集成。對(duì)比該方法,我們使用了最新的深度學(xué)習(xí)模型Mask-R CNN,并且以整張圖片作為檢測(cè)對(duì)象的輸入實(shí)現(xiàn)了肺癌的檢測(cè),同時(shí)我們?cè)黾恿烁喑叨鹊腜ET、CT圖像模型特征進(jìn)行集成;并采用了加權(quán)投票的方式進(jìn)行多模型的融合,將每個(gè)mask的置信度作為投票權(quán)值,對(duì)已經(jīng)進(jìn)行了空間位置配準(zhǔn)的癌癥候選區(qū)進(jìn)行置信度的加和集成。本研究對(duì)加權(quán)投票和少數(shù)服從多數(shù)的簡(jiǎn)單投票也進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文的方法的Precision、Recall及F-score高于簡(jiǎn)單投票的對(duì)應(yīng)結(jié)果,本研究方法實(shí)現(xiàn)了肺癌的檢測(cè)并且可以完成更準(zhǔn)確的肺癌分類。
本研究提出了一種對(duì)PET/CT混合成像進(jìn)行人工智能肺癌檢測(cè)的基于多模態(tài)多尺度的Mask R-CNN集成學(xué)習(xí)新方法。該方法結(jié)合不同尺度的PET特征和CT特征提取候選癌癥區(qū)域,并利用集成學(xué)習(xí)將5個(gè)模型融合從而減少偽陽性結(jié)果數(shù)量。實(shí)驗(yàn)結(jié)果表明,相比于單模型及簡(jiǎn)單投票集成,本文的集成模型可以提高肺癌的檢測(cè)性能,并有效地減少假陽性結(jié)果。因此,本文方法可以為醫(yī)生提供有效的輔助診斷信息。