曹佳智 任佑祥 陳科 林江莉 黃河 李加伍 凌文武 羅燕
(1.四川大學(xué)華西醫(yī)院超聲醫(yī)學(xué)科,四川 成都 610041; 2.四川大學(xué)材料科學(xué)與工程學(xué)院生物醫(yī)學(xué)工程系,四川 成都 610065)
原發(fā)性肝癌嚴(yán)重威脅著人類的生命健康[1],最常見的兩種病理類型為肝細(xì)胞癌(Hepatocellular carcinoma, HCC)與肝內(nèi)膽管細(xì)胞癌(Intrahepatic cholangiocarcinoma, ICC),分別占原發(fā)性肝癌的75%~85%與10%~15%[1-2]。雖然ICC的發(fā)病率相對較低,但惡性程度更高,可切除率低,預(yù)后極差[3-5],且與HCC的治療手段存在顯著差異。因此,準(zhǔn)確鑒別兩者對治療方案的選擇及改善預(yù)后都很關(guān)鍵。影像學(xué)是術(shù)前診斷ICC和HCC的首選方法,研究顯示超聲造影(Contrast-enhancedultrasound, CEUS)、增強CT及MRI對ICC的診斷準(zhǔn)確率相似,但有些ICC可表現(xiàn)出同HCC類似的“快進(jìn)快出”增強影像學(xué)特點[6-7],尤其是在慢性肝病背景下的ICC,近一半病例的CEUS特點與HCC類似[8-9],故術(shù)前影像學(xué)檢查對鑒別二者仍有一定的困難。深度學(xué)習(xí)(Deep learning, DL)的出現(xiàn)為醫(yī)學(xué)圖像的識別和分析診斷提供了新的思路,是目前人工智能(Artificial intelligence, AI)領(lǐng)域最受關(guān)注和被廣泛研究的技術(shù),包括卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)、深度信念網(wǎng)絡(luò)(Deep belief network, DBN)等多種模型,而CNN被認(rèn)為效果最優(yōu)。Sarraf等[10]應(yīng)用CNN來區(qū)分正常大腦和患阿爾茨海默病的大腦,顯示該模型準(zhǔn)確率高達(dá)96.85%。Yasaka等[11]基于增強CT的CNN鑒別肝臟良惡性腫瘤的研究顯示,其診斷準(zhǔn)確性為84%。這些研究均表明基于醫(yī)學(xué)圖像的DL能夠?qū)膊∵M(jìn)行很好的分類和鑒別。但關(guān)于聯(lián)合多模態(tài)超聲圖像的DL用于ICC及HCC的分類鑒別還罕見報道。因此,本研究在回顧性納入相對較多的ICC與HCC病例樣本基礎(chǔ)上,探討基于單獨B-mode圖像、CEUS圖像、聯(lián)合B-mode及CEUS圖像的不同CNN模型對鑒別診斷ICC與HCC的效能,為其鑒別診斷提供新的思路和方法。
1.1 一般資料 回顧性分析2011年1月—2018年5月在四川大學(xué)華西醫(yī)院超聲科進(jìn)行肝臟占位性病變超聲檢查的病例,最終納入305例ICC和945例HCC,其中ICC中有205例進(jìn)行了CEUS檢查,所有HCC病例均進(jìn)行了CEUS檢查。采用隨機(jī)編號的方式從205例ICC和945例HCC病例中各選出50例作為模型測試組,剩下所有病例作為模型訓(xùn)練組。納入標(biāo)準(zhǔn)(同時滿足):①經(jīng)手術(shù)或穿刺活檢病理證實為ICC或HCC。②既往肝臟有明確病理診斷信息,如有無肝纖維化或肝硬化等。③基本臨床信息完整,包括性別、年齡、HBV及HCV的檢測、腫瘤標(biāo)志物如AFP、CA19-9等。排除標(biāo)準(zhǔn)(滿足其中任意一項):①在肝臟超聲檢查前已進(jìn)行過肝臟局部或全身治療的病例,如肝臟部分切除、放化療、局部消融等。②肝臟超聲或CEUS圖像缺失。③超聲圖像模糊或有偽影遮擋,影響圖像分析。
1.2 儀器與檢查方法 常規(guī)超聲檢查儀器主要包括Philips iU22彩色多普勒超聲診斷儀(Royal Philips, the Netherlands),配備C5-1凸陣探頭,頻率為1~5 MHz,以及L9-3線陣探頭,頻率為3~9 MHz;Philips HDI 5000彩色多普勒超聲診斷儀(Royal Philips, the Netherlands),配備C5-2凸陣探頭,頻率為2~5 MHz;GE LOGIQ E9 彩色多普勒超聲診斷儀(GE Healthcare, Milwaukee, WI),配備C5-1凸陣探頭,頻率為1~5 MHz;CEUS檢查采用的是PhilipsiU22彩色多普勒超聲診斷儀及C5-1凸陣探頭,配備了CEUS軟件。對全肝進(jìn)行掃查,記錄病灶的常規(guī)超聲表現(xiàn)并存儲圖像。CEUS檢查使用的造影劑為Sono Vue(Bracco,Milano,Italy),使用時現(xiàn)場用5 mL生理鹽水配置成微泡混懸液,抽取2.4 mL造影劑經(jīng)肘靜脈快速團(tuán)注,然后立即用5 mL生理鹽水沖管,完成注射的同時開啟計數(shù)器;對于多發(fā)病灶的患者,選取最大病灶作為觀察目標(biāo),記錄相關(guān)圖像特征,并存儲實時的CEUS視頻或不同時相的圖片,用于后續(xù)的脫機(jī)分析。根據(jù)EFSUMB的CEUS指南,將其分為動脈期(注射造影劑后6~30 s)、門脈期(31~120 s)及延遲期(>120 s)。
1.3 研究流程 研究分為訓(xùn)練階段和測試階段。訓(xùn)練階段主要是構(gòu)建鑒別診斷ICC與HCC的CNN模型;測試階段為評估已構(gòu)建好的模型性能。
1.4 圖像預(yù)處理
1.4.1 超聲圖像感興趣區(qū)的標(biāo)定 對所有超聲圖像進(jìn)行腫瘤范圍感興趣區(qū)(Region of interest,ROI)標(biāo)記,所有標(biāo)記均由一位5年以上和另一位10年以上CEUS檢查經(jīng)驗的醫(yī)師共同協(xié)商完成。采用“四點法”進(jìn)行標(biāo)定,每個點均距腫塊中心最遠(yuǎn),且經(jīng)上述四個點能畫出將腫塊容納在內(nèi)的矩形框,見圖1。
圖1 腫瘤ROI標(biāo)定Figure 1 Labeling of liver tumor ROI on the sonogram
1.4.2 超聲圖像中ROI的截取 進(jìn)行ROI截取時,其周圍留出部分非腫瘤區(qū)域,在外周形成一個比腫瘤ROI更大的區(qū)域(見圖2黃色框所示),且分割線與聲像圖上腫塊之間的距離進(jìn)行了隨機(jī)變化,即圖中黃色框與藍(lán)色框之間的距離均在腫瘤短徑的1/8~3/8內(nèi)隨意變動(見圖2)。將截取的圖像用于訓(xùn)練及驗證模型的研究。
圖2 腫瘤ROI截取Figure 2 ROI interception of liver tumor on the sonogram
1.4.3 數(shù)據(jù)增強 數(shù)據(jù)增強主要用于訓(xùn)練集的圖像數(shù)據(jù)中,在每次將所截取的超聲圖像輸入CNN前,對圖像進(jìn)行一些隨機(jī)變換的處理,以增加圖像數(shù)據(jù)量和多樣性。數(shù)據(jù)增強方式主要包括四種:隨機(jī)翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、隨機(jī)亮度、隨機(jī)對比度。①以隨機(jī)函數(shù)決定是否進(jìn)行左右翻轉(zhuǎn)(翻轉(zhuǎn)或不翻轉(zhuǎn))(見圖3)。②隨機(jī)翻轉(zhuǎn)后再行隨機(jī)旋轉(zhuǎn)處理,以截取的圖像中心為軸心,在二維平面上隨機(jī)旋轉(zhuǎn),旋轉(zhuǎn)角度范圍為-5°至+5°(見圖4)。③隨機(jī)旋轉(zhuǎn)后,對圖像進(jìn)行隨機(jī)亮度的變換。
圖3 圖像左右翻轉(zhuǎn)Figure 3 The left and right flip of the image注:A.為正常截取的ICC聲像圖;B.A圖經(jīng)水平翻轉(zhuǎn)后。
圖4 圖像隨機(jī)翻轉(zhuǎn)Figure 4 Random flip of the image注:A.正常截取的ICC聲像圖;B、C.經(jīng)隨機(jī)旋轉(zhuǎn)后的聲像圖。
上述公式中隨機(jī)數(shù)γ的取值范圍為(0.6, 1.4)。所以訓(xùn)練集圖像的數(shù)據(jù)增強過程根據(jù)①~④步驟順序進(jìn)行,以增加訓(xùn)練集的圖像數(shù)據(jù)量。
1.4.4 對截取后的肝臟超聲圖像進(jìn)行統(tǒng)一縮放 將所有截取后的ROI均縮放至224×224,這樣可加快網(wǎng)絡(luò)的收斂(使損失函數(shù)越來越小),從而提升網(wǎng)絡(luò)模型的訓(xùn)練速度。
1.5 CNN基本結(jié)構(gòu)研究 采用的DL模型為CNN,基本結(jié)構(gòu)包括卷積層、激活函數(shù)、池化層、全連接層及Softmax層[12]。
1.5.1 卷積層 卷積層的主要作用是提取輸入圖像中的特征。本研究采用的卷積核大小為3×3,卷積核與原始圖像的任何3×3像素矩陣的卷積都遵循離散二維卷積公式[13]:X(i,j)=Σm=0Σn=0A(m,n)*B(i-m,j-n)
X表示卷積結(jié)果,A表示卷積核,B表示被卷積矩陣(原始圖像),即X00=B00A00+B01A01+B02A02+B10A10+B11A11+B12A12+B20A20+B21A21+B22A22。
1.5.2 激活函數(shù) 本研究中采用的激活函數(shù)是ReLU,其作用是在卷積層輸出的矩陣中正值不變的情況下,將負(fù)值歸為0,從而抑制了負(fù)向取值,有利于增加模型的非線性元素,更好的提取相關(guān)特征,進(jìn)而提高其處理復(fù)雜問題的能力。ReLU函數(shù)表達(dá)為[14]:
1.5.3 池化層輸出的卷積特征 經(jīng)激活函數(shù)后與池化層(pooling layer)相連,本研究采用的是最大池化,卷積步長為2。
1.5.4 全連接層和Softmax層 全連接層(Fully-conntected layer,FC)也含有多個神經(jīng)元,它是以前面所有卷積層、池化層所獲得的特征為輸入,其特點是該層的每個神經(jīng)元都與上一層所有神經(jīng)元相連。Softmax層是神經(jīng)網(wǎng)絡(luò)的最后一層,其作用是對CNN所獲取的特征進(jìn)行最終分類,以概率輸出[15]。損失函數(shù)主要作用是評價模型輸出結(jié)果與真實標(biāo)簽之間差異的大小,數(shù)值越小表示差異越小。本研究采用分類交叉熵作為損失函數(shù),以避免訓(xùn)練時梯度消失的情況。
1.6 構(gòu)建訓(xùn)練模型
1.6.1 訓(xùn)練的圖像數(shù)據(jù) 在模型訓(xùn)練過程中,訓(xùn)練集及驗證集所用圖像數(shù)據(jù)為研究對象中的訓(xùn)練組。 ICC和HCC均按照B-mode、動脈期、門脈期及延遲期分別存入不同文件夾中,然后共同歸入訓(xùn)練組,文件夾中以病例為單位進(jìn)行歸類。
1.6.2 CNN模型 CNN模型(Keras框架中集成)包括VGG16[16]、InceptionV3[17]、Inception-ResNet V2[18]、多圖VGG及多圖Inception共5個CNN模型。
1.7 模型測試及效能評價 測試的圖像數(shù)據(jù)為研究對象中的測試組,即隨機(jī)選取的50例ICC和50例HCC。模型測試只需要將測試組的圖像數(shù)據(jù)根據(jù)訓(xùn)練時的圖像組合方式輸入到相應(yīng)的預(yù)測模型中即可,然后這些模型分別預(yù)測所輸入的圖像為ICC和HCC的概率,兩者概率之和為1,最終以圖像預(yù)測為ICC的概率作為輸出結(jié)果。以真實標(biāo)簽為依據(jù),評價不同模型對鑒別測試組中ICC與HCC的診斷效能。
2.1 訓(xùn)練組及測試組病例基本信息 模型測試組和模型訓(xùn)練組基本信息,見表1。最終共納入超聲圖像7427幅,其中訓(xùn)練組中含有常規(guī)超聲聲像圖即B-mode圖像2572幅,CEUS動脈期聲像圖1486幅,門脈期聲像圖1248幅,延遲期聲像圖1294幅;測試組中包括B-mode圖像302幅,動脈期聲像圖206幅,門脈期聲像圖150幅,延遲期聲像圖169幅,見表2。
表1 訓(xùn)練組及測試組病例基本信息Table 1 Characteristics of patients in the training group and test group
表2 測試組及訓(xùn)練組圖像數(shù)量分布(單位:幅)Table 2 The distribution of the number of images in the test group and training group
2.2 CNN預(yù)測模型鑒別ICC與HCC的診斷效能
2.2.1 基于單獨B-mode圖像的CNN診斷效能 基于單獨B-mode圖像的CNN模型鑒別診斷ICC與HCC的效能均不理想,其中VGG16的AUC為0.672,診斷效能稍優(yōu)于其它兩個模型,差異有統(tǒng)計學(xué)意義(P<0.05),但這3個模型的特異性都較低,見表3。
表3 基于單獨B-mode圖像的CNN模型鑒別診斷ICC與HCC的效能Table 3 Diagnostic performance of CNN model based on the B-mode images to discriminate between ICC and HCC
2.2.2 基于CEUS圖像的CNN診斷效能 基于CEUS動脈期、門脈期及延遲期圖像的兩種CNN預(yù)測模型對鑒別ICC與HCC的診斷效能都很高,AUC分別為0.941和0.934,兩者之間差異無統(tǒng)計學(xué)意義(P=0.803),見表4。
表4 基于CEUS圖像的CNN模型鑒別診斷ICC與HCC的效能Table 4 Diagnostic performance of CNN model based on the CEUS images to discriminate between ICC and HCC
2.2.3 聯(lián)合B-mode及CEUS圖像的CNN診斷效能 聯(lián)合B-mode及CEUS動脈期、門脈期及延遲期圖像的CNN對鑒別ICC與HCC的診斷效能都很高,AUC分別為0.946和0.937,多圖VGG模型略優(yōu)于多圖Inception,但兩者之間差異無統(tǒng)計學(xué)意義(P=0.688),見表5。
表5 聯(lián)合B-mode及CEUS圖像的CNN模型鑒別診斷ICC與HCC的效能Table 5 Diagnostic performance of CNN model combined with B-mode and CEUS images to discriminate ICC and HCC
有研究[20]表明,聯(lián)合ICC和HCC的常規(guī)超聲及CEUS相關(guān)圖像特征,能顯著提高對二者的鑒別診斷能力,但很大程度上依賴醫(yī)師的經(jīng)驗;且由于醫(yī)學(xué)影像數(shù)據(jù)量龐大,人工篩選遠(yuǎn)不能滿足當(dāng)前的醫(yī)療需求。近年來,基于大數(shù)據(jù)的DL被廣泛用于醫(yī)學(xué)圖像處理和疾病診斷方面[21],CNN作為一種DL模型,同樣對訓(xùn)練的圖像數(shù)據(jù)量有很高的要求,因為模型內(nèi)含有大量參數(shù),如果數(shù)據(jù)量過少會引起過擬合現(xiàn)象,即模型泛化能力差,影響其性能及穩(wěn)定性[22]。但在實際臨床工作中,建立大規(guī)模、高質(zhì)量的醫(yī)學(xué)圖像數(shù)據(jù)庫本身就很困難,尤其還要對這些圖像進(jìn)行人工標(biāo)注。
因此,有研究[23]提出在保持圖像真實標(biāo)簽不變的情況下,數(shù)據(jù)增強是一種提高圖像數(shù)據(jù)量切實可行的方式。目前常用的方法包括旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、平移、裁剪、高斯噪聲、模糊處理等[23-27],其主要是源于數(shù)字圖像處理技術(shù)的幾何變換和圖像增強,被廣泛用于生物醫(yī)學(xué)、工程學(xué)等領(lǐng)域。本研究采用了隨機(jī)翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、隨機(jī)亮度、隨機(jī)對比度這四種方式,經(jīng)過上述數(shù)據(jù)增強處理后,可以使訓(xùn)練后的模型具有更好的泛化能力和魯棒性,更適合在實際臨床中應(yīng)用。
目前關(guān)于超聲圖像的DL對肝臟腫瘤的分類診斷研究還很少[28-30],本研究嘗試建立基于超聲圖像的CNN模型來鑒別診斷ICC與HCC,并對其診斷效能進(jìn)行測試。在單獨應(yīng)用B-mode圖像建立的三個模型中,VGG16的診斷效能稍優(yōu)于InceptionV3 及Inception-ResNetV2,但整體診斷效能均較低,且特異性也很低,尤其是后兩者,特異性僅為39.5%和37.0%,表明這些模型容易將HCC誤診為ICC,分析原因可能是ICC和HCC在常規(guī)超聲圖像上本來就有很多相似之處,導(dǎo)致神經(jīng)網(wǎng)絡(luò)提取到很多相似的特征,從而不易區(qū)分。
CEUS用于鑒別診斷ICC與HCC本身也存在一定爭議,故本研究對基于CEUS三個時相所建立的CNN模型鑒別診斷效能也進(jìn)行了初步探討,包括多圖VGG和多圖Inception。結(jié)果顯示,這兩個模型對鑒別ICC與HCC的診斷效能基本相似,AUC分別為0.941和0.934,兩者之間差異無統(tǒng)計學(xué)意義(P>0.05),其敏感性、特異性及準(zhǔn)確性均超過85.0%。Midya A等[31]應(yīng)用增強CT門脈期圖像建立的CNN對ICC與HCC進(jìn)行鑒別診斷,結(jié)果顯示其對區(qū)分診斷ICC的AUC僅為0.72,準(zhǔn)確性為69.7%,明顯低于本研究結(jié)果,可能與該研究納入的樣本量較小,且僅分析了一個增強時相有關(guān)。另外,本研究也顯示基于CEUS建立的模型性能明顯優(yōu)于單獨B-mode圖像所建立的模型,主要原因可能是CEUS多時相圖像能夠讓模型提取到更多的深層次特征,從而提高模型的泛化能力和準(zhǔn)確性。
聯(lián)合B-mode及CEUS圖像所建立的多圖VGG和多圖Inception對鑒別ICC與HCC同樣具有很高的診斷效能,AUC分別為0.946和0.937,但與僅基于CEUS圖像所建立的模型相比,雖然用于模型訓(xùn)練的圖像模式及圖像數(shù)量明顯增加(6600幅vs.4028幅),但模型性能并未顯著提高。有學(xué)者[13]認(rèn)為建立模型所需的訓(xùn)練集圖像數(shù)量可能存在一個界值,在數(shù)據(jù)量達(dá)到這個界值后,模型的性能便趨于穩(wěn)定,即使再增加訓(xùn)練的數(shù)據(jù)量,性能也不會顯著提高。本研究也存在一定的局限性,首先由于ICC的發(fā)生率比HCC低很多,因此納入的ICC病例相對較少,雖然采用了數(shù)據(jù)增強的方法,但仍可能對模型的訓(xùn)練有一定的影響;其次,模型的建立未考慮肝臟背景等一些附加信息,然而這些信息可能有助于二者的鑒別;另外,本研究用于驗證模型的數(shù)據(jù)量相對較小,其驗證結(jié)果可能存在一定的偏倚,有待于多中心、大樣本量的前瞻性研究進(jìn)一步優(yōu)化模型。
本研究結(jié)果提示,基于多模態(tài)超聲圖像的CNN模型能較好的鑒別診斷ICC與HCC,為兩者的術(shù)前鑒別診斷提供了新的參考方法。