孟 江 盧虹冰* 徐肖攀 徐 桓 張國鵬 梁正榮
CT結(jié)腸鏡(computed tomography colonography,CTC)主要利用薄層CT掃描圖像分割并重建出患者的結(jié)腸三維結(jié)構(gòu),醫(yī)生可以像光學(xué)結(jié)腸鏡那樣瀏覽整個腔內(nèi)結(jié)構(gòu),并尋找可疑病灶。相對于傳統(tǒng)的乙狀結(jié)腸鏡、光學(xué)結(jié)腸鏡等檢查手段,CTC侵入性小、檢查時間短以及患者耐受性好,更適用于大規(guī)模高危人群的篩查[4]。但同時由于結(jié)腸腔內(nèi)存在復(fù)雜的脊、袋結(jié)構(gòu)和大量的腸壁皺褶以及附著在腸壁上的殘留糞便等,其在形狀及結(jié)構(gòu)上的表現(xiàn)與息肉相似,也給放射醫(yī)師的閱片工作帶來了相當(dāng)?shù)奶魬?zhàn)。
結(jié)腸息肉計算機(jī)輔助檢測技術(shù)(computer aided detection,CAD)能夠幫助醫(yī)生自動標(biāo)記出疑似息肉,但現(xiàn)有的CAD技術(shù)[5-7]多是在結(jié)腸內(nèi)壁準(zhǔn)確分割基礎(chǔ)上,通過內(nèi)壁的曲率、形狀指數(shù)等幾何參數(shù)變化得到疑似息肉,這種方法與醫(yī)生用眼睛識別息肉的過程類似,其天然缺陷在于嚴(yán)重依賴于結(jié)腸內(nèi)壁分割算法;極易疏漏形狀變化不顯著的病灶,如扁平狀的息肉和部分體積較小的廣基鋸齒狀息肉等。近期的一項8844人參與的大規(guī)模的隨機(jī)對照試驗[8]表明:光學(xué)結(jié)腸鏡組有4.3%的個體被診斷至少患有1個廣基鋸齒狀息肉,而CTC組的診斷率只有0.8%;CTC組未檢測到扁平狀息肉,而光學(xué)結(jié)腸鏡組檢測到17個。因此迫切需要尋找進(jìn)一步有效區(qū)分結(jié)腸息肉和正常壁組織的影像特征,以克服CTC的上述短板,提高檢測率。
CT圖像能夠提供大量的組織相關(guān)信息,不同組織的X射線吸收衰減值在一定程度上反映了息肉和腫瘤的性質(zhì)??紤]到CT影像本身包含有大量的組織紋理信息,不同組織的紋理特征存在一定的差異。因此,基于CT影像提取的紋理特征或可有效反映息肉與正常腸壁組織的差異,從而用于疑似息肉的檢測。本研究通過提取結(jié)腸息肉和正常的結(jié)腸壁組織作為感興趣區(qū)域(region of interest,ROI),致力于篩選出更好反映腸壁與息肉差異的紋理特征,并對其鑒別結(jié)腸息肉和正常的結(jié)腸壁組織的性能進(jìn)行評價。
收集111例確診的結(jié)腸息肉患者的CTC影像數(shù)據(jù),患者均于檢查前1 d進(jìn)行低殘留飲食和腸道準(zhǔn)備,并口服250 ml硫酸鋇懸浮液(2.1 w/v)和120 ml的MD-Gastroview進(jìn)行糞便標(biāo)記。在腸道充氣的狀態(tài)下,每例患者在仰臥位和俯臥位各掃描一次,共獲得222套掃描數(shù)據(jù)。CT掃描參數(shù)設(shè)置為:管電流120~220 mA,管電壓120~140 kV,準(zhǔn)直厚度1.25~2.5 mm,重建層厚1 mm。為了消除三維CT數(shù)據(jù)軸向分辨率的差異,對體數(shù)據(jù)進(jìn)行了3次樣條插值處理。
在放射醫(yī)師的指導(dǎo)下,通過手動勾勒的方式,從222套CTC影像數(shù)據(jù)中共提取387個結(jié)腸息肉(均經(jīng)光學(xué)鏡證實),其中直徑<6 mm的息肉13個,直徑位于6~9 mm之間的息肉230個,直徑>9 mm的息肉144個。此外,在該息肉的對側(cè)腸壁提取與其大小相似的三維腸壁組織作為對照,共387個(如圖1所示)。
圖1 息肉直徑大小分布情況圖
基于灰度共生矩陣的Haralick紋理[9]特征,能夠反映圖像中不同灰度像素的空間相關(guān)特性,因此廣泛用于肺、肝臟、膀胱等病變的醫(yī)學(xué)影像檢測和診斷中[10-11]。但經(jīng)典的Haralick紋理基于二維圖像,難以反映灰度的空間分布信息,對其進(jìn)行三維拓展或許能夠更好地反映息肉組織與正常腸壁組織的紋理差異。此外,由于CT圖像在圖像采集與重建過程中會進(jìn)行必要的去噪與平滑處理,從而使其損失部分紋理特征。有研究表明,對圖像進(jìn)行高階偏導(dǎo)變換能夠進(jìn)一步增強圖像的紋理變化,從而一定程度上還原或放大這些紋理特征[12-13]。因此,本研究首先對ROI進(jìn)行一階偏導(dǎo)(梯度)和二階偏導(dǎo)(曲度)變換,然后對原始灰度圖像、一階和二階偏導(dǎo)圖像分別從13個空間方向上計算出共生矩陣,即灰度共生矩陣(gray level co-occurrence matrics,GLCM)、梯度共生矩陣(gradient co-occurrence matrix,GLGCM)和曲度共生矩陣(curvature co-occurrence matrix,GLCCM)[12]。Hu[13]從每個方向上的共生矩陣中計算30個特征,為了消除方向?qū)μ卣鞯挠绊懀3痔卣鞯母飨蛲?,對各方向上的相同特征分別取平均值和極差,作為最終的特征,即每個ROI的每類矩陣可提取60個特征(30個均值,30個極差),三類矩陣可提取180個特征,包括60個GLCM特征,60個GLGCM特征,60個GLCCM特征。本研究所用到的特征名稱和編號表示如下:f1~f30表示由GLCM計算出30個均值特征,Rf1~Rf30表示由GLCM計算出30個極差特征;Gf1~Gf30表示由GLGCM計算出30個均值特征,RGf1~RGf30表示由GLGCM計算出30個極差特征;Cf1~Cf30表示由GLCCM計算出30個均值特征,RCf1~RCf30表示由GLCCM計算出30個極差特征。具體特征的計算方法參見文獻(xiàn)[13]。
本研究中每個ROI提取180個特征,為了得到能夠更好區(qū)分息肉和腸壁組織的特征,減少冗余特征對分類能力的影響,同時增強對各特征和對于區(qū)分腫瘤和正常組織能力之間的理解,采用Python開源機(jī)器學(xué)習(xí)庫scikit-learn[14]模塊,構(gòu)建了基于隨機(jī)森林(random forests,RF)的嵌入式特征選擇策略。該策略在RF生成每一棵決策樹的過程中,先對特征進(jìn)行采樣,然后計算采樣特征的基尼不純度,并按照基尼不純度最小的原則進(jìn)行全分裂。基尼不純度指某個樣本在隨機(jī)采樣中選中且被錯分的可能性,基尼不純度指某個樣本在隨機(jī)采樣中選中且被錯分的可能性,其定義為公式1:
某學(xué)者曾將銀行和美發(fā)店作為主要研究對象,將轉(zhuǎn)換成本劃分為不同維度,分別是機(jī)會成本、風(fēng)險成本、評估成本、認(rèn)知成本、組織成本和沉沒成本等。在這一研究中發(fā)現(xiàn),轉(zhuǎn)換成本與再購買呈現(xiàn)明顯的正相關(guān)性。在線上購物中,需要對轉(zhuǎn)換成本的內(nèi)涵進(jìn)行分析,通過這種方式研究對成本的影響。
這樣每棵樹的非葉節(jié)點的基尼不純度減少量可反映出該特征對于分類的重要性。其定義為公式2:
式中tdes表示t的子節(jié)點,N表示RF中決策樹的個數(shù)。
將基尼不純度減少量作為指標(biāo)并進(jìn)行排序,即可得到其對應(yīng)特征的重要性排序。按照特征的重要性排序,將特征逐個加入分類器進(jìn)行分類,并計算其分類準(zhǔn)確度和曲線下面積(area under curve,AUC)值,選取對應(yīng)最高AUC值的特征組合作為最優(yōu)特征子集。
為了檢測不同分類模型對特征分類的影響,本研究分別采用了邏輯回歸(logistic regression,LR)、支持向量機(jī)(support vector machine,SVM)、RF和K-近鄰(K-nearest neighbor,KNN)等4種不同的分類器獨立完成樣本的訓(xùn)練和測試任務(wù)。為了減少訓(xùn)練樣本規(guī)模不同而導(dǎo)致的估計偏差,本研究采用了10折交叉驗證策略對模型進(jìn)行評估,即將樣本隨機(jī)劃分為10個大小相似的互斥子集,每次用其中9個對分類器進(jìn)行訓(xùn)練,余下的子集用于測試,最終返回10個測試結(jié)果的均值。每種分類器分別對上述10折交叉驗證重復(fù)100次,結(jié)果的平均值作為最終結(jié)果。最后,采用準(zhǔn)確性、特異性、敏感性、受試者工作特性曲線(receiver operating characteristic,ROC)及ROC的AUC值等對分類性能進(jìn)行評估。
按照特征選擇公式(1)和公式(2)的方法,設(shè)置RF模型中決策樹的數(shù)量為10,分類標(biāo)準(zhǔn)采用基尼系數(shù),其余參數(shù)均保留默認(rèn)參數(shù)。一般來說,決策樹的數(shù)量太小容易欠擬合,決策樹的數(shù)量太大又容易過擬合,本研究設(shè)置較小的值是為了防止過擬合。然后采用10折交叉驗證的方式將樣本輸入分類器重復(fù)運行100次,獲得前20特征重要性排行(如圖2所示)。
圖2 前20特征重要性排行示圖
圖2 顯示,特征RGf19(第三四分位數(shù)概率)、RGf23(聚類萌)和RGf11(差熵)是最具有分類能力的3個特征,繪制出了這3個特征數(shù)據(jù)的三維分布情況,綠色圓點表示息肉,紅色三角表示正常腸壁(如圖3所示)。
圖3 RGf11、RGf19和RGf23的三維散點圖
圖3 顯示,息肉和正常腸壁兩種組織具有較明顯的可區(qū)分界限,表明這3個特征能夠用于息肉和腫瘤的有效區(qū)分。排序前3的特征均來自GLGCM,這一方面表明高階偏導(dǎo)圖像能夠更好地反映紋理的變化,另一方面也表明相較二階偏導(dǎo),基于一階偏導(dǎo)圖像的灰度梯度共生矩陣特征具有更好的息肉和腸壁組織區(qū)分能力。
按特征的重要性降序,將特征逐個加入RF分類器進(jìn)行分類,其特征數(shù)量與準(zhǔn)確度、AUC值的關(guān)系曲線如圖4所示。
圖4 特征篩選過程示圖
圖4 顯示,隨著特征數(shù)量的增加,分類性能呈上升趨勢。當(dāng)特征數(shù)量為36時,分類準(zhǔn)確度達(dá)到最大值為100%;當(dāng)特征數(shù)量為37時,AUC達(dá)到最大值為1。繼續(xù)增加特征數(shù)量,分類性能出現(xiàn)微小波動,但總體呈平穩(wěn)狀態(tài)。選取上述37個特征作為最優(yōu)特征用于分類,最優(yōu)特征中各類特征分布情況可知37個最優(yōu)特征中,基于GLGCM的特征占22個,其特征重要性占比達(dá)到了57.9%;基于GLCM的特征占14個,其特征重要性占比為28.6%;而GLCCM特征僅有1個,占比為0.6%(如圖5所示)。
圖5 最優(yōu)特征中各類特征分布情況示圖
匯總4種不同分類器重復(fù)100次10折交叉驗證的分類結(jié)果的均值,對應(yīng)的平均ROC曲線見表1,如圖6所示。
圖6顯示,陰影部分表示其正負(fù)標(biāo)準(zhǔn)差。由圖表可知,SVM和LR多次分類結(jié)果分布比較穩(wěn)定集中,而RF和KNN分類結(jié)果分布相對離散,相對波動較大,但4種分類器對所選特征都有極高的分類表現(xiàn)。由此可見,基于GLCM、GCM及CCM的三維Haralick紋理特征能夠有效的鑒別結(jié)腸息肉和正常腸壁組織。
表1 不同分類器分類結(jié)果匯總
圖6 四種分類器重復(fù)100次10折交叉驗證的平均ROC曲線圖
本研究從圖像的灰度共生矩陣特征入手,將灰度圖像拓展到高階偏導(dǎo)圖像,將Haralick特征從二維拓展到三維,將特征數(shù)量由14個拓展到180個。經(jīng)過特征篩選,用獲得的37個最優(yōu)特征集,利用該最優(yōu)特征子集,分別采用4種常用分類器對息肉和腸壁組織進(jìn)行分類,平均敏感度均在99%以上,平均特異度在98%以上,平均AUC均為0.99,實驗表明,經(jīng)過上述處理所提取的特征在體現(xiàn)結(jié)腸息肉和正常組織的差異上具有極高的表現(xiàn),其中基于GCM的特征對分類性能的貢獻(xiàn)在一半以上,表明CT圖像的灰度梯度共生矩陣變換在一定程度上反映了息肉組織的異型性,其紋理特征可作為表征結(jié)腸壁異變發(fā)生的良好標(biāo)志。
相對于形狀指數(shù)、曲度等形態(tài)學(xué)特征,紋理特征能夠定量的反映出病灶的微觀變化和內(nèi)在差別,Song等[12]、Hu等[13]以及Pedregosa等[15]研究發(fā)現(xiàn),對影像進(jìn)行高階偏導(dǎo)變換,能夠進(jìn)一步放大組織間的紋理差異,用于不同組織的鑒別。Huang等[16]發(fā)現(xiàn),運用特征組合和篩選策略,能有效降低特征冗余,提高特征的鑒別效果,因而紋理特征在結(jié)腸息肉檢測上具有天然的優(yōu)勢。
本研究篩選出了一組具有極高分類性能的紋理特征,以此構(gòu)建以紋理特征為核心的結(jié)腸息肉計算機(jī)輔助檢測流程,可與傳統(tǒng)方法相互補充,有望克服現(xiàn)有CTC對體積較小、形狀變化不顯著的息肉檢測率較低的瓶頸。同時,充分利用腫瘤紋理特征的差異性構(gòu)建模型,對已發(fā)現(xiàn)的病灶及其周圍正常組織做深入的分析,并引入相關(guān)臨床病理學(xué)指標(biāo)進(jìn)行特征篩選和組合,可望對息肉類型、良惡性、腫瘤浸潤深度等進(jìn)行進(jìn)一步評估,為CTC的治療、預(yù)后和隨訪提供指導(dǎo)和幫助。
[8]Ijspeert JE,Tutein Nolthenius CJ,Kuipers EJ,et al.CT-Colonography vs. Colonoscopy for Detection of High-Risk Sessile Serrated Polyps[J].Am Gast roenterol,2016,111(4):516-522.
[9]Haralick RM,Shanmugam K,Dinstein I.Textural Features for Image Classification[J].Systems Man and Cybernetics IEEE Transactions on,1973,smc-3(6):610-621.
[10]Ganeshan B,Miles KA,Young RC.Texture analysis in non-contrast enhanced CT:impact of malignancy on texture in apparently diseasefree areas of the liver[J].Eur J Radiol,2009,70(1):101-110.
[11]Sheshadri HS,Kandaswamy A.Experimental investigation on breast tissue classification based on statistical feature extraction of mammograms[J].Comput Med Imaging Graph,2007,31(1):46-48.
[12]Song B,Zhang G,Lu H,et al.Volumetric texture features from higher-order images for diagnosis of colon lesions via CT colonography[J].Int J Comput Assist Radiol Surg,2014,9(6):1021-1031.[13]Hu Y,Liang Z,Song B,et al.Texture Feature Extraction and Analysis for Polyp Differentiation via Computed Tomography Colonography[J].IEEE Trans Med Imaging,2016,35(6):1522-1531.
[14]Pedregosa F,Gramfort A,Michel V,et al.Scikitlearn:Machine Learning in Python[J].Journal of Machine Learning Research,2011,12(10):2825-2830.
[15]Xu X,Zhang X,Tian Q,et al.Three-dimensional texture features from intensity and high-order derivative maps for the discrimination between bladder tumors and wall tissues via MRI[J].Int J Comput Assist Radiol Surg,2017,12(4):645-656.
[16]Huang YQ,Liang CH,He L,et al.Development and Validation of a Radiomics Nomogram for Preoperative Prediction of Lymph Node Metastasis in Colorectal Cancer[J].J Clin Oncol,2016,34(18):2157-2164.