NGUYEN XUAN HIEN
摘 要:CT 圖像中肺結節(jié)良惡性鑒別是肺癌計算機輔助診斷研究中的關鍵。為了提高計算機輔助診斷系統(tǒng)中肺結節(jié)良惡性診斷準確性,提出一種基于密度分布特征的肺結節(jié)良/惡性判斷方法。首先,從肺部腫瘤圖像中隨機提取圖像小單元集并計算其自相關矩陣,然后通過K-means算法對該矩陣實現(xiàn)無監(jiān)督聚類。特征提取時遍歷計算肺結節(jié)圖像每一像素的灰度密度分布等級,并統(tǒng)計、歸一化得到10維特征向量,最后通過卷積方法對特征進行優(yōu)化。同時,利用隨機森林分類器進行模型訓練,進而判斷肺結節(jié)良/惡性水平,提出算法的驗證數據為LIDC-IDRI。實驗結果表明,最大AUC可達0.955 8。對比分析,該特征表達方法具有更優(yōu)分類效果和更高魯棒性。
關鍵詞:圖像單元集;LIDC-IDRI;良惡性分類;密度分布特征;K均值
DOI:10. 11907/rjdk. 182442
中圖分類號:TP317.4 文獻標識碼:A 文章編號:1672-7800(2019)005-0181-06
Abstract: The discrimination of benign and malignant pulmonary nodules in CT image is the key of computer-aided diagnosis (CAD) for lung cancer. In order to improve the accuracy of benign/malignant diagnosis of pulmonary nodules in the CADs, this paper proposed a gray density distribution feature extraction algorithm based on image small cell set. First we collected the cells from lung nodule images and calculated the correlation matrix of cell set used Euclid distance. Then, we used the K-means clustering methods to classify the current image blocks and generated the labels of cell set. After that, we scan the nodule image, calculated the distribution density level for each pixel, and then generated the feature vector by statistic and normalization. Finally, we used the Gaussian kernel to optimization this vector and extracted the gray scale density distribution feature of the lung nodule image. The vector set is combined with the well-known classifier of Random Forest for training and testing. We evaluated the classification framework in LIDC-IDRI dataset, the best AUC of ROC reached 0.9558. The proposed method outperforms the most recent techniques, and the experimental results show great robustness of the proposed method for different lung CT image datasets.
Key Words: image cells; LIDC-IDRI; benign and malignant classification; density distribution feature; K-means
0 引言
目前肺癌已經成為致命率最高的癌癥,早期發(fā)現(xiàn)和及時治療有助于提高病患者生存率。斷層掃描技術(Computed Tomography,CT)迅速發(fā)展,成為有效的肺癌檢驗方法。肺部CT圖像可以理解為單通道高位圖像,其單位為HU值(Hounsfield Unit,HU)。通過觀察胸腔掃描的CT圖像,結合臨床癥狀可以發(fā)現(xiàn)疑似癌癥區(qū)域及其危險程度(良/惡性)。胸腔CT掃描越來越普遍,帶給醫(yī)生巨大的閱片壓力,閱片過程中主要憑借相關知識與個人工作經驗,難免存在漏診或誤判病灶區(qū)域危險程度等情況,不利于診斷和治療。使用計算機技術處理肺部CT圖像模型有助于提高閱片效率與精準度,并迅速成為熱門研究方向。肺部CT圖像計算機輔助診斷系統(tǒng)中主要包含肺結節(jié)檢測、分割、分類等研究項目[1-3]。其中,系統(tǒng)性能主要體現(xiàn)在檢測早期肺結節(jié)以及危險程度正確分類的能力。
肺部CT圖像處理模型主要使用開源數據庫證明模型的性能及其魯棒性。常見的肺部CT圖像數據庫為LIDC-IDRI、NLST、NELSON等[4-6]。其中,LIDC-IDRI為最大的開源肺部CT數據庫,包含大量肺結節(jié)樣本及其標簽。因此,LIDC-IDRI數據庫經常被用來驗證研究者的肺結節(jié)良/惡性分類模型,包括圖像特征提取、分類器優(yōu)化模型。
肺結節(jié)良/惡性分類旨在給醫(yī)生提供科學、可靠的輔助分類結果,使診斷過程更加精準,并且有效減少醫(yī)生的閱片工作量。分類過程中需先計算圖像特征,然后結合分類器對樣本集進行訓練和測試。常見的分類器主要包含KNN、ANN、SVM、Random Forest、Adaboost、模糊C均值等[7-12]。常用于肺結節(jié)良/惡性分類的圖像特征為幾何特征、紋理特征、灰度密度分布特征等[10,13-14]。郭薇等[15]使用FCM方法針對130 組結節(jié)數據進行實驗得到肺結節(jié)良惡性鑒別的敏感性、假陽率分別達到87.58% 和9.52%; Dhara[13]根據肺結節(jié)的2D/3D幾何和Harralick紋理特征將LIDC-IDRI數據樣本集分為良性與惡性兩類,其最優(yōu)AUC(Area Under Curve)值達到了0.9505;Jiang[16]利用深度學習卷積神經網絡對LIDC-IDRI實現(xiàn)肺結節(jié)良惡性分類,最佳AUC of ROC為0.913;Maldonado[17]提出一種肺結節(jié)圖像密度分布計算方法用于肺結節(jié)分類,該特征描述肺結節(jié)的灰度值分布情況,非常有借鑒意義。同樣使用基于圖像單元集的灰度密度分布特征提取方法,Le等[10]對LIDC-IDRI具有臨床標簽的樣本與合作意愿數據庫(ZSDB)實現(xiàn)肺結節(jié)良/惡性分類,并取得良好的分類效果。然而,搜集圖像單元時由于其本身灰度分布存在較大不確定性,導致特征的表征精度欠佳,因而影響其分類性能。
為提高肺結節(jié)良/惡性分類性能,本文提出一種基于圖像單元集的灰度密度分布特征計算方法。計算過程中,從樣本集獲取若干尺寸一致的小單元,并計算其自相關矩陣,通過K-means算法對該矩陣實現(xiàn)無監(jiān)督聚類生成對應的標簽集。遍歷肺結節(jié)圖像計算每一像素的灰度密度分布等級,并進行統(tǒng)計與歸一化,得到密度分布特征。最后,使用高斯卷積對特征進行優(yōu)化,生成灰度密度分布特征,并結合隨機森林分類器對數據集實現(xiàn)良惡性分類。
1 數據與方法
1.1 數據庫驗證
LIDC-IDRI(The Lung Image Database Consortium and Image Database Resource Initiative,LIDC-IDRI)為目前最大的肺CT開源數據庫之一,同時也是肺CT圖像處理算法驗證數據最佳選擇之一。該數據庫包含3 000多個肺結節(jié),然而樣本存在過大與鈣化的肺結節(jié)。經過數據分析和篩選,本文使用LIDC-IDRI的885個肺結節(jié)作為算法驗證數據。研究對象數據中,像素間距及片間距分布分別為0.5~0.8mm與0.6~5.0mm,長徑范圍為[3.0mm,15.0mm]。LIDC-IDRI肺CT圖像和肺結節(jié)樣本如圖1所示,其中左邊是肺CT圖像,右邊是肺結節(jié)圖像,第1-5行分別為rank1-5的樣本圖像。
LIDC-IDRI肺結節(jié)由多名醫(yī)生進行標注和分類,其中包括肺結節(jié)在CT圖像中的邊緣坐標及其相關先驗信息。LIDC-IDRI肺結節(jié)的標注信息包含9種與良惡性判斷相關因素,如顯著性、鈣化、球度、毛刺度、紋理、惡性程度等。其中最重要的參數是惡性程度,該因素共包含5個檔次,分別為rank 1-5。本文算法驗證數據的樣本數量從rank 1-5分別為130/250/150/245/110。其中rank 1、rank 2的樣本為良性肺結節(jié),rank 4、rank 5的樣本為惡性類樣本,而rank 3為不確定類別樣本。本文驗證提出特征對肺結節(jié)分類性能的同時,分析LIDC-IDRI rank3樣本的分類傾向。實驗設計類似于Han[…]的樣本規(guī)劃方案,對驗證數據分別做3個實驗。
實驗一:(rank1+rank2)為良性結節(jié),(rank4+rank5)為惡性結節(jié),忽略rank3的樣本。
實驗二:(rank1+rank2+rank3)為良性結節(jié),(rank4+rank5)為惡性結節(jié)。
實驗三:(rank1+rank2)為良性結節(jié),(rank3+rank4+rank5)為惡性結節(jié)。
實驗具體樣本分配如表1所示。
1.2 基于圖像單元集的灰度密度分布特征提取
肺部CT影像中,可疑區(qū)域的灰度級分布影響到肺結節(jié)定位和分類。因此,灰度密度分布是肺結節(jié)圖像危險程度重要判斷指標之一。圖像灰度密度分布指的是圖像中像素值與周圍鄰近點之間的關系,表征圖像任意局部區(qū)域灰度值出現(xiàn)的強度及其幅度。圖像中密集出現(xiàn)高灰度值的區(qū)域為高密度區(qū)域,而高灰度值像素較稀疏的則為低密度區(qū)域。
1.2.1 圖像單元集聚類
灰度密度分布特征提取過程中首先需建立一個足夠大的訓練數據庫,即圖像單元集[Λ{h(x,y)}]。該單元集為提取特征時的參照對象,并決定肺結節(jié)灰度密度分布特征的表征精度。這些圖像單元是從肺結節(jié)數據集中獲得的,而且尺寸需根據目標提取特征圖像大小而變化,如5×5、7×7、9×9等。如果單元尺寸太小,處理之后更接近于點處理的結果從而會引入噪聲,太大則對較小的肺結節(jié)帶來較大誤差。構建圖像單元集時需滿足以下條件:①遍歷肺結節(jié)圖像,隨機挑選出若干一致尺寸的單元,單元中所有像素均為非背景;②為提高提取過程的運行效率,單元之間不能存在絕對重復;③各單元的灰度均值需覆蓋整個可能出現(xiàn)肺結節(jié)的灰度段而且其數量要平衡。
2 實驗結果與分析
本文展示了驗證數據庫分類性能的實驗效果及其分析結果。分類模型實驗配置具體如下:分類器使用機森林模型(Random Forest,RF);訓練和測試樣本比例為70%:30%;模型性能評價時,對LIDC-IDRI計算訓練性能的平均識別率、敏感度、特異性以及ROC;每一個子集分別做100次實驗并計算平均性能評價參數值。
實驗平臺配置:編程語言為Python 3.0-Windows 10;硬件信息為Processor Intel(R) Core(TM) i7-7700HQ 2.80Ghz (8CPUs);GPU Geforce 1050;RAM 8Gb。
2.1 圖像特征分析
LIDC-IDRI數據庫中的樣本及其特征向量如圖4所示,第1-5行分別為rank 1-5肺結節(jié)樣本及其特征向量。
LIDC-IDRI特征向量中,低等級密度排序從rank 1至rank 5穩(wěn)定遞減,而高等級密度比例則遞增。實驗結果表明,LIDC-IDRI肺結節(jié)的灰度密度分布特征具有可靠的統(tǒng)計意義,各類特征向量之間差異很明顯且穩(wěn)定,可以作為肺結節(jié)良惡性分類依據。
特征向量集經過上文提出的優(yōu)化方法后出現(xiàn)較明顯的分布差異。實驗結果表明,3個實驗良惡性特征向量之間的p值均遠小于0.02,由此證明經優(yōu)化的特征向量集更平滑,而且兩種肺結節(jié)類型特征變得更有區(qū)分性[21]。臨床應用中,通過觀察肺結節(jié)的密度分布圖以及統(tǒng)計密度特征,可以更直觀地表達病灶結構,有助于提高診斷效率以及分類精度。
2.2 肺結節(jié)良/惡性分類性能分析
LIDC-IDRI訓練過程中,實驗一、實驗二和實驗三測試均值精度分別為0.882 8、0.853 1、0.791 4。AUC指標排序仍表明實驗一>實驗二>實驗三。由此可見,rank3肺結節(jié)在不參與分類的情況下分類性能最優(yōu),而當rank3樣本被分配至惡性類別時性能最差。因此可以得出結論:LIDC-IDRI中的rank3肺結節(jié)比較傾向于良性類別。具體分類性能評價參數統(tǒng)計如表2所示。
分類模型的交叉檢驗矩陣如圖5所示。從圖5可以看出,在避開rank3樣本影響的情況下(實驗一),良/惡性類別分類性能相對比較穩(wěn)定,真預測值分別為0.90和0.87。同時,由于rank3肺結節(jié)樣本干擾,實驗二和實驗三的類別真預測值相對較低。
本文肺結節(jié)圖灰度密度分布特征對LIDC-IDRI肺結節(jié)良惡性分類非??尚?。實驗結果表明,相對目前同樣處理對象的技術,本文模型訓練評價指標都比較高。表3為本文分類模型與目前現(xiàn)有分類技術的分類性能對比。
3 結語
本文闡述了肺CT圖像中肺結節(jié)基于圖像特征結合與分類器的良惡性分類問題,提出一種基于圖像單元集的肺結節(jié)圖像灰度密度分布特征提取方法以及隨機森林分類器樣本訓練模型。該方法主要依賴圖像單元集搜集及其無監(jiān)督聚類過程。為了提高特征的表征精度,使用高斯卷積方法對10維密度特征進行優(yōu)化,使其更具有樣本之間的區(qū)分能力。該密度分布特征描述肺結節(jié)圖像中像素與周圍鄰近點的灰度級分布統(tǒng)計量。實驗結果與對比分析表明,基于密度分布的特征評估算法能有效對肺結節(jié)良惡性等級進行分類。由于使用LIDC-IDRI公開數據集作為驗證數據,所以還未能對中國肺癌病患者樣本進行分析及分類模型性能評價。未來將以中國肺癌CT圖像樣本為主要研究對象,進一步提高分類模型的魯棒性、實用性與通用性。
參考文獻:
[1] SUI X, MEINEL F G, SONG W, et al. Detection and size measurements of pulmonary nodules in ultra-low-dose CT with iterative reconstruction compared to low dose CT[J]. European Journal of Radiology, 2016, 85(3): 564-570.
[2] TUNALI I, GUVENIS A. A fusion method for pulmonary nodule segmentation in chest CT image sets[C]. International Conference on Biomedical and Health Informatics (BHI), 2016:180-183.
[3] KURUVILLA, JINSA, GUNAVATHI K. Lung cancer classification using neural networks for CT images[J]. Computer Methods and Programs in Biomedicine,2014,113(1): 202-209.
[4] ARMATO, SAMUEL G. The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed reference database of lung nodules on CT scans[J]. Medical Physics, 2011, 38(2): 915-931.
[5] KRAMER, BARNETT S. Lung cancer screening with low-dose helical CT: results from the National Lung Screening Trial (NLST)[J]. Journal of Medical Screening, 2011, 18: 109-111.
[6] ZHAO Y R,XIE X Q. NELSON lung cancer screening study[J]. Cancer Imaging, 2011, 11(1A): 79.
[7] FARAG,AMAL A. Feature descriptors for nodule type classification[C]. Proceedings of 2011 Computer Assisted Radiology and Surgery (CARS), 2011:1-6.
[8] ZHU Y J. Feature selection and performance evaluation of support vector machine (SVM)-based classifier for differentiating benign and malignant pulmonary nodules by computed tomography[J]. Journal of Digital Imaging, 2010, 23(1): 51-65.
[9] ABDUH Z, WAHED M A, KADAH Y M. Robust computer-aided detection of pulmonary nodules from chest computed tomography[J]. Journal of Medical Imaging and Health Informatics, 2016, 6(3): 693-699.
[10] LE, VANBANG. Automated classification of pulmonary nodules for lung adenocarcinomas risk evaluation: an effective CT analysis by clustering density distribution algorithm[J]. Journal of Medical Imaging and Health Informatics, 2017, 7(8): 1753-1758.
[11] OCHS R A,GOLDIN J G,ABTIN F,et al. Automated classification of lung bronchovascular anatomy in CT using AdaBoost[J]. Medical Image Analysis, 2007, 11(3): 315-324.
[12] 姜婷,襲肖明,岳厚光. 基于分布先驗的半監(jiān)督 FCM 的肺結節(jié)分類[J]. 智能系統(tǒng)學報,2017,12(5): 729-734.
[13] DHARA,ASHIS K. A combination of shape and texture features for classification of pulmonary nodules in lung CT images[J]. Journal of Digital Imaging, 2016: 1-10.
[14] OROZCO H M,VILLEGAS O O V, SáNCHEZ V G C, et al. Automated system for lung nodules classification based on wavelet feature descriptor and support vector machine[J]. Biomedical Engineering Online, 2015, 14(1):9.
[15] 郭薇. 基于多維圖像信息的肺結節(jié)良惡性鑒別方法[J].沈陽航空航天大學學報,2016,33(3): 67-72.
[16] JIANG H Y. A novel pixel value space statistics map of the pulmonary nodule for classification in computerized tomography images[C]. 2017 39th Annual International Conference of the IEEE, 2017:556-559.
[17] MALDONADO F,BOLAND J M,RAGHUNATH S,et al. Noninvasive characterization of the histopathologic features of pulmonary nodules of the lung adenocarcinoma spectrum using computer-aided nodule assessment and risk yield (CANARY)—a pilot study[J]. Journal of Thoracic Oncology, 2013, 8(4): 452-460.
[18] LIAW,ANDY,MATTHEW W. Classification and regression by Random Forest[J]. R News,2002,2(3):18-22.
[19] REVEL,MARIE P. Subsolid lung nodule classification: a CT criterion for improving interobserver agreement[J]. Radiology, 2017, 286(1): 316-325.
[20] CHAUBEY,YOGENDRA P. Resampling-based multiple testing: examples and methods for P-value adjustment[J]. Taylor & Francis, 1993, 450-451.
(責任編輯:何 麗)