王洪洋 張 穎 朱海波 高碧海
隨著我國工業(yè)發(fā)展、環(huán)境污染和人口老齡化加快,肺部疾病發(fā)病率也呈現(xiàn)逐年上升的趨勢,成為威脅人類健康的主要因素之一。肺部疾病起病急,進展快,嚴重威脅著人類健康,并隨著年齡的增長,其發(fā)病率逐漸增大[1]。臨床上,高效的影像學檢查和精準的臨床診斷能夠及時發(fā)現(xiàn)早期病變并采取治療,從而有效避免病情惡化,降低病死率。
CT作為肺部疾病的常規(guī)檢查方法,具有無侵入性、成像快、圖像分辨率高等優(yōu)點,成為篩查的重要手段[2]。較之傳統(tǒng)X射線檢查,在解剖結構上能夠呈現(xiàn)出高對比度。如CT能夠檢測出直徑<3 cm,圓形輪廓,邊緣模糊的肺結節(jié),甚至<1 cm的微結節(jié)[1-2]。但從CT圖像產生的臨床決策卻往往與閱片醫(yī)生經驗、知識水平及臨床主觀判斷密切相關,漏診與誤診難以避免,人為因素也成為了影響此類疾病診斷的重要因素[3]。
圖像計算機輔助診斷(computer aided diagnosis,CAD)系統(tǒng)可提高肺部1 cm左右病灶的確診率,輔助醫(yī)師提高早期肺癌診斷率約15%[1-4]。CAD系統(tǒng)能夠提高不同大小肺部組織的檢測靈敏度,因此構建CAD系統(tǒng)并應用于肺部CT輔助檢查具有現(xiàn)實意義[1-2,5-6]。目前,CAD系統(tǒng)功能主要集中在圖像增強、濾波、重建等方面,雖然能夠提高圖像質量,卻未能根本解決肉眼觀察帶來的診斷誤差問題;而肺部結節(jié)由于受到圖像質量、圖像背景及胸腔組織實質等干擾以及血管遮擋,難以直接定位[2,6]。因此,需要借助于CAD系統(tǒng),定量分析圖像信息,快速捕獲臨床感興趣區(qū)域(region of interest,ROI),為臨床決策提供量化依據和決策支持,降低醫(yī)生工作量,提高診斷效率和患者就醫(yī)體驗。
基于肺部CT圖像構建CAD系統(tǒng),實現(xiàn)圖像讀取、圖像預處理、圖像基本操作、圖像宏觀信息描述、ROI輪廓分析、ROI特征提取、ROI圖像分類器等模塊功能,為肺部疾病的診斷和研究提供量化分析和輔助決策。
讀取、解析醫(yī)學數字成像及通信(digital imaging and communication of medicine,DICOM)圖像文件,并導出常規(guī)文件類型。
圖像采集過程由于移動、噪聲、拍攝位置等問題,會影響后續(xù)圖像分類效果[1,4]。因此需要通過預處理方法消除無關信息,矯正運動偽影、噪聲及介質衰減而導致的失真,增強信息的可檢測性,從而提高圖像特征提取和分類的可靠性,包括幾何變換、歸一化、平滑及增強等[7]。
(1)幾何變換。用于修正圖像采集系統(tǒng)中的系統(tǒng)誤差及移動誤差。
(2)歸一化。通過歸一化可以消除或降低環(huán)境噪聲。
(3)平滑。降低圖像中產生的隨機噪聲,針對圖像灰度驟變的部分進行增強,突出圖像細節(jié)。
(4)增強。通過選擇性的增強及抑制,調整圖像效果,便于圖像特征抽取或識別。
(1)圖像空間變換。圖像插值、圖像縮放、圖像旋轉、圖像剪切、旋轉、大小調整、裁剪、定位和幾何測量[7-8]。
(2)圖像變換。包括傅里葉變換、離散余弦變換、Radon變換、沃爾什-阿達瑪變換以及離散卡夫納-勒維變換等功能,為后續(xù)處理提供支持[4,9]。
讀取CT圖像綜合信息,包括患者信息(姓名、CT號、性別、年齡等)、圖片信息包括掃描序號、管電壓(kV)、管電流(mAs)、層厚、掃描架轉角、平掃和(或)增強掃描、窗技術、關注區(qū)及CT值等信息[2,10]。
(1)輪廓分析。從待分析圖像中分割出ROI,如CT影像中疑似結節(jié)區(qū)域。
(2)輔助診斷。通過將預先選擇的圖像特征參數輸入分類算法,構建分類模型,實現(xiàn)ROI區(qū)域輔助診斷決策。
系統(tǒng)構建采用B/S架構,后臺編碼采用java開發(fā)實現(xiàn),便于跨平臺部署和多用戶訪問。設計MVC采用模式,MVC框架采用Spring MVC,可將系統(tǒng)業(yè)務邏輯、數據模型及用戶交互界面分離實現(xiàn),便于系統(tǒng)服務開發(fā)、升級及遷移。數據庫存儲采用MySQL5.7,持久化框架采用MyBatis3.4.7;前端采用Bootstrap3及jQuery1.10實現(xiàn)。系統(tǒng)功能主界面如圖1所示。
圖1 系統(tǒng)功能主界面圖
圖像采集后存儲入庫,經數據預處理,獲得圖像宏觀描述信息;在ROI分割算法處理后,形成各個ROI。根據特征提取算法提取對應域的特征信息并保存,將特征信息及宏觀描述信息帶入分類模型,獲得分類信息產生輔助決策信息(如圖2所示)。
圖2 圖像處理流程框圖
各功能模塊包括圖像讀取和預處理。
(1)圖像讀取。CT圖像符合DICOM標準,讀取采用dcm4che3庫處理圖像,實現(xiàn)圖像讀寫及保存。
(2)預處理。為降低圖像噪聲、眩光等不利因素,需要對圖像進行預處理,提高圖像對比度。系統(tǒng)開發(fā)預處理過程可通過設置選擇對應的預處理方法,其中包括降采樣、局部對比增強、自適應維納濾波、自適應直方圖均衡、增強濾波、快速傅立葉變換、小波變換、噪聲矯正、Gabor濾波、直方圖增強、偽彩色增強、灰度窗增強、拉普拉斯濾波及蝶形模糊濾波等[1-2,10-11]。
(1)為從待分析圖像中分割出ROI,需要分別消除背景、骨骼肌肉、肺血管、心臟及肝臟等部分。首先胸部CT圖像包含部分噪聲信息,如背景以及骨骼和肌肉等高密度組織,影響了肺血管和肺實質的顯示,同時也對肺結節(jié)特征的提取分析造成了干擾。因此,系統(tǒng)采用閾值法分割出圖像背景、體腔及肺實質,考慮到Web項目需要適應多種應用場景,為了實現(xiàn)快速分割,加快數據加載,系統(tǒng)可結合應用需求選用自動區(qū)域增長算法。該算法通過選擇閾值組,分割圖像,獲得肺實質輪廓圖像;結合位置信息,分別于兩側主肺葉選擇起始點,設定區(qū)域生長及終止條件,即根據CT值轉換為灰度后,設定相似性準則作為生長條件,以及當未能發(fā)現(xiàn)符合生長條件的點后停止生長,實現(xiàn)左右兩側肺葉區(qū)域分割[12](如圖3所示)。
圖3 肺部CT原始圖像
(2)由于存在機械牽拉、血管橫截面重疊及肺部結節(jié)等原因,分割獲得的肺實質伴有缺損,需要形態(tài)學修補。系統(tǒng)使用形態(tài)學的腐蝕和膨脹算法,實現(xiàn)肺實質空洞的填補和邊緣平滑,分割后得到完整的肺部區(qū)域[1,12-13](如圖4所示)。
圖4 提取肺實質圖像
(3)由于ROI(如結節(jié))通常易于受到血管及其橫斷面等遮擋,對ROI顯示造成影響,通常對醫(yī)生的讀片經驗有較高的要求。因此,CAD系統(tǒng)不僅需要自動標記ROI輪廓,還應當降低相似組織干擾,提高讀片效率及診斷的準確率(如圖5所示)。
圖5 血管及肺結節(jié)分割圖像
(4)系統(tǒng)設置了多種ROI分割模塊選擇:Seedfilling定位法、閾值法、大津法、Rosin法、正則分布法、高斯參數法、矩量保持法、Kapur和熵法、Kittler聚類、拓撲穩(wěn)定狀態(tài)法、模糊聚類(fuzzy c-means,F(xiàn)CM)。系統(tǒng)默認采用Seed-filling定位法分割ROI[4,14](如圖6所示)。
圖6 Seed-filling定位法獲得ROI分割步驟圖
為了判斷ROI類型是否為結節(jié)、良性組織病變或惡性組織,系統(tǒng)根據已明確診斷的標注樣本庫訓練算法模型,結合已有的臨床知識和文獻記載,從幾何形狀、紋理密度、社會環(huán)境等角度在候選區(qū)域上選擇提取了36種特征值,為后續(xù)分類診斷提供條件[1,15](見表1)。
表1 特征選擇參數列表
為了簡化分類器,目前系統(tǒng)實現(xiàn)了ROI二分類,即:將ROI分類為結節(jié)及非結節(jié)??蛇x擇的分類器有支持向量機(support vector machine,SVM)、人工神經網絡(artificial neural network,ANN)及隨機森林等[15]。分類器采用Apache spark mlib實現(xiàn),spark基于內存的計算模型,較為擅長圖像迭代計算,而mlib是Spark對常用的機器學習庫,其目標是使實用的機器學習算法可擴展并容易使用。提供的工具包括:①機器學習算法,常規(guī)機器學習算法有分類、回歸、聚類和協(xié)同過濾;②特征工程,即特征提取、特征轉換、特征選擇以及降維;③管道,構造、評估和調整的管道的工具;④存儲,保存和加載算法、模型及管道;⑤實用工具,線性代數、統(tǒng)計及數據處理等。包含了系統(tǒng)所需實現(xiàn)的分類器算法,使用便捷。
系統(tǒng)樣例采用了朝陽市第二醫(yī)院2012-2017年共208例肺部CT[SIEMENS SOMATOM Definition AS+型CT(德國西門子公司)及UCT 760型CT(上海聯(lián)影公司)]影像,共分割出ROI的513例。
將臨床醫(yī)生診斷結果作為標簽,分割ROI診斷結果可分為結節(jié)和非結節(jié)。按性別、年齡組指標進行平衡后按照5∶2的比例隨機分為訓練組和測試組,分別用于訓練及測試。其中訓練組結節(jié)110例,非結節(jié)256例;測試組結節(jié)44例,非結節(jié)103例。
3.2.1 SVM分類模型
模型參數設置:設置s為C-SVC,c選擇1,方法選擇序列最小最優(yōu)化(sequential minimal optimization,SMO),當核函數為rbf時,選擇sigma為:{-1,-0.8,0.6,0.8,1};當核函數為mlp時,sigma選擇:{-1,1};weights和bias均為1。模型訓練中,訓練組分別選擇linear、quadratic、rbf及mlp的4種核函數,將訓練組結節(jié)和非結節(jié)數據輸入訓練;訓練完成后將測試組結節(jié)和非結節(jié)數據輸入模型進行測試。選擇linear為核函數,獲得最高測試準確率(94.04%)及真陽性率(true positive rate,TRP)(96.96%),選取rbf作為核函數時,且Sigma設置為1,獲得P值最高(100.00%),見表2。
表2 SVM模型分類效果
3.2.2 隨機森林模型
設置ntree為316,mtry為6,將訓練組結節(jié)和非結節(jié)數據輸入訓練;獲得測試準確率為95.23%,TPR為96.96%,假陽性率(false positive rate,F(xiàn)PR)為5.88%,P值為91.42。
3.2.3 ANN模型
設置ANN模型輸入層為36,隱蔽層為6,預測分類結果設置為二分類,即:0-0.5,0.5-1,分別對應結節(jié)與非結節(jié)。訓練算法分別選用彈性梯度下降(flexible gradient descent,F(xiàn)GD)法、共軛梯度法fletcher-reeves(FR)、共軛梯度法ploakribiere(PR)、共軛梯度法powell-beale(PB)、量化共軛梯度(quantized conjugate gradient,QCG)法、步進割線(step secant,SS)法、萊文貝格-馬夸特方法(levenberg-marquardt,LM)以及擬牛頓(Quasi-Newton,QN)法,目標誤差設為0.01,學習率為0.1,最大訓練周期為2000,網絡測試集達到最小均方誤差結束。經過訓練的ANN模型擬合效果,測試準確率可以達到98.07%,TRP(100.00%),QN模型(隱層節(jié)點設置為7)可以得到最高的P(97.06%),見表3。
表3 分類效果比較(%)
ANN(QN,7)是具有最佳擬合效果和TPR的模型,測試準確率可達98.81%。SVM的準確率(rbf,rbf_sigma為1)可以達到100%。其所有受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)可達0.97,這可能是由于圖像中紋理對分類結果相關性較高所致。同時,數據集本身可能會影響結果,如數據集來源單一,樣本不平衡以及正例樣本不足,見表4。
表4 模型分類效果評測(%)
隨機森林的表現(xiàn)不盡如人意,但外推預測效果和交叉驗證有差異,穩(wěn)定性略差,這可能是由于選取較多反映紋理特征參數所致,在今后的研究中,可以嘗試降維,觀察分類效果。SVM的假陽性率高于其他算法,這可能是由于一些敏感數據缺失以及訓練和測試集缺乏平衡,但其交叉驗證結果更穩(wěn)定,即AUC達到1,進一步的研究可嘗試與隨機森林結合。ANN具有較高的容錯性,并且可以結合spark stream實現(xiàn)實時分析系統(tǒng)。在本研究中,當訓練方法選擇QN和隱藏層節(jié)點設置為7,整體性能較好。分析ANN三層模型具有較強的預測精度和穩(wěn)定性,對于整體訓練結果,當樣本有限時,該模型受到影響較小[15-16]。
據統(tǒng)計,醫(yī)學影像的疾病誤診率可達到10%~30%,在本研究中采用基于圖像ROI分割、分類器為基礎的CAD系統(tǒng)能夠將樣例診斷錯誤率降低至8%以下,其中假陰性率低于5%,假陽性率低于3%[17]。同時,通過調整分類算法及參數能夠構建出假陰性率較低(測試樣例為0.00%)的CAD系統(tǒng)模型。在臨床篩查中,假陰性率往往更值得關注,但在確定的模型訓練方法及樣本狀況下,假陰性率和假陽性率是此消彼長的關系,需要結合使用場景,兼顧二者,選擇合理的算法及初始化參數構建模型,提高診斷質量。
隨著肺部疾病發(fā)病率逐年攀升,該病已逐漸成為我國人民身心健康的重大威脅,給患者生活和醫(yī)療環(huán)境帶來巨大挑戰(zhàn)。如何快速發(fā)現(xiàn)早期病變、及時采取治療、從而有效避免病情惡化及降低病死率已成為當前新的挑戰(zhàn)。作為肺部疾病檢查的常規(guī)手段,CT以其無創(chuàng)、便捷及精準的特性,在臨床上被廣泛采用。然而,高強度的閱片工作,不僅要求醫(yī)生具備較高的臨床經驗,同時需要具備高效的閱片效率[18-19]。而通過人工智能技術構建CAD系統(tǒng),能夠定量分析圖像信息,快速捕獲ROI,為醫(yī)生決策提供量化依據和決策建議,從而確保了診斷效果和診斷效率[20]。CAD系統(tǒng)采用Web可視化界面,操作簡便,并可降低使用門檻,增強用戶體驗,為類似系統(tǒng)的開發(fā)提供借鑒。