王偉勝 駱嘉偉 林紅利
(湖南大學信息科學與工程學院,長沙 410082)
基于醫(yī)學影像的計算機輔助診斷(computeraided diagnosis,CAD)系統(tǒng),在降低醫(yī)生閱片負擔、提高疾病診斷準確率、降低漏診和誤診率方面有著重要的作用[1-2]。其研究內容集中在醫(yī)學圖像分割,特征提取和分類等[3-4]。從醫(yī)學圖像提取病變組織是分割的目的,算法運行效率和準確性是分割算法的評估指標;利用典型的圖像分割方法,結合病變組織的生理學及成像特點進行病變組織提取,是CAD 普遍采用的研究策略。研究病變組織的特征提取方法,圖像的形狀、灰度、紋理是最常提取的特征,在此基礎上研究針對不同病變組織的特異性特征及其量化方法,是特征提取的研究熱點。分類研究病變組織的良、惡性判別方法,人工神經(jīng)網(wǎng)絡、貝葉斯、支持向量機等是最常用的分類算法。
從20 世紀80 年代開始,CAD 研究在近30 多年里得到了迅速發(fā)展,國內外研究機構相繼開展了多病種、多模態(tài)CAD 系統(tǒng)的研究,并取得了大量的研究成果[3-4]。目前基于X 射線成像的乳腺癌CAD研究最為廣泛和成熟,已成功用于臨床診斷,其他病種的CAD 研究雖然也取得了一些成果,但要達到臨床應用的要求尚需廣泛和深入的研究[5]。
首先,盡管文獻報道了大量的CAD 算法,但用于CAD 算法訓練、測試和評估的樣本量普遍偏少,使得研究成果離臨床診斷還有一定的距離。其原因主要有:(1)CAD 研究需要的醫(yī)學影像數(shù)據(jù)量大、費用昂貴,病例收集比較困難;良、惡性定性診斷中所需的“金標準”病例則更難收集;(2)“金標準”標注工作量大,缺乏智能化的標注工具和統(tǒng)一的“金標準”數(shù)據(jù)模型。
其次,缺乏支持CAD 協(xié)同研究的機制和平臺。CAD 研究需要大量的醫(yī)學影像、“金標準”,同時在研究過程中也會產(chǎn)生大量的圖像量化數(shù)據(jù),由于缺乏統(tǒng)一的數(shù)據(jù)存儲模型,這些寶貴的數(shù)據(jù)無法方便地共享,限制了數(shù)據(jù)的再利用;算法是CAD 研究最重要的成果,由于缺乏一個可以支持算法共享的平臺,使得每個研究團隊必須一切從零開始進行病例收集、標注、分割、特征提取及分類等環(huán)節(jié)的研究,從而大大降低了CAD 系統(tǒng)的研究效率。雖然CAD系統(tǒng)研究者認識到病例數(shù)據(jù)集的重要性,目前有一些組織建立了可共享的病例數(shù)據(jù)集,例如乳腺癌[6]、肺癌[7-8]等數(shù)據(jù)庫,但普遍缺少統(tǒng)一的數(shù)據(jù)模型和數(shù)據(jù)管理工具的支持。
最后,一個可用于算法評估、開展算法對比研究和分析的標準數(shù)據(jù)庫也是CAD 研究的迫切需要。
因此,一個能為不同CAD 研究團隊提供數(shù)據(jù)、算法、研究工具共享的數(shù)據(jù)平臺,將為解決目前CAD 系統(tǒng)研究中存在的病例收集困難、標準數(shù)據(jù)缺乏以及研究成果共享困難的問題提供解決方案。
本研究圍繞CAD 系統(tǒng)研究過程中病例收集、標注、研究成果共享以及算法評估中存在的問題,提出了一個用于CAD 協(xié)同研究的數(shù)據(jù)平臺。通過分析CAD 系統(tǒng)研究數(shù)據(jù)平臺的需求,利用Oracle 數(shù)據(jù)庫和VC++程序進行了具體實現(xiàn),并成功運用到基于MRI 的腦膠質瘤計算機輔助分級和基于CT 的肺癌計算機輔助診斷系統(tǒng)研究中。
基于醫(yī)學影像的CAD 研究中的數(shù)據(jù),可分為影像數(shù)據(jù)、“金標準”、過程數(shù)據(jù)以及臨床診斷數(shù)據(jù)。
不同模態(tài)和格式的影像數(shù)據(jù)是CAD 研究的基礎,數(shù)據(jù)平臺需要提供對各種影像數(shù)據(jù)的支持。
DICOM (digital imaging and communications in medicine)作為醫(yī)學影像數(shù)據(jù)交換和存儲的標準,已經(jīng)被廣泛應用在數(shù)字影像設備上[9]。數(shù)據(jù)平臺要能支持不同模態(tài)的DICOM 醫(yī)學影像的讀取、顯示和操作處理。同時也需要提供對BMP、JPG 等常用計算機圖像格式的支持。
“金標準”為算法和系統(tǒng)訓練、測試、評估提供參考標準?!敖饦藴省睉▽<覍︶t(yī)學圖像上的病變組織的標注或病變組織的病理學診斷結果。前者即ROI(region of interest),是計算機輔助檢測系統(tǒng)的目標。后者是ROI 的良、惡性診斷結果。由于單個專家對異常組織的標注可能會存在一定的疏漏,CAD 研究多綜合多個專家的標注結果以減少個體的疏漏,使得“金標準”的準確性更高,因此數(shù)據(jù)平臺要能存儲多個專家對同一病例的標注結果。
圖像分割算法提取的ROI、ROI 提取的量化特征或特征選擇算法得到的最優(yōu)特征子集,是CAD 研究的過程數(shù)據(jù),是后續(xù)研究的基礎,同時也是其他研究領域的重要數(shù)據(jù)來源。考慮到不同病種、模態(tài)以及研究團隊關注的特征各不相同,如肺癌CAD 系統(tǒng)關注肺結節(jié)的大小、紋理、形狀等特征,乳腺癌CAD 系統(tǒng)則更關注腫塊的密度、形態(tài)和雙側乳對稱特性。因此數(shù)據(jù)平臺應提供對過程數(shù)據(jù)的動態(tài)存儲,數(shù)據(jù)名稱、類型等由用戶輸入。
一般的CAD 研究過程如圖1 所示,包括病例獲取、“金標準”收集、圖像分割與特征提取、算法評估和檢索等。
圖1 CAD 研究數(shù)據(jù)處理過程Fig.1 CAD research data process
CAD 研究所用病例的影像數(shù)據(jù),主要來源于PACS 系統(tǒng)、影像設備或其他研究團隊提供的影像數(shù)據(jù)。臨床系統(tǒng)提供的DICOM 影像,首先需要進行匿名化處理,去除患者的姓名、身份證號碼、聯(lián)系電話等有關患者的個人信息,然后為每個病例分配一個唯一的標識符存儲到數(shù)據(jù)庫中??紤]到影像數(shù)據(jù)量巨大,在數(shù)據(jù)庫中只存儲了影像文件在影像服務器的路徑和文件名。影像文件存儲的元數(shù)據(jù),如成像設備、成像參數(shù)等也在病例獲取階段通過對影像文件解析獲得。病例學診斷數(shù)據(jù)則提供用戶界面由用戶錄入。
一個或多個專家使用醫(yī)學圖像標注工具標記圖像上的ROI 邊界,給出ROI 特征的語義描述以及輸入ROI 的病例診斷結果是“金標準”收集的處理過程。“金標準”收集工作量巨大,考慮采用智能化的標注方法來減少專家的工作量。首先采用自適應閾值、區(qū)域生長、數(shù)學形態(tài)學等自動或半自動的圖像分割算法完成ROI 的初步提取,然后由專家對提取的ROI 邊界進行修正;同時提供手工分割方法滿足專家對復雜ROI 的分割。其他數(shù)據(jù)提供輸入界面由用戶錄入。
研究過程中產(chǎn)生的圖像分割結果、針對分割提取的ROI 的特征量化數(shù)據(jù)是CAD 研究的關鍵數(shù)據(jù)??紤]到不同CAD 使用的影像模態(tài)和特征的差異以及平臺通用性和擴展性的需要,平臺內置常用的圖像處理算法和特征提取算法,主要包括圖像預處理算法,如圖像去噪、圖像增強;醫(yī)學圖像處理常用的圖像分割算法,如區(qū)域生長、閾值分割等以及圖像的形狀、紋理等特征提取算法。同時采用基于組件的軟件開發(fā)技術,為新的圖像分割和特征提取算法的加入提供接口來擴充數(shù)據(jù)平臺的功能。
統(tǒng)一的數(shù)據(jù)集為算法評估和對比研究提供了可能,從病例庫中選取一定數(shù)量的病例組成評估數(shù)據(jù)集進行算法評估,敏感性和特異性作為評價指標。
為數(shù)據(jù)提供顯示、查詢、瀏覽功能也是數(shù)據(jù)平臺所需的功能。
CAD 研究中所需或研究過程中產(chǎn)生的大量數(shù)據(jù)可進行再利用,例如可用于醫(yī)學數(shù)據(jù)挖掘、醫(yī)學圖像內容檢索研究。
如圖2 所示為數(shù)據(jù)平臺的數(shù)據(jù)模型,由系統(tǒng)用戶、診斷試驗、醫(yī)學影像、“金標準”、CAD 分類結果及特征組成。數(shù)據(jù)模型支持不同病種的CAD 研究,一個系統(tǒng)用戶可以創(chuàng)建一個或多個病種的CAD 研究數(shù)據(jù)庫,每個病種的數(shù)據(jù)庫稱為一個診斷試驗。每個診斷試驗數(shù)據(jù)庫中存儲病例的醫(yī)學影像、“金標準”、CAD 分類結果及特征數(shù)據(jù)等過程數(shù)據(jù)。
圖2 數(shù)據(jù)模型Fig.2 Data model
按照DICOM 標準的患者、研究、序列、圖像層次模型來存儲影像數(shù)據(jù)。一個患者有一個或多個研究,研究是某個特定類型檢查請求的結果,一個研究可存在不同模態(tài)的檢查序列;每個序列則由DICOM 圖像組成,一個序列中的多張圖像按其獲取的順序,一般具有空間上或時間上的關系。
“金標準”由一個或多個專家對圖像序列的標注結果和病理學診斷結果組成。標注結果則由ROI及其醫(yī)學征象特征組成(醫(yī)學征象描述是可選項);病理學診斷結果是指通過手術、微創(chuàng)手術或其他臨床手段獲得的ROI 臨床診斷結果。
采用動態(tài)數(shù)據(jù)模型來存儲研究過程數(shù)據(jù),由分割結果(ROI)、ROI 特征以及分類結果組成。一個序列采用不同的分割算法有不同的分割結果,同一個分割結果可以提取不同的特征集合;同樣,同一個分割結果采用不同的分類算法可能有不同的診斷結果。
Oracle 數(shù)據(jù)庫具有跨平臺、高性能以及對DICOM 圖像格式及XML 格式數(shù)據(jù)支持的特點,適合醫(yī)學圖像CAD 研究,因此采用oracle 數(shù)據(jù)庫實現(xiàn)了數(shù)據(jù)模型?;贒CMTK[10]開發(fā)包采用VC++編程實現(xiàn)了數(shù)據(jù)平臺,DCMTK 是德國Offis 公司提供的實現(xiàn)了DICOM 協(xié)議的開發(fā)包,在DCMTK 的基礎上進行二次開發(fā),可大大節(jié)省開發(fā)時間,節(jié)省開發(fā)成本。平臺實現(xiàn)了CAD 研究所需的DICOM 圖像瀏覽和標注功能。為減輕圖像標注的工作量,平臺內置了自適應閾值分割算法、分水嶺分割算法、區(qū)域生長分割算法和數(shù)學形態(tài)學分割算法。可完成圖像的自動、半自動及手工分割,并提供用戶界面實現(xiàn)標注的輸入;并內置了圖像紋理、形狀以及灰度特征的量化算法;同時平臺也提供了數(shù)據(jù)管理的功能。平臺提供的病例瀏覽和標注工具的運行界面如圖3 所示。
目前搭建了基于MRI 的腦膠質瘤計算機輔助分級和基于CT 圖像的肺癌計算機輔助診斷數(shù)據(jù)研究數(shù)據(jù)平臺。
腦膠質瘤計算機輔助分級研究共有明確病理分級結果的病例200 例,每個病例由兩個醫(yī)學專家使用數(shù)據(jù)平臺完成了ROI 的標注和病理分級結果的錄入。
肺癌計算機輔助診斷則導入了399 個病例的CT 圖像及其“金標準”?!敖饦藴省眱热轂镽OI 的邊界及專家對其從分葉、球形度、惡性程度等9 個結節(jié)征象的描述。利用平臺提供的特征提取算法提取了ROI 的大小、形狀、紋理等68 個特征,用于肺癌的計算機輔助診斷研究。
圖3 影像瀏覽及標注。(a)影像瀏覽;(b)圖像標注Fig. 3 Medical imaging viewer and annotation. (a)Medical imaging viewer;(b)Medical imaging annotation
針對基于醫(yī)學影像的CAD 研究中數(shù)據(jù)、算法及研究工具的共享問題,提出并實現(xiàn)了一個支持研究成果共享的醫(yī)學圖像CAD 研究數(shù)據(jù)平臺,并應用于腦膠質瘤和肺癌CAD 研究中。
該數(shù)據(jù)平臺為CAD 研究的數(shù)據(jù)存儲提供了統(tǒng)一模型,為病例、“金標準”數(shù)據(jù)的獲取、管理提供了工具,同時也為算法的訓練、測試以及評估提供了統(tǒng)一的數(shù)據(jù)集。
數(shù)據(jù)平臺實現(xiàn)了常用的圖像分割和特征提取算法,基于組件的新算法加入機制,保證了平臺的可擴充性,將大大節(jié)省CAD 系統(tǒng)的研究時間,提高研究效率。
利用數(shù)據(jù)平臺提供的統(tǒng)一的數(shù)據(jù)存儲模型,可以無縫地用于醫(yī)學圖像分析、醫(yī)學圖像數(shù)據(jù)挖掘和基于圖像內容檢索的研究領域。
[1] Henschke CI,Naidich DP,Yankelevitz DF,et al. Early lung cancer action project:initial findings on repeat screenings[J].Cancer,2001,92(1):153 -159.
[2] Sahiner B,Chan HP,Hadjiiski LM,et al. Effect of CAD on radiologists’detection of lung nodules on thoracic ct scans:analysis of an observer performance study by nodule size [J].Acad Radiol,2009,16(12):1518 –1530.
[3] Van GB,Ter Haar Romeny BM,Viergever MA. Computer-aided diagnosis in chest radiography:a survey[J]. IEEE Trans Med Imaging,2001,20(12):1228 -1241.
[4] Doi K. Computer-aided diagnosis in medical imaging:historical review,current status and future potential [J]. Computerized Medical Imaging and Graphics,2007,31(4):198 -211.
[5] Doi K. Current status and future potential of computer-aided diagnosis in medical imaging[J]. British Journal of Radiology,2005,78(1):3 -19.
[6] 郝欣,曹穎,夏順仁.基于醫(yī)學圖像內容檢索的計算機輔助乳腺X 線影像診斷技術[J]. 中國生物醫(yī)學工程學報,2009,28(6):922 -930.
[7] 王偉勝,林紅利. 肺癌數(shù)據(jù)庫的改進及其集成工具的設計實現(xiàn)[J]. 計算機工程,2011,37(1):63 -65.
[8] McNitt-Gray MF,Armato Iii SG,Meyer CR,et al. The Lung Image Database Consortium (LIDC)Data Collection Process for Nodule Detection and Annotation [J]. Academic Radiology,2007,14(12):1464 -1474.
[9] ACR/NEMA. Digital Imaging and Communication in Medicine[EB/OL]. http://dicom. nema. org/,2011 -08 -10/2012 -04 -01
[10] OFFIS Computer Science Institute. DCMTK-DICOM Toolkit[EB/OL]. http://dicom. offis. de/dcmtk. php. en,2011 - 12-01/2012 -03 -01