王婧璇,林 嵐*,趙思遠,吳水才
(1.北京工業(yè)大學生命科學與生物工程學院,北京 100124;2.北京工業(yè)大學軟件工程學院,北京 100124)
肺癌是發(fā)病率和死亡率增長最快、對人群健康和生命威脅最大的惡性腫瘤之一[1]。2018年2月,國家癌癥中心發(fā)布了最新一期的全國癌癥統(tǒng)計數據:我國惡性腫瘤發(fā)病率和死亡率居首位的均是肺癌,按發(fā)病例數排位,每年發(fā)病約78.1萬例;按死亡例數順位,每年死亡病例約62.6萬[2]。而肺癌早期發(fā)現是可治愈的,“早期發(fā)現、早期診斷、早期治療”是降低肺癌死亡率的重要措施。因此,肺癌的早期診斷越來越受到廣大群眾及醫(yī)務人員的重視。歐美發(fā)達國家已經開展了對肺癌高危人群的早期篩查[3]。目前,肺癌早期排查最有效的方法之一是進行CT檢查[4]。早期肺癌往往表現為肺部惡性結節(jié),只要對肺部惡性結節(jié)做到及時發(fā)現并進行鑒別診斷,即可有效篩選出早期肺癌。因此,基于CT影像的計算機輔助惡性結節(jié)的自動檢測是極為必要的[5-6]。隨著計算機輔助診斷(computer aided diagnosis,CAD)技術的發(fā)展,越來越多的醫(yī)生利用CAD系統(tǒng)對肺部CT圖像進行診斷,這不僅可以減輕醫(yī)生的工作負擔,還可以提高診斷的速度和準確率。
肺結節(jié)的分割與檢測離不開參考標準數據集的支持,良好的標準數據集可推動肺部疾病研究中算法的發(fā)展。LIDC/IDRI(Lung Image Database Consortium/Image Database Resource Initiative)是世界上最大的公開肺結節(jié)影像數據庫,為該領域的研究者提供了一個權威的參考平臺[7]。LIDC/IDRI影像數據庫包含來源于1 010個患者的1 018套全肺CT掃描圖像(掃描層厚0.6~5 mm,512×512像素)和對結節(jié)的詳細診斷描述等信息[8-9]。其中CT影像被存儲于DICOM文件中,而與結節(jié)相關的專家診斷信息則采用數據描述和交換的通用格式——XML進行數據傳輸[10-11]。但XML是一種重量級數據格式,數據編碼復雜,直接可讀性差,對其進行解析需要耗費研究者大量的精力,同時還存在數據查詢檢索困難,且沒有簡易的方法建立結節(jié)標注信息與CT影像間的聯系等問題。
針對LIDC/IDRI影像數據庫使用中存在的一些局限,研究者們在這方面做了大量的有益探索。顧曉暉等[12]通過對LIDC/IDRI影像數據庫中診斷信息的提取,構建了一個Access數據庫,方便用戶實現結節(jié)信息的查詢。王偉勝等[13]使用.NET FrameWork3.5中的關鍵類技術實現對XML的信息查詢。林紅利等[14]基于SQL Server數據庫,采用Visual C++編程語言開發(fā)了一套基于LIDC數據庫進行數據檢索的肺癌圖像數據系統(tǒng)。Wang等[15]建立了統(tǒng)一的數據系統(tǒng),將不同格式的源數據文件中包含的信息提取并集成到一個新的、統(tǒng)一的數據模型中,并在該數據模型的基礎上,總結了結節(jié)的幾何特征和診斷特征的統(tǒng)計分布。Lin等[16]為了提高DICOM數據模型的可讀性、改善其結構、促進DICOM文件中數字成像和通信的共享,提出了DICOM數據模型的XML模式表示方法。這些探索性研究在一定程度上推動了LIDC/IDRI影像數據庫的使用,但LIDC/IDRI影像數據庫構建的目的是為肺結節(jié)的檢測與診斷提供一個算法優(yōu)化和比較的基礎平臺,而上述研究更多集中在數據庫功能上,主要實現數據的檢索,并不能方便地導入其他開發(fā)平臺進行進一步的智能算法驗證與開發(fā),且其一般情況下僅能單機使用,開放性和共享性差。
本研究針對LIDC/IDRI影像數據庫數據表示中存在的不足,剔除其中包含的一些冗余信息,優(yōu)化數據表示結構;并對關鍵診斷信息進行解析,轉換為JSON和MAT格式,方便機器學習開發(fā)平臺對數據的直接讀?。煌瑫r還設計了一個可視化界面,實現對結節(jié)標注的顯示。
基于LIDC/IDRI影像數據庫的專家診斷信息解讀軟件采用自底向上的開發(fā)方法,由子類繼承父類屬性,使類與類之間存在關聯,其軟件架構如圖1所示。軟件接受異構類型的輸入數據即文本數據和圖像數據,其分別用于底層架構中的診斷信息解析模塊和診斷信息展示模塊,為實現信息統(tǒng)計、專家標注查詢和信息分析功能打下基礎。
圖1 基于LIDC/IDRI影像數據庫的專家診斷信息解讀軟件架構
基于LIDC/IDRI影像數據庫的專家診斷信息解讀軟件的開發(fā)和調試硬件配置:聯想ThinkPad Intel(R)Core(TM)i3-2328M,CPU2.2GHz×4 核,4GBRAM,硬盤500 GB。采用JetBrains公司的PyCharm 2017為軟件開發(fā)平臺,并調用MATLAB接口進行MAT解析格式開發(fā),基于Python編程語言、JavaScript網頁編程語言、HTML和CSS完成各功能模塊。軟件運行環(huán)境為64位操作系統(tǒng),可在Windows 7、Windows 8、Windows 10操作系統(tǒng),Mac OS系統(tǒng)及Linux系統(tǒng)中運行。
XML是一種用于標記電子文件使其具有結構性的標記語言。放射專家把LIDC/IDRI影像數據庫中結節(jié)的詳細情況標注并存儲在XML文件中,其中包含專家閱片區(qū)域、結節(jié)的病理學特征、結節(jié)診斷結果等信息[7]。在XML首個標簽中包含了序列實例號和檢查實例號2個比較重要的信息,其他信息如服務日期、服務時間和版本號等則可以忽略。在專家閱片區(qū)域,可以查詢到服務放射專家編號、結節(jié)信息和非結節(jié)的點坐標信息。其中,最受關注的是結節(jié)標簽中包含標識結節(jié)的唯一編號、大結節(jié)病理學特征和結節(jié)感興趣區(qū)域。而大結節(jié)的感興趣區(qū)域由結節(jié)像素的點坐標一一描述,即用點表示輪廓,但該方法無法將大結節(jié)的形狀直觀地展示出來,且一個點坐標需占用XML文件的一行,繁多的點坐標使得XML文件長度達到了上萬行。這種冗余的信息和復雜的數據存儲結構會給相關研究帶來一定的困難。
XML是包括多層嵌套的數據結構,其與樹模型下節(jié)點間的結構關系直接對應,因此本研究中將XML數據轉化成一個元組樹的數據結構。將XML的每個標記表示成一個Python元組數據類型并進行封裝,然后再以“對象名·屬性名”面向對象的方式來訪問各類診斷信息?;诖?,本研究中采用面向對象的方法來完成對診斷信息結構的優(yōu)化,采用模塊化的方法來完成軟件開發(fā)。
目前,機器學習技術被大量用于肺癌檢測與診斷中,但適于機器學習平臺調用的肺癌數據比較少,對于轉換后的LIDC/IDRI影像數據庫中的專家診斷信息都存儲在大型數據庫中,其不能承載大數據,且開放性和共享性較差,因此需要開發(fā)出方便導入機器學習平臺的數據。為了解決上述問題,本研究中將解析過程分為結節(jié)(nodule)、公用工具(utilities)和信息統(tǒng)計(statistic_case)三大類,其結構設計如圖2所示。
首先對結節(jié)進行分解,將一些功能獨立、內聚強、相互之間耦合較松散的模塊抽象出來,得到一些通用的屬性和操作并加以封裝,進而建立結節(jié)基類,并用于定義結節(jié)特征與信息處理的主要函數接口,其包含的多個派生類數據結構隨結節(jié)種類的不同而稍有差別。但是這些派生類的數據結構及其函數、方法和過程的定義存在很大相似性,因此,可以以構件重用的形式有針對性地對診斷信息進行結構化的表達和組織,最大限度地進行代碼和數據結構的重用和共享。結節(jié)基類中各派生類的詳細介紹見表1,它們共同用以完成各類結節(jié)的特征提取與信息處理。
表1 結節(jié)基類中的各派生類
圖2 XML解析類之間的關系
公用工具類中包含文件路徑處理函數list_path、DICOM圖像導入函數loadDCM、XML文件解析函數parseXML、結節(jié)比較函數compareNorNodule、非結節(jié)比較函數compareNodule、結節(jié)信息函數noduleInfo、圖像處理函數process_dcm等。
信息統(tǒng)計類中主要包含統(tǒng)計各醫(yī)生標注的結節(jié)信息和全部對象的結節(jié)信息2個函數,每個函數均是一個功能完備的子模塊。
通過閱讀和分析文本類解析信息并不直觀,為了使研究者更直接地學習到專家診斷信息,本文結合DICOM和XML設計并實現了診斷信息可視化界面??梢暬故臼且环N更為直觀的顯示方式,在對XML和DCIOM圖像分析的基礎上,結合HTML、CSS和JavaScript等前端開發(fā)技術來實現專家標注結節(jié)的展示模塊。該模塊主要通過對生成界面類(createhtml)、結節(jié)類(nodule)和頁面模板類(html)函數進行調用,從而實現結節(jié)可視化的功能,結節(jié)可視化程序類之間的關系如圖3所示。首先,肺CT圖像中的信息全部以DICOM格式進行存儲,且每張圖像包含103個字段,可視化程序中將調用其中的幾個關鍵字段。其次,需要調用保存在XML格式中的專家標注結果。最后,實現DICOM和XML間對應關系的匹配。具體來說,在DICOM和XML中均用StudyInstanceUID字段表示檢查實例號,用SeriesInstanceUID字段表示一次檢查的序列號;而切片在z方向的相對位置在DICOM中用SliceLocation字段表示,在XML中用imageZposition字段表示,但其實際含義是一致的。根據以上3個關鍵字段可以實現診斷信息與醫(yī)學圖像間的關聯,從而實現診斷信息的可視化展示。
圖3 結節(jié)可視化程序類之間的關系
診斷信息解析模塊剔除了原有XML文件中的冗余內容,使優(yōu)化后的診斷數據結構更加清晰,數據間的表示關系更加規(guī)范,提高了查詢速度。該模塊實現了診斷信息的解析,并生成了適用于機器學習平臺的數據:將XML數據格式以“對象名·屬性名”形式轉換成MAT和JSON格式(部分結果如圖4所示)。這不僅便于機器學習平臺對數據進行直接讀取、分析、集成與使用,還可以選擇性地展開所需信息,關閉無用信息。
圖4 診斷信息的格式轉換
診斷信息展示模塊即可視化界面模塊,實現了診斷信息的展示。圖5為專家診斷信息的可視化界面,可以直觀地將結節(jié)信息反映在DICOM圖像中。圖中顯示了4名專家的診斷結果,每位專家對于結節(jié)3種情況(3 mm以上大結節(jié)、3 mm以下小結節(jié)和非結節(jié))的勾畫可以通過紅、綠和藍3種顏色框清晰地展現。如果需要按照專家或者結節(jié)類別進行查看,則可以勾選對應的選擇框。
圖5 結節(jié)可視化展示界面
本研究在開發(fā)與設計中充分利用了模塊化、構件重用和面向對象的思想,實現了結節(jié)基類和派生類的設計,并將其應用于結節(jié)信息提取和標注可視化的顯示功能,軟件整體的可重用性、可維護性及可讀性好,結構清晰。同時,為了與機器學習平臺更好地集成,本軟件還將數據轉換為常用機器學習平臺可以直接使用的格式,便于與智能化分析系統(tǒng)的集成。整個軟件基于Python編程語言開發(fā),擁有強大的標準庫和第三方庫,從而具有跨平臺的可移植性、開放性和共享性。當然,本文構建的原型軟件還不完善,仍有很多地方需要改進,如解析和顯示還是2個單獨的模塊,并沒有集成為一個完整的系統(tǒng)。同時,盡管診斷數據被轉換為常用機器學習平臺可直接讀取的格式,但還沒有實現其自動化診斷分析的集成工作,后期將會對上述問題進行進一步的研究與完善。