趙國樺 吳亞平 郝惠惠 時東閣 林予松
1(鄭州大學產業(yè)技術研究院 河南 鄭州 450001)2(西安交通大學電子與信息工程學院 陜西 西安 710049)3(鄭州大學第一附屬醫(yī)院磁共振科 河南 鄭州 450052)4(鄭州大學互聯網醫(yī)療與健康服務河南省協同創(chuàng)新中心 河南 鄭州 450052)5(鄭州大學軟件與應用科技學院 河南 鄭州 450003)
隨著各類影像采集設備逐步在基層醫(yī)療機構部署,越來越多的基層患者可以根據臨床需求進行醫(yī)療影像采集。由于醫(yī)學影像的診斷主要依靠醫(yī)務人員專業(yè)技能和個人經驗,基層醫(yī)務人員相關技能水平不足,導致漏診和誤診情況比較突出[1]。
當前主要采用遠程會診的形式,由三甲醫(yī)院資深醫(yī)生與基層醫(yī)生進行病例討論。隨著問診量的增加,三甲醫(yī)院的醫(yī)生也難以應對越來越多的基層遠程會診請求。因此,利用計算機技術對醫(yī)學影像進行輔助診斷[2-3],可以有效提高醫(yī)生的工作效率,推進分級診療的落地。另一方面,由于醫(yī)學影像數據量較大,受網絡傳輸速率的限制,醫(yī)療數據傳輸速度較慢,影響了臨床診斷工作的及時性[4-5],急需一種新的網絡傳輸技術改善醫(yī)療數據傳輸緩慢的困境。IPv6作為新一代的互聯網技術能提供高傳輸速率、高可靠性的網絡環(huán)境,為當前醫(yī)學影像的數據傳輸提供新的途徑。
本文的主要目標是為醫(yī)療機構設計和開發(fā)一個基于IPv6的醫(yī)學影像在線輔助診斷系統(tǒng),對基層醫(yī)院患者上傳的影像數據進行初步的自動化分析,為后續(xù)醫(yī)生的診斷提供有價值的參考。系統(tǒng)重點關注如何實現影像數據高速傳輸、如何實現影像數據標注以及自動化分析。針對醫(yī)學影像大數據的特殊性,研發(fā)基于IPv6網絡環(huán)境下的醫(yī)學影像的快速傳輸技術,利用IPv6網絡的優(yōu)勢保證系統(tǒng)數據傳輸的高效、穩(wěn)定;綜合考慮未來系統(tǒng)分析準確度,合理放置數據標注模塊,開發(fā)通用性強的標注模式;采用計算機影像組學、機器學習方法,以臨床中較為嚴重的腦膠質瘤影像數據為切入點,使用計算機高通量地提取患者腦膠質瘤影像數據的各類特征,最后訓練出高精度分析模型,實現影像數據分析的自動化。
目前國內外已經有不少針對醫(yī)學影像的計算機輔助診斷產品。Arterys公司推出的Arterys Cardio DL是FDA批準的第一個用于臨床的基于云計算和深度學習的分析軟件。可以分析傳統(tǒng)的心臟核磁共振圖像,進行自動化的心室分割[6];推想科技的智能CT輔助篩查依賴計算機的高速計算能力,有效挖掘肺癌的核心特征點,判斷不同序列影像是否存在疑似癌癥的特征,實現肺癌的早診早治[7]?,F有產品都是針對某一特定重大病種進行研發(fā);形式上往往是基于客戶端的軟件或設備,無法直接和在線醫(yī)療系統(tǒng)并用;主要用于多家醫(yī)療機構遠程會診,沒有輔助診斷的功能。
另一方面,現有的醫(yī)學影像系統(tǒng)主要通過傳統(tǒng)的IPv4網絡進行醫(yī)學影像大數據的傳輸[8]?;鶎俞t(yī)療機構的網絡條件并不理想,大多采用租用運營商的專線來進行數據傳輸。目前國內外對于利用IPv6協議進行醫(yī)學影像大數據傳輸的相關研究還很少[9]。我國政府正在積極推動下一代互聯網的規(guī)模部署以及應用研究[10]。隨著下一代互聯網技術的不斷發(fā)展,IPv6網絡的接入將逐漸普及,研發(fā)基于IPv6的醫(yī)學影像系統(tǒng),具有較好的應用前景。
本文設計開發(fā)的醫(yī)學影像在線診斷系統(tǒng),通過IPv6網絡連接基層醫(yī)療機構和省級綜合性三甲醫(yī)院?;鶎俞t(yī)療機構產生的醫(yī)學影像數據,通過高速IPv6網絡傳輸到醫(yī)學影像云平臺;在云平臺中通過機器學習算法進行自動化的診斷和報告生成;三甲醫(yī)院的醫(yī)生對云平臺自動生成的報告進行審核,審核后的報告可以傳輸到基層醫(yī)療機構;同時,基層醫(yī)療機構的醫(yī)生還可以通過網絡與三甲醫(yī)院的醫(yī)生進行病例討論。
根據服務的對象,醫(yī)學影像在線診斷系統(tǒng)分為三個部分:基層醫(yī)院服務端、云端服務平臺和三甲醫(yī)院服務端。系統(tǒng)功能圖如圖1所示。
圖1 系統(tǒng)功能圖
基層醫(yī)院影像工作站將協助醫(yī)務工作者完成對腦影像的輔助診斷,并就具體病例與三甲醫(yī)院專家進行溝通交流。具體功能包括:數據采集及上傳,利用IPv6網絡高速傳輸通道將患者影像數據(如CT,MRI等)上傳到醫(yī)學影像云服務平臺;報告查詢,將三甲醫(yī)院處理過的報告單下載到本地進行查看;病例討論,與三甲醫(yī)院的專家就相關病例進行交流討論。
醫(yī)學影像云平臺采用云架構體系,將基層上傳的影像數據經過抽取、同步、清洗、轉換匯入醫(yī)學影像基礎數據資源庫,實現醫(yī)學影像數據的大規(guī)模存儲;利用機器學習、影像組學[11-13]方法實現對影像數據的自動分析并生成報告。
三甲醫(yī)院影像工作站主要實現對報告審核和病理討論,主要功能有:病例查看,對云平臺上的病例數據進行檢索和查看;報告審核,對云平臺上基于自動輔助診斷系統(tǒng)生成的報告內容進行審核;病例討論,與基層醫(yī)院的專家就相關病例進行交流討論。
為了實現系統(tǒng)的具體目標,采用分層處理的方式進行系統(tǒng)的搭建,總體分為數據層、網絡層、接口層、存儲層、處理層和應用層六個層。整個系統(tǒng)的分層結構示意圖如圖2所示。
圖2 分層結構示意圖
數據層主要實現對基層醫(yī)院多源異構數據的整合。該層運行于基層醫(yī)院影像工作站,目標是實現醫(yī)學影像在線診斷需要使用的各類格式或非格式數據的統(tǒng)一采集,數據來源包括醫(yī)院的HIS、LIS、PACS系統(tǒng)等獨立系統(tǒng)、各類醫(yī)學影像、圖片等文件。通過對數據進行標準化實現數據的整合存儲,便于通過網絡層高速傳輸到云端服務平臺。
網絡層采用基于IPv6的高性能網絡傳輸協議,充分發(fā)揮高速專用信道的優(yōu)勢來進行醫(yī)學影像數據的高速傳輸。本文開發(fā)的系統(tǒng)網絡層采用IPv6協議實現醫(yī)療大數據的快速轉發(fā),提高傳輸數據的安全性,減少傳輸過程中的抖動和丟包現象。
接口層位于網絡層上方,實現基層醫(yī)療機構與云平臺之間的高并發(fā)連接和數據高速交換,實現對多源異構數據的統(tǒng)一處理。
存儲層采用虛擬化技術,將數據中心的存儲資源池化管理,通過負載均衡技術和虛擬化管理軟件實現針對存儲資源的實時監(jiān)控、動態(tài)調度,提供高性能數據庫服務。
處理層將基層醫(yī)療機構上傳的醫(yī)學數據經過抽取、同步、清洗、轉換匯入醫(yī)學影像基礎數據資源庫。結構化數據使用數據倉庫進行保存,非結構化數據采用Hadoop分布式存儲結構。為了充分保護患者的隱私,利用去隱私技術對醫(yī)學數據進行處理。
應用層實現云平臺管理端、基層醫(yī)院端、三甲醫(yī)院端的相關功能,完成業(yè)務系統(tǒng)全流程。
醫(yī)學影像數據是本系統(tǒng)的數據主體,系統(tǒng)依靠數據傳輸和處理連接各個功能模塊,其數據流向如圖3所示。
圖3 數據流向圖
基層醫(yī)院負責數據采集,收集到的疑難病癥數據經過IPv6高速通道上傳到云端服務平臺并及時保存,同時數據經過平臺內置的分析算法對其進行分析處理,得到該病癥的計算機輔助診斷結果,進而生成輔助診斷報告。該報告隨后被推送到三甲醫(yī)院,醫(yī)生通過查看病例影像,參考輔助診斷報告,對該病例做出最后的診斷,并回傳給云端服務器。此時基層醫(yī)院可以下載該病例的診斷報告?;鶎俞t(yī)院若對某一病例的診斷結果存在異議時,可與三甲醫(yī)院進行遠程會診,就此病例進行討論。
本系統(tǒng)采用河南省教育科研網HERNET提供的遍布全省的專用網絡,能夠為全省18個地市提供高速的IPv6接入服務,河南省教育科研網網絡中心可以為本項目開辟高帶寬的專用信道,利用IPv6網絡實現快速的影像數據上傳。
系統(tǒng)使用C/S架構,客戶端系統(tǒng)采用C#基于Winform的頁面框架技術進行開發(fā);云服務平臺使用Python開發(fā),操作系統(tǒng)選用Linux CentOS 7。
圖4展示了客戶端的主界面,主要分為三個功能區(qū)域:上方為工具欄導航區(qū),包括數據上傳、刷新列表、打印報表、下載報告、查看影像、審核上傳等功能;下方左邊為列表區(qū),顯示了患者基本信息,點擊可打開相應患者的報告,并在主操作區(qū)顯示報告內容;下方右邊為主操作區(qū),對報告進行相關的操作以及對報告進行病例討論。
圖4 系統(tǒng)操作主界面
數據上傳由基層醫(yī)院來完成。如圖5所示,基層醫(yī)院通過基層醫(yī)院影像服務端登錄,點擊“數據上傳”,即可將報告通過IPv6網絡將影像信息和患者信息傳輸到醫(yī)學影像云平臺服務端。
圖5 數據上傳界面
影像數據自動分析生成的輔助診斷結果在三甲醫(yī)院醫(yī)生審核報告時附帶給出,醫(yī)生可根據輔助診斷結果對此病例做最終診斷,如圖6所示。醫(yī)生審核報告內容并寫下備注信息后即可上傳至云服務平臺,供基層醫(yī)院下載查看。
圖6 影像數據自動分析與審核
基于IPv6的醫(yī)學影像在線診斷系統(tǒng)在工程化實現中需解決的關鍵技術主要包括:IPv6數據傳輸、數據標注、影像數據自動分析。
3.2.1IPv6數據傳輸
IPv6擴大了IP地址的地址空間,可滿足每一臺可用的醫(yī)療設備配置一個唯一的IP地址,并且通過簡單配置即可接入IPv6網絡。本系統(tǒng)利用IPv6技術的優(yōu)勢,建立基于IPv6的在線診斷系統(tǒng),進而改善影像數據傳輸時的網絡質量,滿足在線診斷對醫(yī)療信息的數據要求。
對于基層醫(yī)院和三甲醫(yī)院均使用IPv6網絡專用通道的情況,數據直接進行端到端的透明傳輸。對于之前使用IPv4網絡中傳輸或通信,沒有配置支持IPv6網絡環(huán)境的基層醫(yī)院或部分三甲醫(yī)院。若要升級支持IPv6網絡,修改配置主要包括:網絡通信接口、包含IP地址的系統(tǒng)程序段和配置文件、邏輯腳本、數據庫等[14-16],具體如圖7所示。
圖7 支持IPv6的配置修改
3.2.2數據標注
數據標注是本系統(tǒng)自動分析算法實現的前提。醫(yī)生對影像數據進行標注后,數據才能作為自動分析算法訓練集使用。數據標注模塊重點考慮模塊放置問題和如何實現數據標注。
如圖8所示,數據標注模塊有Ⅰ、Ⅱ兩種分配策略。策略Ⅰ是將數據標注模塊放置在云端服務器,并在系統(tǒng)中內置一個數據自動標注的腳本。數據從基層醫(yī)院服務端上傳到云端服務器后,將依次對數據進行自動標注和自動分析,生成輔助診斷報告發(fā)送給三甲醫(yī)院審核。策略Ⅱ是將數據標注模塊放置在基層醫(yī)院服務端。數據在基層醫(yī)院收集,同時基層醫(yī)院醫(yī)生負責對數據進行手工標注。標注好的數據和原始數據一同上傳到云端服務器,云端服務器執(zhí)行自動分析程序,生成診斷報告發(fā)送到三甲醫(yī)院端查看審核。理論上來說,選擇策略Ⅰ更適合本系統(tǒng),數據標注是一個繁瑣的、重復性強的工作,使用計算機自動標注很大程度上減少了醫(yī)生的工作量。但是實際效果卻不理想,目前大多數自動標注程序的準確度還達不到臨床水平,數據標注效果較差,直接影響模型訓練和診斷報告的結果。反觀策略Ⅱ,雖然靠醫(yī)生手工標注,但是標注的準確度有了保障,為后續(xù)模型訓練的準確提供了保障。所以,系統(tǒng)將數據標注放置在基層醫(yī)院服務端,醫(yī)生使用手工標注的方式對數據做預處理。
圖8 數據標注分配策略
本系統(tǒng)數據標注需要使用分割工具處理DICOM(Digital Imaging and Communications in Medicine)格式的影像數據。主要功能包括影像查看、影像分割以及影像保存。具體功能通過開源工具庫ClearCanvas進行開發(fā)。主要實現過程為:讀取DICOM格式的原始圖像文件,將原圖像轉換為位圖格式在程序中顯示,同時顯示原圖像屬性列;影像標注功能在影像查看的基礎上進行開發(fā),通過在位圖上勾畫閉合線條,實現對病灶區(qū)域的分割和摳出,進而實現病灶標注;保存標注好的影像文件。
3.2.3影像數據自動分析
影像數據自動分析算法是本系統(tǒng)實現“輔助診斷+在線診斷”的核心。系統(tǒng)最終將實現對多病種的鑒別診斷,目前系統(tǒng)以腦膠質瘤分級作為切入點,實現對影像數據的自動分析。腦膠質瘤分為四個級別,其中I-II級為低級別(LGG),III-IV級為高級別(HGG)[17]。當前算法主要目標是根據腦膠質瘤的高低級別進行分類。自動分析算法具體流程如圖9所示。
圖9 自動分析算法流程
歷史數據經過醫(yī)生標注之后,將進行特征工程。利用計算機影像組學的方法大量提取包括一階統(tǒng)計特征、空間幾何特征、紋理特征三大類特征,經過特征降維后,針對降維數據進行模型建立。其中,一階統(tǒng)計特征16個(主要為描述亮度的標量)、空間幾何特征9個(主要為描述空間幾何特性的標量)、紋理特征300個(主要為描述病灶內部特征的標量)。使用互信息方法將提取的各類特征進行分組,在各組中計算信息增益,選擇增益最大的特征構建降維候選集,最后進行模型訓練,生成分類模型。
自動分析算法使用已經訓練好的分類模型,可以減少算法本身的復雜度。新接收的影像數據經過標注后即可導入自動分析模塊,包括對數據執(zhí)行特征工程、導入分類模型進行分類,最后輸出分類結果。
本文使用臨床影像數據對系統(tǒng)進行功能測試和性能測試。
測試將模擬系統(tǒng)的實際使用情況——數據由基層醫(yī)院輸到云服務器,再由云服務器傳輸到三甲醫(yī)院。選擇鄭州大學兩個校區(qū)作為數據傳輸節(jié)點,鄭州大學南校區(qū)模擬為三甲醫(yī)院端并將云服務器部署在南校區(qū),鄭州大學新校區(qū)模擬為基層醫(yī)院,數據由新校區(qū)傳輸到南校區(qū)。
三甲醫(yī)院端節(jié)點操作系統(tǒng)選用Microsoft Windows Server 2008 R2 Datacenter,處理器配置為Intel64 Family 6 Model 44 Stepping 2 GenuineIntel ~2400,4 GB內存。云服務器節(jié)點操作系統(tǒng)選用Microsoft Windows Server 2008 R2 Standard,處理器配置為Intel64 Family 6 Model 62 Stepping 4 GenuineIntel ~2100,內存4 GB?;鶎俞t(yī)院端節(jié)點操作系統(tǒng)Microsoft Windows 7 旗艦版,處理器Intel64 Family 6 Model 94 Stepping 3 GenuineIntel~2496,8 GB內存。數據傳輸的緩存區(qū)設置為256 K。
本文將測試系統(tǒng)所提供的功能模塊是否實現以及各模塊功能點是否完善。表1列出了本系統(tǒng)主要功能模塊。使用黑盒測試法進行功能測試,包括采用等價類劃分和邊界值分析測試數據、錯誤推測法測試功能,同時檢查測試結果是否符合業(yè)務邏輯,最后評審功能測試結果。
表1 主要功能模塊
整個測試過程進行了三輪全面測試以及6次隨機測試。整個測試過程未發(fā)現崩潰性和嚴重性錯誤,但存在一般性和提示性錯誤。及時反饋功能缺陷并修復問題后,系統(tǒng)在功能上能夠滿足用戶需要。
本節(jié)將對核心功能模塊的性能測試情況做簡要介紹,包括:IPv6環(huán)境下數據傳輸性能以及自動分析算法的性能。
4.2.1IPv6環(huán)境下數據傳輸性能測試
本節(jié)將測試在IPv6環(huán)境下,六組大小不同的數據包由客戶端傳輸到云服務器的傳輸速度,對照組設置為測試IPv4環(huán)境下傳輸相同大小數據時的傳輸速度。
實驗傳送數據包大小以及實驗結果如表2、表3所示。
表2 基層醫(yī)院端到云服務器的數據傳輸
表3 云服務器到三甲醫(yī)院端的數據傳輸
基層醫(yī)院數據傳送到云服務器測試環(huán)境在同城的兩個獨立校區(qū)進行,傳送數據量從百兆級到千兆級,涵蓋了各類影像數據單元,在IPv4網絡環(huán)境下傳輸速度僅有2.33 MB/s,傳輸一百多兆數據的時耗已經超過1分鐘,而在IPv6環(huán)境下平均傳輸速度達到約15 MB/s,傳輸一百多兆數據耗時僅需十幾秒。云服務器數據傳送到三甲醫(yī)院測試環(huán)境在同一個校區(qū)的不同路由范圍內進行,傳送數據與基層醫(yī)院傳送到云服務器為同一批數據,IPv4網絡下傳輸速度接近11 MB/s,而處于IPv6網絡環(huán)境下的平均傳輸速度達到約63 MB/s。由此可見使用IPv6網絡環(huán)境傳輸醫(yī)學影像數據和IPv4網絡環(huán)境相比,傳輸效率有顯著提升。
4.2.2自動分析算法的性能測試
自動分析算法為三甲醫(yī)院醫(yī)生提供參考性意見,其準確度直接影響醫(yī)生的診斷。為了驗證本系統(tǒng)開發(fā)的數據自動分析算法的性能,本節(jié)將使用上傳到云服務平臺的119例腦膠質瘤影像數據對本自動分析算法進行準確率評估。
上傳的119例腦膠質瘤數據包括68例HGG和51例LGG,全部數據的分級都由醫(yī)院病理科確認。自動分析算法部署在新校區(qū)云服務器上。測試的分類結果統(tǒng)計在如圖10所示的混淆矩陣中。
圖10 分類結果的混淆矩陣
圖10中,Predicted Label 標簽下的HGG和LGG表示本系統(tǒng)智能分析算法對119例腦膠質瘤數據的預測結果,True Label標簽下的HGG和LGG表示數據實際的分級結果。為了更具體地說明分級性能的優(yōu)劣性,引入準確率、靈敏度、特異度、漏診率、誤診率進行描述,如表4所示。
表4 指標評估
其中,準確度是指測量值與真實值的接近程度,這里表示預測正確的樣本數占總樣本數的比例,設定LGG為正樣本,HGG為負樣本。靈敏度描述了識別出的正樣本占全部正樣本的比例;特異度描述了識別出的負樣本占全部負樣本的比例;漏診率了描述未識別的正樣本占全部正樣本的比例;誤診率了描述未識別的負樣本占全部負樣本的比例。表中數據顯示智能分析算法準確度率90.76%,普通醫(yī)生的確診準確率為70%~80%,所以本系統(tǒng)智能分析算法為醫(yī)療工作者提供輔助性的診斷信息是可靠的。
本文設計開發(fā)了基于IPv6的醫(yī)學影像在線診斷系統(tǒng),實現了在IPv6網絡環(huán)境下醫(yī)學影像數據的高速傳輸,同時使用影像組學、機器學習方法實現了對影像數據的自動分析。實驗結果表明系統(tǒng)功能相對健全、傳輸性能穩(wěn)定和自動分析性能良好。系統(tǒng)能為醫(yī)生提供可參考的信息,有效減少醫(yī)生工作量,實現“輔助診斷+在線診斷”新的醫(yī)療模式。本文系統(tǒng)以腦膠質瘤的分級作為實例開發(fā),涵蓋了遠程醫(yī)療影像診斷的基本流程,今后可將本模式推廣到臨床的其他病種,如肺結節(jié)診斷等。但系統(tǒng)也存在一些不足和缺陷,例如:系統(tǒng)沒有充分考慮大規(guī)模并發(fā)的數據傳輸;目前涉及的病種較為單一,有待進一步增加。