劉文廣 謝斯敏 周雅芳 胡家熙 李夢思 李文政*
近年來,隨著醫(yī)療數據尤其是醫(yī)學影像數據的集成和計算機運算能力的迅猛發(fā)展,基于機器學習(machine learning,ML)的醫(yī)學影像數據分析已經成為交叉學科中的研究熱點。當前,ML在計算機視覺、語音識別、自然語言處理、音頻識別與生物信息學等領域取得了突破性進展。其在醫(yī)學領域,特別是在醫(yī)學影像領域的應用越來越多。這些研究主要集中在神經外科疾病、腦卒中、心血管疾病、肺部疾病、前列腺癌、宮頸癌、視網膜疾病等。由于呼吸運動影響、組織天然對比較差及肝臟影像分割難度較大等原因,ML在肝臟疾病影像診斷方面的研究相對較少,但隨著算法的改進和硬件設備的升級,此方面的研究正在逐步增多。本文就ML在肝臟疾病影像診斷中的研究進展作一綜述。
ML是統計學和人工智能(artificial intelligence,AI)衍生出的一個分支,而深度學習則是ML領域的一個分支(圖1)[1]。ML被廣泛接受的定義是,將某種計算機算法應用到一組事件結局已知的數據中(如良性或惡性腫瘤圖像),并且能夠學習該組訓練數據,進而根據學習結果對新的數據進行預測(如分析另外一張新的圖像為良性還是惡性腫瘤)。實際應用中,通過建立合理的ML算法模型,可以實現對數據訓練和預測的功能(圖2)。訓練方面,ML算法系統使用一組輸入影像來識別影像屬性,在使用時可實現影像的正確分類(即描述良性或惡性腫瘤),并與這些影像所提供的原始輸入分類標簽相比較(圖2a);預測方面,一旦系統已經學習如何對影像進行分類,將會把所學模型應用于新的影像以幫助放射科醫(yī)生識別腫瘤類型(圖2b)[2]。
將基于計算機可識別的數字化數據、更低的成本及更快的計算機運算能力、越來越多的精細的統計學模型相互結合,通過計算機建立較好的預測模型,不僅可以降低成本,并且可能超過人類的判斷能力[3-4]。ML由于在數據分析上具有較好的應用前景,已經被譽為2013年以來的十大技術突破之一。
圖1 ML與統計學、AI、深度學習之間的關系
圖2 醫(yī)學圖像分類任務的ML模型開發(fā)和應用
2.1 神經網絡
2.1.1 基本概念 神經網絡這一概念是1988年由Kohonen提出,即“神經網絡是由具有適應性的簡單單元組成的廣泛并行互連的網絡,它的組織能夠模擬生物神經系統對真實世界物體所做出的交互反應”[5]。神經網絡中最基本的成分是神經元模型,把許多個這樣的神經元按一定的層次結構連接起來而獲得[6]。人工神經網絡的靈感來自大腦中的神經網絡并組織起來的互連節(jié)點層。圖3最上層的節(jié)點表示不同的輸入層,而最下層的節(jié)點表示不同的輸出層,中間的節(jié)點表示隱藏層,其中a圖中包涵一層隱藏層,b圖中包涵2層隱藏層。人工神經網絡可以模擬非常復雜的輸入和輸出關系。
事實上,從計算機科學的角度看,可以先不考慮神經網絡是否真的模擬了生物神經網絡,只需將一個神經網絡視為包含了許多參數的數學模型,這個模型是若干個函數相互(嵌套)代入而得。有效的神經網絡學習算法大多以數學證明為支撐。常見的神經網絡模型和算法包括:感知機與多層網絡、誤差逆?zhèn)鞑ニ惴?、全局最小與局部極小等[7]。
圖3 多層前饋神經網絡結構示意圖
2.1.2 優(yōu)勢和適用范圍 神經網絡采用廣泛互聯的結構與有效的學習機制來模擬人腦信息處理的過程,是當前人類腦智能研究中的有效工具[8]。神經網絡具有如下的特點:①由于信息分散存儲于網絡內的神經元中,因而具有很強的魯棒性和容錯性;②并行處理能力,人工神經元在結構上是并行的,對于相似問題可以同時進行處理,具有快速的特點;③自學習、自組織、自適應性;④可以逼近任意復雜的非線性系統,同時可以處理定性與定量信息,適用于處理非線性和不確定性問題。上述特點使得神經網絡具有很廣泛的適用范圍[9]。
2.2 深度學習
2.2.1 基本概念 深度學習是當前關注度最高的ML范式,在圖像分類、物體檢測與識別、語音識別等領域取得了突破性進展[10-11]。本質上,多隱層人工神經網絡屬于深層模型,而支持向量機(support vector machine,SVM)等常見學習器都屬于淺層模型,針對具體任務,利用給定的一批數據訓練一個深層網絡(即多隱層神經網絡)的ML算法。深度學習可以根據訓練方式分類:監(jiān)督、無監(jiān)督、強化學習等[11]。深度學習最常見的算法是卷積神經網絡(c onvolutional neural network,C NN)。
2.2.2 優(yōu)勢和適用范圍 深度學習通過多層處理,逐漸將初始的“低層”特征表示轉化為“高層”特征表示后,用“簡單模型”即可完成復雜的分類等學習任務。以往ML用于現實任務時,描述樣本的特征通常需由各學科專家來設計。眾所周知,特征的好壞對泛化性能有至關重要的影響,專家設計出好特征也并非易事;而深度學習可利用特征學習,即通過ML技術自身來產生好特征,這使ML向“全自動數據分析”又前進了一步[12]。與傳統神經網絡相比,深度學習能夠處理數據量更大、更復雜的問題。
2.3 SVM
2.3.1 基本概念 SVM屬于淺層模型,是指在ML中給定訓練樣本集,在其樣本空間中尋找一個可以將不同類別樣本分開的超平面,該超平面產生的分類結果是最魯棒的。它能通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中取最優(yōu)線性分類面(圖 4A、4B)[13-14]。
2.3.2 優(yōu)勢和適用范圍 SVM是針對二分類任務設計的,對多分類任務要進行專門的推廣。它在解決小樣本、非線性問題上具有獨到的優(yōu)勢;因為對預測性能起關鍵作用的是少數邊界處的向量(支持向量);只要邊界處的向量分布正確、合理,預測效果就會較好。
2.4 其他ML算法
2.4.1 k-近鄰(k-nearest neighbors,k-NN) 沒有訓練(建模)的過程,屬于非線性分類器,適用于標記樣本數量很大或待處理對象維度很高時,其計算復雜度很大。處理特殊分布(如,中間圓形區(qū)域是一類,圓形區(qū)域的外面都是另一類的情況;或者兩類的決策域均呈多峰分布且切交分布)較為有效(圖 4C)[15]。
2.4.2 決策樹 得到的是一組規(guī)則集,決策過程具有良好的可理解性;處理分類問題,在解決每類呈現多決策域分布且交錯分布的問題時,具有獨特的優(yōu)勢(圖 4D)[16]。
2.4.3 樸素貝葉斯算法 該算法用于定義輸入特性集與輸出之間的關系。因此,這種方法不涉及其他大多數ML方法所涉及的迭代訓練過程,但與訓練和測試數據相關的問題仍然適用(圖4E)[17-18]。
2.4.4 隨機森林 對于多維特征的數據集分類有很高的效率,還可以做特征重要性的選擇。運行效率和準確率較高,實現起來也比較簡單。缺點是在數據噪聲比較大的情況下會過擬合(圖4F)[19]。
圖4 ML各類常見算法說明。A圖為線性SVM算法空間劃分示意圖,通過選擇線性超平面將兩類數據(白點和黑點)劃分開;B圖為非線性SVM算法空間劃分示意圖,通過非選擇線性超平面將兩類數據(白點和黑點)劃分開;C圖為k-NN算法空間劃分示意圖,1-NN(k=1時)算法通過與相鄰最近一個點比較將2類數據(白點和黑點)劃分開;D圖為決策樹算法空間劃分示意圖,經由每一個決策點將2類數據(白點和黑點)一步步劃分開;E圖為樸素貝葉斯算法結構示意圖,計算最可能的結果(黑色)作為先驗概率(灰色)和由單個特征給出的條件概率,通常不是嚴格正確的,但可以很快計算出來并在實踐中提供競爭預測。F圖為隨機森林算法結果示意圖,通過建立多個決策樹,并將它們合并在一起以獲得更準確和穩(wěn)定的數據分類預測(a類和b類)。
3.1 慢性肝病篩查及嚴重程度評估 慢性肝?。╟ hronic liver disease,CL D)主要包括乙型肝炎病毒和丙型肝炎病毒感染、酒精性肝病、非酒精性脂肪肝病以及相關的肝硬化和肝癌。目前,SVM已經用于CLD的診斷。Gatos等[20]將基于硬度評估和ML算法的計算機輔助診斷系統應用于超聲剪切波彈性成像(SWE),進而對CLD進行評估。通過分析126例受試者(56名健康對照,70例CL D)的臨床資料,提取了SWE影像中存在的物理特征的35個特征(每個集群7個),采用逐步回歸分析的特征簡化方法推導出一個簡化的特征子集,將其輸入到SVM分類算法中,從而把CLD分類出來。SVM模型對CLD受試者的健康分類最高準確度為87.3%,敏感度和特異度分別為93.5%和81.2%,受試者操作特征(ROC)曲線下面積(AUC)為 0.87(95%CI:0.77~0.92)。 該研究還介紹了一種基于SWE影像的硬度值對顏色信息進行量化的ML算法,并從健康的樣本中識別CLD。目前研究提供的CLD診斷的新客觀參數和標準可以被認為是基于顏色解釋的重要一步,并且可以在檢查后立即使用個人計算機安裝的軟件進行分析,從而協助放射科醫(yī)生的診斷工作。除了傳統的SVM,也有研究者進一步開發(fā)新的模型,并將神經網絡應用于疾病風險程度分級。Kuppili等[21]提出了一種可靠的、快速的極端學習機器(extr eme learning machine,EL M)組織特征系統,用于肝臟超聲成像的脂肪肝風險程度分級。ELM用于訓練單層前饋神經網絡。該研究中使用美國肝臟數據庫的63例樣本(27例正常、36例異常)訓練,結果表明ELM性能優(yōu)于SVM,使用肝S8段數據集的K10交叉驗證協議,ELM和SVM的準確度分別為96.75%和89.01%,ROCAUC分別為0.97和0.91。進一步的研究顯示ELM分類器的平均可靠性為99%,并且使用ELM的平均速度比使用SVM提高40%。該研究結果表明,基于超聲成像的ML方法,特別是ELM可以較好地用于脂肪肝風險程度分級,有助于臨床決策。
肝纖維化早期的臨床干預可以減緩肝硬化的發(fā)展,降低肝癌的發(fā)病風險。肝臟活檢是肝纖維化診斷的金標準,但具有有創(chuàng)性和較高的抽樣誤差等缺點。而超聲實時組織彈性成像 (re al-time tissue elastography,RT E)可以對肝纖維化進行準確評估且具無創(chuàng)性,可能成為很有前景的成像技術。但從臨床的RTE影像中確定肝纖維化的程度是很困難的。Chen等[22]的多中心合作研究中,采用RTE影像和多元回歸分析預測診斷分級,并采用了4種經典分類器(SVM、樸素貝葉斯算法、隨機森林、k-NN)建立一個決策支持系統,來提高肝纖維化診斷效能。他們對513例接受肝臟活檢的受試者的影像進行分析,共獲得11個RTE影像特征,研究中所采用的分類器明顯優(yōu)于傳統的肝纖維化指數方法,而隨機森林分類器在4種機器算法中具有最高的平均精度。這一結果表明,復雜的ML方法可以成為評估肝纖維化分級的有力工具,并顯示出較好的臨床應用前景。近期,Yasaka等[23]探討了CNN深度學習模型在肝纖維化分期中的應用價值,其采用釓塞酸二鈉增強肝膽期MRI影像作為輸入數據,其中訓練集包括534例病人,測試集為100例病人。訓練集中(纖維化分期為 F0、F1、F2、F3和 F4的病 人分別為 54、53、81、113和233例),MRI原始圖像上增加了90倍因素擴增(旋轉、平行移位、亮度改變和對比度變化,共得到144 180張圖像)。在測試集中評估CNN模型的效能(纖維化分期為 F0、F1、F2、F3和 F4的病人分別為 0、10、15、20和 45例)。結果深度學習對肝纖維化的評分與纖維化分期顯著相關(Spearman等級相關系數為 0.63;P<0.001)。 纖維化分期為 F4、F3和F2的 ROCAUC分別為 0.84、0.84和0.85,結果表明CNN模型在肝纖維化分期中表現出較高的診斷效能。Wang等[24]也探討了基于CNN深度學習的彈性成像影像組學模型評估肝纖維化分期的價值,采用二維SWE影像作為輸入數據,共收集398例病人 (1 990幅影像),266例病人作為訓練集,132例病人作為測試集,分別計算肝硬化(F4)、晚期纖維化(≥F3)和顯著纖維化(≥F2)的 ROCAUC。結果顯示,CNN深度學習彈性成像影像組學模型預測肝纖維化為F4期、≥F3期和≥F2期的AUC分別為0.97(95%CI:0.94~0.99)、0.98(95%CI:0.96~1.00)和 0.85(95%CI:0.81~0.89)。 該研究結果提示,與二維 SWE和生物標志物相比,深度學習的彈性成像影像組學模型顯示出更好的肝纖維化預測效能,對乙型肝炎病毒感染病人肝纖維化分期的無創(chuàng)性診斷具有重要的實用價值。除此之外,CNN深層學習模型近期還被用于正常肝臟和肝硬化的篩查。Liu等[25]首先提出一種超聲影像提取肝包膜的方法,然后根據提取的肝包膜,對一個深層CNN模型進行微調,從肝包膜周圍的影像塊中提取特征。最后,應用訓練SVM分類器將樣本分為正常或異常。該方法能有效提取肝臟包膜,并準確地對超聲影像進行分類,識別正常肝臟和異常肝臟。
3.2 輔助醫(yī)生對肝臟局灶性病變的鑒別和分類 肝臟局灶性病變的影像鑒別診斷一直是臨床的重點和難點,近期基于ML的方法不斷應用于肝臟局灶性病變的鑒別診斷并取得了較好的結果,神經網絡有望輔助臨床進行鑒別診斷。Hwang等[26]利用99例肝臟病灶(包括29例肝囊腫、37例血管瘤、33例惡性腫瘤)超聲成像,提取了共42個混合結構紋理特征,主成分分析選取29個關鍵特征,作為前饋神經網絡的一組輸入。結果顯示,超聲成像在肝局灶性病變之間(囊腫與血管瘤、囊腫與惡性腫瘤、血管瘤與惡性腫瘤)的診斷準確度高達96%以上。在最優(yōu)特征集內,當回聲被包括在內時,準確度略有提高。該研究表明所提出的方法在臨床上是可行的,有望幫助臨床進行疾病鑒別診斷。近期最突出的應用是將CNN深度學習模型應用于肝臟CT影像局灶性病變的鑒別診斷。Yasaka等[27]利用有肝臟腫塊的3個時相(平掃、動脈期、延遲期)CT影像,共55 536個影像進行了CNN模型監(jiān)督訓練[從460例病人中獲得1 068個原始圖像,并在原始圖像上增加了52倍的因素擴增(旋轉、平行移動、增強放大、噪聲添加)],隨后用100個肝臟腫塊影像進行CNN模型測試(男74 例、女 26 例;A、B、C、D、E 類的影像分別有 21、9、35、20、15例)。訓練和測試各進行了5次,使用分別構建的平掃、動脈期、延遲期、動脈-延遲期聯合、三期聯合CNN模型對肝臟腫塊進行分類,并計算出不同類別A-B和C-E分類的AUC。肝臟腫塊的鑒別診斷準確度為0.84。不同類別A-B和C-E分類的AUC的中位數為0.92。結果表明,基于CNN的深度學習在動態(tài)增強CT鑒別肝臟腫塊方面具有較高的診斷效能,并且深度學習可以不需要專家自主提取特征,更加接近真實數據,減少了人為的影響。Diamant等[28]提出了一種新的Bag of-Visual-Words(BoVW)模型的自動醫(yī)學影像分類的方法。這種方法通過使用基于互信息的標準學習每個任務的最相關的視覺詞的任務驅動字典來改進BoVW模型。其將肝臟病灶CT影像分為4類 (32例血管瘤、35例轉移瘤、29例肝癌、22例肝囊腫),對118例肝臟門靜脈期CT影像進行驗證。新的BoVW模型與以往BoVW模型對比,在肝臟病變分類方面,敏感度提高了6%,特異度提高2%(P<0.001)。結果表明,基于信息選擇詞匯的分類結果有顯著的改善。新的BoVW方法在臨床上顯示了很好的結果,它可以發(fā)現當前任務的相關影像部分,而不需要對訓練數據進行明確的標注,從而能為影像分析任務的醫(yī)學專家提供計算機輔助支持。Depeursinge等[29]描述了一個框架,用于CT影像中對肝臟病變的視覺語義進行建模,以預測放射科醫(yī)生在描述這些病變時所報告的視覺語義術語(vis ual semantic terms,VS T)。利用高階可控Riesz小波和SVM的線性組合,從圖像數據中學習計算VST模型。在第1步中,這些模型用于預測描述肝臟病變的每一個語義術語的存在;在第2步中,計算所有VST模型之間的距離,建立一個包含術語間同義和互補性的非分層計算性VST本體;最后使用來自RadLex本體的18個VST注釋的74個肝臟病變對所提出的框架進行了初步評估。病人交叉驗證ROC曲線下平均面積為0.853。該研究中提出的框架預計能夠促進影像學中影像解釋的人機協同作用,同時使用VST的旋轉-協變計算模型來量化它們的局部可能性,并明確地將它們與基于像素的影像內容聯系起來。以上研究表明,ML有望輔助醫(yī)生進行肝臟局灶性病變的鑒別診斷,具有廣闊的研究前景。
3.3 肝病影像分割算法的改進及影像質量的自動評估 肝臟病變的影像分割一直是限制ML在肝臟疾病應用的重要原因,也有一些研究者進行嘗試和改進算法,包括嘗試使用神經網絡方法。Le等[30]提出了一種新的計算機化的MRI影像肝腫瘤分割方法。該方法包括4個主要階段。首先利用種子點提取包含T1WI序列中肝腫瘤區(qū)域的興趣區(qū)(ROI)影像,降低ROI影像中的噪聲,增強邊界;應用3D快速推進算法生成被認為是教師區(qū)域的初始標記區(qū)域;采用非迭代算法訓練的單隱層前饋神經網絡對未標記體素進行分類;最后,后處理階段被用來提取和細化肝腫瘤邊界。該方法對16例病人的25個腫瘤進行了2個數據集的評估,提出的方法獲得的腫瘤體積重疊誤差為27.43%,平均百分比容量誤差為15.73%。平均表面距離、均方根表面距離和最大表面距離的平均值分別為0.58、1.20、6.29 mm。此方法有望改進肝癌MR影像的分割,進一步增進ML的肝癌的應用研究。Esses等[7]開發(fā)和測試了一種新的CNN深度學習方法,用于對T2WI肝臟影像的非診斷影像進行自動篩選,并將該方法與2名放射科醫(yī)師的評估相比較。研究納入了522例來自1.5 T和3 T的肝臟MRI影像,351例T2WI影像用于訓練CNN模型,每個病例都有一個診斷或非診斷的標記。另外171例由2名放射科醫(yī)師對其T2WI影像進行獨立評估,并被標注為診斷或非診斷。將該算法的影像質量輸出與2位放射科醫(yī)師的結果進行比較。CNN算法在識別非診斷性影像質量的敏感度和特異度分別為 67%和 81%(觀察者 1)、47%和80%(觀察者2)。CNN算法識別非診斷性影像質量的陰性預測值為94%(觀察者1)、86%(觀察者2)。采用這種CNN算法對肝臟的非診斷性T2WI影像篩查具有很高的預測價值,這表明計算機可以應用于影像質量的篩查,有助于減輕臨床工作量。
我國醫(yī)療數據資源豐富,但在醫(yī)療數據ML應用方面與歐美國家相比還有一定的差距,與我國醫(yī)療數據缺乏規(guī)范化、沒有統一的標準、缺乏多中心的協同共享以及統一監(jiān)管等有關。2017年7月20日,國務院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,標志著人工智能正式納入國家戰(zhàn)略規(guī)劃,我國ML的研究今后也將更上一個臺階。
目前,基于醫(yī)學影像數據分析的ML在肝病診斷中的應用已逐漸成為研究熱點,也是研究難點。在算法應用方面,深度學習,特別是CNN算法將成為肝病影像診斷ML研究的主要工具。在臨床應用方面,肝臟局限性病變的鑒別診斷是臨床關注的問題,未來可以進一步開展更深入的研究。