李星輝,張政,張蕾,何付權,汪豐
1.東南大學 生物科學與醫(yī)學工程學院,江蘇 南京 210096;2.上海交通大學附屬第一人民醫(yī)院 放射科,上海 201620
隨著我國人民飲食結構的變化,越來越多人出現肥胖、代謝異常等問題。體內攝入過多的糖類與油脂會導致器官內脂質儲積并發(fā)生脂肪變性。肝臟作為能量代謝的中樞器官,肝內脂肪變性嚴重影響肝臟的生理功能[1],造成人體代謝異常。同時肝脂肪變性可發(fā)展為脂肪性肝炎、肝纖維化、肝硬化,少數病例還可發(fā)生肝功能衰竭和肝細胞癌,嚴重危害生命健康。調查顯示,從2004至2014年,我國成人非酒精性脂肪肝患病率從15%增加到了31%[2]。肝部脂肪儲積導致的疾病患病率逐年上升,肝脂肪變性越來越受到重視。對肝脂肪變性的準確分級有助于采取不同的治療和干預措施,具有重要意義。同時肝脂肪變性程度的確定對于代謝類相關疾病準確診斷、治療方案制定、隨訪療效觀察和預后判斷等均有重要作用。
然而,肝脂肪含量的定量檢測為有創(chuàng)手段,存在穿刺難度大,穿刺部位易感染、出血及膽汁泄漏等潛在風險。超聲、CT和MRI等影像學檢查技術在相關領域的應用逐漸興起。超聲檢查通過超聲影像下脂肪和肝組織回聲不同篩查脂肪肝。醫(yī)生根據超聲影像進行脂肪變性程度主觀分級,不同的醫(yī)生會存在分級偏差。且研究表明[3],超聲影像分析僅對中重度脂肪肝檢出率高,在脂肪含量低于20%的時候,敏感度最高55%,特異度僅有26%;CT檢查通過CT值進行肝脂肪變性的分級,但研究表明,直接測量肝臟CT值準確率僅63%,通過參照物對照測量對中重度脂肪肝檢出率較高(90%),但是對輕度脂肪判斷困難[4-5]。且CT具有輻射性,使用CT評估脂肪含量具有局限性。MRI不僅能觀察肝臟的形態(tài)及有無脂肪浸潤,而且實驗表明[6],MRI檢測脂肪肝檢出率高于超聲檢查45.5%。
本文通過深度學習結合遷移學習的手段,利用肝的MR影像資料,進行肝脂肪變性分級研究,相比于穿刺活檢,為肝脂肪變性分級提供一種智能的無創(chuàng)性思路。基于深度學習進行圖像特征的提取和分類,模型自動對肝臟進行脂肪含量檢測,節(jié)省了人力物力,同時進行肝脂肪變性程度和臨床指標的相關分析,具有一定臨床價值。
本研究與上海交通大學附屬第一人民醫(yī)院合作,收集醫(yī)院2018年6月至7月共50例進行MR上腹部mDixon成像序列掃描的患者的MR影像資料,并收集患者的臨床信息。其中所收集患者需確診肝脂肪變性等級,且排除其他肝部疾病或因惡性腫瘤進行放射治療的患者。其中肝脂肪變性等級由影像科醫(yī)生根據患者MRI資料進行分級,為確保分級準確性,分級工作由兩位醫(yī)生獨立完成并進行驗證。
1.2.1 數據集建立
根據細胞脂肪變性程度評分[7]:細胞脂肪變性占0~5%計0分,占5%~33%計1分,占34%~66%計2分,占66%以上計3分。本研究采集的50例MR上腹部mDixon成像序列掃描的患者肝脂肪變性等級分布如下:肝脂肪變性0分共38例,其中男性患者24例,女性患者14例;肝脂肪變性1分共12例,男性患者6例,女性患者6例。
DICOM圖像切片如圖1所示。在每個MR序列的DICOM圖像上,放置6個正方形的感興趣區(qū)域(Region of Interest,ROI),每個區(qū)域在肝實質中由16×16像素組成;ROI選取在影像科和消化科醫(yī)生指導下進行,選取規(guī)則如下:每位患者肝部MRI取6個16×16大小ROI區(qū)域,4個位于右葉實質(肝Ⅴ,Ⅵ,Ⅶ,Ⅷ段),2個位于左葉實質(肝Ⅱ,Ⅲ段),選取時確保每位患者的全部ROI肝脂肪變性情況一致,同時選取ROI過程避免大血管、膽管、肝局灶性病變和顯著的肝偽影。
圖1 MR上腹部mDixon成像圖
1.2.2 數據預處理
(1)數據增強。深度學習模型需要大量數據支撐,數據量過少會導致模型過擬合等問題。因此通過數據增強網絡可以在保持泛化能力的同時學習到更多數據不變的特征。在本研究中,根據ROI選取規(guī)則,50例患者共選取300例ROI。為滿足深度學習數據量需求,將300例ROI進行8倍數據增強,操作包括:平移、鏡像、旋轉、隨機選擇區(qū)域、添加隨機噪聲等。
(2)不平衡數據集處理。數據集不平衡是醫(yī)學影像類數據常見的問題。在深度學習中,樣本不平衡會導致少數類別樣本被相對忽視,而醫(yī)學影像中少數類別樣本往往更具有研究價值。在本研究中,肝脂肪變性0級患者38例,肝脂肪變性1級患者12例。肝脂肪變性0級患者遠多于1級患者。處理數據集不平衡問題常采用的策略有少數類別樣本過采樣和多數類別樣本降采樣。由于本研究數據量較少,為平衡數據分布,對少數類別樣本數據集進行過采樣操作。將肝脂肪變性1級的648個ROI進行二次數據擴增,擴增倍數為4倍。最終得到肝脂肪變性0級患者ROI數據2052例,肝脂肪變性1級患者ROI數據2592例。
1.2.3 模型建立
DenseNet(Dense Convolutional Network)為2017年國際計算機視覺與模式識別會議最佳文章設計的網絡。其提升網絡性能方法不同于ResNet和Inception代表的加深或加寬網絡結構的方法。DenseNet通過加強每一層的輸入,實現特征重用,既大幅度減少了網絡的參數量,又在一定程度上緩解了梯度消失的問題。
DenseNet主要由兩部分組成:dense block密集塊和transition layer過渡塊,dense block每一層都與之前所有層相關聯[8]。在傳統(tǒng)的卷積神經網絡中,L層網絡有L個連接,但是在DenseNet中,有L(L+1)/2個連接,每一層的輸入來自前面所有層的輸出,以此類推,實現特征復用。一個DenseNet的結構如圖2所示,在這個結構圖中包含了2個dense block。在同一個dense block中要求特征數保持相同大小,在不同dense block之間設置transition layer實現降采樣,在該網絡中transition layer由批歸一化層、卷積層和平均池化層組成。
圖2 DenseNet結構示意圖
1.2.3.1 模型輸入
數據集隱藏所有病人臨床相關信息,僅標記肝脂肪變性等級0級和1級作為標簽。數據集由兩部分組成:病人影像數據ROI和對應0級/1級肝脂肪變性標簽。隨機抽取0級和1級肝脂肪變性患者數據集各80%作為訓練集,剩余20%作為測試集。
對所有訓練集和測試集數據進行歸一化操作,將MRI原圖0~4095的像素范圍歸一化到0~1.0。歸一化不改變圖像本身的存儲信息,歸一化后可調整不同維度的特征尺度到相近范圍,進而加大學習率,提升網絡的收斂速度。
1.2.3.2 模型訓練
遷移學習指系統(tǒng)識別并應用先前領域學到的知識和技能到新領域的手段,旨在解決當前領域數據量不足等問題并提高學習效率。數據量不足是醫(yī)學影像的常見問題,而遷移學習技術擴大了訓練數據[9],因此在疾病診斷中顯示出良好的性能。遷移學習后模型不需要訓練完全空白的網絡,而是通過使用前饋方法來確定已優(yōu)化的較低級別的權重,以識別一般圖像中發(fā)現的結構。并通過反向傳播重新訓練較高級別的權重,從而識別特定類別圖像的特征[10]。遷移學習常選用ImageNet數據集中自然圖像進行分類預訓練,訓練后根據當前領域數據量及數據相似度選擇調整策略。
1.2.3.3 模型微調
本研究DenseNet模型使用ImageNet數據集中的128萬張自然圖像進行模型預訓練,之后進行模型微調。微調分為三種策略:訓練整個網絡、凍結部分層訓練部分層和凍結卷積基。由于課題數據集與ImageNet數據集中自然圖像存在較大差異性且數據量較小,故采取凍結部分層訓練部分層的操作。模型預訓練后,取消全連接層,并凍結2個dense block,保持其權重不變。在其后添加一個未訓練的dense block以及全連接層進行高級特征提取和分類訓練,二者使用批歸一化層和池化層進行連接。模型結構圖如圖3所示,Dense Block1和Dense Block2為4層密集網絡連接,Dense Block3為32層密集連接。
圖3 DenseNet模型網絡結構圖
課題使用3766個ROI進行模型訓練,878個ROI進行測試。模型的訓練與測試在配置了Nvidia GeForce RTX 2080 Ti GPU服務器上進行。模型由深度學習庫Keras實現,語言為Python 3.6,選取AdamOptimizer為模型訓練的優(yōu)化函數。
表1收集了模型訓練集和測試集的受試者工作特征曲線下面積(Area Under the ROC Curve,AUC)、精確度、敏感度和特異度。AUC是衡量二分類模型優(yōu)劣的一種評價指標,表示預測的正例排在負例前面的概率;精確度為全體樣本預測正確的概率;敏感度為樣本中的正例被預測正確的概率;特異度為樣本中的負例被預測正確的概率。測試集和訓練集的AUC差距較小,表明深度學習模型可以很好地預測新患者脂肪變性的等級。同時觀測敏感度和特異度可得,模型對正例(即肝脂肪變性1級)檢測能力較強,具有一定臨床意義。
表1 測試集和驗證集模型性能表
深度學習模型性能變化的觀測方式是同時觀測訓練和測試過程中模型精確度和損失函數(Loss)隨迭代次數的變化。損失函數反映真實標簽和預測標簽之間的差距,Loss曲線越趨近于0表明模型預測結果與真實結果的差距越小,計算如公式(1)所示。
其中,y為真實標簽,為預測標簽。
Accuracy曲線反應迭代過程中模型預測正確的概率,Accuracy曲線越趨近于1表明模型正確率越高,計算如公式(2)所示。
其中,TP為True Positives,正確地被分為正例的樣本數,TN為True Negatives,被正確地劃分為負例的樣本數,P為Positives,表示全體正例樣本數;N為Negatives,表示全體負例樣本數。
圖4分別顯示了測試集和訓練集的Loss曲線和Accuracy曲線。隨著迭代次數的增加,模型精確度和損失函數曲線逐漸收斂,并在400次迭代后趨于穩(wěn)定。通過觀察對比訓練集和測試集曲線趨勢表明模型未發(fā)生過擬合現象。得益于128萬張自然圖像進行的遷移學習,深度學習模型呈現出良好的性能。
圖4 深度學習模型Loss和Accuracy曲線
使用MATLAB R2018b軟件對臨床信息進行統(tǒng)計學分析。對肝脂肪變性等級與臨床相關信息進行斯皮爾曼相關性分析,臨床信息包括:患者年齡、性別、胰腺脂肪變性等級及代謝綜合征。同時分別對不同性別患者的臨床信息與肝脂肪變性等級進行相關性分析。P<0.05認為差異有統(tǒng)計學意義。患者臨床信息與肝脂肪變性等級相關性如表2所示,肝脂肪變性等級與胰腺脂肪含量存在高度相關性。
表2 患者臨床信息與肝臟脂肪變性等級相關系數表
此外,本研究分別研究了女性患者和男性患者臨床信息與肝脂肪變性等級相關性。其中女性患者中肝脂肪變性等級與胰腺脂肪變性等級、代謝綜合征具有顯著相關性,P值分別為0.002和0.007,男性患者肝脂肪變性等級與臨床信息未發(fā)現相關性。
使用平滑樣條曲線擬合男性患者和女性患者的肝脂肪含量隨年齡的變化趨勢曲線,詳見圖5。患者年齡與肝臟脂肪含量雖未發(fā)現相關性,但通過擬合曲線發(fā)現女性肝脂肪含量在50~60歲之間出現了一次峰值,男性肝脂肪含量在40~50歲以及70~80歲之間出現了兩次峰值,隨后曲線呈現下降趨勢。
圖5 肝臟脂肪含量與年齡關系圖
本研究提出了一種利用MR影像進行肝脂肪變性分級的深度學習模型。采集了上海交通大學附屬上海市第一人民醫(yī)院50例患者進行肝脂肪變性分級的研究,通過數據處理、數據分組、遷移學習等手段,對訓練集3672例和測試集972例影像數據進行模型訓練與測試。模型在訓練集AUC達到了0.86,在測試集AUC達到了0.83,具有良好的結果。模型在訓練集和測試集敏感度均在95%左右,表明模型對肝脂肪變性1級患者檢測能力大于0級患者,即表明模型對輕度及以上肝脂肪變性患者有較高檢出能力。
同時對比肝脂肪變性分級的其他研究。Hernaez等[3]通過深度學習基于超聲影像對輕度肝脂肪變性進行分級時,準確度為84.8%,敏感度為55%,特異度僅有26%;Lee等[4]通過CT影像對肝脂肪變性分級研究,發(fā)現直接測量肝臟CT值準確率為63%,通過參照物對照測量對中重度肝脂肪變性檢出率較高,準確度可以達到90%,但是對輕度肝脂肪變性判斷困難。Strauss等[11]研究表明,放射技師通過超聲影像對正常和肝脂肪變性的分類準確性較低,分別為76%和72%,而在輕度、中度和重度肝脂肪變性之間的分類準確度分別為47%、59%和64%。
本研究模型相比于人工或采用其他影像手段的研究具有一定的性能優(yōu)勢。對肝脂肪變性的分類研究,本文的分析為患者提供了一種無創(chuàng)智能化的思路,有助于進行輕度脂肪變性的自動化智能篩查,實現肝脂肪變性盡早診斷。同時對肝脂肪變性的部分臨床因素進行了分析,年齡、代謝綜合征和胰腺脂肪變性等級等臨床因素為肝脂肪變性影響因素提供了研究方向。
脂質參與調節(jié)能量轉換、物質運輸、細胞發(fā)育和分化,以及細胞凋亡等多種生命活動過程[12-13]。肝臟作為能量代謝的中樞器官,在調節(jié)脂質代謝過程中發(fā)揮重要作用,包括脂肪生成和脂蛋白攝取及分泌等[14]。脂質代謝異常會導致肝組織內脂質異常增加,如過氧化脂質、游離脂肪酸等在肝臟內的增加,導致肝臟內脂質儲積并發(fā)生肝脂肪變性[15]。肝脂肪變性是一個積累的過程,較嚴重的肝脂肪變性對肝臟具有不可逆轉的傷害,如肝星狀細胞受損會發(fā)展為肝纖維化[16]等。故輕度肝脂肪變性的篩查和肝脂肪變性的盡早診斷具有一定的臨床意義。
通過相關性分析可知肝脂肪變性等級與胰腺脂肪變性等級具有顯著相關性。體內過多的脂肪儲積同樣會導致胰腺脂肪的積累,過多脂肪組織沉積于胰腺實質中,即為胰腺脂肪浸潤,又稱為脂肪胰或胰腺脂肪變性[17]。該相關性表明肝臟脂肪積累和胰腺脂肪積累具有一定的同步性。
代謝綜合征由脂質和糖類代謝異常導致,或因代謝通路異常,血液或器官中糖類和脂肪的積累導致。肝脂肪變性與代謝綜合征具有一定關聯性,如非酒精性脂肪肝的危險因素包括胰島素抵抗、肥胖、高血壓、血脂異常和Ⅱ型糖尿病代謝綜合疾病[18-19]。通過相關性分析可見,女性患者肝脂肪變性等級與年齡、代謝綜合征具有顯著相關性。目前僅有女性患者肝脂肪變性與年齡和代謝綜合征相關性,男性患者肝脂肪變性等級與其他因素未體現出相關性。
本研究采集了上海交通大學附屬上海市第一人民醫(yī)院50例患者進行實驗。患者數據量對于深度學習和相關性分析具有一定挑戰(zhàn)性,初步結果尚有待進一步大樣本驗證。由于50例患者中僅存在0級和1級肝脂肪變性患者,未采集2級以上中重度肝脂肪變性患者資料進行研究,深度學習模型的準確性和魯棒性具有一定限制。
研究顯示腹圍身高比、血脂、血壓等[20]與肝脂肪含量具有一定相關性,本研究僅分析了年齡、性別、胰腺脂肪變性等級和代謝綜合征與肝脂肪變性等級相關性。對代謝綜合征具體疾病或指標如血脂、血糖、血壓等與肝脂肪變性的相關性有待進一步研究。
綜上所述,基于深度學習的肝脂肪變性分級具有性能良好、自動化分級的優(yōu)勢,能在一定程度上節(jié)省人力物力。使用深度學習的方法對醫(yī)學影像進行研究具有一定潛在價值和臨床意義。斯皮爾曼系數相關性分析為肝脂肪變性等級與其相關因素諸如胰腺脂肪變性等級以及代謝綜合征的相關性研究提供了思路。