楊嘉楠,王忠昊,王昊霖,耿國華,曹 欣*
(1.西北大學 信息科學與技術(shù)學院,陜西 西安 710127;2.西北大學 文化遺產(chǎn)數(shù)字化國家地方聯(lián)合工程研究中心,陜西 西安 710127)
肺癌是對人類健康和生命威脅最大的惡性腫瘤之一,我國的肺癌發(fā)病率和死亡率都居于第一[1-2]。根據(jù)病理類型肺癌可分為非小細胞肺癌(Non-small Cell Lung Cancer,NSCLC)和小細胞肺癌(Small Cell Lung Cancer,SCLC),其中非小細胞肺癌約占肺癌總發(fā)病率的80%~85%[3]。近年來,基于非小細胞肺癌驅(qū)動基因的靶向藥物不斷出現(xiàn),其療效可靠、副作用輕微,已成為最受關(guān)注的治療方法之一。在驅(qū)動基因中,表皮生長因子受體(Epidermal Growth Factor Receptor,EGFR)是目前突變率最高的靶基因,也是非小細胞肺癌患者應(yīng)用最廣泛的靶基因之一[4-5]。大量研究表明,只有對EGFR 突變敏感的人才能受益于靶向藥物EGFR 酪氨酸激酶抑制劑(Epidermal Growth Factor Receptor Tyrosine Kinase Inhibitor,EGFR-TKI)[6]。因 此,EGFR 基因檢測的突變狀態(tài)已成為臨床應(yīng)用靶向藥物的先決條件[7],突變檢測的結(jié)果尤其重要。
18F-氟-2-脫氧葡萄糖(18F-fluoro-2-deoxyglucose,18F-FDG)[8]PET/CT 顯像是目前在醫(yī)院臨床上最常用的分子成像方式,它是一種結(jié)合細胞糖代謝和組織形態(tài)學的雙模態(tài)影像學檢查方法,廣泛應(yīng)用于惡性腫瘤、心血管和神經(jīng)系統(tǒng)等領(lǐng)域[9]。中國原發(fā)性肺癌診療規(guī)范明確指出,18FFDG PET/CT 是肺癌診斷,臨床分期與再分期、療效判定和預(yù)后預(yù)測的最優(yōu)手段[10]。18F-FDG PET/CT 顯像技術(shù),可以更為精準地診斷臨床患者EGFR 基因是否發(fā)生突變,輔助指導(dǎo)臨床靶向藥物的應(yīng)用[11]。
對于非小細胞肺癌EGFR 基因突變預(yù)測,近年來的研究主要圍繞著影像組學和機器學習展開。影像組學是近年來醫(yī)學中的熱點領(lǐng)域,它將癌癥成像特征與基因表達相關(guān)聯(lián)。影像組學具有反映病變生物學行為的多個定量特征,可對病變的基因表型和突變情況進行預(yù)測[12]。Zhang 等[13]利用定量影像組學標志物和臨床變量預(yù)測非小細胞肺癌EGFR 的突變狀態(tài),對180例非小細胞肺癌患者提取反映腫瘤異質(zhì)性和表型的485 個定量特征,利用基于多變量Logistic模型預(yù)測EGFR 的突變狀態(tài)。結(jié)果發(fā)現(xiàn),影像組學特征具有預(yù)測非小細胞肺癌EGFR 突變狀態(tài)的潛能,且影像特征預(yù)測非小細胞肺癌是否存在EGFR 突變的價值顯著優(yōu)于單獨使用臨床變量模型。
機器學習算法能夠在沒有明確指令的情況下執(zhí)行特定任務(wù),它依賴于模式和推理。這些算法被饋送數(shù)據(jù)并且能夠創(chuàng)建復(fù)雜的數(shù)學模型。雖然線性回歸等基本學習模型能夠?qū)€性關(guān)系進行建模,但更高級的機器學習模型,例如邏輯回歸、支持向量機(Support Vector Machine,SVM)和隨機森林具有更高的模型容量,以及非線性建模的潛力[14-16]。深度學習是機器學習的一個子集,它使用多個表示層從原始輸入中逐步提取更高級別的特征[17]。對于非小細胞肺癌的預(yù)測,機器學習和深度學習可以結(jié)合使用:深度學習用于提取CT/PET 掃描特征[18],而機器學習用于建立各種特征之間的關(guān)系。Wang 等[19]使用卷積神經(jīng)網(wǎng)絡(luò)VGG-16 模型,以96 例肺癌患者的CT 圖像作為網(wǎng)絡(luò)輸入,預(yù)測非小細胞肺癌EGFR 的突變狀態(tài),取得了不錯的效果。然而,這種方法需要依賴大量專家手工標注的患者圖像數(shù)據(jù),耗費大量的資源。在專家手工標注的患者圖像數(shù)據(jù)數(shù)量不充足的情況下,網(wǎng)絡(luò)訓(xùn)練出的模型會因樣本重復(fù)率太高而過擬合。
為了解決專家手工標注的患者圖像數(shù)據(jù)不足的問題,人們將視線轉(zhuǎn)向了無監(jiān)督神經(jīng)網(wǎng)絡(luò)。無監(jiān)督神經(jīng)網(wǎng)絡(luò)不需要大量專家手工標注的患者圖像數(shù)據(jù),就能區(qū)分患者病歷的陰性、陽性。Francisco 等[20]提出了一種無監(jiān)督遷移學習方法,先在一個胸部CT 圖像數(shù)據(jù)集進行卷積自編碼器的預(yù)訓(xùn)練,然后為訓(xùn)練出的卷積自編碼器增加分類器,在另一個包含EGFR 突變狀態(tài)信息的肺癌患者CT 圖像數(shù)據(jù)集進行任務(wù)訓(xùn)練。這種方法的優(yōu)勢在于不需要大量專家手工標注的患者圖像數(shù)據(jù),然而其預(yù)測結(jié)果準確率卻不如有監(jiān)督訓(xùn)練方法。
隨著深度學習領(lǐng)域的高速發(fā)展,PIRL[21],CPC[22],SimCLR[23],MoCo[24],SwAV[25]、SimSiam[26]和BYOL[27]等自監(jiān)督對比學習方法脫穎而出。與傳統(tǒng)的分類方法不同,對比學習并不去學習一張圖片歸屬于哪個類別,取而代之的是去學習各個圖片實例之間的相似點與不相似點,通過縮小相似圖像間的距離,增加不相似圖像間的距離,在向量空間上完成圖像樣本的聚類,構(gòu)建成向量字典。通過對比學習訓(xùn)練出的模型不需要大量已標注數(shù)據(jù),就能有效地提取圖像特征[28],得到接近有監(jiān)督方法的預(yù)測準確度。
本文提出了一種基于改進BYOL 的非小細胞肺癌EGFR 基因突變預(yù)測方法。對患者肺部病灶區(qū)CT 和PET 雙模態(tài)圖像進行優(yōu)化處理,在通道維度上將它們連接并作為網(wǎng)絡(luò)模型的輸入。同時,修改了BYOL 網(wǎng)絡(luò)投影層中非線性多層感知器(Multilayer Perceptron,MLP)的層數(shù),提升了網(wǎng)絡(luò)預(yù)測準確率。通過調(diào)整任務(wù)階段頂層分類器,使模型的預(yù)測準確率進一步提升。
從醫(yī)院處獲得了近幾年來非小細胞肺癌EGFR 基因突變檢測的患者CT 圖像與PET 圖像。為了制作非小細胞肺癌EGFR 基因突變數(shù)據(jù)集,需要對原始圖像進行預(yù)處理。使用專家勾畫MASK 文件對CT 原圖與PET 原圖進行勾畫操作,只保存患者病灶區(qū)部分的CT,PET 圖像。然后,計算出PET 數(shù)據(jù)對應(yīng)的SUV 值作為新的PET 數(shù)據(jù)。
在計算時本文使用基于DICOM 標簽的計算規(guī)則[29]:
其中:XPET為PET 數(shù)據(jù)讀取的一個三維矩陣,YSUV為SUV 計算后新PET 數(shù)據(jù)的三維矩陣,變量DRT為放射性核素總劑量,WP為患者體重,IR為重定標截距,SR為重標斜率,TA為采集時間,TRS為放射性藥物起始時間,LRH為放射性核元素的半衰期(秒)。
對CT 圖像數(shù)據(jù)使用中值濾波法去除噪聲,以優(yōu)化CT 圖像數(shù)據(jù)。將處理后的CT-PET 圖像按4∶1 劃分為訓(xùn)練集和測試,用于網(wǎng)絡(luò)的訓(xùn)練與測試。
2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)的整體流程如圖1 所示。從非小細胞肺癌EGFR 基因突變數(shù)據(jù)集中讀取患者病灶區(qū)的CT-PET 圖像對作為網(wǎng)絡(luò)的輸入x~D,其中D表示非小細胞肺癌EGFR 基因突變數(shù)據(jù)集,x是從D中均勻采樣得到的CT-PET 圖像對。通過t和t'兩種不同的圖像增強操作組得到x的兩個不同的視圖v和v'。fθ和fφ表示兩個網(wǎng)絡(luò)結(jié)構(gòu)相同但是網(wǎng)絡(luò)權(quán)重參數(shù)不同的卷積自編碼器。將x的兩個不同的視圖v和v'分別經(jīng)過fθ和fφ兩個卷積自編碼器正向傳播得到y(tǒng)θ和y'φ。gθ和gφ表示兩組網(wǎng)絡(luò)結(jié)構(gòu)相同但是網(wǎng)絡(luò)權(quán)重參數(shù)不同的投影層非線性多層感知器。然后,yθ和y'φ分別經(jīng)過gθ和gφ兩組 非線性多 層感知 器得到zθ和z'φ。對z'φ進行停止梯度傳播得到sg(z'φ),而zθ則經(jīng)過預(yù)測層qθ傳播得到qθ(zθ)。最后,使用sg(z'φ)和qθ(zθ)進行損失計算,反向傳播更新online 網(wǎng)絡(luò)權(quán)重參數(shù)并依照online 網(wǎng)絡(luò)權(quán)重參數(shù)調(diào)整target 網(wǎng)絡(luò)權(quán)重參數(shù)。
網(wǎng)絡(luò)中卷積自編碼器采用ResNet-50 網(wǎng)絡(luò)框架[30],去除了網(wǎng)絡(luò)頂端的全連接層分類器。投影層使用3 層非線性多層感知器,通過3 個以ReLU激活函數(shù)和批量歸一化操作隔開的全連接層,將卷積自編碼器提取的特征降維,對網(wǎng)絡(luò)輸出的特征向量做L2 正則化操作,將投影特征向量的長度進行歸一化后投影在投影空間,即投影在一個長度為1 的單位超球面上。預(yù)測層和投影層結(jié)構(gòu)類似,將提取的特征向量映射到單位超球面上,同時使online 網(wǎng)絡(luò)和target 網(wǎng)絡(luò)不一致,此時任何圖片經(jīng)過網(wǎng)絡(luò)投影后,在投影空間里面所有圖像的映射都不會坍塌到同一個點,避免產(chǎn)生模型坍塌現(xiàn)象,學習不到有用的信息。損失函數(shù)使用均方差(Mean Squared Error,MSE)損失函數(shù),即:
其中:x和y表示兩個特征矩陣,i為其下標,n為矩陣元素總數(shù)。通過最小化online 網(wǎng)絡(luò)和target網(wǎng)絡(luò)映射在單位超球面上的距離來優(yōu)化online 網(wǎng)絡(luò)權(quán)重參數(shù)。
通過損失函數(shù)計算梯度并反向傳播,更新online 網(wǎng)絡(luò)的各層權(quán)重參數(shù),見式(3):
其中:θ是online網(wǎng)絡(luò)權(quán)重參數(shù),δ是學習率,optimizer 是梯度優(yōu)化器,?L是損失值的梯度。target 網(wǎng)絡(luò)由于梯度停止操作,無法通過梯度反向傳播更新網(wǎng)絡(luò)權(quán)重參數(shù)。取而代之,target 網(wǎng)絡(luò)的權(quán)重參數(shù)會隨著online 網(wǎng)絡(luò)的權(quán)重參數(shù)改變,見式(4):
其中:φ是target 網(wǎng)絡(luò)的權(quán)重參數(shù),τ是超參數(shù),介于0~1 之間,這里取τ=0.99。
2.2.2 損失函數(shù)原理
BYOL 網(wǎng)絡(luò)通過對輸入圖像使用兩種不同的隨機圖像增強操作,產(chǎn)生2 張不同的視圖,將兩張視圖輸入網(wǎng)絡(luò)兩個不同的分支,最終將特征向量映射在單位超球面上。BYOL 網(wǎng)絡(luò)認為同一張圖片的兩種不同的視圖應(yīng)該互為正例,它們的特征向量映射在單位超球面上時應(yīng)該盡量地靠近對方。因此,BYOL 網(wǎng)絡(luò)的損失函數(shù)目標是最小化同一張圖片兩個不同視圖特征向量映射在單位超球面上的距離。BYOL 的損失函數(shù)如下:
L1是余弦相似度的變形,它的最小值相當于兩個特征向量余弦相似度的最大值,也就是說隨著損失函數(shù)的縮小,兩個視圖的特征向量在單位超球面上的映射之間的距離會越來越近。由于online 和target 兩個網(wǎng)絡(luò)分支不對稱,所以BYOL網(wǎng)絡(luò)會交換兩個圖像增強后的視圖,使其沿另一個分支路進行前向傳播,計算損失值L2。
所以BYOL 網(wǎng)絡(luò)的最終損失函數(shù)如下:
其中:online(v1),online(v2)分別為視圖1、視圖2在online 網(wǎng)絡(luò)的輸出特征向量,target(v1),target(v2)分別為視圖1、視圖2 在target 網(wǎng)絡(luò)的輸出特征向量。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)框架Fig.1 Network structure frame
2.2.3 雙模態(tài)通道維度連接
Liu[31-32]、Zeng[33]、Wang[34]和Yin 等[35]的研究結(jié)果表明,CT 和PET 圖像對患者EGFR 等相關(guān)基因突變、生物靶向治療療效的預(yù)測及動態(tài)評估具有一定價值。從CT 和PET 圖像中提取出來的圖像紋理特征可以用來預(yù)測非小細胞肺癌患者EGFR 的突變情況。這里將非小細胞肺癌患者肺部病灶區(qū)的CT 和PET 圖像在通道維度上連接疊加作為網(wǎng)絡(luò)的輸入,將112×112×1 尺寸的圖像矩陣在通道維度上連接,得到一個112×112×2 尺寸的新圖像矩陣,作為網(wǎng)絡(luò)的輸入,見圖2。
圖2 CT,PET 圖像的通道連接Fig.2 Channel connection of CT and PET images
2.2.4 圖像增強
BYOL 網(wǎng)絡(luò)通過對同一張圖片采用兩種不同的圖像增強,產(chǎn)生兩種視圖,然后將兩種視圖分別輸入網(wǎng)絡(luò)的兩個不同分支得到輸出計算的損失值。由于這兩個視圖是由同一張圖片變換而成,因此它們應(yīng)該屬于同一個實例,經(jīng)過網(wǎng)絡(luò)提取的特征向量映射在單位超球面上時,視圖之間的距離應(yīng)盡可能地小。然而,如果兩個視圖過于相似,會出現(xiàn)模型坍塌現(xiàn)象,影響網(wǎng)絡(luò)訓(xùn)練結(jié)果。因此,對比學習需要采用一種圖像增強方式,使得同一張圖片經(jīng)過圖像增強變換出來的兩個視圖在保持原實例特征的前提下盡量不相似。
本文從基礎(chǔ)圖像增強方法庫中挑選出幾種適合單通道灰度圖像的圖像增強方法(高斯模糊、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、銳化和縮放后隨機裁剪),如圖3 所示。從這幾種隨機增強庫中每次隨機選出不定數(shù)量且參數(shù)隨機的圖像進行組合。通過隨機挑選得到的兩個增強操作組會產(chǎn)生兩個在保持原圖像實例特征的前提下,盡可能不相似的視圖。
圖3 圖像增強結(jié)果Fig.3 Image augmentation results
2.2.5 網(wǎng)絡(luò)實現(xiàn)
本文提出的方法分為預(yù)訓(xùn)練和任務(wù)網(wǎng)絡(luò)訓(xùn)練兩部分。在預(yù)訓(xùn)練階段,將無標簽數(shù)據(jù)集輸入網(wǎng)絡(luò),經(jīng)過200 個Epochs 的迭代不斷優(yōu)化網(wǎng)絡(luò)權(quán)重參數(shù),使網(wǎng)絡(luò)學會將輸入的樣本進行分類,對比學習網(wǎng)絡(luò)會縮小相似樣本間的距離,擴大不相似樣本間的距離,最終所有輸入的數(shù)據(jù)樣本被聚為兩類:陰性和陽性。在任務(wù)網(wǎng)絡(luò)訓(xùn)練階段,將少量含標簽的數(shù)據(jù)集(僅使用20%標注數(shù)據(jù))輸入網(wǎng)絡(luò),并在網(wǎng)絡(luò)頂部增加分類器,經(jīng)過100 個Epochs 的迭代優(yōu)化,得到最終訓(xùn)練好的模型。任務(wù)網(wǎng)絡(luò)訓(xùn)練階段因為有專家標注的陰性、陽性標簽,可以為預(yù)訓(xùn)練階段的模型分出來的兩個類型確定陰性、陽性。具體實驗參數(shù)如表1 所示,預(yù)訓(xùn)練網(wǎng)絡(luò)和訓(xùn)練任務(wù)網(wǎng)絡(luò)都使用Adam 梯度優(yōu)化器,經(jīng)過調(diào)試將學習率設(shè)置為0.000 3,訓(xùn)練時的Batch Size 設(shè)置為35。預(yù)訓(xùn)練網(wǎng)絡(luò)和訓(xùn)練任務(wù)網(wǎng)絡(luò)的Epoch 分別為200 和100。在訓(xùn)練階段與測試階段將112×112×1 大小的PET 與CT 圖像融合,形成雙通道112×112×2 的矩陣并輸入網(wǎng)絡(luò)進行訓(xùn)練及測試,詳細參數(shù)見表1。如圖4 所示,Loss 曲線經(jīng)過多個Epochs 的迭代最終達到收斂。
表1 網(wǎng)絡(luò)訓(xùn)練超參數(shù)Tab. 1 Network training hyper-parameters
圖4 訓(xùn)練Loss 曲線Fig.4 Training loss curve
2.2.6 評價指標
使用專家的手動標注作為基本事實,本文使用ROC曲線(Receiver Operating Characteristic Curve)以及曲線下面積(Area Under the Curve,AUC)對網(wǎng)絡(luò)進行定量評估[36-37]。
ROC 曲線是基于混淆矩陣得出的。一個二分類模型的閾值可能設(shè)定為高或低,每種閾值的設(shè)定會得出不同的真正例率(TPR)和假正例率(FPR),將同一模型每個閾值的(FPR,TPR)坐標都繪制在ROC 空間里,就成為特定模型的ROC 曲線。ROC 曲線橫坐標為假正例率,縱坐標為真正例率。使用ROC 曲線作為模型分類性能的評判標準有兩個優(yōu)點:(1)ROC 曲線簡單、直觀,通過圖示可觀察分析學習器的準確性,并可用肉眼做出判斷;ROC 曲線將真正例率和假正例率以圖示方法結(jié)合在一起,可準確反映某種模型真正例率和假正例率的關(guān)系,是檢測準確性的綜合代表;(2)ROC 曲線不固定閾值,允許中間狀態(tài)的存在,利于使用者結(jié)合專業(yè)知識權(quán)衡漏診與誤診的影響,選擇一個更加合適的閾值作為診斷參考值。
AUC 就是ROC 曲線的下面積。在比較不同的分類模型時,AUC 值越大的分類器,分類準確率越高。
實驗使用由醫(yī)院提供的180 余名患者肺部CT 和PET 成像,對每個患者的CT 和PET圖像進行勾畫操作,只保存患者肺部病灶區(qū)。將CT和PET 圖像成對保存,制成肺部非小細胞肺癌EGFR 數(shù)據(jù)集。實驗環(huán)境統(tǒng)一使用NVIDIA Ge-Force TITAN V顯卡,Python 版本為3.7,CUDA 版本為10.2,所用 框架為Pytorch 1.10.1 版本。使用本文提出的網(wǎng)絡(luò)獲得基于非小細胞肺癌EGFR 基因突變數(shù)據(jù)集上的預(yù)測結(jié)果,并與目前廣泛應(yīng)用的醫(yī)學圖像影學以及主流有監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)VGG-16,ResNet-50,Inception v3 及無監(jiān)督遷移學習CAE 方法進行對比。實驗結(jié)果如表2 所示。
表2 不同方法非小細胞肺癌EGFR 基因突變的預(yù)測AUCTab. 2 Predicting AUC for EGFR gene mutation in non-small cell lung cancer by different methods
本文通過使用改進的BYOL 網(wǎng)絡(luò)進行自監(jiān)督訓(xùn)練,使用無標簽圖像,即未通過專家標注的圖像數(shù)據(jù),迭代200 個Epochs 訓(xùn)練出一個ResNet-50 預(yù)訓(xùn)練模型,再使用少量有標簽圖像(20%的已標注數(shù)據(jù))迭代100 個Epochs 微調(diào)預(yù)訓(xùn)練的網(wǎng)絡(luò)模型,得到任務(wù)網(wǎng)絡(luò)模型。圖4 為網(wǎng)絡(luò)訓(xùn)練時的損失下降曲線。在不需要大量標記數(shù)據(jù)的情況下獲得了77% AUC,比傳統(tǒng)的影像組學(67% AUC)的預(yù)測效果更好,還高于使用普通卷積神經(jīng)網(wǎng)絡(luò)的有監(jiān)督方法,和目前比較主流的無監(jiān)督遷移學習方法(68% AUC)。雖然本文提出的方法AUC 低于融入患者臨床信息的ResNet-50 網(wǎng)絡(luò),但是該方法是自監(jiān)督訓(xùn)練,不需要大量的人工標注數(shù)據(jù)集,也不需要患者的大量臨床信息特征,具有更大的發(fā)展?jié)摿?。其?yōu)勢總結(jié)如下:(1)該方法預(yù)測得到的AUC 高于傳統(tǒng)影像組學及卷積神經(jīng)網(wǎng)絡(luò)的AUC;(2)使用自監(jiān)督學習,不需要大量人工標記數(shù)據(jù),不需要患者的臨床信息,更加便捷、節(jié)省成本;(3)使用對比學習方法,讓相似的病灶區(qū)樣本間距離縮短,不相似的病灶區(qū)樣本間距離增大,學習到樣本間的相似性,更好地進行分類預(yù)測。
為了進一步探究網(wǎng)絡(luò)結(jié)構(gòu)對本文提出的基于雙模態(tài)的改進BYOL 對比學習網(wǎng)絡(luò)的影響,本文通過一系列消融實驗,分別探究了頂層分類器、投影層非線性MLP 層數(shù)和雙模態(tài)數(shù)據(jù)集的影響。
3.2.1 頂層分類器對性能的影響
本文在任務(wù)模型的輸出部分分別使用了全連接層、支持向量機和隨機森林3 種分類器,實驗結(jié)果見圖5。其中,全連接分類器的分類預(yù)測由全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn),以ReLU 函數(shù)為激活函數(shù),最后使用交叉熵損失函數(shù)進行損失計算;支持向量機分類器基于1 024 維輸入向量的線性核函數(shù)的SVM 模型進行分類;隨機森林分類器基于輸入1 024 維特征向量,使用隨機森林和L1 正則化進行分類。3 種分類器分別得到了77%AUC,75% AUC,74% AUC。從表3 可以看出,使用全連接分類器取得的實驗結(jié)果略優(yōu)于其他兩種方法。
表3 消融實驗結(jié)果Tab. 3 Ablation experiment results
圖5 三種分類器預(yù)測AUCFig.5 AUC of three classifiers
3.2.2 投影層非線性MLP 層數(shù)對性能的影響
Chen T 等[23]和Chen X L 等[26]發(fā)現(xiàn),通過增加投影層非線性MLP 的層數(shù)可以有效提高對比學習網(wǎng)絡(luò)模型的分類準確率。而原始BYOL網(wǎng)絡(luò)的投影層只有2 層非線性MLP,因此實驗投影層分別使用2 層非線性MLP 和3 層非線性MLP 訓(xùn)練出的模型進行分類。結(jié)果顯示,3 層非線性MLP 訓(xùn)練出的模型得到了77% AUC,高于2 層非線性MLP 訓(xùn)練出的模型(74%AUC)。由此表明,通過增加投影層非線性MLP 的層數(shù)可以有效地提高對比學習網(wǎng)絡(luò)模型的分類準確率。
3.2.3 雙模態(tài)對性能的影響
已有研究表明[31-37],CT 和PET 圖像在預(yù)測非小細胞肺癌EGFR 突變中具有一定的參考價值。本文將患者病灶區(qū)的CT 圖像和PET 圖像信息融合起來作為網(wǎng)絡(luò)的輸入。實驗分別使用患者病灶區(qū)CT 圖像和PET 圖像的融合信息與只使用CT 圖像信息作為網(wǎng)絡(luò)輸入訓(xùn)練網(wǎng)絡(luò),最終分別得到了77% AUC 和75% AUC。從實驗結(jié)果可以看出,同時使用患者病灶區(qū)的CT 圖像和PET 圖像兩個模態(tài)時可以得到更好的效果。
本文基于改進BYOL 的自監(jiān)督非小細胞肺癌EGFR 基因突變預(yù)測方法,以BYOL 自監(jiān)督對比網(wǎng)絡(luò)為基礎(chǔ)對其網(wǎng)絡(luò)結(jié)構(gòu)進行改進,加深了非線性MLP 的層數(shù),同時融合了CT 和PET 兩個模態(tài)的圖像數(shù)據(jù),指導(dǎo)網(wǎng)絡(luò)提取更有效的圖像特征,提高預(yù)測準確度。本文所提的網(wǎng)絡(luò)結(jié)構(gòu)與方法最終得到了77% AUC,相對于傳統(tǒng)的影像組學方法的分類結(jié)果提高了7% AUC,相對于有監(jiān)督VGG-16 網(wǎng)絡(luò)的分類結(jié)果提高了5% AUC。在不需要大量專家手工標注數(shù)據(jù)集及大量患者臨床數(shù)據(jù)的情況下(僅使用20%標注數(shù)據(jù)),該方法僅比融合了患者大量臨床信息等數(shù)據(jù)的有監(jiān)督網(wǎng)絡(luò)低9% AUC,能夠有效地指導(dǎo)醫(yī)師無創(chuàng)且自動地根據(jù)患者的CT,PET 圖像判斷是否發(fā)生非小細胞肺癌EGFR 基因突變,從而幫助患者進行EGFR 靶向治療,展示了其輔助臨床決策的潛力。
醫(yī)學圖像并不像普通圖像那樣包含大量場景,所以高級語義特征(如病灶區(qū)的形狀、輪廓)以及低級語義特征(如病灶區(qū)的邊緣、紋理)都很重要。后續(xù)的研究中,會繼續(xù)關(guān)注跟隨對比學習圖像分類方面的最新進展,探究AUC 更高的醫(yī)學圖像分類方法。