裘可凡 孟鈺婷 徐姣娜 牛國(guó)忠*
作者單位: 310053 浙江中醫(yī)藥大學(xué)第四臨床醫(yī)學(xué)院(裘可凡 孟鈺婷)
310006 杭州市第一人民醫(yī)院城北院區(qū)(徐姣娜)
310006 杭州市第一人民醫(yī)院(牛國(guó)忠)
腦腫瘤的發(fā)病率和病死率較高,2016 年在全球影響了33萬(wàn)人[1]。腦膠質(zhì)瘤是常見(jiàn)的腦腫瘤,因形狀的多樣性和高度的異質(zhì)性以及預(yù)后較差,其診斷分級(jí)、基因突變水平及預(yù)后評(píng)估至關(guān)重要。磁共振(magnetic resonance imaging,MRI)是一種多模態(tài)成像技術(shù),廣泛應(yīng)用于膠質(zhì)瘤術(shù)前診斷及術(shù)后評(píng)估。近年來(lái),隨著科技進(jìn)步,數(shù)字化醫(yī)療日漸發(fā)展,在大數(shù)據(jù)領(lǐng)域,人工智能憑借其高效的數(shù)據(jù)分析及信息提取能力,成為較多學(xué)科的研究熱點(diǎn),尤其是醫(yī)學(xué)影像方面。深度學(xué)習(xí)(deep learning,DL)作為其新興分支,如何高效應(yīng)用于腦膠質(zhì)瘤的臨床診斷是當(dāng)前的研究熱點(diǎn)。
計(jì)算機(jī)問(wèn)世于1940 年,經(jīng)典算法作為機(jī)器的主要功能,包括決策樹(shù)、普素貝葉斯分類(lèi)算法、隨機(jī)森林等,廣泛應(yīng)用于生產(chǎn)生活的各個(gè)領(lǐng)域,給人類(lèi)的生活帶來(lái)較大便利。然而,當(dāng)人們想用此解決更高層次的問(wèn)題時(shí),經(jīng)典算法不可避免的存在多種弊端。人工智能被稱作是人類(lèi)歷史上的第四次工業(yè)革命[1],其核心是機(jī)器學(xué)習(xí)。DL 作為機(jī)器學(xué)習(xí)的新興分支,是最先進(jìn)的技術(shù),其采用多層人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)模擬人腦[2],與傳統(tǒng)技術(shù)相比,DL 在較多領(lǐng)域都被證明具有更高的準(zhǔn)確性,包括自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別方面。其使用具有多層抽象的學(xué)習(xí)方法來(lái)處理輸入數(shù)據(jù),而不需要手動(dòng)勾畫(huà)圖像,自動(dòng)識(shí)別高維數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),從而實(shí)現(xiàn)人工無(wú)法完成的目標(biāo)。其整個(gè)過(guò)程旨在從原始數(shù)據(jù)中檢測(cè)和提取高級(jí)特征。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是目前最常用的DL 方法,主要應(yīng)用于成像分析,在各個(gè)行業(yè)做出了突出貢獻(xiàn),并被廣泛應(yīng)用于其他學(xué)科,特別是對(duì)于醫(yī)療臨床實(shí)際問(wèn)題的解決[3-5]。如發(fā)現(xiàn)胸片中的結(jié)核?。?-7]、皮膚的惡性黑色素瘤[8]和罹患乳腺癌后組織切片上探及到的淋巴轉(zhuǎn)移等[9]。
在WHO 中樞神經(jīng)系統(tǒng)腫瘤分類(lèi)中,針對(duì)腫瘤分級(jí)及基因分型越來(lái)越細(xì)[10]。大多數(shù)膠質(zhì)瘤患者的治療依賴于手術(shù)切除,而手術(shù)范圍、切除后能否放化療、治療預(yù)后都與膠質(zhì)瘤的性質(zhì)有關(guān)。穿刺活檢是獲取其病理及分級(jí)的金標(biāo)準(zhǔn),但術(shù)前需耗費(fèi)大量的時(shí)間。因此,膠質(zhì)瘤患者術(shù)前的MRI 影像在診斷分級(jí)中扮演重要角色?;诔R?jiàn)序列的DL 在膠質(zhì)瘤的診斷分級(jí)、分割、預(yù)后等方面取得令人鼓舞的成果[11]。
2.1 腫瘤分割 分割是在影像圖像中分隔腫瘤區(qū)與正?;屹|(zhì)白質(zhì)等區(qū)域,目的是使圖像更加清晰化、直觀化。RIBALTA等[12]充分利用CNN,通過(guò)輸入T2 Flair 圖像以獲取腫瘤分級(jí)。該模型可應(yīng)用于數(shù)據(jù)不平衡及存在異構(gòu)的數(shù)據(jù)集,為其提供可控的訓(xùn)練時(shí)間,并實(shí)時(shí)推斷。LUO 等[13]提出一種基于密集孔洞的3DU-Net 神經(jīng)膠質(zhì)瘤分割模型(DDNet),采用分類(lèi)損失和交叉熵?fù)p失作為多重?fù)p失函數(shù),改善分割中的類(lèi)別不平衡問(wèn)題,該模型的準(zhǔn)確性在BraTS2018 數(shù)據(jù)集上得到驗(yàn)證。但其獲取的分割圖像較模糊,精度有待提高。Mixup 技術(shù)可用于數(shù)據(jù)增強(qiáng),目前在急性淋巴細(xì)胞白血病多個(gè)疾病中得到應(yīng)用,但對(duì)于大樣本數(shù)據(jù)庫(kù)的作用有限,DVORNIK 等[14]應(yīng)用PytorchDL 框架研發(fā)一個(gè)新模型—TensorMixup。該模型具有混合效率,分割精度更高,并可得到多樣化的數(shù)據(jù)。其使用張量混合圖像信息及混合圖像的ROI,完整腫瘤、腫瘤核心在研究中的Dice 系數(shù)值依次可達(dá)91.32%與85.67%。為進(jìn)一步驗(yàn)證此模型性能,研究者將其與TumorMixup 及CutMix 進(jìn)行對(duì)比[15],結(jié)果顯示TensorMixup 在上述區(qū)域的分割精度更高。KIKINIS 等[16]采用基于DL 的單次掃描檢測(cè)(SSD)來(lái)分割轉(zhuǎn)移的腦腫瘤。也有研究開(kāi)發(fā)了DeepsegDL 模型[17],通過(guò)Flair圖像進(jìn)行自動(dòng)分割。上述模型均在一定程度上解決了分類(lèi)不平衡的問(wèn)題,但其都需對(duì)圖像進(jìn)行預(yù)處理,而FRANCISCO等[18]等研發(fā)了一種多路徑CNN 全自動(dòng)腦膠質(zhì)瘤模型,該模型通過(guò)輸入T1WI 圖像,沿著不同處理路徑在三個(gè)空間同時(shí)進(jìn)行處理,在增加數(shù)據(jù)集的同時(shí)防止過(guò)擬合,其Dice 指數(shù)為0.828。同時(shí),該模型還可用于腦膜瘤和垂體瘤的分類(lèi)分割。
2.2 腫瘤分級(jí) 目前腦膠質(zhì)瘤最常用的是WHO 分級(jí),按惡性程度從低到高分為I~I(xiàn)V 級(jí)。在臨床治療中,醫(yī)務(wù)人員針對(duì)所采集到的病理信息進(jìn)行分級(jí),從而制定個(gè)性化手術(shù)方案,因此術(shù)前分級(jí)顯得尤為重要。TIAN 等[19]采集術(shù)前T1WI、T2WI、DWI 序列,利用最優(yōu)特征建立支持向量機(jī)(SVM)分類(lèi)器,在低級(jí)別膠質(zhì)瘤和高級(jí)別膠質(zhì)瘤的區(qū)分上,其準(zhǔn)確性為96.8%,在兩種高級(jí)別膠質(zhì)瘤的區(qū)分上,其準(zhǔn)確性為98.1%。GUTTA等[20]基于CNN 網(wǎng)絡(luò),采用Grad-CAM 可視化算法對(duì)237 例膠質(zhì)瘤患者進(jìn)行600 次掃描,分級(jí)準(zhǔn)確率為87%,但此樣本均來(lái)自一個(gè)中心,是否可將其應(yīng)用于多中心環(huán)境有待進(jìn)一步考量。ZHUGE 等[21]應(yīng)用3D CNN 網(wǎng)絡(luò)在數(shù)據(jù)集進(jìn)行5 次交叉驗(yàn)證,準(zhǔn)確率為97.1%,相較傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)技術(shù),3D CNN 網(wǎng)絡(luò)具有更高的效率和準(zhǔn)確度。MZOUGHI 等[22]采用T1 Gado 序列以區(qū)分腫瘤分級(jí),獲得96.49%的總體準(zhǔn)確性,證實(shí)充分的數(shù)據(jù)增強(qiáng)可致分類(lèi)的準(zhǔn)確。DL 作為一種非侵入性膠質(zhì)瘤分級(jí)的技術(shù),在無(wú)需手術(shù)活檢的情況下為治療方案的選擇提供指示信息,在臨床得到廣泛應(yīng)用。
2.3 腫瘤分子水平 2021 年WHO 中樞神經(jīng)系統(tǒng)腫瘤分類(lèi)中強(qiáng)調(diào)了分子指標(biāo)的重要性,應(yīng)用相關(guān)分子病理指標(biāo)判斷腫瘤的相關(guān)生物學(xué)行為,對(duì)腫瘤進(jìn)行診斷、鑒別診斷、預(yù)后生存分析,從而為臨床決策提供依據(jù)[23]。
隨著分子生物學(xué)的發(fā)展,越來(lái)越多的基因被證實(shí)與疾病相關(guān),靶向藥物、免疫療法等保守治療成為延長(zhǎng)膠質(zhì)瘤患者生存期的新方向。異檸檬酸脫氫酶(isocitrate dehydrogenase,IDH)參與三羧酸循環(huán),廣泛存在于真核生物多個(gè)細(xì)胞器,相關(guān)研究證實(shí),IDH 突變的患者生存期較長(zhǎng),是進(jìn)行臨床分層的重要指標(biāo)[24]。LIANG 等[25]提出了一種多模態(tài)3D Dense Net(M3D-DenseNet)模型,其準(zhǔn)確率為84.6%。GE 等[26]利用基于DL 的半監(jiān)督學(xué)習(xí)框架進(jìn)行預(yù)測(cè),取得較好的性能。CHOI 等[27]收集來(lái)自不同醫(yī)院的1,166 例膠質(zhì)瘤患者術(shù)前圖像,基于T1、T2、flair 圖像,開(kāi)發(fā)了一種非侵入性模型,其AUROC 曲線下面積為0.86~0.96。該模型同時(shí)納入腫瘤信號(hào)強(qiáng)度、大小形狀、患者年齡等多個(gè)指標(biāo),無(wú)需任何依賴于操作員的過(guò)程。CALABRESE 等[28]提取基于DL 的腫瘤分割的放射組學(xué)特征來(lái)預(yù)測(cè)IDH 狀態(tài),該模型的敏感性為0.93,特異性為0.88。IDH 具有多個(gè)亞型,包括IDH 野生型和突變型。NALAWADE 等[29]提出一種僅輸入T2WI 圖像進(jìn)行無(wú)創(chuàng)預(yù)測(cè)IDH 狀態(tài)的自動(dòng)管道,該圖像具有最小的預(yù)處理,在預(yù)測(cè)無(wú)腫瘤、IDH 突變和IDH 野生型時(shí),每個(gè)軸向切片的平均分類(lèi)準(zhǔn)確率達(dá)90.5%。其在分層隨機(jī)化期間確保了受試者分離,最大程度的避免數(shù)據(jù)泄漏。目前預(yù)測(cè)IDH 突變的技術(shù)較為成熟,在臨床得到較多應(yīng)用。
IDH 突變常伴隨著O6-甲基鳥(niǎo)嘌呤甲基轉(zhuǎn)移酶(MGMT)啟動(dòng)子甲基化。MGMT 是一種與膠質(zhì)瘤對(duì)卡莫司汀、替莫唑胺等藥物的敏感性及耐藥性有關(guān)的DNA 修復(fù)酶。相較其余患者,MGMT 甲基化患者通常生存期較長(zhǎng)[30]。LEVNER 等[31]應(yīng)用L1 正則化神經(jīng)網(wǎng)絡(luò),對(duì)T1WI、T2WI、FLAIR 進(jìn)行分析,使用基于S 變換的空間頻率紋理分析提取特征,此模型在59例患者中取得87.7%的準(zhǔn)確率。但其需要輸入的圖像較多,不可避免的存在圖像無(wú)法處理等問(wèn)題,因此YOGANANDA 等[32]開(kāi)發(fā)了一種模型,僅使用T2圖像,采取基于DL 的三維密集UNet 對(duì)247 例受試者的磁共振信息進(jìn)行三重交叉驗(yàn)證,其敏感性和特異性分別為96.31%和91.66%。此模型僅使用T2WI,消除了圖像采集偽影的潛在缺點(diǎn),減少時(shí)間及成本,具有重要的里程碑意義。KORFIATIS 等[33]應(yīng)用殘余深度神經(jīng)網(wǎng)絡(luò)(ResNet)進(jìn)行驗(yàn)證,發(fā)現(xiàn)ResNet 50 的準(zhǔn)確度為80.72%,是目前性能最佳的模型。
1 號(hào)和19 號(hào)染色體缺失是膠質(zhì)瘤,尤其是少突膠質(zhì)細(xì)胞瘤的重要分子標(biāo)志,1p/19q 共缺失的患者對(duì)烷化劑聯(lián)合化療治療敏感。CHANG 等[34]使用2D CNN 模型,采取5 倍交叉驗(yàn)證方法,對(duì)256 個(gè)MRI 圖像信息進(jìn)行預(yù)測(cè),其準(zhǔn)確率為92%。此外,相關(guān)文獻(xiàn)表明,1p/19q 缺失的腫瘤更可能在額葉皮質(zhì)中發(fā)現(xiàn)[35]。這進(jìn)一步證明DL 可以自動(dòng)提取特征,而無(wú)需人為干預(yù)。
除上述常見(jiàn)的分子標(biāo)記物以外,EGFR、TERT 基因啟動(dòng)子突變、Ki-67、BARF 基因、TP53 基因等[30]均被證實(shí)與膠質(zhì)瘤診斷及預(yù)后有關(guān)。關(guān)于上述基因的相關(guān)臨床預(yù)測(cè)較少,在未來(lái)有待進(jìn)一步研究。
2.4 腫瘤預(yù)后 HAN 等[36]開(kāi)發(fā)并驗(yàn)證一種結(jié)合放射組學(xué)特征的Elastic Net CoxDL 模型,通過(guò)T1WI 以預(yù)測(cè)膠質(zhì)瘤患者長(zhǎng)期生存的可能性,其log-rank 檢驗(yàn)P=0.014。TANG 等[37]采用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),從術(shù)前多模態(tài)磁共振成像中導(dǎo)出腫瘤基因型相關(guān)特征,而不需腫瘤分割,并將其用于總生存時(shí)間預(yù)測(cè)。與其他模型不同的是,其將特征學(xué)習(xí)與分類(lèi)回歸相結(jié)合,相關(guān)系數(shù)為0.4695,實(shí)現(xiàn)目前最高的生存預(yù)測(cè)精度。在膠質(zhì)瘤的治療過(guò)程中,通常包含著真性進(jìn)展及假性進(jìn)展。GAO 等[38]建立了ERN-Net 模型以鑒別腫瘤復(fù)發(fā)和假性進(jìn)展,其敏感度為0.947,特異度為0.817。在2018 年BraTS 比賽中,F(xiàn)ENG 等[39]基于3D U-Net DL 網(wǎng)絡(luò),開(kāi)發(fā)的線性模型可預(yù)測(cè)低級(jí)別膠質(zhì)瘤患者的預(yù)后,取得了冠軍,為后續(xù)研究奠定了基礎(chǔ)。NIE 等[40]提出兩階段學(xué)習(xí)方法,第一階段提取T1WI、DTI、rs-fMRI 深層特征,并進(jìn)行訓(xùn)練,第二階段將腫瘤相關(guān)特征(腫瘤大小、組織學(xué)類(lèi)型等)輸入SVM 中,最終生成生存時(shí)間的長(zhǎng)短。該多通道的DL 生存預(yù)測(cè)框架模型的準(zhǔn)確率為90.66%,優(yōu)于其余方法。LEE 等[41]采用全MRI 圖像進(jìn)行預(yù)測(cè),證實(shí)多參數(shù)序列數(shù)據(jù)的CNN-LSTM 模型性能優(yōu)于單個(gè)序列,其準(zhǔn)確度為0.62~0.75。但上述研究均為回顧性研究,除相關(guān)顯性特征外,患者的心理、術(shù)后恢復(fù)狀況等因素均會(huì)影響預(yù)后,因此在未來(lái),應(yīng)前瞻性納入相關(guān)患者,進(jìn)一步實(shí)現(xiàn)個(gè)體化精準(zhǔn)醫(yī)療。
DL 算法是多層算法,需要大量的處理能力,并且有數(shù)百萬(wàn)個(gè)參數(shù)。在現(xiàn)有的臨床報(bào)道中,大多為小樣本單中心的研究,其模型缺乏普遍實(shí)用性,此外,在有限的數(shù)據(jù)集進(jìn)行運(yùn)算訓(xùn)練時(shí),有較大概率發(fā)生過(guò)擬合。當(dāng)使用少量數(shù)據(jù)獲得高準(zhǔn)確度時(shí),這個(gè)問(wèn)題令人擔(dān)憂。因此,在未來(lái),需要收集大量數(shù)據(jù),建立大樣本多中心的數(shù)據(jù)庫(kù),以供學(xué)者們進(jìn)行進(jìn)一步研究,改善現(xiàn)有不足,建造更具有普適性的模型。DL 的技術(shù)亟待進(jìn)一步深化。在傳統(tǒng)的機(jī)器學(xué)習(xí)中,對(duì)圖像特征選擇和提取的預(yù)處理過(guò)程常需要專(zhuān)家干預(yù),DL 直接從輸入數(shù)據(jù)中挖取特征,具有非常大的靈活性和不確定性,這些不確定性和復(fù)雜性常使高精度的過(guò)程變得不透明,也使糾正給定數(shù)據(jù)集所產(chǎn)生的偏差變得更加困難。加之DL 有多個(gè)隱藏層,在實(shí)際應(yīng)用中,很難解釋其提取哪些單獨(dú)的特征。此外,神經(jīng)網(wǎng)絡(luò)被批評(píng)為生成不可解釋的特征向量的“黑匣子”,這限制了對(duì)圖像分類(lèi)潛在機(jī)制的深入了解。盡管DL 在腫瘤的分割、分級(jí)診斷、分子基因分型、預(yù)后預(yù)測(cè)等方面各有建樹(shù),但目前尚缺乏將其整合在一起的模型。開(kāi)發(fā)一個(gè)將診斷、分型及預(yù)后于一體的模型,能減少臨床醫(yī)師及放射科醫(yī)師診斷所需時(shí)間。近年來(lái),除了上述常規(guī)序列外,還有擴(kuò)散峰度成像(diffusion kurtosis imaging,DKI)、磁共振譜(MRS)等多個(gè)新興的序列,為解決臨床問(wèn)題提供了新思路,未來(lái)有望將其與DL 相結(jié)合,成為下一個(gè)新的研究熱點(diǎn)。