賈利葉,任雪婷,趙涓涓,,武 煒,楊倩倩
(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原 030024;2.晉中信息學(xué)院,山西 晉中 030800;3.山西醫(yī)科大學(xué) 基礎(chǔ)醫(yī)學(xué)院,太原 030051)
肺癌是世界范圍內(nèi)導(dǎo)致癌癥死亡的主要原因[1-3]。70%的肺癌診斷是在晚期局部或轉(zhuǎn)移性疾病出現(xiàn)癥狀后進(jìn)行的,診斷后的5年生存率約為16%[4]。只有當(dāng)肺癌患者被確診時仍是局部癥狀,生存率才會達(dá)到50%以上[5]。不幸的是,肺癌患者的疾病進(jìn)展和對治療的反應(yīng)差異很大,只有15%的肺癌在早期階段被診斷出來[6-7]。因此,準(zhǔn)確的診斷與預(yù)后對于每個肺癌患者的治療選擇和規(guī)劃至關(guān)重要。
醫(yī)學(xué)圖像在肺癌的臨床決策過程中起著重要的作用。近年來,從常規(guī)臨床圖像中提取影像學(xué)標(biāo)記物的研究越來越多,都是以非侵入性的方式深入了解肺癌[8],而不同的可用方式越來越被認(rèn)識到包含高維可挖掘數(shù)據(jù),這反過來可用于改善醫(yī)療決策[9]。醫(yī)學(xué)圖像也可以幫助表征瘤周區(qū)域,并可能傳遞與腫瘤微環(huán)境相關(guān)的信息[10-11]。例如,腫瘤的影像學(xué)特征被越來越多地用于預(yù)測基因表達(dá)[12]。此外,最近的研究表明,癌癥的分子機(jī)制與特定的影像學(xué)表型有關(guān)[13]。因此,通過醫(yī)學(xué)圖像提供預(yù)后和預(yù)測信息,正在成為癌癥個性化醫(yī)學(xué)領(lǐng)域的關(guān)鍵參與者。
近年來,人工智能(AI)在解決計(jì)算機(jī)視覺和圖像分析中復(fù)雜的現(xiàn)實(shí)問題方面顯示出了越來越大的能力,特別是在醫(yī)學(xué)圖像分析方面取得了顯著的成功,如CT圖像檢索[14]、PET/CT圖像重建[15]、MRI圖像檢測[16]等。通過人工智能技術(shù)和計(jì)算機(jī)視覺的應(yīng)用,影像組學(xué)及影像基因組學(xué)的最新進(jìn)展允許從圖像和基因中提取和挖掘許多定量特征[17-18]。先進(jìn)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法的發(fā)展可以增強(qiáng)圖像分析,并幫助臨床醫(yī)生完成具有挑戰(zhàn)性的診斷任務(wù),如識別腫瘤基因表型[19-20],檢測腫瘤轉(zhuǎn)移[21],腫瘤生存復(fù)發(fā)預(yù)測[22]及療效評估預(yù)后[23]等。
本文重點(diǎn)介紹影像基因組學(xué)基于人工智能算法的相關(guān)研究進(jìn)展以及其在肺癌智能診斷與預(yù)后中的應(yīng)用,內(nèi)容框架如圖1所示。在肺癌基因表型鑒別的應(yīng)用中,分別從放射組學(xué)方法和深度學(xué)習(xí)技術(shù)的角度總結(jié)與梳理了肺癌中EGFR、KRAS基因識別的應(yīng)用現(xiàn)狀,并且簡單分析了后續(xù)可繼續(xù)進(jìn)行的研究。在肺癌智能診斷中影像與基因的相關(guān)性分析方面,分別從統(tǒng)計(jì)學(xué)方法以及深度學(xué)習(xí)兩個角度進(jìn)行分析。雖然取得了一定的成果,但大多研究都是統(tǒng)計(jì)學(xué)意義上的一些相關(guān)性,沒有呈現(xiàn)直觀的視覺效果,而基于深度學(xué)習(xí)的影像基因雙向相關(guān)性則可以實(shí)現(xiàn),但仍然處于嘗試階段,需要進(jìn)一步研究探討相關(guān)技術(shù)及方案。在肺癌預(yù)后預(yù)測方面,簡單總結(jié)了肺癌基于影像和影像基因進(jìn)行生存復(fù)發(fā)預(yù)測以及療效評估預(yù)測兩個方面的工作,而基于人工智能算法的療效反應(yīng)評估研究內(nèi)容還較少,較分散,需要進(jìn)一步挖掘。
影像基因組學(xué)(又稱放射基因組學(xué))是一門將醫(yī)學(xué)成像技術(shù)與基因組學(xué)技術(shù)相結(jié)合的交叉學(xué)科[24],是一種將成像特征與基因組數(shù)據(jù)相關(guān)聯(lián)的高通量研究方法。它不僅從圖像數(shù)據(jù)中提取反映診斷的定量圖像表型特征,而且從生物學(xué)數(shù)據(jù)中提取基因型特征,進(jìn)而分析腫瘤的影像學(xué)特征與分子表型之間的關(guān)系[25]。影像基因組學(xué)具有醫(yī)學(xué)成像的無創(chuàng)、廉價、可重復(fù)的特點(diǎn),具有利用分子技術(shù)直接探索疾病根源的優(yōu)勢[26]。因此,影像基因組學(xué)被應(yīng)用于疾病的成像診斷、基因表型鑒別、預(yù)后預(yù)測及療效評估等。其方法主要分為以下4個步驟:a.圖像采集和處理;b.感興趣區(qū)域(ROI)分割;c.特征提取和量化;d.構(gòu)建預(yù)測和預(yù)后模型[27]。在肺癌的診斷和治療過程中,產(chǎn)生了大量豐富的具有不同數(shù)據(jù)類型的數(shù)據(jù),包括文本、圖像、生命體征數(shù)據(jù)、基因組數(shù)據(jù)等[28]。隨著計(jì)算硬件和深度學(xué)習(xí)算法的發(fā)展,影像基因組學(xué)與人工智能的結(jié)合已經(jīng)用于各種預(yù)測和預(yù)后模型[29]。
圖1 影像基因智能方法在肺癌診斷與預(yù)后中的應(yīng)用Fig.1 Application of intelligent imaging genomics in diagnosis and prognosis of lung cancer
在人工智能的悠久歷史中,對人工智能的定義有很多。一般來說,人工智能的定義非常寬泛,涵蓋了大量的計(jì)算機(jī)技術(shù)。如今,人工智能代表了一種新興的、快速發(fā)展的模型,它涉及不同的科學(xué)領(lǐng)域,也致力于癌癥患者的管理[30]。它可以被視為一個一般概念,表明機(jī)器能夠?qū)W習(xí)和識別足夠數(shù)量的代表性模型的模式和交互,并使用這些信息來改進(jìn)當(dāng)前對特定領(lǐng)域決策過程的方法[31-32]。在人工智能的應(yīng)用中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)被廣泛應(yīng)用于肺癌的篩查[33]、診斷[34]和治療[35],發(fā)揮著至關(guān)重要的作用。在精確腫瘤學(xué)領(lǐng)域,人工智能旨在將來自當(dāng)前高性能計(jì)算設(shè)備的大量多組學(xué)數(shù)據(jù)與深度學(xué)習(xí)方面的進(jìn)展相結(jié)合[36],這使得人工智能的應(yīng)用逐步擴(kuò)大,包括癌癥影像基因組學(xué)的特征、腫瘤微環(huán)境的分析、具有預(yù)后和預(yù)測目的的生物標(biāo)志物的評估,以及后續(xù)療效研究和藥物發(fā)現(xiàn)的策略等[37]。
為了更好地理解在影像基因組學(xué)中人工智能當(dāng)前的角色和未來的前景,首先應(yīng)該理解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。機(jī)器學(xué)習(xí)是一個通用概念,表明機(jī)器的學(xué)習(xí)能力,即計(jì)算機(jī)程序可以在給定某種類別的任務(wù)和性能度量下學(xué)習(xí)經(jīng)驗(yàn),從而改進(jìn)分析模式和模型。而深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種,主要是使用多層非線性處理單元構(gòu)建復(fù)雜的深度網(wǎng)絡(luò)進(jìn)行特征提取和轉(zhuǎn)換,進(jìn)而確定模型預(yù)測性能[38]。值得注意的是,在影像基因組學(xué)中,一般運(yùn)用機(jī)器學(xué)習(xí)算法分析影像特征,并與其基因組學(xué)相關(guān)聯(lián),運(yùn)用深度學(xué)習(xí)方法訓(xùn)練大量圖像和基因數(shù)據(jù)構(gòu)建預(yù)測算法。這兩種方法都便于在分析定量數(shù)據(jù)時考慮一個特定的臨床問題,在人工智能的肺癌患者管理中也是核心的[39]。因此,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的肺癌影像基因組學(xué)方法對識別腫瘤基因表型、分析影像基因雙向相關(guān)性、預(yù)測腫瘤生存復(fù)發(fā)及評估療效預(yù)后等也具有重大的潛力和應(yīng)用價值。
基因表型在肺癌的治療決策中起著核心作用,基于影像預(yù)測肺癌中2個基本致病基因表皮生長因子受體(EGFR)和鼠類肉瘤病毒(KRAS)的突變狀態(tài)是一種無創(chuàng)、成本較低的方法,具有靶向治療的價值,檢測肺癌患者的多種基因改變是決定靶向治療適用性的關(guān)鍵。
腫瘤的特征是體細(xì)胞突變,例如特定的基因突變,可以影響參與腫瘤發(fā)展和進(jìn)展的生物過程,最終反映在腫瘤表型[40]。人工智能方法可以通過使用預(yù)定義的機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)方法自動量化表型特征,這一過程也被稱為放射組學(xué)。隨著放射組學(xué)在臨床實(shí)踐中的引入,越來越多的癌癥治療決策不僅基于患者的臨床特征和腫瘤形態(tài),而且還基于個體突變圖譜[41-43]。放射組學(xué)提取并分析了大量先進(jìn)的高通量定量圖像特征,是一種很有前途的非侵入性方法,并廣泛用于評估肺癌中的基因突變。EGFR和KRAS的突變狀態(tài)對于NSCLC患者的靶向治療至關(guān)重要,因?yàn)樗鼈兪前邢蛑委熐傲私夥伟┲虏〉年P(guān)鍵基因,尤其EGFR-TKIS抑制劑為敏感突變的患者帶來了更長的生存期[44]。一些研究已經(jīng)報(bào)道了使用放射組學(xué)來鑒別EGFR、KRAS突變的研究進(jìn)展[45-46]。
針對腫瘤表型中單一基因突變,LIU et al[47](2016)基于298例手術(shù)切除的周圍型肺腺癌患者,從CT圖像每個腫瘤的分割體積中提取219個大小、邊緣、透明度和均勻性等定量三維特征,利用多元邏輯回歸模型以識別EGFR突變狀態(tài),最終AUC為0.647.JIA et al[48](2019)收集并分析503例手術(shù)前的肺腺癌CT掃描結(jié)果,提取其定量放射組學(xué)特征,并建立隨機(jī)森林分類模型識別EGFR突變體。結(jié)果發(fā)現(xiàn)具有94個放射組學(xué)特征的隨機(jī)森林模型的性能AUC達(dá)到了0.802,并通過增加性別和吸煙史,其AUC進(jìn)一步提高到0.828.HONG et al[49](2020)基于201例晚期肺腺癌患者的增強(qiáng)和非增強(qiáng)CT成像,人工分割并提取396個特征,采用LASSO算法進(jìn)行特征選擇,并用6種機(jī)器學(xué)習(xí)方法:樸素貝葉斯分類器(NBC)、k-最近鄰(KNN)、隨機(jī)森林(RF)、支持向量機(jī)(SVM)、決策樹(DT)和Logistic回歸(LR)構(gòu)建放射組學(xué)模型無創(chuàng)地識別晚期肺腺癌中的EGFR突變。結(jié)果發(fā)現(xiàn)基于增強(qiáng)CT成像放射組學(xué)特征的logistic回歸方法取得了最佳效果,其AUC為0.851.MORGADO et al[50](2021)利用各種線性、非線性和集成預(yù)測分類模型,以及幾種特征選擇方法,對野生型或突變型EGFR突變狀態(tài)的二元結(jié)果進(jìn)行分類。結(jié)果發(fā)現(xiàn)使用包含肺結(jié)節(jié)ROI的綜合方法可以捕獲更充分的相關(guān)信息,并且基于線性支持向量機(jī)、彈性網(wǎng)絡(luò)、Logistic回歸和結(jié)合特征集方差為70%的主成分分析特征選擇方法構(gòu)建的模型,是性能最好的分類器,AUC值為0.725~0.737.針對腫瘤表型中多基因突變,SHIRI et al[51](2020)利用NSCLC癌癥患者的186例PET和175例低劑量CT和CTD圖像,從不同的圖像特征集中提取了2萬多個放射性特征,采用6種特征選擇方法和12種分類器來預(yù)測患者的EGFR和KRAS基因突變狀態(tài)。結(jié)果發(fā)現(xiàn)機(jī)器學(xué)習(xí)算法比常規(guī)臨床放射特征方法有更高的預(yù)測能力,EGFR的AUC為0.82,KRAS的AUC為0.83.MORENO et al[52](2021)提出了一種新的基于選擇性班級平均投票(SCAV)的機(jī)器學(xué)習(xí)集成方法,并利用小的數(shù)據(jù)集提高了EGFR和KRAS突變預(yù)測的性能。結(jié)果發(fā)現(xiàn)所提出的模型,對于EGFR突變,AUC從0.68增加到0.70,對于KRAS突變,其性能也顯著提高,AUC為0.65~0.71.
雖然上述放射組學(xué)、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法已經(jīng)成功地識別了肺癌患者基因突變,但它們需要復(fù)雜和嚴(yán)格的程序,需要經(jīng)驗(yàn)豐富的成像醫(yī)生的全面指導(dǎo),從檢測分割到特征提取和特征選擇,非常耗時耗力,且結(jié)果是不可重復(fù)的。此外,在一些提取語義信息的研究中,需要有經(jīng)驗(yàn)豐富的醫(yī)生來指導(dǎo),而語義特征本身較難提取。近年來,深度學(xué)習(xí)由于具有強(qiáng)大的特征提取和分類能力,在人工智能領(lǐng)域取得了巨大的成功,在基因突變圖像預(yù)測研究中也逐漸發(fā)展。例如,已經(jīng)有一些研究探索了幾種深度學(xué)習(xí)方法來預(yù)測NSCLC患者的CT圖像上的EGFR突變狀態(tài)。XIONG et al[53](2018)基于503例肺腺癌患者的非對比增強(qiáng)CT圖像,構(gòu)建了三維卷積神經(jīng)網(wǎng)絡(luò)(CNN)來分析CT圖像中人眼看不見的潛在模式,進(jìn)而從野生型中識別出EGFR突變的患者,CNN模型識別EGFR突變狀態(tài)的準(zhǔn)確性為71.5%,而CNN與臨床特征(性別、吸煙史)的融合模型識別準(zhǔn)確性可達(dá)77.2%.LI et al[54](2018)使用放射組學(xué)和多水平殘差神經(jīng)網(wǎng)絡(luò)(MCNNs)在1 010例肺腺癌患者的胸部CT圖像上檢測EGFR突變的能力,發(fā)現(xiàn)放射組學(xué)和MCNNs都可以預(yù)測肺腺癌患者CT圖像上的EGFR突變,且MCNNs在檢測EGFR突變方面性能優(yōu)于放射組學(xué)。WANG et al[55](2019)收集了來自兩家醫(yī)院的844例肺腺癌患者的術(shù)前CT圖像、EGFR突變和臨床資料,基于遷移學(xué)習(xí)技術(shù)提出了一種端到端深度學(xué)習(xí)模型,從CT圖像中自動學(xué)習(xí)與EGFR突變相關(guān)的特征,并預(yù)測腫瘤為EGFR突變的概率,在獨(dú)立驗(yàn)證集(241例)上準(zhǔn)確性為73.86%,在訓(xùn)練集和驗(yàn)證集上AUC分別為0.85和0.81.同時深度學(xué)習(xí)模型還可以發(fā)現(xiàn)與EGFR突變狀態(tài)密切相關(guān)的可疑腫瘤亞區(qū)域。ZHAO et al[56](2019)分析了579個(348個訓(xùn)練,116個驗(yàn)證)具有突變型或野生型的EGFR突變狀態(tài)標(biāo)記結(jié)節(jié)的數(shù)據(jù)集,提出了一個深度學(xué)習(xí)模型3D DenseNets,并采用數(shù)據(jù)增強(qiáng)技術(shù)mixup來處理CT數(shù)據(jù)中的三維結(jié)節(jié)斑塊,進(jìn)而通過監(jiān)督訓(xùn)練學(xué)習(xí)強(qiáng)表征來預(yù)測EGFR突變。SONG et al[57](2021)以兩個不同機(jī)構(gòu)的665例(528/137)原發(fā)性肺腺癌為研究對象,采用18層卷積神經(jīng)網(wǎng)絡(luò)(CNN)直接區(qū)分EGFR突變的三種常見亞型:野生型、19Del和L858R,并采用梯度加權(quán)類激活映射(Grad-CAM)技術(shù)對CNN模型進(jìn)行視覺解釋,證實(shí)了深度學(xué)習(xí)在預(yù)測肺腺癌中EGFR突變狀態(tài)方面的潛力。這些方法主要采用多層卷積神經(jīng)的方法使用CT圖像作為輸入,并自動提取高級特征表示,用于EGFR突變狀態(tài)預(yù)測。
為了繼續(xù)改善性能,研究者們開始考慮結(jié)合放射組學(xué)特征與深度學(xué)習(xí)方法,從多類型特征、多基因關(guān)聯(lián)角度去識別基因突變狀態(tài)。QIN et al[58](2020)基于先驗(yàn)醫(yī)學(xué)知識的臨床特征和由卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取的CT圖像定量特征,利用LSTM分析了特征間的依賴性,并進(jìn)行融合,以提供更全面、更詳細(xì)的EGFR突變狀態(tài)描述,同時生成了一種新的計(jì)算機(jī)輔助診斷特征表示方法。結(jié)果表明,與單類型特征表示相比,基于多類型依賴的特征表示表現(xiàn)出更好的性能(精度為75%,AUC=0.78).ZHANG et al[59](2021)從每個病變區(qū)域提取1 037個基于肺腺癌CT的放射組學(xué)特征后,選擇784個特征進(jìn)行分析,構(gòu)建特征映射,設(shè)計(jì)并訓(xùn)練了一種擠壓和激勵(SE)卷積神經(jīng)網(wǎng)絡(luò)(SE-CNN),從放射組學(xué)特征映射中識別EGFR狀態(tài),內(nèi)部和外部測試數(shù)據(jù)集的AUC分別為0.910和0.841.HUANG et al[60](2022)手工分割1074例非小細(xì)胞肺癌CT圖像的VOI(感興趣區(qū)域),捕獲臨床病理特征,分析傳統(tǒng)的放射學(xué)特征,提取放射組學(xué)和深度學(xué)習(xí)特征,進(jìn)行了特征篩選;然后應(yīng)用Light GBM算法、Resnet-101算法、邏輯回歸建立單一模型,并應(yīng)用融合模型預(yù)測EGFR突變條件,發(fā)現(xiàn)融合模型(CNN+radiomic+clinical)展示了最高的性能(AUC為0.751).DONG et al[61](2021)基于非小細(xì)胞肺癌(NSCLC)CT圖像提出了一種多通道、多任務(wù)的端到端深度學(xué)習(xí)(MMDL)模型,用于同時預(yù)測EGFR和KRAS突變狀態(tài)。該模型首先將每個三維肺結(jié)節(jié)分解為9個視圖;然后,對每個視圖使用預(yù)先訓(xùn)練的inception-attention-resnet模型來學(xué)習(xí)結(jié)節(jié)的特征,再通過結(jié)合9個inception-attention-resnet模型進(jìn)行自適應(yīng)加權(quán)訓(xùn)練來預(yù)測肺結(jié)節(jié)的基因突變類型。
現(xiàn)有的基于深度學(xué)習(xí)的方法通常采用單一任務(wù)學(xué)習(xí)策略,在有限訓(xùn)練數(shù)據(jù)的情況下設(shè)計(jì)和訓(xùn)練EGFR、KRAS突變狀態(tài)預(yù)測模型,這可能不足以學(xué)習(xí)可區(qū)分的模型來提高預(yù)測性能。為此,GUI et al[62](2022)提出了一種新的多任務(wù)深度學(xué)習(xí)方法AIRNet,集成了EGFR突變狀態(tài)預(yù)測和輔助圖像重建任務(wù),可以從共享編碼器中學(xué)習(xí)可區(qū)分的腫瘤特征,充分利用多層次信息準(zhǔn)確預(yù)測EGFR突變狀態(tài),同時引入特征一致性損失函數(shù),有助于獲得增強(qiáng)的圖像重建,從而在訓(xùn)練過程中為AIRNet提供了更有效的正則化。該方法在EGFR突變狀態(tài)預(yù)測方面具有顯著的性能。這項(xiàng)研究為我們后續(xù)研究非侵入式基因突變預(yù)測任務(wù)提供了新思路,將無監(jiān)督圖像重建、圖像分割等作為輔助任務(wù),重建輸入的CT、PET等圖像,同時結(jié)合EGFR、KRAS突變狀態(tài)預(yù)測的主要任務(wù),構(gòu)建模型捕獲不同任務(wù)之間的可泛化特征。這將在訓(xùn)練過程中產(chǎn)生額外的監(jiān)督,以更好地理解NSCLC腫瘤的內(nèi)在特征。另外,還可以結(jié)合其他表達(dá)性語義特征,可以定量地呈現(xiàn)已知的語義信息,并充分考慮模型的可解釋性。
將人工智能和放射組學(xué)應(yīng)用于肺癌基因突變識別任務(wù)的進(jìn)一步研究正在進(jìn)行中,臨床上迫切需求智能診斷技術(shù)加以輔助。表1詳細(xì)描述了基于非侵入圖像處理在肺癌基因突變狀態(tài)識別中的應(yīng)用現(xiàn)狀,研究圖像類型主要包括肺癌CT、PET圖像等,預(yù)測任務(wù)包括識別EGFR、KRAS基因突變等。研究方法主要包括放射組學(xué)方法(樸素貝葉斯分類器、k-最近鄰、隨機(jī)森林、支持向量機(jī)、決策樹、Logistic回歸等)以及深度神經(jīng)網(wǎng)絡(luò)(CNN、ResNet、LSTM、DenseNet、Inception V-等)。評價指標(biāo)主要采用準(zhǔn)確率(ACC)、精確度(Pre)、敏感性(SE)、特異性(SP)、AUC值、召回率(Recall)、F1-score、馬修斯相關(guān)系數(shù)(MCC)等。雖然利用放射組學(xué)方法和深度學(xué)習(xí)技術(shù)已經(jīng)逐步實(shí)現(xiàn)了基于影像預(yù)測肺癌基因的突變狀態(tài),但是放射組學(xué)方法要依靠有經(jīng)驗(yàn)醫(yī)生的標(biāo)注及分割,進(jìn)而手工提取特征,耗時耗力。深度學(xué)習(xí)技術(shù)雖然避免了手工特征的提取,實(shí)現(xiàn)了端到端訓(xùn)練,但是提取的深度特征具有不可解釋性。大多這些方法只考慮了單任務(wù)預(yù)測基因突變,多基因之間的關(guān)聯(lián)性是否影響預(yù)測結(jié)果還不清楚,需要通過實(shí)驗(yàn)進(jìn)一步驗(yàn)證。在后續(xù)的研究中,可以側(cè)重基于多類型影像數(shù)據(jù)、多基因、多任務(wù)(如重建+預(yù)測、自動分割+預(yù)測等)等去鑒別肺癌基因的表型,并考慮增強(qiáng)模型的可解釋性與泛化性能。
表1 影像基因智能方法在肺癌基因表型鑒別方面的應(yīng)用Table 1 Application of intelligent imaging genomics in gene phenotype identification of lung cancer
臨床常規(guī)影像學(xué)檢查通常是捕捉腫瘤行為最直接和最好的方法,有可能幫助提供療程中整個腫瘤和所有腫瘤的更全面的視圖。基因測序技術(shù)的進(jìn)步使我們能夠識別分子特征,這些特征有助于監(jiān)測腫瘤生長,以指導(dǎo)疾病的預(yù)防和治療。然而,由于腫瘤的異質(zhì)性,這些技術(shù)受到活檢的局限。因此,圖像特征與基因組數(shù)據(jù)相結(jié)合的方法在提供更好的個性化決策支持方面具有巨大的前景。
從肺癌病變中提取的圖像特征為篩查診斷、治療計(jì)劃和臨床分析提供了一個高度交互信息的途徑。然而,只有少數(shù)研究整合了基因組數(shù)據(jù)和圖像數(shù)據(jù),構(gòu)建了這些信息相關(guān)性的放射基因組學(xué)框架。傳統(tǒng)上,連接圖像特征和基因表達(dá)譜的放射基因組圖譜在非侵入識別特定類型疾病的分子特性方面具有巨大的潛力。這種圖譜可以分為三個獨(dú)立的步驟:1) 對元基因的基因聚類;2) 圖像特征的提??;3) 元基因與圖像特征之間統(tǒng)計(jì)相關(guān)性的分析。每一步都是單獨(dú)執(zhí)行的,并依賴于各自的度量方法,而不考慮彼此之間的相關(guān)性。例如,ZHOU et al[63](2018)基于113例含術(shù)前CT數(shù)據(jù)和腫瘤組織的NSCLC患者,提取了87個語義圖像特征來反映結(jié)節(jié)形狀、邊緣、紋理、腫瘤環(huán)境和整體肺特征。然后,從組織中提取總RNA,用RNA測序技術(shù)進(jìn)行分析,選出10個高共表達(dá)的基因簇(元基因),利用t統(tǒng)計(jì)量和Spearman相關(guān)度量,建立了語義圖像特征和元基因之間具有32個統(tǒng)計(jì)學(xué)顯著相關(guān)性的放射基因組圖。MOON et al[64](2019)對176名研究對象的每個腫瘤部位制作了106個PET參數(shù),用統(tǒng)計(jì)學(xué)方法研究了肺癌患者的遺傳特征指標(biāo)、異質(zhì)性指數(shù)(HI)、腫瘤突變負(fù)擔(dān)與FDG PET/CT特征之間的相關(guān)性。WANG et al[65](2019)對89例NSCLC患者提取并選擇放射組學(xué)特征來量化CT掃描上的腫瘤表型,同時共表達(dá)的基因也被聚類,且聚類的第一個主成分被定義為一個元基因。然后,進(jìn)行統(tǒng)計(jì)學(xué)分析,以評估CT放射組學(xué)特征與元基因的相關(guān)性。驗(yàn)證發(fā)現(xiàn)CT放射組學(xué)特征與NSCLC的元基因之間存在187個顯著的成對相關(guān)性。然而,以往的放射基因組學(xué)研究主要依賴于單一類別的圖像特征提取技術(shù),未能利用融合特征所獲得的互補(bǔ)信息。XIA et al[66](2022)利用從圖像中提取的手工特征和深度學(xué)習(xí)特征提出了一種融合特征標(biāo)簽,并用兩個公共數(shù)據(jù)集評估了融合特征表示放射基因組學(xué)關(guān)系的能力。結(jié)果顯示,融合特征標(biāo)簽編碼了腫瘤的互補(bǔ)成像特征,并識別出更多的放射基因組學(xué)關(guān)系與重要的生物學(xué)功能相關(guān),這有助于未來的肺癌診斷和治療。
以上研究大多是通過分析組織樣本來識別醫(yī)學(xué)圖像特征和分子特征之間的統(tǒng)計(jì)學(xué)意義上的顯著相關(guān)性,不能給出直觀的病理情況的視覺結(jié)果。此外,具有手工制作特征的放射基因組學(xué)研究是模糊的,對臨床醫(yī)生沒有解剖學(xué)意義,且這些特性大多是冗余的,并強(qiáng)烈地依賴于領(lǐng)域知識。隨著深度學(xué)習(xí)的發(fā)展,研究者們開始考慮整體和端到端的策略去尋找影像基因間的相關(guān)性。LI et al[67](2018)設(shè)計(jì)了一個以深度學(xué)習(xí)為中心的放射基因組學(xué)框架來表征圖像特征和基因表達(dá)譜數(shù)據(jù),并量化它們的相關(guān)性。首先將基因表達(dá)和CT/PET圖像中的腫瘤生長信息結(jié)合到自動編碼器網(wǎng)絡(luò)中,以關(guān)聯(lián)圖像和基因組特征;再利用基因組水平的信息基于條件GAN(CGAN)生成基于CT圖像腫瘤狀態(tài)的直觀視覺結(jié)果,該結(jié)果可以證明基因表達(dá)與腫瘤解剖結(jié)構(gòu)之間有很強(qiáng)的相關(guān)性。XU et al[68](2020)基于NSCLC數(shù)據(jù)集開發(fā)了一個以背景圖像和基因表達(dá)編碼為條件的多條件GAN,使得圖像和基因特征在不同的尺度上進(jìn)行融合,合成了相應(yīng)的圖像,同時具有學(xué)習(xí)放射基因組圖的潛力。結(jié)果表明,該方法能夠生成逼真的合成圖像,揭示了基因只控制病變對象,并為以端到端方式尋找基因-圖像關(guān)系提供了一種可行的方法。SUI et al[69](2021)提出了一個基于深度學(xué)習(xí)的放射基因組框架,構(gòu)建肺腫瘤圖像與基因組數(shù)據(jù)的關(guān)系,進(jìn)而實(shí)現(xiàn)生成過程,形成一個雙向框架來表征多源醫(yī)學(xué)數(shù)據(jù)。首先,采用基于U-Net的分割方法從原始CT圖像中獲得腫瘤區(qū)域(TR);然后,利用自動編碼器對基因條件下的圖像進(jìn)行編碼,從不同層次的編碼器中提取圖像特征,將這些特征、預(yù)后數(shù)據(jù)和基因用于一系列分析實(shí)驗(yàn),證明這些多源數(shù)據(jù)之間的相關(guān)性。最后,改進(jìn)的CVAE-GAN將基因轉(zhuǎn)化為相應(yīng)的TR,并給出了直觀的結(jié)果。
端到端框架消除了手工制作特征的需要,以尋找影像和基因數(shù)據(jù)之間的關(guān)系。然而,由于數(shù)據(jù)集規(guī)模可能存在局限性和數(shù)據(jù)不平衡問題,基于深度學(xué)習(xí)模型研究影像基因間的相關(guān)性,獲得的視覺結(jié)果傾向于將腫瘤定位在肺邊緣附近,這就需要我們后續(xù)進(jìn)一步探討和解決。同時,考慮到影像基因間的相關(guān)性也影響著肺癌患者的預(yù)后與生存結(jié)果,為了獲取更精確的視覺結(jié)果輔助臨床醫(yī)生,數(shù)據(jù)增強(qiáng)技術(shù)和新的生成模型策略是必要的。目前已有一些臨床研究探討了肺結(jié)節(jié)的特征及其與相關(guān)基因編碼的相關(guān)性。此外,基于深度學(xué)習(xí)基因編碼和圖像數(shù)據(jù)的相關(guān)性研究也展示了有希望的結(jié)果,并且有可能產(chǎn)生臨床影響。現(xiàn)階段這方面的探索較少,仍有許多未解的問題。表2詳細(xì)描述了影像與基因在肺癌智能診斷方面的相關(guān)性分析應(yīng)用,數(shù)據(jù)類型包括CT、PET/CT、DNA、total RNA、RNA、基因表達(dá)數(shù)據(jù)等,相關(guān)性度量方法包括統(tǒng)計(jì)學(xué)分析(t統(tǒng)計(jì)量和Spearman相關(guān)度量、Kruskal Wallis 檢驗(yàn)、Tukey’s 檢驗(yàn)、皮爾遜相關(guān)系數(shù)矩陣等)和深度學(xué)習(xí)(自編碼器、條件自編碼器等學(xué)習(xí)映射關(guān)系),研究方法包括放射基因組圖譜、融合特征標(biāo)簽、CGAN、多條件GAN以及CVAE-GAN等。
表2 影像與基因在肺癌智能診斷方面的相關(guān)性分析應(yīng)用Table 2 Application of correlation analysis between imaging and gene in intelligent diagnosis of lung cancer
大多數(shù)肺癌目前是在晚期被發(fā)現(xiàn)和診斷的,生存率較低。雖然早期腫瘤發(fā)現(xiàn)和治療可以提高肺癌患者的生存率,但如既往研究報(bào)道,惡性腫瘤手術(shù)切除后的肺癌復(fù)發(fā)率仍在30%~60%之間[70]。因此,為了更有效地治療和管理肺癌患者,建立有效的臨床標(biāo)志物或預(yù)測模型對更準(zhǔn)確地預(yù)測腫瘤手術(shù)預(yù)后至關(guān)重要。
研究人員已經(jīng)探索了不同的基因組生物標(biāo)志物來識別肺癌發(fā)展和生存復(fù)發(fā)預(yù)測[71-73]。盡管結(jié)果很有希望,但使用基因組生物標(biāo)記物仍面臨多種挑戰(zhàn),并存在一些局限性,如具有較高的成本、儀器檢測錯誤、主觀評分的處理錯誤以及較低的特異性[74-75]。在目前的臨床實(shí)踐中,影像學(xué)檢查仍然在肺癌的檢測、診斷和預(yù)后評估中起著至關(guān)重要的作用,但是閱讀和解釋大量肺癌病例圖像對放射科醫(yī)生來說是困難的。因此,隨著計(jì)算機(jī)輔助技術(shù)的快速發(fā)展,各種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法的應(yīng)用在癌癥預(yù)后預(yù)測中發(fā)揮著越來越重要的作用[76]。人們對基于從肺癌圖像中計(jì)算出新的定量圖像標(biāo)記物預(yù)測癌癥生存復(fù)發(fā)的研究越來越感興趣,各種預(yù)測算法正被不斷探索[77-78]。例如,WANG et al[79](2019)基于NSCLC患者的CT成像特征提出了一種預(yù)后復(fù)發(fā)分析方法。首先,分割肺腫瘤區(qū)域并提取特征。其次,對提取的特征數(shù)據(jù)進(jìn)行優(yōu)化,以去除冗余特征。然后,以優(yōu)化后的特征數(shù)據(jù)和患者的預(yù)后作為輸入,采用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練,并構(gòu)建分析模型來預(yù)測NSCLC患者的預(yù)后。實(shí)驗(yàn)結(jié)果表明,基于CT圖像灰度、形狀和紋理的隨機(jī)森林分類器的預(yù)后復(fù)發(fā)模型的預(yù)測準(zhǔn)確率高達(dá)84.7%,可有效地幫助醫(yī)生對NSCLC患者做出更準(zhǔn)確的預(yù)后。ASTARAKI et al[80](2019)對30例NSCLC患者的PET/CT圖像進(jìn)行了尺寸感知縱向模式(SALoP)分析,即根據(jù)其大小將腫瘤劃分為1-10個同心區(qū)域,對每個區(qū)域分別計(jì)算PET和CT圖像兩次掃描之間的平均強(qiáng)度變化,形成所提出的新特征集,并對所提出的新特征集和經(jīng)典的放射組學(xué)特征相結(jié)合進(jìn)行評估。利用特征選擇算法識別最優(yōu)特征,并訓(xùn)練線性支持向量機(jī)進(jìn)行總體生存預(yù)測,與利用單一類型特征預(yù)測相比,取得了更高的AUC值(0.90).AMINI et al[81](2020)提出了基于PET和CT圖像的特征層次融合和圖像層次融合的多層次多模態(tài)放射組學(xué)模型,來提高NSCLC患者的總體生存預(yù)測。結(jié)果表明3D小波變換融合策略預(yù)測生存風(fēng)險的一致性指數(shù)最高(C-index=0.708).WANG et al[82](2018)利用深度卷積神經(jīng)網(wǎng)絡(luò)CNN,開發(fā)了一種基于肺癌病理圖像的腫瘤區(qū)域自動識別系統(tǒng),建立并驗(yàn)證了一個基于腫瘤區(qū)域形狀的預(yù)后風(fēng)險預(yù)測模型。MUKHERJEE et al[83](2020)開發(fā)了一個淺層卷積神經(jīng)網(wǎng)絡(luò)(LungNet)用于分析跨4個醫(yī)療中心的CT圖像,來預(yù)測NSCLC患者的總生存率,各獨(dú)立生存數(shù)據(jù)集的總生存率的一致性指數(shù)分別為0.62、0.62、0.62和0.58.此外,將生存模型通過遷移學(xué)習(xí),用于肺圖像數(shù)據(jù)庫(n=1010)的良性和惡性結(jié)節(jié)的分類,性能(AUC=0.85)有所提高。WU et al[84](2021)提出了一種用于NSCLC生存分析的多模態(tài)深度學(xué)習(xí)方法(DeepMMSA),該方法利用CT圖像結(jié)合臨床數(shù)據(jù),基于3D ResNets實(shí)現(xiàn)了全自動的端到端的肺癌生存分析,使醫(yī)學(xué)圖像中保存的豐富信息與生存信息相關(guān)聯(lián),提供了足夠粒度的個性化預(yù)后和決策。表3詳細(xì)描述了影像智能方法在肺癌生存復(fù)發(fā)預(yù)測方面的應(yīng)用,數(shù)據(jù)類型包括CT、PET/CT、臨床數(shù)據(jù)等,研究方法主要包括放射組學(xué)方法(SVM、RF、DT、KNN、Cox比例風(fēng)險、Logistic回歸、多層感知器等)以及深度神經(jīng)網(wǎng)絡(luò)(CNN、ResNet、DenseNet等)。評價指標(biāo)主要采用ACC、AUC、SE、SP、一致性指數(shù)(C-index)、平均絕對誤差(MAE)、風(fēng)險比例(HR)等。
表3 影像智能方法在肺癌生存復(fù)發(fā)預(yù)測方面的應(yīng)用Table 3 Application of intelligent imagingin survival and recurrence prediction of lung cancer
然而,上述技術(shù)僅使用圖像信息,其預(yù)測性能是有限的。許多研究試圖使用臨床可接受的基因表達(dá)信息和圖像相結(jié)合的方法(影像基因組學(xué))來最大限度地提高肺癌生存復(fù)發(fā)的預(yù)測性能[85]。一方面,研究者們利用非深度學(xué)習(xí)方法在肺癌影像基因數(shù)據(jù)的基礎(chǔ)上開展腫瘤生存復(fù)發(fā)預(yù)測。GEVAERT et al[86](2012)針對26例NSCLC患者,為圖像特征和元基因之間的成對關(guān)聯(lián)創(chuàng)建了一個放射基因組學(xué)相關(guān)圖,然后利用稀疏線性回歸的方法,基于圖像特征建立了元基因的預(yù)測模型。類似地,圖像特征的預(yù)測模型也是根據(jù)元基因來建立的。最后,當(dāng)預(yù)測的圖像特征被映射到具有生存結(jié)果的公共基因表達(dá)數(shù)據(jù)集時,腫瘤大小、邊緣形狀和清晰度的預(yù)后意義排名最高。EMAMINEJAD et al[87](2016)分別訓(xùn)練了8個圖像特征的樸素貝葉斯網(wǎng)絡(luò)分類器和2個基因組生物標(biāo)志物的多層感知器分類器來預(yù)測早期肺癌復(fù)發(fā)風(fēng)險,AUC值達(dá)到0.84.SUBRAMANIAN et al[88](2020)通過結(jié)合CT圖像和RNA測序等基因組學(xué),使用具有彈性網(wǎng)絡(luò)正則化的線性Cox比例風(fēng)險模型對NSCLC患者的術(shù)后復(fù)發(fā)進(jìn)行了預(yù)測,同時基于C-index量化風(fēng)險評分的正確排序程度和基于時間相關(guān)的AUC曲線衡量模型的分類能力。WANG et al[89](2021)提出了一種新的聯(lián)合標(biāo)簽融合方法,在估計(jì)不同模態(tài)產(chǎn)生的預(yù)測之間的相關(guān)性時,考慮了含不同隱藏層全連接神經(jīng)網(wǎng)絡(luò)模型的不確定性。通過CT圖像和基因表達(dá)數(shù)據(jù)對NSCLC手術(shù)切除患者一年生存預(yù)測的實(shí)驗(yàn)研究,證明了該方法的良好性能。SINGH et al[90](2021)基于85例NSCLC患者開發(fā)一種放射基因組模型來識別高?;颊撸㈩A(yù)測生存期。使用Mann-Whitney U檢驗(yàn)識別224個穩(wěn)健特征的子集(p值>0.05)來鑒別各屬性(掃描切片厚度、重建核和對比度增強(qiáng))的差異。采用主成分分析方法,從放射性特征和基因組特征中提取10個主成分。最后使用一個5折交叉驗(yàn)證的多變量Cox比例風(fēng)險模型(200次迭代)來計(jì)算一致性指數(shù)(C-index=0.62),以衡量模型預(yù)測總體生存率的能力。另一方面,人們也在探索利用深度學(xué)習(xí)方法在肺癌影像基因數(shù)據(jù)上預(yù)測腫瘤的生存復(fù)發(fā)風(fēng)險。AONPONG et al[91](2021)提出了一種基因型引導(dǎo)的放射組學(xué)方法(GGR),以獲得低成本的NSCLC患者術(shù)后復(fù)發(fā)高預(yù)測精度。該方法是使用兩個模型的兩步方法,第一個模型是基因估計(jì)模型,利用從放射組學(xué)特征和CT圖像中提取的深度特征來估計(jì)基因表達(dá),第二個模型使用估計(jì)的基因來預(yù)測復(fù)發(fā)。實(shí)驗(yàn)表明GGR方法預(yù)測復(fù)發(fā)的準(zhǔn)確率達(dá)到83.28%.
將醫(yī)學(xué)圖像處理和計(jì)算機(jī)視覺技術(shù)應(yīng)用于肺癌生存復(fù)發(fā)預(yù)測任務(wù)的研究正在進(jìn)行中。臨床上迫切需要智能化輔助手段來幫助醫(yī)生減輕負(fù)擔(dān),快速找到合適的診療方案。表4詳細(xì)描述了影像基因智能方法在肺癌生存復(fù)發(fā)預(yù)測方面的應(yīng)用現(xiàn)狀,研究圖像類型主要包括肺癌CT、PET/CT圖像、基因表達(dá)數(shù)據(jù)等,預(yù)測任務(wù)包括預(yù)測早晚期肺癌的生存復(fù)發(fā)等。研究方法主要包括放射組學(xué)方法(樸素貝葉斯分類器、多層感知器、SVM、無監(jiān)督聚類、Logistic回歸、Cox比例風(fēng)險回歸、全連接神經(jīng)網(wǎng)絡(luò)等)以及深度神經(jīng)網(wǎng)絡(luò)(CNN、ResNet等)。評價指標(biāo)主要采用一致性指數(shù)(C-index)、時間依賴的AUC(TD-AUC)、ACC、SE、SP、AUC、HR等。雖然已有不少研究利用放射組學(xué)方法探討了影像基因在肺癌生存復(fù)發(fā)預(yù)測的可行性,但是由于腫瘤的異質(zhì)性、快速生長可變性引起的不可預(yù)知病變或轉(zhuǎn)移情況,還需進(jìn)一步的研究去提高模型的預(yù)測性能。此外,基于影像基因相結(jié)合的策略,將深度學(xué)習(xí)技術(shù)應(yīng)用于肺癌生存復(fù)發(fā)預(yù)測已經(jīng)開始了嘗試性的研究,這是未來研究的一個有趣的方向。后續(xù)可以將數(shù)據(jù)遷移學(xué)習(xí)、多模態(tài)融合和多階段融合(是一種以結(jié)構(gòu)化的方式模擬成像和基因組學(xué)之間的生物相互作用的方法)等機(jī)制引入各種深度學(xué)習(xí)模型中,去構(gòu)建更好的預(yù)后模型,以便進(jìn)行更全面的評估,輔助臨床醫(yī)生制定診療方案。
表4 影像基因智能方法在肺癌生存復(fù)發(fā)預(yù)測方面的應(yīng)用Table 4 Application of intelligent imaging genomics in survival and recurrence prediction of lung cancer
在肺癌診治過程中,有效的療效評估預(yù)測對于制定和調(diào)整臨床治療方案具有重要價值[92]。近年來,肺癌的治療工作取得了前所未有的進(jìn)展。影像組學(xué)和影像基因組學(xué)將臨床、基因以及影像大數(shù)據(jù)結(jié)合起來,對肺癌患者的分子和基因改變以及癌細(xì)胞免疫逃避機(jī)制的不斷了解,為新的靶向藥物、免疫治療藥物及個體化治療(術(shù)后特異性化療、放療)鋪平了道路[93]。隨著研究的不斷深入和拓展,人工智能結(jié)合醫(yī)學(xué)圖像分析和數(shù)據(jù)挖掘方法的無創(chuàng)技術(shù),在肺癌治療反應(yīng)評估中的潛在應(yīng)用也引起了相當(dāng)大的關(guān)注[94]。
肺癌治療結(jié)果評估和影像學(xué)檢查需要進(jìn)行常規(guī)隨訪和腫瘤復(fù)發(fā)監(jiān)測[95]。然而,為了充分解決肺癌的異質(zhì)性本質(zhì)和治療完成后可能的復(fù)發(fā),還需要更個性化的監(jiān)測[96]。不少學(xué)者將目光置于影像組學(xué)及影像基因組學(xué)對肺癌治療療效反應(yīng)的預(yù)測。對于放射組學(xué)方法,HUYNH et al[97](2016)分析了113例接受立體定向身體放療(SBRT)治療的Ⅰ~Ⅱ期NSCLC患者CT圖像。首先根據(jù)穩(wěn)定性和方差選擇了12個放射性組學(xué)特征,然后將放射組學(xué)特征與常規(guī)影像學(xué)指標(biāo)(腫瘤體積和直徑)和臨床參數(shù)進(jìn)行比較。發(fā)現(xiàn)一個放射學(xué)特征(小波LLH統(tǒng)計(jì)數(shù)據(jù)范圍)對遠(yuǎn)處轉(zhuǎn)移有顯著的預(yù)后(C-index=0.67,q值<0.1),而常規(guī)和臨床參數(shù)都沒有。LI et al[98](2017)基于92例Ⅰ期或ⅡA期NSCLC患者,研究治療前CT掃描的影像學(xué)特征是否與立體定向體放療(SBRT)后的總生存期(OS)、無復(fù)發(fā)生存期(RFS)和局部無復(fù)發(fā)生存期(LR-RFS)相關(guān)。首先除臨床特征外,還對24個語義圖像特征進(jìn)行手工評分(選擇最高的5個),基于全腫瘤分割提取219個計(jì)算機(jī)衍生的“放射學(xué)”特征。然后采用Cox比例風(fēng)險模型和Harrell’s C指數(shù)進(jìn)行統(tǒng)計(jì)學(xué)分析,評估最終預(yù)后模型的穩(wěn)健性,結(jié)果發(fā)現(xiàn)2年OS、RFS和LR-RFS的AUC分別為72.8%、74.7%和69%.YAN et al[99](2020)通過分析100例肺癌放療患者的CT圖像來評估機(jī)器學(xué)習(xí)(SVM、DT、RF、AdaBoost)預(yù)測腫瘤反應(yīng)的效果。首先對CT圖像進(jìn)行放射組學(xué)分析,對特征進(jìn)行篩選,訓(xùn)練50名患者的機(jī)器學(xué)習(xí)分類器,然后在測試數(shù)據(jù)集中進(jìn)行訓(xùn)練。結(jié)果發(fā)現(xiàn)具有2個放射性特征(平整度和變異系數(shù))的SVM分類器在測試集上的AUC為0.91.從肺腫瘤的感興趣體積來看,平整度和變異系數(shù)可以作為基于CT圖像預(yù)測腫瘤反應(yīng)的生物標(biāo)志物。LIU et al[100]通過識別影像生物標(biāo)志物評估放射組學(xué)列線圖,對接受抗PD1免疫治療的197例晚期NSCLC患者的治療反應(yīng)狀態(tài)(有應(yīng)答者/無應(yīng)答者)進(jìn)行預(yù)測。首先根據(jù)基線和首次隨訪(TP1)CT影像數(shù)據(jù)對靶向病變(TL)方法和最大靶向病變(LL)方法進(jìn)行了放射組學(xué)表征,基線和TP1之間放射組學(xué)特征的相對凈變化表示為Delta-放射組學(xué)特征,最后采用最小冗余最大相關(guān)性(mRMR)和LASSO邏輯回歸進(jìn)行特征選擇和放射組學(xué)標(biāo)簽構(gòu)建。結(jié)果發(fā)現(xiàn)基線時的放射組學(xué)特征對LL(P=0.10)、TL(P=0.27)方法的反應(yīng)狀態(tài)均沒有顯著的預(yù)測價值,而結(jié)合Delta放射組學(xué)特征與有遠(yuǎn)處轉(zhuǎn)移臨床因素的Delta放射組學(xué)列線圖,針對靶向病變在區(qū)分有應(yīng)答者和無應(yīng)答者方面有令人滿意的表現(xiàn)。在訓(xùn)練集和測試集中,AUC分別為0.83(95%CI:0.75~0.91)和0.81(95%CI:0.68~0.95)。放射組學(xué)試圖從患者的醫(yī)學(xué)圖像(包括預(yù)處理和隨訪圖像)中提取大量有價值的信息,并定量地將圖像特征與診斷和治療結(jié)果聯(lián)系起來,取得了一定的研究成果。
深度學(xué)習(xí)可以整合多個時間點(diǎn)的掃描圖像,自動提取圖像特征和識別復(fù)雜數(shù)據(jù)中的非線性關(guān)系,以改善臨床結(jié)果預(yù)測。例如,HOSNY et al[101](2018)使用3D卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)確定了接受放療的771例肺癌患者的預(yù)后特征;然后,采用遷移學(xué)習(xí)方法對391例手術(shù)患者進(jìn)行相同的操作。結(jié)果發(fā)現(xiàn),3D CNN預(yù)測2年總生存率與放療治療開始后的(AUC=0.70[95%CI:0.63~0.78],P<0.001)和手術(shù)后的(AUC=0.71[95%CI:0.60~0.82],P<0.001)患者顯著相關(guān)。此外,為了更好地理解3D CNN所捕獲的特征,還確定了對預(yù)測貢獻(xiàn)最大的肺部區(qū)域,并強(qiáng)調(diào)了腫瘤周圍組織在患者分層中的重要性。XU et al[102](2019)通過分析局部晚期NSCLC患者的時間序列CT圖像,訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)來預(yù)測臨床結(jié)果。具體包括:基于179例接受明確放化療的Ⅲ期NSCLC患者,使用CNN與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對1、3和6個月的隨訪和治療后的CT圖像進(jìn)行遷移學(xué)習(xí),并使用單種子點(diǎn)定位腫瘤。隨后又對另外89例接受放化療和手術(shù)治療的NSCLC患者進(jìn)行了病理反應(yīng)驗(yàn)證。發(fā)現(xiàn)CNN模型性能得到增強(qiáng)(2年總生存率:AUC=0.74,P<0.05)。結(jié)果表明使用時間序列掃描的深度學(xué)習(xí)模型可以顯著預(yù)測生存率和癌癥特異性結(jié)果(進(jìn)展、遠(yuǎn)處轉(zhuǎn)移和局部-區(qū)域復(fù)發(fā))。MU et al[103](2020)提出了一個基于PET/CT的深度學(xué)習(xí)模型,通過對深度學(xué)習(xí)的特征進(jìn)行無監(jiān)督層次聚類,識別對EGFR突變的酪氨酸激酶抑制劑(TKIs)或免疫檢查點(diǎn)抑制劑(ICIs)治療敏感的NSCLC患者。結(jié)果表明,在接受EGFR-TKIs治療的患者中,深度學(xué)習(xí)評分(EGFR-DLS)與較長的無進(jìn)展生存期(PFS)顯著正相關(guān),而在接受ICIs治療的患者中,EGFR-DLS與更高的持久臨床獲益、更低的高進(jìn)展和較長的PFS顯著負(fù)相關(guān)。因此,EGFR-DLS為精確定量NSCLC患者的治療策略選擇提供了一種無創(chuàng)的方法。
雖然醫(yī)學(xué)影像一直能提供對疾病的個人評估,但基于影像生物標(biāo)記物的人工智能算法有望準(zhǔn)確地對患者進(jìn)行分層,并為個性化醫(yī)療服務(wù)提供新的研究途徑。這種新興的方法允許早期診斷和定制患者特定的治療,從而在正確的時間為正確的患者提供適當(dāng)?shù)尼t(yī)療護(hù)理。表5詳細(xì)描述了影像基因智能方法在肺癌療效評估預(yù)測方面的應(yīng)用現(xiàn)狀,研究圖像類型主要包括肺癌CT、PET/CT圖像、臨床數(shù)據(jù)等,療效評估包括預(yù)測接受SBRT治療的反應(yīng)、放化療及手術(shù)后的反應(yīng)、接受抗PD1免疫治療的反應(yīng)狀態(tài)、TKIs或ICIs治療敏感反應(yīng)等。研究方法主要包括放射組學(xué)方法(統(tǒng)計(jì)學(xué)分析、SVM、DT、RF、AdaBoost、無監(jiān)督聚類、LASSO邏輯回歸、Cox比例風(fēng)險回歸等)以及深度神經(jīng)網(wǎng)絡(luò)(3D CNN、RNN等)。評價指標(biāo)主要采用C-index、AUC、HR等。從綜述來看,基于人工智能算法進(jìn)行療效評估還存在許多障礙,包括需要標(biāo)準(zhǔn)化的數(shù)據(jù)收集方法、評估標(biāo)準(zhǔn)、前瞻性驗(yàn)證和報(bào)告協(xié)議等,這些在精確醫(yī)學(xué)內(nèi)的最大臨床預(yù)期影響都需要進(jìn)一步的研究。此外,基于影像基因組學(xué)的人工智能算法在療效評估預(yù)測方面的研究還較少,后續(xù)也可以進(jìn)行嘗試性的探討研究。
表5 影像基因智能方法在肺癌療效評估預(yù)測方面的應(yīng)用Table 5 Application of intelligent imaging genomics in efficacy evaluation and prediction of lung cancer
綜上所述可以看出,基于人工智能的影像基因組學(xué)在肺癌基因表型識別、雙向相關(guān)分析、預(yù)后預(yù)測等方面都有突出的表現(xiàn),為肺癌的智能診斷與預(yù)后預(yù)測提供了重要的理論基礎(chǔ)和技術(shù)支撐,在精準(zhǔn)醫(yī)學(xué)和個性化治療等領(lǐng)域都具有很強(qiáng)的應(yīng)用前景。然而,智能影像基因組學(xué)快速發(fā)展的背后依舊存在許多問題。
1) 多源、復(fù)雜、未標(biāo)準(zhǔn)化的數(shù)據(jù)集。越來越多的人認(rèn)識到許多癌癥的特征對癌癥患者的預(yù)后都有影響,包括基因組學(xué)、蛋白質(zhì)組學(xué)、臨床參數(shù)和腫瘤的侵入性和非侵入性生物標(biāo)志物。隨著精準(zhǔn)醫(yī)療海量數(shù)據(jù)時代的到來,數(shù)據(jù)來源也在迅速擴(kuò)大,不僅是多源醫(yī)療中心的數(shù)據(jù),甚至包括來自可穿戴設(shè)備、非結(jié)構(gòu)化電子健康記錄等。此外,不同中心不同設(shè)備采集的數(shù)據(jù)沒有統(tǒng)一標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)量也是差異較大,且只有有限的少數(shù)注釋良好的數(shù)據(jù)集被公開。這就給人工智能模型訓(xùn)練這些數(shù)據(jù)增加了難度,且即使能夠訓(xùn)練,模型的泛化能力也比較弱。因此,采集參數(shù)的標(biāo)準(zhǔn)化,使用一致的放射組學(xué)方法,通過數(shù)據(jù)增強(qiáng)方式增加標(biāo)注質(zhì)量良好的數(shù)據(jù)樣本量,對來自基因組學(xué)、蛋白質(zhì)組學(xué)、臨床參數(shù)和放射組學(xué)分析的患者數(shù)據(jù)進(jìn)行一致、有意義和準(zhǔn)確的解釋,都可以改進(jìn)患者預(yù)后的預(yù)測模型,從而實(shí)現(xiàn)精準(zhǔn)醫(yī)療的目標(biāo)。
2) 缺乏可重復(fù)性和再現(xiàn)性。隨著醫(yī)學(xué)領(lǐng)域人工智能的興起,特別是深度學(xué)習(xí),結(jié)合多個數(shù)據(jù)源的更復(fù)雜的模型可以一定程度上克服影像基因組學(xué)和臨床實(shí)施之間的許多挑戰(zhàn)。但是由于模型如卷積核的可變性、訓(xùn)練數(shù)據(jù)的過擬合或欠擬合等,都會造成從研究中識別出與預(yù)后預(yù)測相關(guān)的生物標(biāo)志物的不可重復(fù)性和不可再現(xiàn)性。因此,構(gòu)建一個穩(wěn)健的影像基因組特征將進(jìn)一步有助于對影像基因組學(xué)進(jìn)行穩(wěn)健性分析。更大的數(shù)據(jù)集、更優(yōu)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)等都可以提高模型的穩(wěn)定性,有望幫助提高預(yù)測性能。
3) 模型的不可解釋性?;谌斯ぶ悄艿姆乔秩胄苑派浣M學(xué)生物標(biāo)志物由于其低成本和對人力輸入的要求最小,可以在臨床中產(chǎn)生重大影響,尤其深度學(xué)習(xí)已在多個領(lǐng)域被證明其成功價值。然而,網(wǎng)絡(luò)功能背后的理論尚未建立,模型的輸入和輸出可以非常直觀,但其隱藏的中間層則不是,這樣導(dǎo)致人類專家在查看人工智能生成的結(jié)果時可能總是一個“黑盒子”,可解釋性差。因此,確定網(wǎng)絡(luò)性能背后的原因以及某些參數(shù)是否有積極或消極的影響是非常具有挑戰(zhàn)性的。如何將領(lǐng)域知識合并到這些抽象特性中也是需要解決的一個非常重要的問題。在這個方向上的進(jìn)一步研究可以使這些自動學(xué)習(xí)的特征表示更具可解釋性。此外,數(shù)據(jù)可視化工具越來越多,可以研究算法如何在某種程度上做出決策,給出可視化效果以便進(jìn)一步增強(qiáng)可解釋性。
基于影像基因組學(xué)的人工智能算法在提高肺癌基因表型鑒別、預(yù)后評估和預(yù)測治療反應(yīng)的準(zhǔn)確性方面具有重要意義,為整個疾病過程中的患者護(hù)理提供了有價值的信息。影像基因組學(xué)結(jié)合人工智能有很大的前景,可以通過利用基因表達(dá)和分子譜信息來幫助理解放射性表型的生物學(xué)基礎(chǔ),還可能顯示放射組特征、生物途徑和基因表達(dá)狀態(tài)之間的相關(guān)性。同時它能幫助建立放射組生物標(biāo)志物作為基因組預(yù)后生物標(biāo)志物的替代物,提高了預(yù)測模型的性能。影像基因智能算法的研究需要更大的數(shù)據(jù)集和更準(zhǔn)確的信息標(biāo)準(zhǔn)化,進(jìn)而提供有意義的和臨床適用的結(jié)果,為精準(zhǔn)醫(yī)療和個性化治療策略的選擇提供支持。