朱星宇 陳楠 劉倫旭 綜述 蒲強(qiáng) 審校
世界衛(wèi)生組織國(guó)際癌癥研究署(International Agency for Research on Cancer, IARC)發(fā)布的GLOBOCAN2018癌癥報(bào)告顯示[1]肺癌是全球發(fā)病率最高及死亡人數(shù)最多的惡性腫瘤,雖然在所有癌癥中肺癌診斷率最高,但大多數(shù)患者已處于終末期。隨著精準(zhǔn)醫(yī)學(xué)的興起,提高肺癌早期診斷率及實(shí)現(xiàn)個(gè)體化的診療有了新的可能。精準(zhǔn)醫(yī)學(xué)通過(guò)整合患者的各項(xiàng)資料,經(jīng)過(guò)大數(shù)據(jù)分析,進(jìn)行精準(zhǔn)診斷,找到最適合患者的治療靶點(diǎn)及方案,并有效評(píng)估預(yù)后,最終實(shí)現(xiàn)提高肺癌療效、改善患者生活質(zhì)量的目標(biāo)[2]。但精準(zhǔn)醫(yī)學(xué)需要收集患者各種生物組學(xué)、臨床檢測(cè)指標(biāo)以及其他不同的環(huán)境背景資料,存在數(shù)據(jù)量過(guò)于龐大且彼此獨(dú)立難以建立合適的數(shù)學(xué)模型進(jìn)行有效的統(tǒng)計(jì)分析等問(wèn)題,如何將大數(shù)據(jù)應(yīng)用于臨床和科研是目前的一大難題,也是研究的重點(diǎn)方向之一。人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANNs)是現(xiàn)代計(jì)算機(jī)人工智能(artificial intelligence, AI)最重要的分支,其最大的能力在于整合已有的海量信息,提高人們分析、處理信息的效率。通過(guò)機(jī)器學(xué)習(xí)對(duì)相關(guān)資料進(jìn)行大數(shù)據(jù)的整合與分析,將有助于解決目前肺癌精準(zhǔn)醫(yī)學(xué)發(fā)展所遇到問(wèn)題。為此,本文對(duì)肺癌領(lǐng)域ANNs應(yīng)用的現(xiàn)狀進(jìn)行綜述。
1.1 人工神經(jīng)網(wǎng)絡(luò)興起發(fā)展歷程 1943年,美國(guó)心理學(xué)家McCulloch與數(shù)學(xué)家Pitts合作[3],用邏輯數(shù)學(xué)工具研究神經(jīng)網(wǎng)絡(luò)的過(guò)程中,首次提出了神經(jīng)元的數(shù)學(xué)模型,簡(jiǎn)稱(chēng)為MP模型,從此開(kāi)啟了對(duì)神經(jīng)網(wǎng)絡(luò)的理論研究。經(jīng)過(guò)以感知器(Perceptrons)為代表的第一代ANNs[4,5],和以Hopfield網(wǎng)絡(luò)和BP網(wǎng)絡(luò)為代表的第二代ANNs[6,7]的發(fā)展,目前的第三代ANNs以機(jī)器深度學(xué)習(xí)(deep machine learning, DML)為特點(diǎn)[8]。DML的研究關(guān)注的是與大腦皮層信息表達(dá)相似的計(jì)算模型,有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)和深度置信網(wǎng)(deep belief nets, DBNs)兩種主流的方法,這兩種方法區(qū)別在于CNNs是一種有監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型,而DBNs是一種無(wú)監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)模型[9]。
1.2 人工神經(jīng)網(wǎng)絡(luò)概念、特點(diǎn) ANNs是一種模擬大腦神經(jīng)元細(xì)胞傳遞信息構(gòu)建的模型,在對(duì)人腦結(jié)構(gòu)及其對(duì)外界刺激的響應(yīng)機(jī)制進(jìn)行理解和抽象后,以網(wǎng)絡(luò)拓?fù)錇槔碚摶A(chǔ)將數(shù)據(jù)進(jìn)行非線性建模,從而模擬人腦對(duì)復(fù)雜信息的處理模式,具有高容錯(cuò)性、智能性、能夠自我學(xué)習(xí)等特征[10]。與數(shù)字計(jì)算機(jī)相比,ANNs在構(gòu)成原理和功能特點(diǎn)等方面更加接近人腦,它并不按既定的程序逐步執(zhí)行運(yùn)算,而是能夠通過(guò)自我學(xué)習(xí),總結(jié)規(guī)律,從而去完成運(yùn)算、識(shí)別或過(guò)程控制等任務(wù)。DML是目前ANNs最大的特點(diǎn),是一種特征學(xué)習(xí)方法,能夠把原始數(shù)據(jù)通過(guò)一些簡(jiǎn)單的但是非線性的模型轉(zhuǎn)變成為更高層次的、更加抽象的表達(dá),通過(guò)足夠多轉(zhuǎn)換的組合,非常復(fù)雜的函數(shù)也可以被機(jī)器學(xué)習(xí)。
1.3 人工神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域的運(yùn)用 ANNs在醫(yī)學(xué)領(lǐng)域的應(yīng)用十分廣泛,20世紀(jì)90年代開(kāi)始ANNs在診斷、影像分析、心電圖分析、預(yù)后評(píng)估、對(duì)藥物療效的反應(yīng)等方面均有相應(yīng)的研究和運(yùn)用[11]。近年來(lái)也有ANNs運(yùn)用于計(jì)算機(jī)臨床決策支持系統(tǒng)(Clinical Decision Support System,CDSS)的報(bào)道[12]。在皮膚癌診斷、內(nèi)鏡圖像診斷、精神病學(xué)研究、視網(wǎng)膜OCT圖像診斷中,ANNs的應(yīng)用取得了不錯(cuò)的進(jìn)展[13-16],診斷方面在部分領(lǐng)域甚至能達(dá)到有經(jīng)驗(yàn)的臨床專(zhuān)家的水平。此外ANNs在虛擬助理、藥物發(fā)掘、營(yíng)養(yǎng)學(xué)、生物技術(shù)、急救室/醫(yī)院管理、健康管理、精神健康、衛(wèi)生經(jīng)濟(jì)學(xué)、可穿戴設(shè)備開(kāi)發(fā)、風(fēng)險(xiǎn)管理和病理學(xué)等領(lǐng)域有著不同程度的運(yùn)用。
2.1 肺癌診斷與分期 由于肺癌早期沒(méi)有特異的臨床癥狀且腫瘤常位于深部被正常組織包裹,使得肺癌的早期診斷是肺癌診療中最具有挑戰(zhàn)性的工作?;贏NNs模式識(shí)別有非常高的肺癌輔助診斷價(jià)值[17]。目前研究大多將影像學(xué)圖像、基因表達(dá)譜、臨床資料或組織病理學(xué)測(cè)定等資料納入作為ANNs的輸入變量,通過(guò)對(duì)變量進(jìn)行選擇和組合,或構(gòu)建不同的神經(jīng)網(wǎng)絡(luò)及算法,使診斷的準(zhǔn)確度得到提升[18]。
2.1.1 影像學(xué) 影像學(xué)是目前應(yīng)用最廣泛的肺癌篩查與早期診斷技術(shù)。隨著影像技術(shù)的發(fā)展圖像的清晰度及分辨率逐步提升,圖像中蘊(yùn)涵的信息變得越來(lái)越豐富,需要有經(jīng)驗(yàn)的影像醫(yī)生花費(fèi)大量的時(shí)間與精力去詳細(xì)解讀,但基于人眼的識(shí)別存在遺漏關(guān)鍵的信息的風(fēng)險(xiǎn),導(dǎo)致誤診及漏診[19]。ANNs有強(qiáng)大的圖像分析能力,可以快速識(shí)別關(guān)鍵信息進(jìn)行分析,并減少信息遺漏。Shen等[20]運(yùn)用多尺度卷積神經(jīng)網(wǎng)絡(luò)(multiple convolutional neural network,MCNN)分析胸部CT圖像上的結(jié)節(jié),經(jīng)過(guò)704份良性結(jié)節(jié)和396份惡性結(jié)節(jié)圖像的訓(xùn)練后,用另外275份圖像進(jìn)行測(cè)試,對(duì)結(jié)節(jié)的良惡性的判斷準(zhǔn)確率達(dá)86.84%。Liu等[21]構(gòu)建的CT圖像計(jì)算機(jī)輔助診斷系統(tǒng),能識(shí)別圖像中89.4%的孤立結(jié)節(jié)、胸膜旁結(jié)節(jié)、血管旁結(jié)節(jié)、磨玻璃樣結(jié)節(jié)(ground glass opacity, GGO),檢出其他結(jié)節(jié)(如炎性結(jié)節(jié))帶來(lái)的假陽(yáng)性在每例病案中能控制在2個(gè)結(jié)節(jié)以下。Toney等[22]利用133例非小細(xì)胞肺癌患者的PET-CT圖像,通過(guò)ANNs和影像專(zhuān)家分別對(duì)淋巴結(jié)轉(zhuǎn)移進(jìn)行分期(N0、N1、N2、N3),再與術(shù)后病理分期作為金標(biāo)準(zhǔn)進(jìn)行比較,結(jié)果顯示淋巴結(jié)分期ANNs的準(zhǔn)確率高達(dá)99.2%,而影像專(zhuān)家為72.4%。目前對(duì)于ANNs的分析結(jié)果仍需影像醫(yī)師的審閱,隨著ANNs算法的優(yōu)化和利用大數(shù)據(jù)進(jìn)行訓(xùn)練,ANNs利用影像進(jìn)行診斷的準(zhǔn)確度將逐步提高,甚至做到在臨床環(huán)境中達(dá)到乃至超過(guò)有經(jīng)驗(yàn)的影像醫(yī)師的正確率,使影像結(jié)果判讀做到高水準(zhǔn)的標(biāo)準(zhǔn)化、同質(zhì)化。在提高診斷正確率的同時(shí)還能使不同醫(yī)院間檢查結(jié)果達(dá)到互信,避免患者重復(fù)接受檢查,具有衛(wèi)生經(jīng)濟(jì)學(xué)的現(xiàn)實(shí)意義。
2.1.2 生物標(biāo)志物 Duan等[23]納入200例不同病理類(lèi)型的各期別原發(fā)性肺癌患者和200名正常對(duì)照,分別收集患者性別、年齡、吸煙史等臨床資料以及p16、RASSF1A、FHIT啟動(dòng)子三種基因的甲基化水平和相對(duì)端粒長(zhǎng)度,將其中148例患者和152名正常對(duì)照的資料用于ANNs學(xué)習(xí)訓(xùn)練,將其余受試者資料進(jìn)行測(cè)試,結(jié)果顯示診斷準(zhǔn)確率相較于采用線性分析模型有所提高(76%vs67%)。該研究提示運(yùn)用ANNs能通過(guò)分析多種基因提高輔助診斷的準(zhǔn)確率。Butcher等[24]運(yùn)用ANNs構(gòu)建的多層感知機(jī)(multi-layer perceptron, MLP),對(duì)使用選擇離子流動(dòng)管質(zhì)譜儀(SIFTMS)測(cè)得的20例肺癌患者和20名健康受試者呼出氣體揮發(fā)性有機(jī)化合物(volatile organic compounds, VOCs)濃度進(jìn)行分析,將15種VOCs用于肺癌診斷準(zhǔn)確率可達(dá)74%。Tomasz等[25]運(yùn)用ANNs分析固相微萃取-氣相色譜-質(zhì)譜聯(lián)用(solid phase microextraction-gas chromatography-mass spectrometry, SPME-GC/MS)技術(shù)檢測(cè)到的VOCs,選出8種VOCs用于肺癌診斷的敏感度為63.5%,特異度為72.4%。但這兩項(xiàng)關(guān)于VOCs的研究樣本量有限且并未對(duì)長(zhǎng)期吸煙等高危因素進(jìn)行亞組分析,可將臨床資料納入作為ANNs的變量或許準(zhǔn)確度能得到進(jìn)一步的提升。此外也有運(yùn)用ANNs分析痰液中非小細(xì)胞肺癌生物標(biāo)志物用于輔助診斷的報(bào)告[26]。隨著檢驗(yàn)技術(shù)的提升,特別是生物芯片等技術(shù)的出現(xiàn),將有大量例如DNA片段、抗原抗體、microRNA等生物標(biāo)志物被檢出,而ANNs能對(duì)分析這些標(biāo)志物與疾病之間的關(guān)系起到非常大的幫助。
2.1.3 病理及危險(xiǎn)因素分析 Alzubaidi等[27]總結(jié)了7項(xiàng)基于ANNs的數(shù)字病理學(xué)在肺癌領(lǐng)域中的研究情況,多項(xiàng)研究利用組織學(xué)或細(xì)胞學(xué)特征對(duì)肺癌進(jìn)行診斷,準(zhǔn)確率可達(dá)50%-98%。當(dāng)術(shù)中根據(jù)手術(shù)視頻進(jìn)行快速分析時(shí),大流量的數(shù)據(jù)會(huì)超過(guò)部分研究所用ANNs的分析限度,存在一定的局限性。對(duì)于切片,高的診斷準(zhǔn)確率依賴(lài)于高質(zhì)量的切片圖像,且對(duì)于連續(xù)多張切片需要盡量減少非期望部位的采樣,以提高診斷準(zhǔn)確率。因此,建立可靠的分析模型,提高顯微鏡下取得的圖像質(zhì)量增加以及開(kāi)發(fā)可滿(mǎn)足巨大樣本量存儲(chǔ)和計(jì)算分析的設(shè)備是提升ANNs診斷準(zhǔn)確率的有效途徑。在肺癌易感性和相關(guān)危險(xiǎn)因素分析方面,Xie等[28]應(yīng)用ANNs分析不同危險(xiǎn)因素與肺癌發(fā)生的具體關(guān)系,對(duì)41項(xiàng)危險(xiǎn)因素進(jìn)行分析后發(fā)現(xiàn),在納入其中15項(xiàng)危險(xiǎn)因素作為預(yù)測(cè)指標(biāo)時(shí),預(yù)測(cè)肺癌發(fā)生的準(zhǔn)確率可達(dá)83.816%。通過(guò)ANNs分析整合與肺癌確切相關(guān)的危險(xiǎn)因素,可篩選出發(fā)病的高危人群,并對(duì)這部分人群的危險(xiǎn)因素進(jìn)行早期干預(yù)是降低肺癌發(fā)病率的有效且具有應(yīng)用前景的一種方法。
2.2 肺癌預(yù)后和治療判斷 過(guò)去20年有多種不同的ANNs模型應(yīng)用于肺癌患者的療效預(yù)測(cè)和預(yù)后判斷,目標(biāo)是能夠了解不同的干預(yù)措施能對(duì)患者帶來(lái)的獲益,對(duì)癌癥復(fù)發(fā)率及生存率進(jìn)行預(yù)判[18],為患者選擇最優(yōu)的個(gè)體化治療方案。
2.2.1 預(yù)后預(yù)測(cè) Hsia等[29]將臨床檢測(cè)指標(biāo)與基因多態(tài)性檢測(cè)結(jié)果聯(lián)合納入,通過(guò)ANNs構(gòu)建模型預(yù)測(cè)75例無(wú)手術(shù)治療指征的肺癌患者預(yù)后并依此制定治療方案?;颊邔?shí)際平均生存期為(12.44±7.95)個(gè)月,而ANNs預(yù)測(cè)結(jié)果為(13.16±1.77)個(gè)月,準(zhǔn)確率可達(dá)86.2%。Paul等[30]應(yīng)用ANNs分析肺癌患者CT圖像的特征后對(duì)患者預(yù)后進(jìn)行預(yù)測(cè),選取十種不同的形態(tài)特征時(shí),準(zhǔn)確率為77.5%,進(jìn)一步選取特異性最高的五種形態(tài)特征與數(shù)量特征結(jié)合,預(yù)測(cè)準(zhǔn)確率提高到82.5%。Chatzimichail等[31]應(yīng)用ANNs對(duì)經(jīng)過(guò)手術(shù)治療后的非小細(xì)胞肺癌患者進(jìn)行預(yù)后預(yù)測(cè)時(shí)發(fā)現(xiàn),當(dāng)把γ-H2AX表達(dá)情況加入后能提高預(yù)測(cè)的準(zhǔn)確率,提示γ-H2AX可作為評(píng)估早期非小細(xì)胞肺癌預(yù)后的生物標(biāo)志物。該研究表明可通過(guò)驗(yàn)證ANNs預(yù)測(cè)預(yù)后準(zhǔn)確度的不同判斷預(yù)后預(yù)測(cè)指標(biāo)的有效性。通過(guò)ANNs分析預(yù)測(cè)個(gè)體的生存時(shí)間,可指導(dǎo)醫(yī)生和患者共同選擇和制定合理的治療方案,從而減少過(guò)度治療和不必要的侵入性醫(yī)療操作,并可提高患者生存質(zhì)量以及指導(dǎo)衛(wèi)生經(jīng)濟(jì)學(xué)決策。
2.2.2 并發(fā)癥預(yù)測(cè) 肺癌患者術(shù)后出現(xiàn)并發(fā)癥的幾率并不一致,如果能早期判斷并發(fā)癥的可能性,并據(jù)此對(duì)患者進(jìn)行危險(xiǎn)性分層,可對(duì)高?;颊哌M(jìn)行有針對(duì)性的干預(yù),并減少對(duì)低?;颊叩倪^(guò)度治療。Santos-García等[32]應(yīng)用設(shè)計(jì)的ANNs模型預(yù)測(cè)489例非小細(xì)胞肺癌患者肺葉或肺切除術(shù)后呼吸循環(huán)系統(tǒng)并發(fā)癥的發(fā)生情況,準(zhǔn)確率達(dá)98%。Chen等[33]應(yīng)用ANNs分析肺癌患者年齡、抗生素使用情況、血清白蛋白濃度、是否接受化療或手術(shù)、血紅蛋白濃度以及住院時(shí)間等因素,預(yù)測(cè)患者是否會(huì)發(fā)生深部真菌感染,準(zhǔn)確率達(dá)82.9%。
2.2.3 治療方案確定 輔助化療對(duì)于預(yù)防非小細(xì)胞肺癌患者術(shù)后復(fù)發(fā)或轉(zhuǎn)移的效果仍存在爭(zhēng)議,Chen等[34]利用ANNs結(jié)合T分期和相關(guān)基因表達(dá)情況進(jìn)行分析,預(yù)測(cè)輔助化療是否對(duì)預(yù)后的有改善,發(fā)現(xiàn)DUSP6和LCK的表達(dá)對(duì)預(yù)后預(yù)測(cè)的準(zhǔn)確率為65.71%。該研究表明利用ANNs分析某些基因的表達(dá)情況可指導(dǎo)輔助化療的使用,避免無(wú)效的干預(yù)和減少醫(yī)療資源的浪費(fèi),避免增加患者藥物帶來(lái)的副反應(yīng),未來(lái)可利用ANNs選擇更好的基因位點(diǎn)進(jìn)行分析,以提高預(yù)測(cè)的準(zhǔn)確率。目前智能決策中比較成熟的沃森腫瘤系統(tǒng)(Watson for oncology, WFO),是由IBM基于ANNs開(kāi)發(fā)的認(rèn)知計(jì)算系統(tǒng),有國(guó)內(nèi)的研究表明該系統(tǒng)對(duì)于肺癌的臨床決策與中國(guó)專(zhuān)家團(tuán)隊(duì)有較高的一致性[35]。WFO只是輔助醫(yī)療工具,在一些實(shí)際應(yīng)用中卻被用于對(duì)病人做出臨床的直接診斷,而未經(jīng)醫(yī)生詳細(xì)的評(píng)估審核,在智能還沒(méi)有完全可以取代醫(yī)生之前,這樣的嘗試會(huì)增加患者的疑慮,且WFO提供的診療方案僅是方向性的框架,仍然需要醫(yī)生去細(xì)化執(zhí)行。此外,目前WFO缺乏中國(guó)本土化的真實(shí)病例、文獻(xiàn)等進(jìn)行訓(xùn)練,是否適用于中國(guó)的醫(yī)療流程與環(huán)境還待進(jìn)一步的檢驗(yàn)。
通過(guò)收集整合患者的各種生物組學(xué)、臨床檢測(cè)指標(biāo)以及非生物的環(huán)境背景資料建立大數(shù)據(jù)資料庫(kù)是信息時(shí)代醫(yī)學(xué)研究的重點(diǎn)方向之一。對(duì)這些數(shù)據(jù)進(jìn)行有效的分析和解讀將是重中之重,而對(duì)已有的海量信息的整合、分析恰恰是ANNs最大的優(yōu)勢(shì)。目前國(guó)內(nèi)外對(duì)ANNs在肺癌及整個(gè)醫(yī)學(xué)領(lǐng)域的投入巨大,但離真正的臨床應(yīng)用還有一定的距離。缺少高質(zhì)量的標(biāo)準(zhǔn)化肺癌臨床數(shù)據(jù)庫(kù)是制約ANNs用于肺癌領(lǐng)域的研究的重要因素,不僅影響準(zhǔn)確性,而且是不同系統(tǒng)能夠相比較的關(guān)鍵點(diǎn)。目前的研究樣本量普遍有限,絕大多數(shù)預(yù)測(cè)或診斷研究只在兩種或少數(shù)幾種疾病中評(píng)估的準(zhǔn)確度,脫離臨床實(shí)際環(huán)境,限制了臨床應(yīng)用的價(jià)值。有研究指出目前醫(yī)學(xué)領(lǐng)域運(yùn)用ANNs缺乏正確的方法和評(píng)判標(biāo)準(zhǔn),結(jié)果的可信度存疑[36]。在社會(huì)、法規(guī)方面,診療結(jié)果醫(yī)療責(zé)任問(wèn)題、信息安全問(wèn)題等還缺乏通行的技術(shù)規(guī)范。未來(lái)可由各大中心牽頭建立多中心的標(biāo)準(zhǔn)化肺癌臨床數(shù)據(jù)庫(kù),作為符合中國(guó)流行病學(xué)的國(guó)家級(jí)信息庫(kù),并以此開(kāi)發(fā)符合中國(guó)臨床環(huán)境的ANNs系統(tǒng),這對(duì)提高基層醫(yī)院及體檢中心肺癌檢出率,完善三級(jí)診療以及優(yōu)化醫(yī)療資源都有積極意義。另一方面,積極推行針對(duì)ANNs的制度法規(guī)、完善技術(shù)規(guī)范及審核制度,為ANNs的發(fā)展提供制度的支持和相應(yīng)的制約。未來(lái)ANNs用于肺癌研究具有美好前景,但仍充滿(mǎn)挑戰(zhàn)。