中國人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心,統(tǒng)計(jì)學(xué)院(100872) 李 嶸 張文麗 李 揚(yáng) 林存潔
【提 要】 目的 將深度學(xué)習(xí)方法應(yīng)用在大規(guī)模腫瘤數(shù)據(jù)中,并預(yù)測腫瘤患者的個(gè)體生存情況,提升預(yù)測精度,為個(gè)體化治療方案提供參考。方法 以老年乳腺癌數(shù)據(jù)為例,將生存時(shí)間劃分成離散區(qū)間,通過神經(jīng)網(wǎng)絡(luò)方法預(yù)測患者在各離散區(qū)間內(nèi)的死亡概率,實(shí)現(xiàn)個(gè)體生存函數(shù)的預(yù)測。結(jié)果 對于19576例老年女性乳腺癌的個(gè)體生存函數(shù)預(yù)測情況,本文提出的方法預(yù)測效果好于其他的模型,表現(xiàn)在有更大的c-index指標(biāo)和更大的log-rank統(tǒng)計(jì)量值。結(jié)論 基于深度學(xué)習(xí)的生存函數(shù)預(yù)測有較大的靈活性,不受Cox模型比例風(fēng)險(xiǎn)假設(shè)的限制,能夠處理大規(guī)模數(shù)據(jù),并且對個(gè)體生存函數(shù)的預(yù)測更加準(zhǔn)確。
全球癌癥負(fù)擔(dān)日益加重,腫瘤的發(fā)病率和死亡率日益增加,已成為威脅人類健康的主要危險(xiǎn)因素。隨著電子病歷(EMR)和腫瘤基因組學(xué)的發(fā)展與普及,腫瘤病人的相關(guān)臨床數(shù)據(jù)量不斷增加,而大規(guī)模的腫瘤數(shù)據(jù)為精準(zhǔn)醫(yī)學(xué)提供了良好的研究基礎(chǔ)[1]。精準(zhǔn)醫(yī)學(xué)自提出以來一直被廣泛重視,2015年3月,我國科技部首次召開國家精準(zhǔn)醫(yī)學(xué)戰(zhàn)略專家會議,計(jì)劃啟動中國的精準(zhǔn)醫(yī)學(xué)計(jì)劃,隨后精準(zhǔn)醫(yī)學(xué)被列入國家重點(diǎn)研發(fā)項(xiàng)目并正式進(jìn)入啟動階段[2-3]。精準(zhǔn)醫(yī)學(xué)根據(jù)患者的特異性進(jìn)行個(gè)性化的預(yù)防或治療干預(yù),通過預(yù)測腫瘤患者的個(gè)體生存情況來確定個(gè)體化治療方案。本文的研究對象為老年乳腺癌患者,乳腺癌是女性最常見的惡性腫瘤之一,隨著人口老齡化及女性平均壽命的延長,老年乳腺癌(以大于65歲為界限)發(fā)病率明顯增多。由于老年病人的體質(zhì)和健康狀況差異較大,尚無規(guī)范的治療模式,因此對于老年乳腺癌的治療應(yīng)該按照個(gè)體化原則確定治療方案[4]。
預(yù)測生存函數(shù)是生存分析中的重要任務(wù),而大規(guī)模腫瘤數(shù)據(jù)為研究建立了基礎(chǔ)的同時(shí)也帶來了挑戰(zhàn)。龐大的數(shù)據(jù)量使得經(jīng)典的Cox模型難以計(jì)算,另外,Cox模型假設(shè)風(fēng)險(xiǎn)函數(shù)的對數(shù)是解釋變量的線性組合且解釋變量的影響不隨時(shí)間變化,該比例風(fēng)險(xiǎn)假設(shè)在實(shí)際問題中難以被滿足。近年來,隨著機(jī)器學(xué)習(xí)的發(fā)展,利用深度學(xué)習(xí)方法處理生存數(shù)據(jù)的研究也取得了一些進(jìn)展,突出的方法包括Cox-nnet[5]、DeepSurv[6]和Nnet-Survival[7]。其中Cox-nnet方法利用一層神經(jīng)網(wǎng)絡(luò)進(jìn)行降維后將輸出的結(jié)果作為解釋變量擬合Cox模型,DeepSurv方法則是基于Cox模型的部分似然函數(shù)利用深度學(xué)習(xí)模型擬合風(fēng)險(xiǎn)函數(shù)。但是Cox-nnet和DeepSurv這兩種方法仍在不同程度上保留了Cox模型的假設(shè),因此具有一定的局限性。而Nnet-survival方法則是將生存時(shí)間離散化,然后估計(jì)各區(qū)間的條件風(fēng)險(xiǎn)函數(shù)。在本文中,我們借鑒Nnet-Survival的思想,但是更加關(guān)注每個(gè)離散區(qū)間上生存函數(shù)的估計(jì),把生存分析問題轉(zhuǎn)化成深度學(xué)習(xí)問題,進(jìn)而提高生存函數(shù)的預(yù)測精度。該方法完全摒棄了Cox模型的假設(shè),能夠更加靈活地處理生存數(shù)據(jù),給出更加準(zhǔn)確的預(yù)測結(jié)果,同時(shí)保持了深度學(xué)習(xí)算法對大規(guī)模數(shù)據(jù)的有效性,因此能夠更好地適用于大規(guī)模腫瘤數(shù)據(jù)的生存分析。
假設(shè)我們的觀測數(shù)據(jù)是右刪失數(shù)據(jù),即存在部分樣本,截止到觀測時(shí)間結(jié)束,感興趣的事件(例如死亡事件)仍沒有發(fā)生。不妨設(shè)觀測樣本為:(Ti,Zi,δi),i=1,…,n。其中Ti=min(Xi,Ci),Xi表示個(gè)體i的真實(shí)生存時(shí)間,Ci表示個(gè)體i的刪失時(shí)間,Ti即為可觀察到的兩者中的最小值,Zi表示p維協(xié)變量。δi是指示變量,δi=0表示數(shù)據(jù)刪失(即Ci pj=P(tj-1 其中S(t)=P(T>t)表示生存函數(shù)。如圖1所示,在第j個(gè)區(qū)間終點(diǎn)tj處的生存函數(shù)為: 通過估計(jì)離散區(qū)間端點(diǎn)處生存函數(shù)的值就可以很好地近似完整的生存函數(shù)曲線,因此對于某個(gè)個(gè)體而言,其生存函數(shù)可以對應(yīng)到一組長度為M的向量p=(p1,p2,…,pM),這里p表示M個(gè)離散區(qū)間中死亡事件發(fā)生的概率。從而對于生存函數(shù)的估計(jì)就轉(zhuǎn)化成對于p的估計(jì)。考慮到解釋變量對p的影響可能是復(fù)雜的非線性關(guān)系,也可能隨著時(shí)間進(jìn)展而變化,因此,采用深度學(xué)習(xí)對p進(jìn)行估計(jì)。 圖1 離散區(qū)間結(jié)構(gòu) 1.神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、隱藏層和輸出層。本文采用全連接神經(jīng)網(wǎng)絡(luò),即層與層之間每個(gè)神經(jīng)元都有連接。 (1)輸入層 輸入層是影響生存時(shí)間的解釋變量Z,輸入層神經(jīng)元個(gè)數(shù)等于解釋變量的維數(shù)。 (2)隱藏層 隱藏層的層數(shù)和各層神經(jīng)元的個(gè)數(shù)可以自行選擇。隱藏層采用sigmoid激活函數(shù)。隱藏層中每一個(gè)神經(jīng)元的輸出值是所有連接到該神經(jīng)元的輸入值的線性組合再經(jīng)過sigmoid激活函數(shù)非線性處理后的結(jié)果。 (3)輸出層 一般地,離散區(qū)間的個(gè)數(shù)M可取15~40個(gè)且模型的表現(xiàn)對離散區(qū)間的選擇比較穩(wěn)定,本文通過下式確定前疏后密的區(qū)間端點(diǎn)[7]: 其中,t*=0.27tmax,tmax為區(qū)間終點(diǎn)。 2.神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 (1)構(gòu)建目標(biāo)函數(shù) 其中,第二項(xiàng)為正則項(xiàng),wk記為神經(jīng)網(wǎng)絡(luò)中的參數(shù),λ為調(diào)節(jié)系數(shù)控制懲罰力度的大小,通過對參數(shù)添加L2懲罰以防止模型過擬合。 (2)Minibatch梯度下降算法 求解神經(jīng)網(wǎng)絡(luò)以使得目標(biāo)函數(shù)最小化,通過反向傳播算法對目標(biāo)函數(shù)進(jìn)行求導(dǎo),然后采用Minibatch梯度下降算法對網(wǎng)絡(luò)中參數(shù)進(jìn)行更新。Minibatch梯度下降法適用于大規(guī)模數(shù)據(jù)集,由于個(gè)體似然函數(shù)間互相獨(dú)立,因此可以將大規(guī)模數(shù)據(jù)集拆分成多個(gè)小樣本集,在每個(gè)小樣本集中更新參數(shù)[8-9]。首先將全部樣本劃分為訓(xùn)練集和測試集,記訓(xùn)練集中的樣本可以劃分為B個(gè)小樣本集,每個(gè)小樣本集中包含的樣本點(diǎn)個(gè)數(shù)為nb(b=1,…,B)。在每個(gè)小樣本集中通過以下的方式依次更新參數(shù): 其中η(b)表示第b次迭代中的步長,也稱作學(xué)習(xí)率,w(b)-w(b-1)表示動量,記錄了上一次迭代時(shí)系數(shù)改變的方向,增加動量項(xiàng)可以在一定程度上避免陷入局部最優(yōu)點(diǎn)及大幅度震蕩。B次更新記作一代訓(xùn)練,一代是指遍歷了訓(xùn)練集一次,本文中一代訓(xùn)練內(nèi)采用相同的步長,設(shè)置步長的初始值為0.005。再將上述一代訓(xùn)練重復(fù)至收斂,本文為防止過擬合,設(shè)置停止準(zhǔn)則為連續(xù)300代更新之后測試集上的目標(biāo)函數(shù)沒有減少則停止訓(xùn)練。為提高收斂效率,設(shè)置步長為每100代訓(xùn)練以0.8倍減小。 (3)超參數(shù)選擇 上述Minibatch梯度下降算法中包含一系列超參數(shù),包括目標(biāo)函數(shù)中正則項(xiàng)的調(diào)節(jié)系數(shù)λ,神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù),各隱藏層神經(jīng)元個(gè)數(shù)及更新準(zhǔn)則中的動量項(xiàng)參數(shù)α。本文通過比較各組超參數(shù)組合下測試集的目標(biāo)函數(shù)值以確定使得測試集目標(biāo)函數(shù)值最小的超參數(shù)組合。 本文通過深度學(xué)習(xí)預(yù)測老年乳腺癌患者的生存函數(shù),數(shù)據(jù)來源于美國國立癌癥研究所SEER(Surveillance,Epidemiology,and End Results Program)數(shù)據(jù)庫,分析1994-2003年年齡大于等于65歲的19576例女性乳腺癌患者的病歷資料。通過預(yù)測其生存函數(shù)來了解患者的生存情況以便更好地做出治療決策。 1.數(shù)據(jù)描述 該數(shù)據(jù)中記錄病例的生存時(shí)間的中位數(shù)是119個(gè)月,觀測到的最長生存時(shí)間為263個(gè)月,刪失率為5.9%。連續(xù)變量中只有腫塊大小存在缺失,缺失比例為11.92%,采用中位數(shù)插補(bǔ)。為分類變量添加虛擬變量,其中關(guān)于腫瘤位置只設(shè)置一個(gè)虛擬變量以防止共線性。參考已有文獻(xiàn)中對乳腺癌危險(xiǎn)因素的討論[10-11],最終從26個(gè)解釋變量中選擇出8個(gè)變量納入分析,各變量的描述如表1。 表1 解釋變量統(tǒng)計(jì)表 繪制KM曲線擬合整體的生存函數(shù)如圖2,總體生存函數(shù)在150個(gè)月之前下降速度略慢于150個(gè)月之后,表示后期風(fēng)險(xiǎn)略大于前期。 圖2 老年乳腺癌患者KM生存曲線 2.預(yù)測結(jié)果比較 本文基于深度學(xué)習(xí)預(yù)測老年乳腺癌患者的個(gè)體生存函數(shù),劃分36個(gè)離散生存區(qū)間,通過估計(jì)各區(qū)間內(nèi)的死亡概率得到各區(qū)間終點(diǎn)處的生存函數(shù)的估計(jì),將該方法記為DL-Survival?,F(xiàn)有的生存函數(shù)估計(jì)方法包括Cox模型,以及利用深度學(xué)習(xí)處理生存數(shù)據(jù)的Cox-nnet、DeepSurv和Nnet-Survival。分別采用這五種方法預(yù)測老年乳腺癌的生存函數(shù),并通過c-index和log-rank兩個(gè)指標(biāo)評價(jià)各種方法的預(yù)測準(zhǔn)確性,這兩個(gè)指標(biāo)均是生存分析中常用的評價(jià)指標(biāo)[12-13]。c-index計(jì)算所有可比的個(gè)體對中估計(jì)結(jié)果的相對關(guān)系和實(shí)際相對關(guān)系一致的比例,是衡量生存分析模型表現(xiàn)的常用指標(biāo),其大小在0到1之間,越接近1表示方法的預(yù)測精度越高。log-rank檢驗(yàn)統(tǒng)計(jì)量的原理是先根據(jù)預(yù)測結(jié)果把人群按照中位數(shù)分為高風(fēng)險(xiǎn)人群和低風(fēng)險(xiǎn)人群,然后對這兩組人群的KM估計(jì)曲線進(jìn)行l(wèi)og-rank檢驗(yàn)。log-rank檢驗(yàn)統(tǒng)計(jì)量值越大表示方法區(qū)分高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)人群的效果越好。各方法的比較結(jié)果如表2所示,本文提出的DL-Survival方法在個(gè)體生存函數(shù)的預(yù)測中表現(xiàn)最好。 表2 各方法對老年乳腺癌患者生存函數(shù)預(yù)測結(jié)果比較 對于個(gè)體生存函數(shù)的預(yù)測有助于掌握患者的生存情況,以便優(yōu)化信息和決策。本文采用深度學(xué)習(xí)的方法,通過估計(jì)離散區(qū)間的死亡概率預(yù)測個(gè)體的生存函數(shù)。不同于KM方法對群體生存情況的估計(jì),本文基于個(gè)體特征對每個(gè)患者的生存函數(shù)進(jìn)行預(yù)測。同時(shí)本文提出的深度學(xué)習(xí)算法摒棄了Cox模型中比例風(fēng)險(xiǎn)假設(shè),在實(shí)際應(yīng)用中會更加靈活。在滿足等比例風(fēng)險(xiǎn)的條件下與基于Cox的方法能達(dá)到相同的效果;在不滿足等比例風(fēng)險(xiǎn)的條件下能夠優(yōu)于基于Cox的方法。而相比于其他不受比例風(fēng)險(xiǎn)限制的機(jī)器學(xué)習(xí)方法,本文提出的方法更加直觀地預(yù)測生存函數(shù),并且可以處理較大規(guī)模的數(shù)據(jù),其適用性更加廣泛。然而在實(shí)際應(yīng)用中運(yùn)用哪種方法需要綜合考慮,例如,當(dāng)樣本量較小時(shí),深度學(xué)習(xí)方法由于訓(xùn)練樣本量不足易產(chǎn)生過擬合,預(yù)測結(jié)果不一定優(yōu)于Cox模型。 對大規(guī)模腫瘤數(shù)據(jù)仍然需要更多探索,大規(guī)模數(shù)據(jù)的特點(diǎn)通常包括樣本量大,變量維數(shù)多以及數(shù)據(jù)來源多樣化。對于更大樣本量的數(shù)據(jù),基于個(gè)體似然函數(shù)相互獨(dú)立,可以考慮分治法(divide and conquer)以降低計(jì)算成本。另外,本文中對于SEER老年乳腺癌患者的分析涉及到的解釋變量個(gè)數(shù)不多,當(dāng)數(shù)據(jù)中變量維數(shù)較多時(shí),可以考慮在神經(jīng)網(wǎng)絡(luò)中加入稀疏層,在預(yù)測生存函數(shù)的同時(shí)進(jìn)行變量選擇[14],以尋找影響老年乳腺癌患者生存情況的風(fēng)險(xiǎn)因素。為充分利用不同實(shí)驗(yàn)室或研究機(jī)構(gòu)的數(shù)據(jù)來源,還可以考慮整合分析方法,探索數(shù)據(jù)集間的關(guān)聯(lián)性和差異性,有助于精準(zhǔn)醫(yī)學(xué)對于不同亞群患者的治療和決策。實(shí)例分析
討 論