王 萌 王 策 栗思思 盧宇紅 宋佳麗 李 康 侯 艷△
【提 要】 目的 探索基于深度學(xué)習(xí)模型聯(lián)合正則化方法在小樣本高維數(shù)據(jù)特征篩選中的優(yōu)勢。方法 通過模擬實驗和實際數(shù)據(jù)分析比較深度學(xué)習(xí)模型單獨及聯(lián)合正則化方法在小樣本高維特征篩選準(zhǔn)確性方面的差異;采用測試集中C指數(shù)作為兩種模型泛化能力評價指標(biāo)。結(jié)果 在小樣本研究中單純的深度學(xué)習(xí)模型在變量之間存在復(fù)雜相關(guān)性時會表現(xiàn)過擬合,而深度學(xué)習(xí)模型聯(lián)合正則化的方法比單獨的深度學(xué)習(xí)模型在測試集中體現(xiàn)出防止過擬合的作用,具有更好的泛化能力。通過比較不同正則化的方法,發(fā)現(xiàn)深度學(xué)習(xí)聯(lián)合組 lasso相比于lasso在測試集中表現(xiàn)出更好的泛化能力。結(jié)論 深度學(xué)習(xí)模型聯(lián)合正則化的方法在小樣本高維數(shù)據(jù)特征篩選中可以防止過擬合,保證外部測試具有較好的預(yù)測效果。
深度學(xué)習(xí)模型融合正則化方法是指在常規(guī)深度學(xué)習(xí)的輸入層與第一隱藏層之間加入正則化方法,剔除對結(jié)局變量作用較小的特征組,從而進(jìn)行特征篩選,以保證使用較少且重要的特征來訓(xùn)練深度學(xué)習(xí)模型,避免出現(xiàn)過擬合現(xiàn)象[4]。深度學(xué)習(xí)與正則化融合方法的示意圖如圖1所示。由于高維組學(xué)數(shù)據(jù)具有特征個數(shù)較多、樣本量少、數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜等特點,傳統(tǒng)的深度學(xué)習(xí)模型學(xué)習(xí)數(shù)據(jù)的特征時常常嘗試兼顧所有的數(shù)據(jù)點,很容易出現(xiàn)過擬合現(xiàn)象??紤]在深度學(xué)習(xí)模型學(xué)習(xí)特征的信息前首先利用正則化方法對高維組學(xué)數(shù)據(jù)篩選出對結(jié)局變量影響較大的特征,再作為輸入變量放入深度學(xué)習(xí)結(jié)構(gòu)中,可能會具有更為有效的防止過擬合,同時提高模型學(xué)習(xí)效率等優(yōu)點。
圖1 深度學(xué)習(xí)與正則化融合方法的示意圖
1963年Tikhonov提出正則化不但具有降維的作用[5],同時可以有效防止模型過擬合[6]。正則化主要思想是在估計參數(shù)時,引導(dǎo)損失函數(shù)的最小值朝著約束方向迭代。正則化的方法有很多,例如lasso、自適應(yīng)lasso、彈性網(wǎng)等,近年來由于組lasso(group lasso)能夠?qū)崿F(xiàn)生物學(xué)有對結(jié)局指標(biāo)類別的篩選,即篩選出對結(jié)局變量影響較大的特征組,進(jìn)而在此類特征組中進(jìn)一步篩選特征,此種思想在實際應(yīng)用中較為常用[7]。以下為組lasso的參數(shù)估計表達(dá)式:
(1)
深度學(xué)習(xí)模型輸出層的特征是綜合全部特征變量的信息篩選得到的一個或多個特征,將其與各類模型相結(jié)合進(jìn)行有效地預(yù)測,便于評估篩選變量結(jié)果準(zhǔn)確性的指標(biāo)。本文通過模擬實驗和實例數(shù)據(jù)來評價深度學(xué)習(xí)聯(lián)合正則化是否可以篩選出有效特征,提高模型的泛化能力。
1.模擬數(shù)據(jù)的產(chǎn)生
(1)特征數(shù)與樣本含量的設(shè)定
在實際的組學(xué)數(shù)據(jù)中常常具有成千上萬個基因,增加了數(shù)據(jù)處理與分析的困難性,為了使模擬數(shù)據(jù)與TCGA中真實的數(shù)據(jù)結(jié)構(gòu)相似且便于計算,我們在模擬實驗中設(shè)置特征的個數(shù)p=800,樣本量n=500,此時符合實際組學(xué)數(shù)據(jù)中基因的數(shù)量遠(yuǎn)遠(yuǎn)多于患者數(shù)量的特點。
梅黎明指出,“鄉(xiāng)村振興戰(zhàn)略的內(nèi)涵十分豐富,將‘四化’同步發(fā)展提升為‘農(nóng)業(yè)農(nóng)村優(yōu)先發(fā)展’,將‘社會主義新農(nóng)村建設(shè)’提升為‘鄉(xiāng)村振興戰(zhàn)略’,將‘農(nóng)業(yè)現(xiàn)代化’提升為‘農(nóng)業(yè)農(nóng)村現(xiàn)代化’,將‘統(tǒng)籌城鄉(xiāng)’提升為‘城鄉(xiāng)融合’。”
(2)特征組的設(shè)定
考慮到組學(xué)數(shù)據(jù)中特征間具有相關(guān)性,在分析數(shù)據(jù)時應(yīng)將具有相關(guān)性的特征分為一組,在模擬實驗中設(shè)每個組內(nèi)有4個特征,即將8000個特征平均分為2000個組,同時假定5個組即20個特征對生存有影響。
(3)生存時間及生存結(jié)局的設(shè)定
本文以Cox比例風(fēng)險模型作為深度學(xué)習(xí)模型的預(yù)測模型探索方法的有效性,這里模擬500名患者的生存時間和生存結(jié)局。每個患者潛在生存時間可表示為:
(2)
βX={β1X1,β2X2,…,βg-1Xg-1,βgXg}
共有g(shù)個組,在第j個特征組中:
βjxj={βj1xj1,βj2xj2,βj3xj3,βj4xj4}
1≤j≤g,βj1xj1,βj2xj2,βj3xj3,βj4xj4為第j組內(nèi)4個特征及其系數(shù)。設(shè)T1為服從參數(shù)為λ指數(shù)分布的刪失時間,若T1≥T,則生存結(jié)局為死亡;若T1 2.評價方法及指標(biāo) 隨機抽取數(shù)據(jù)集的60%、20%和20%分別作為訓(xùn)練集、測試集和驗證集,訓(xùn)練次數(shù)為5000次。首先在訓(xùn)練集中訓(xùn)練深度學(xué)習(xí)模型,然后在驗證集中采用梯度下降法不斷對模型的超參數(shù)進(jìn)行調(diào)整,尋求最佳模型,最后在測試集中評估其泛化能力。選擇測試集中C指數(shù)客觀地評估深度學(xué)習(xí)模型單獨及聯(lián)合正則化方法后的泛化能力。 3.模擬實驗的結(jié)果 使用模擬數(shù)據(jù)集分別訓(xùn)練聯(lián)合組lasso和lasso的深度學(xué)習(xí)模型與單純的深度學(xué)習(xí)模型,每經(jīng)過一次訓(xùn)練后記錄訓(xùn)練集、驗證集和測試集中的C指數(shù),隨著訓(xùn)練次數(shù)的增加,相應(yīng)的C指數(shù)發(fā)生改變?nèi)鐖D2所示。 圖2反應(yīng)了不同模型的訓(xùn)練過程中,訓(xùn)練集、驗證集和測試集中C指數(shù)的變化情況。訓(xùn)練未加入正則化的深度學(xué)習(xí)模型時(圖A所示),驗證集和測試集C指數(shù)無明顯波動,由表1可知當(dāng)不同數(shù)據(jù)集的C指數(shù)保持不變時,訓(xùn)練集的C指數(shù)較驗證集和測試集中C指數(shù)0.62高的多,由此可見,未加入正則化深度學(xué)習(xí)的模型存在過擬合的風(fēng)險,可能不具有較好的泛化能力。加入lasso(圖B所示)和組lasso(圖C所示)的深度學(xué)習(xí)模型在訓(xùn)練過程中驗證集和測試集的C指數(shù)均有顯著增大的趨勢,且訓(xùn)練分別至約為2000次和3000次,驗證集和測試集的C指數(shù)趨向穩(wěn)定。圖B和圖C中測試集C指數(shù)達(dá)到穩(wěn)定時分別為0.80和0.88。深度學(xué)習(xí)模型中加入正則化,通過在訓(xùn)練集中不斷訓(xùn)練以及在驗證集中對模型超參數(shù)的不斷調(diào)整獲得的深度學(xué)習(xí)模型具有很好的泛化能力,在一定程度上可以有效防止訓(xùn)練深度學(xué)習(xí)模型時出現(xiàn)過擬合,且組lasso防止模型過擬合的效果優(yōu)于lasso。 圖2 不同模型訓(xùn)練集、驗證集和測試集中C指數(shù)隨訓(xùn)練次數(shù)增加的變化情況 表1 相同模型不同情況下三個數(shù)據(jù)集中穩(wěn)定的C指數(shù) 1.數(shù)據(jù)的來源及整理 從TCGA癌癥基因庫中下載共計630名卵巢癌患者的mRNA、蛋白質(zhì)組學(xué)以及臨床信息,將模擬實驗中所闡述的方法及評價指標(biāo)應(yīng)用于上述實例數(shù)據(jù)。在上述數(shù)據(jù)中選擇原發(fā)卵巢癌患者同時剔除缺失生存結(jié)局、生存時間的患者,最終保留196名包含有組學(xué)數(shù)據(jù)和臨床信息的原發(fā)卵巢癌患者;剔除大于等于70%患者中缺失的特征,若小于70%的患者缺失某個特征值,對其缺失值采取中位數(shù)填補[9]。對填補缺失值后的組學(xué)數(shù)據(jù)進(jìn)行Z標(biāo)準(zhǔn)化。在實例數(shù)據(jù)中,共有18717個特征,mRNA和蛋白組學(xué)中受同一基因調(diào)控的特征分為一個特征組。 2.實例分析結(jié)果 如圖3所示,隨著訓(xùn)練次數(shù)不斷增加,同時模型在不斷的優(yōu)化,此時融入組lasso模型測試集的C指數(shù)明顯增加,最高可達(dá)到0.67,且明顯高于常規(guī)深度學(xué)習(xí)模型測試集的C指數(shù)。對兩種模型測試集C指數(shù)的中位數(shù)進(jìn)行Wilcoxon秩和檢驗,檢驗得到的P值小于0.0001,二者中位數(shù)的差值具有統(tǒng)計學(xué)意義,即融入組 lasso模型的測試集C指數(shù)中位數(shù)高于常規(guī)深度學(xué)習(xí)模型的測試集C指數(shù)的中位數(shù)。由此可見在模型中加入組lasso可以提高模型的C指數(shù),且融入組lasso模型相比于常規(guī)深度學(xué)習(xí)模型具有更好的泛化能力,過擬合風(fēng)險相對更低。 圖3 未加入正則化與融入組 lasso兩種模型測試集C指數(shù)隨訓(xùn)練次數(shù)的變化 實驗結(jié)果顯示,使用常規(guī)深度學(xué)習(xí)模型進(jìn)行預(yù)測時模型的C指數(shù)中位數(shù)僅為0.57,且模型驗證集的損失函數(shù)并沒有減小,此時模型存在過擬合。實際中癌癥高維組學(xué)數(shù)據(jù)的樣本量較少且與結(jié)局變量無關(guān)的特征較多是導(dǎo)致深度模型出現(xiàn)過擬合的主要原因。在訓(xùn)練常規(guī)的深度學(xué)習(xí)模型時需要大量的樣本,但是在實際癌癥組學(xué)數(shù)據(jù)的研究中,樣本量較少限制了模型的學(xué)習(xí)能力,與此同時數(shù)據(jù)中又存在大量與結(jié)局變量無關(guān)的特征,因此模型不能充分且有效地學(xué)習(xí)從而導(dǎo)致模型的預(yù)測性能降低。此時我們需要正則化方法對癌癥高維組學(xué)數(shù)據(jù)進(jìn)行降維,為訓(xùn)練模型選擇與結(jié)局變量高度相關(guān)的特征或者特征組(癌癥高維組學(xué)數(shù)據(jù)中具有分組信息),在樣本量較少的情況下提高模型的學(xué)習(xí)效率和預(yù)測的準(zhǔn)確性,降低模型過擬合的風(fēng)險。 實際癌癥高維組學(xué)數(shù)據(jù)中,大部分特征都不是相互獨立的,常規(guī)的深度學(xué)習(xí)模型并不能對彼此之間具有相關(guān)性的輸入特征進(jìn)行分組,所以加入組lasso的深度學(xué)習(xí)模型更適合處理實際的癌癥高維組學(xué)數(shù)據(jù)。眾所周知,實際癌癥組學(xué)數(shù)據(jù)中特征個數(shù)以及它們之間的相關(guān)性使數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜,在模擬實驗中是將所有特征均勻分組,即每特征組中特征個數(shù)相等,而在卵巢癌患者的組學(xué)數(shù)據(jù)中某些基因可能同時調(diào)控多個組學(xué)的不同特征,亦可能僅調(diào)控一個組學(xué)特征,因此并不能保證每個特征分組內(nèi)的特征個數(shù)相等,在一定程度上也增加了數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。但模型中融入正則化方法可以使模型在小樣本的數(shù)據(jù)中具有較強的學(xué)習(xí)能力,防止模型過擬合,減少無用功,節(jié)約運算時間。 雖然本研究通過在深度學(xué)習(xí)模型中加入正則化方法使得在實際組學(xué)數(shù)據(jù)中訓(xùn)練模型較少的出現(xiàn)過擬合,但是如果將同一通路中組學(xué)特征分為一組,需要考慮同一組學(xué)特征出現(xiàn)在不同的通路中,換言之,同一特征同時出現(xiàn)在不同的特征組中時,本文所述的lasso、組lasso不再適用,它們能夠改善過擬合的問題,但不能徹底解決,在未來的研究中我們嘗試將重疊lasso應(yīng)用于深度學(xué)習(xí)模型中,改善用組間具有重疊特征的組學(xué)數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)模型時出現(xiàn)的過擬合問題。隨著高維組學(xué)數(shù)據(jù)研究不斷發(fā)展,正則化方法在進(jìn)行高維特征篩選方面具有較好的應(yīng)用前景。實例分析
討 論