摘要:提出了高級(jí)別漿液性卵巢癌(HGSOC)分子亞型分類模型MMDNN-HGSOC,該模型將miRNA 表達(dá)、DNA 甲基化、拷貝數(shù)變異( CNV)與mRNA 表達(dá)數(shù)據(jù)進(jìn)行集成,構(gòu)建多組學(xué)特征空間;基于LASSO(Least Absolute Shrinkage and Selection Operator)回歸算法,提出疊加式LASSO(S-LASSO)回歸算法,充分獲得每個(gè)組學(xué)數(shù)據(jù)中與HGSOC 分子亞型關(guān)聯(lián)的基因子集;引入多組學(xué)數(shù)據(jù)晚期集成策略,利用多模態(tài)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同組學(xué)數(shù)據(jù)的高級(jí)特征表示。實(shí)驗(yàn)結(jié)果表明,MMDNN-HGSOC 在HGSOC 分子亞型分類中表現(xiàn)出較好性能。此外,對(duì)特征選擇過程中發(fā)現(xiàn)的重要基因進(jìn)行了GO( Gene Ontology)和KEGG( Kyoto EncyclopedGenomes)富集分析,為HGSOC 分子亞型鑒定和發(fā)病機(jī)制的研究提供有力支持。
關(guān)鍵詞:高級(jí)別漿液性卵巢癌;多組學(xué)數(shù)據(jù);晚期集成;深度神經(jīng)網(wǎng)絡(luò);LASSO
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
高級(jí)別漿液性卵巢癌(HGSOC) 是一種起源于卵巢表面上皮、輸卵管上皮和腹膜的卵巢癌,具有高度侵襲性,占卵巢癌相關(guān)死亡的70%~80%[1-2]。HGSOC由間充質(zhì)型(MES)、免疫反應(yīng)型(IMM)、分化型(DIF)和增殖型(PRO) 4 種轉(zhuǎn)錄分子亞型組成[3]。Bowtell等[4] 指出識(shí)別HGSOC 分子亞型可以實(shí)現(xiàn)早期預(yù)測(cè)的目的,輔助臨床診斷。研究表明,HGSOC 不同分子亞型具有顯著不同的預(yù)后表現(xiàn)和分子特征,通過鑒定HGSOC 的分子亞型能夠幫助評(píng)估患者的預(yù)后,并且能夠揭示 HGSOC 分子亞型不同的靶向治療方法[5-8]。因此,準(zhǔn)確識(shí)別HGSOC 分子亞型進(jìn)行分類有助于了解發(fā)病機(jī)制,更好地指導(dǎo)患者預(yù)后預(yù)測(cè)和臨床靶向治療。
癌癥基因組圖譜(TCGA)為HGSOC 的研究提供了mRNA 表達(dá)、DNA 甲基化、miRNA 表達(dá)、拷貝數(shù)變異(CNV)等組學(xué)數(shù)據(jù)。不同分子水平的數(shù)據(jù)可以為HGSOC 研究提供不同角度的信息。Hira 等[9]將DNA 甲基化、CNV 與mRNA 表達(dá)數(shù)據(jù)進(jìn)行集成,對(duì)HGSOC分子亞型進(jìn)行分類。Qi 等[10] 集成miRNA表達(dá)與mRNA 表達(dá)數(shù)據(jù),對(duì)HGSOC 分子亞型進(jìn)行聚類分析。然而上述研究僅將DNA 甲基化、CNV與mRNA 表達(dá)數(shù)據(jù)集成或者miRNA 表達(dá)與mRNA表達(dá)數(shù)據(jù)進(jìn)行集成,用于HGSOC 或其分子亞型的研究,造成部分信息缺失,不利于對(duì)HGSOC 或其分子亞型的精準(zhǔn)分類。miRNA表達(dá)通過補(bǔ)充mRNA 和mRNA 沉默或降解,在癌癥進(jìn)展中發(fā)揮重要作用;DNA 甲基化會(huì)影響基因轉(zhuǎn)錄, 它可以在不改變DNA 序列的情況下改變遺傳性能;基因CNV 會(huì)導(dǎo)致基因表達(dá)改變,因此,miRNA 表達(dá)、DNA 甲基化、CNV均與mRNA 表達(dá)有密切關(guān)聯(lián)[11-14]。本文將miRNA表達(dá)、DNA 甲基化、CNV與mRNA 表達(dá)數(shù)據(jù)進(jìn)行聯(lián)合分析,挖掘不同分子層面的關(guān)鍵因子,對(duì)HGSOC分子亞型進(jìn)行分類研究。
癌癥的多組學(xué)數(shù)據(jù)具有低樣本量高維度特征的特點(diǎn),在高維度多組學(xué)數(shù)據(jù)中包含著大量與表型無關(guān)的基因,造成信息冗余,降低深度學(xué)習(xí)模型的分類性能。利用特征選擇算法可以去除明顯不相關(guān)和冗余的基因,提高模型的性能。Lin 等[15] 利用卡方檢驗(yàn)進(jìn)行特征基因選擇,在一定程度上解決了信息冗余的問題??ǚ綑z驗(yàn)單變量統(tǒng)計(jì)檢驗(yàn)對(duì)特征進(jìn)行評(píng)分,僅考慮了單個(gè)特征與樣本之間的相關(guān)性,導(dǎo)致部分重要基因被剔除[16]。Mohammed 等[17] 在泛癌亞型分類的研究中, 引入多變量分析LASSO( LeastAbsolute Shrinkage and Selection Operator)回歸算法作為特征選擇方法減少基因的數(shù)量,同時(shí)考慮多個(gè)基因和類別標(biāo)簽的關(guān)系,以提高模型的分類性能。然而,LASSO 回歸算法在處理關(guān)聯(lián)性較強(qiáng)的基因時(shí),只保留關(guān)聯(lián)基因中的一個(gè)基因,導(dǎo)致與HGSOC 分子亞型有關(guān)聯(lián)的基因丟失[18]。因此,本文在LASSO 回歸算法的基礎(chǔ)上,提出疊加式LASSO(S-LASSO),將多組學(xué)數(shù)據(jù)平均分為K 組,通過多次疊加的方式,從未被選擇的基因中關(guān)注與HGSOC 相關(guān)的基因,獲得更加全面的、與HGSOC 有關(guān)聯(lián)的基因子集。