侯祥英,崔運鵬,劉 娟
(1.淄博市農(nóng)業(yè)科學(xué)研究院,淄博 255020;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
植物基因組學(xué)分析與育種的研究目標(biāo)是對植物全生命周期的信息流進行研究。該信息流從基因組DNA序列分析開始,并在植物表型研究或作物物種、農(nóng)藝性狀等方面的研究結(jié)束。介于基因?qū)用婧椭参锉硇蛯用嫘畔⒅g的是通過轉(zhuǎn)錄和翻譯傳遞的信息流,這就是弗朗西斯·克里克(FRANCIS)提出的 “分子生物學(xué)中心法則”[1]。中心法則中的每一步都不僅可以看作是傳遞,還可以看作是前一步遺傳信息的轉(zhuǎn)化。所涉及的分子特征統(tǒng)稱為 “分子表型”,以將它們與終端特征區(qū)分開來。隨著單細(xì)胞測序、高通量測序技術(shù)的突破,植物基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白組學(xué)、代謝組學(xué)等生物多組學(xué)也取得了巨大進步,可以大規(guī)模低成本地獲取參與信息傳遞的多維分子表型,包括DNA、RNA 和蛋白質(zhì)中元素的結(jié)構(gòu)、修飾、功能和進化,以及它們之間的相互作用。海量生物組表型數(shù)據(jù)進一步促進了基于中心法則的信息傳輸和轉(zhuǎn)換的細(xì)粒度剖析。對植物信息流的全方位研究對于基因組學(xué)基礎(chǔ)研究和作物改良都有重大意義,例如研究識別與特定表型變異(人工誘變或自然變異)相關(guān)的基因組變異或者兩者之間的因果關(guān)系。然而,分子表型中的豐富信息在很大程度上尚未得到有效探索,這使得從DNA 序列到植物表型的端到端機制理解變得很困難。
隨著深度學(xué)習(xí)與大數(shù)據(jù)技術(shù)的快速發(fā)展,開啟了分子表型和植物表型研究的智能化研究時代。例如,通過深度學(xué)習(xí)的關(guān)聯(lián)分析,可進行全轉(zhuǎn)錄組關(guān)聯(lián)研究(TWAS),具有更短的信息傳遞路徑和更少的信息轉(zhuǎn)換步驟[2]。此外通過深度學(xué)習(xí)模型可以直接從上游分子表型或從基因組DNA 序列預(yù)測分子表型[3]。本研究在概述深度學(xué)習(xí)概念方法的基礎(chǔ)上,對近年來深度學(xué)習(xí)在分子表型建模與變異研究的應(yīng)用場景和最新進展進行總結(jié)、概括和分析。同時,分析了深度學(xué)習(xí)方法在作物遺傳改良中的應(yīng)用,以期為相關(guān)研究人員提供參考。
深度學(xué)習(xí)本質(zhì)上是基于線性回歸和一些激活函數(shù)的諸多分類器協(xié)同工作。深度學(xué)習(xí)中有很多神經(jīng)節(jié)點,而不是傳統(tǒng)統(tǒng)計學(xué)習(xí)中只有一個線性回歸節(jié)點。在深度學(xué)習(xí)中,輸入和輸出之間有很多層。輸入和輸出之間的層稱為隱藏層,節(jié)點稱為隱藏節(jié)點。神經(jīng)網(wǎng)絡(luò)中的一個重要因素是受人類神經(jīng)激發(fā)啟發(fā)的激活函數(shù),用于生成輸入和輸出之間的非線性關(guān)系。常用的激活函數(shù)例如Sigmoid、Hyperbolic Tangent、ReLU。激活函數(shù)的作用是將數(shù)據(jù)轉(zhuǎn)換和抽象成一個更可分類的平面。深度學(xué)習(xí)分類器需要借助梯度下降等數(shù)學(xué)工具來學(xué)習(xí)參數(shù),尤其是在學(xué)習(xí)凸函數(shù)參數(shù)時效果顯著。學(xué)習(xí)是通過最小化預(yù)測值和實際值之間的誤差來完成的。本研究重點對深度學(xué)習(xí)的主流模型的架構(gòu)和特征進行介紹,包括自動編碼器、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)以及圖神經(jīng)網(wǎng)絡(luò)等。
自動編碼器(AutoEncoder)主要由編碼器、解碼器和隱藏層組成。自動編碼器首先對輸入信號進行編碼,然后使用編碼信號重建初始信號。該編碼信號可以最小化初始信號和重構(gòu)信號之間的誤差。在編碼和重構(gòu)的過程中,編碼器將輸入數(shù)據(jù)映射到特定的特征空間。解碼器將編碼信號的特征映射回數(shù)據(jù)空間,然后重構(gòu)初始數(shù)據(jù)。自動編碼器的3 個重要變體包括:稀疏自動編碼器(Sparse Auto Encoder,SAE)、去噪自動編碼器(Denoising Auto Encoder,DAE)和收縮自動編碼器(Contractive Auto Encoder,CAE)。
卷積神經(jīng)網(wǎng)絡(luò)具有共享權(quán)限的網(wǎng)絡(luò)結(jié)構(gòu),可以有效降低網(wǎng)絡(luò)模型的復(fù)雜度,同時也減少了權(quán)重的數(shù)量。處理高維圖像效率更高,可以直接將圖像作為整個網(wǎng)絡(luò)的輸入,有效避免傳統(tǒng)算法復(fù)雜的特征提取和重構(gòu)。作為一個多層神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的每一層由若干個二維平面組成,每個平面都有獨立的神經(jīng)元。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要依靠共享權(quán)重、局部滑動窗口、下采樣來保證輸入數(shù)據(jù)的不變性。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程分為兩個階段。第一階段是前向訓(xùn)練階段,由3 個步驟組成:根據(jù)給定的樣本集隨機選擇樣本;將樣本作為初始數(shù)據(jù)放入網(wǎng)絡(luò);計算相應(yīng)的輸出數(shù)據(jù)。第二階段是反向傳播階段,包括兩個步驟:計算理想數(shù)據(jù)信息與輸出數(shù)據(jù)信息的差值;根據(jù)反向傳輸?shù)恼`差最小化方法調(diào)整權(quán)重矩陣。
與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,RNN 利用了網(wǎng)絡(luò)中的序列信息。這一特性在許多應(yīng)用中是至關(guān)重要的,包括DNA 序列。在這些應(yīng)用中,數(shù)據(jù)序列中的嵌入式結(jié)構(gòu)傳達了有用的知識。RNN 學(xué)習(xí)方式通過使用特定形式的存儲器來模擬學(xué)習(xí)的知識隨時間的動態(tài)變化,不僅分析當(dāng)前的輸入,而且對前序內(nèi)容具備記憶能力。一個RNN 可以被看作是短期記憶單元,包括輸入層x、隱藏(狀態(tài))層s 和輸出層y,包括深度 “輸入到隱藏” “隱藏到輸出” 和 “隱藏到隱藏” 3 種模式。RNN 的一個主要問題是它對梯度消失和爆炸的敏感性。由于在訓(xùn)練過程中大量的小導(dǎo)數(shù)或大導(dǎo)數(shù)的乘法,梯度可能會衰減或爆炸。這種敏感性隨著時間的推移而降低,意味著網(wǎng)絡(luò)隨著新輸入的進入而忘記了最初的輸入。因此,LSTM 被用來處理這個問題,在其遞歸連接中提供記憶塊。每個記憶塊包括存儲網(wǎng)絡(luò)時間狀態(tài)的記憶單元,以及控制信息流的門控單元。
生成對抗網(wǎng)絡(luò)是基于博弈論的生成模型類。生成對抗網(wǎng)絡(luò)沒有明確地對數(shù)據(jù)分布進行建模,而是從中對樣本進行建模。通過深度神經(jīng)網(wǎng)絡(luò)進行采樣,神經(jīng)網(wǎng)絡(luò)將隨機噪聲作為輸入,并將其轉(zhuǎn)化為模型分布。生成對抗網(wǎng)絡(luò)由兩個神經(jīng)網(wǎng)絡(luò)組成:一種稱為生成器;另一種稱為鑒別器。這個模型被稱為對抗模型,因為生成器不斷地試圖欺騙鑒別器,讓其相信輸入來自訓(xùn)練數(shù)據(jù)(真實數(shù)據(jù)),而鑒別器總是區(qū)分兩者。這兩個神經(jīng)網(wǎng)絡(luò)試圖相互對抗。在獲取這兩個輸入后,誤差函數(shù)輸出特定樣本是真的還是假的概率,用于訓(xùn)練生成器和鑒別器的權(quán)重。
深度學(xué)習(xí)或傳統(tǒng)機器學(xué)習(xí)僅以向量的形式考慮歐幾里得平面中的數(shù)據(jù),例如圖像、音頻等。然而,圖數(shù)據(jù)集具有以下4 個不同特征,導(dǎo)致傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)方法在圖數(shù)據(jù)領(lǐng)域應(yīng)用的失效。
(1)不規(guī)則域圖表示不規(guī)則域或非歐幾里得數(shù)據(jù),并不能像圖像和音頻一樣,可以很容易地在歐幾里得平。面或網(wǎng)格狀結(jié)構(gòu)中表示。導(dǎo)致許多數(shù)學(xué)運算不能直接應(yīng)用于圖數(shù)據(jù)。
(2)非靜態(tài)結(jié)構(gòu)。圖可能具有不同的形狀和結(jié)構(gòu),例如齊次、非齊次、有符號、無符號圖等。圖的細(xì)粒度可以以節(jié)點為中心(即鏈接預(yù)測、節(jié)點排名等)、或者以圖為中心(例如圖生成、圖分類等)等。最常用的圖表示方法是使用鄰接矩陣。由于添加或刪除節(jié)點后其形狀會發(fā)生變化。
(3)可擴展性和并行化。圖可能有數(shù)百萬個節(jié)點和數(shù)十億條邊,龐大的數(shù)據(jù)成為傳統(tǒng)深度學(xué)習(xí)模型訓(xùn)練的障礙,尤其是具有許多節(jié)點和隱藏層的模型。同時由于圖中的每個節(jié)點都攜帶一些關(guān)于圖中其他節(jié)點的信息,算法并行化也面臨很多挑戰(zhàn)。
(4)領(lǐng)域特定知識。在圖上學(xué)習(xí)可能還需要了解領(lǐng)域特定知識。例如 “藥物-靶標(biāo)” 相互作用預(yù)測任務(wù),其中藥物化學(xué)分子結(jié)構(gòu)可能有助于更好地預(yù)測。其他額外信息可能有助于將藥物副作用作為特征進行預(yù)測。
圖神經(jīng)網(wǎng)絡(luò)是一種輸入為圖數(shù)據(jù)而不是向量的神經(jīng)網(wǎng)絡(luò)。它學(xué)習(xí)表示每個節(jié)點的特征,進一步生成的特征可以用于任何與圖相關(guān)的問題,例如節(jié)點分類、圖分類、聚類等。每個節(jié)點的特征包含節(jié)點本身的特征與其鄰居節(jié)點信息。
當(dāng)前基于圖神經(jīng)網(wǎng)絡(luò),開發(fā)了許多衍生的深度學(xué)習(xí)模型,例如圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)和GaphSage等。圖卷積神經(jīng)網(wǎng)絡(luò)分3 步運行:卷積核、池化和Flattening。
根據(jù)圖神經(jīng)網(wǎng)絡(luò)中的不同核函數(shù),可將圖卷積神經(jīng)網(wǎng)絡(luò)分為兩種類型:①空間方法。這類卷積運算不需要圖的特征值。典型的工作包括GAT 和GaphSage。②譜方法。這類方法基于特征值,考慮了整個圖結(jié)構(gòu)以及各個圖組件。
可解釋人工智能(Explainable AI,XAI)是以可理解的方式向人類解釋,并呈現(xiàn)智能系統(tǒng)行為與決策的新一代人工智能。近年來,從模型內(nèi)外2 個角度對XAI 模型的可解釋問題提出了兩大解決方案,包括“模型自身可解釋” 和 “模型以外可解釋”。前者是通過直接設(shè)計具有內(nèi)在可解釋性的算法實現(xiàn)模型的可解釋功能,包括線性回歸、邏輯回歸在內(nèi)的廣義線性模型,以及梯度增強機、隨機森林、極端梯度提升在內(nèi)的樹集成模型;后者將模型預(yù)測與解釋分開,主要包括可視化解釋、影響方法、基于實例的解釋、基于知識的解釋4 種技術(shù)類型。
可視化解釋是探尋深度神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型內(nèi)部工作機制最直接的途徑,其技術(shù)方法主要包括:代理模型、部分依賴圖(Partial Dependence Plot,PDP)和個體條件期望(Individual Conditional Expectation,ICE)。代理模型即用來解釋復(fù)雜模型的簡單模型,雖然計算量小,但其計算結(jié)果和高精度模型的計算分析結(jié)果相近。PDP 是一種圖形表示,有助于可視化特定特征對機器學(xué)習(xí)模型預(yù)測結(jié)果的平均邊際影響。ICE 是一種與PDP 類似的圖形表示,能深入到單個樣本,分析某一特征變化對單個樣本的影響,并給出每個樣本的預(yù)測值。影響方法通過更改模型輸入或內(nèi)部參數(shù)來評估特征的重要性或相關(guān)性,并記錄特征更改對模型性能的影響程度,以解釋模型決策。影響方法主要有敏感性分析、層級相關(guān)性傳播和特征重要性3 種。敏感性分析通過使每個特征在可能的范圍內(nèi)變動來預(yù)測這些特征的變化對模型輸出值的影響程度。層級相關(guān)性傳播將模型決策的重要性信號從模型的輸出層神經(jīng)元逐層傳播到模型的輸入層,使模型的決策結(jié)果可在特征上找到解釋,得到每個特征參與分類決策的貢獻大小。特征重要性則是通過改變特征值,計算模型預(yù)測誤差的變化,從而量化每個輸入變量對模型預(yù)測結(jié)果的貢獻。基于實例的解釋技術(shù)通過選擇數(shù)據(jù)集的特定實例來解釋AI 模型的行為,包括原型和批評解釋,以及反事實解釋。原型是指從數(shù)據(jù)集中選擇的具有代表性的實例,數(shù)據(jù)集中的實例關(guān)系是由與原型的相似性決定的。為了避免過度泛化,數(shù)據(jù)集也需要展示批評點,即不能被一組原型有效代表的實例。模型可預(yù)測原型和批評的結(jié)果,以解釋模型決策,并發(fā)現(xiàn)模型算法的弱點。反事實解釋描述了一種因果關(guān)系,即 “如果沒有輸入特征X,則預(yù)測結(jié)果Y 不會發(fā)生”,通過對原始實例的輸入特征進行最小條件的更改,以獲得不同預(yù)定輸出結(jié)果的新實例,從而解釋模型的決策行為。LIME 方法對模型進行局部可解釋性分析。該方法通過擾動圖片中的像素塊觀察模型預(yù)測性能的變化,如果模型預(yù)測性能下降,證明所刪除的像素塊是一個重要特征,實現(xiàn)對模型決策過程的解釋。基于Grad-CAM 的CNN 可解釋方法,利用加權(quán)梯度類激活映射顯示出圖像中對結(jié)果產(chǎn)生重要影響的區(qū)域?;谥R的解釋主要包括提取內(nèi)部知識和引入外部知識的解釋方法。目前,基于知識提取的方法主要包括知識蒸餾和知識圖譜。知識蒸餾是一種降低模型復(fù)雜度的模型壓縮方法,可將信息從深層網(wǎng)絡(luò)傳遞到淺層網(wǎng)絡(luò)。
當(dāng)主要目的不僅是準(zhǔn)確預(yù)測而且是解釋生物規(guī)則時,機器學(xué)習(xí)模型的可解釋性和量化特征重要性對植物生物學(xué)研究來說變得至關(guān)重要。例如,在從植物基因組準(zhǔn)確預(yù)測表型的同時,探究每個核苷酸的影響也非常重要。雖然深度學(xué)習(xí)提供了高精度的預(yù)測,但有時深度學(xué)習(xí)模型難以解釋,這對于探索生物過程的推理至關(guān)重要。為了構(gòu)建更多可解釋的模型,SHAP(SHApley Additive exPlanations)為每個特征分配一個特定預(yù)測的重要性值。DeepLIFT(深度學(xué)習(xí)重要特征)分解神經(jīng)網(wǎng)絡(luò)對特定輸入的輸出預(yù)測,以定義重要特征。出于類似的目的,集成梯度旨在將深度網(wǎng)絡(luò)的預(yù)測歸因于其輸入特征。另一方面,編碼生物特征的選擇在可解釋性中也起著關(guān)鍵作用。最后,在運行模型或解釋結(jié)果之前,考慮測量錯誤或數(shù)據(jù)集提交過程中出現(xiàn)的錯誤也很重要。
根據(jù)數(shù)據(jù)標(biāo)注情況可以分為兩大類:有監(jiān)督和無監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)。監(jiān)督學(xué)習(xí)的目的是獲得一個模型,將其預(yù)測變量(如DNA 序列)映射到目標(biāo)變量(如組蛋白標(biāo)記)。目標(biāo)變量可以是分類的(分類)或連續(xù)的(回歸)。如果數(shù)據(jù)集中沒有關(guān)于分類標(biāo)簽的標(biāo)注,即為無監(jiān)督學(xué)習(xí),包括聚類和特征提取。
深度學(xué)習(xí)應(yīng)用于基因組學(xué)的輸入通常為將生物序列和分子表型分別作為預(yù)測變量和目標(biāo)變量,其工作流程通常包括4 個步驟,如圖1 所示。
圖1 深度神經(jīng)網(wǎng)絡(luò)在植物基因組學(xué)中應(yīng)用的一般流程Fig.1 General process of deep neural network application in plant genomics
(1)輸入數(shù)據(jù)預(yù)處理。主要包括生物序列的檢索和編碼、分子表型的數(shù)字或分類表示,以及將預(yù)測“因子-目標(biāo)” 對正確拆分為訓(xùn)練、驗證和測試集,通常采用生物序列之間的進化關(guān)系作為依據(jù)。
(2)模型構(gòu)建和訓(xùn)練。主要包括模型架構(gòu)和超參數(shù)的選擇以及在訓(xùn)練集上訓(xùn)練模型。在訓(xùn)練期間應(yīng)持續(xù)監(jiān)控模型在驗證集上的性能,以確定何時停止模型訓(xùn)練以避免欠擬合和過擬合。
(3)模型評估。評估訓(xùn)練模型在另一個數(shù)據(jù)集上的性能,稱為測試集。用于衡量模型性能的指標(biāo)取決于目標(biāo)變量的性質(zhì):ROC 曲線下面積(auROC)常用于分類問題,R-squared 常用于回歸問題。
(4)通過顯著性或特征歸因方法獲取模型可解釋性以識別生物序列中的功能元素。
深度學(xué)習(xí)已應(yīng)用于大規(guī)模數(shù)據(jù)分析的多個領(lǐng)域,以解決基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)和系統(tǒng)生物學(xué)中的復(fù)雜生物學(xué)問題[4]。當(dāng)前研究表明,DNA 形狀在決定轉(zhuǎn)錄因子(TF)DNA 結(jié)合特異性方面起著重要作用[5]。深度學(xué)習(xí)模型可以使用大量數(shù)據(jù)類型,包括染色質(zhì)可及性分析(例如MNase-seq、DNase-seq、FAIRE)和其他基因組分析(例如微陣列、RNA-seq表達)。同樣,對于轉(zhuǎn)錄因子TF 結(jié)合,存在ChIP-seq數(shù)據(jù)、基因表達譜、DAP-seq(DNA 親和純化測序)和ampDAP-seq,通過使用擴增并去甲基化的DNA 作為底物和組蛋白修飾來了解基因表達的潛在機制[6]。為了分析這些大規(guī)模數(shù)據(jù)集,當(dāng)前有諸多深度學(xué)習(xí)方法來模擬TF-DNA 結(jié)合特異性。為了預(yù)測TF 結(jié)合特性,當(dāng)前也有基于深度學(xué)習(xí)的方法。例如,了解DNA 和RNA 結(jié)合蛋白的序列特異性對于開發(fā)生物系統(tǒng)中的調(diào)控過程模型和識別致病變體至關(guān)重要[7]。
DeepBind[8]、DeepSEA[9]和Basset[10],是首批應(yīng)用于基因組數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)。在DeepBind中,訓(xùn)練了多個單任務(wù)模型(參數(shù)的中位數(shù)為1 586)來預(yù)測轉(zhuǎn)錄因子的體外和體內(nèi)結(jié)合親和力(即結(jié)合或未結(jié)合)和轉(zhuǎn)錄因子的體外結(jié)合親和力。該方法始終比現(xiàn)有的非深度學(xué)習(xí)方法表現(xiàn)更好。DeepSEA 模型(52 843 119 個參數(shù))從DNA 元素百科全書(ENCODE)和Roadmap Epigenomics 項目編譯了919 個2.4M 非編碼變體的染色質(zhì)圖,并測了919 個染色質(zhì)特征(人類GRCh37 基因組)的存在與否,包括轉(zhuǎn)錄因子結(jié)合、DNA 可及性和給定1 000BP 序列的組蛋白修飾。Basset(4 135 064 個參數(shù))在給定600bp 序列的情況下預(yù)測了164 個二值化DNA 可訪問性特征。DeepBind 可以學(xué)習(xí)幾個基序來預(yù)測DNA 和RNA 結(jié)合蛋白的結(jié)合位點。由DeepBind 確定的特異性很容易被可視化為位置權(quán)重矩陣的加權(quán)組合或 “突變圖”,表明變異如何影響特定序列內(nèi)的結(jié)合[3]。在DeepSEA、DeFind[11]和DFIM[12]中評估了功能性非編碼變異的影響。DRNApred 用于區(qū)分DNA 和RNA 結(jié)合殘基。由于數(shù)據(jù)集易于獲得,上述這些方法通常是在組織或細(xì)胞系上進行訓(xùn)練和測試的。在玉米等具有大量重復(fù)元件和寬基因間區(qū)域的物種中,確定關(guān)鍵的基因組調(diào)控區(qū)域具有挑戰(zhàn)性。為了應(yīng)對這些挑戰(zhàn),基于自然語言處理的k-mer 語法等方法已被用于以高效且精確地注釋玉米品系中的調(diào)控區(qū)域[13]。使用大規(guī)模的ChIP-seq 來重建玉米葉片中的網(wǎng)絡(luò),并訓(xùn)練機器學(xué)習(xí)模型來預(yù)測TF 的結(jié)合和共定位。所得到的網(wǎng)絡(luò)覆蓋了77%的表達基因,并顯示出像現(xiàn)實世界網(wǎng)絡(luò)一樣的無標(biāo)度拓?fù)浣Y(jié)構(gòu)和功能模塊化。機器學(xué)習(xí)方法在模擬轉(zhuǎn)錄因子結(jié)合位點方面也發(fā)揮了重要作用。機器學(xué)習(xí)模型在植物生物學(xué)的幾個方面已被證明是高效的,既可以單獨或以組合方式從各種類型的測序數(shù)據(jù)中進行訓(xùn)練,還可以進一步整合其他信息,例如DNase I 超敏數(shù)據(jù),以更好地預(yù)測體內(nèi)轉(zhuǎn)錄結(jié)合位點(TFBS)[13]。
總結(jié)而言,自最初應(yīng)用以來,CNN 已被大量應(yīng)用于基于DNA 序列預(yù)測各種分子表型,并已成為新的最先進模型。應(yīng)用包括分類轉(zhuǎn)錄因子結(jié)合位點[11]和預(yù)測分子表型,如染色質(zhì)功能[14],DNA 接觸映射[15],DNA甲基化[16,17],基因表達[18],和RBP 結(jié)合[19]。除了從序列中預(yù)測分子表型之外,CNN 還成功地應(yīng)用于傳統(tǒng)上由手工生物信息學(xué)方法解決的更多技術(shù)任務(wù)。例如,它們已被用于預(yù)測引導(dǎo)RNA 的特異性[20],增強的Hi-C數(shù)據(jù)分辨率[21],從DNA 序列預(yù)測起源的實驗室和預(yù)測遺傳變異體[22]。CNNs 也被用來模擬基因組中的長期依賴關(guān)系。盡管相互作用的調(diào)控元件可能位于未折疊線性DNA 序列上的遠處,但這些元件通常在實際的3D染色質(zhì)構(gòu)象中靠近。因此,從線性DNA 序列建模分子表型,盡管是染色質(zhì)的粗略近似,但可以通過允許長程依賴性并允許模型隱式學(xué)習(xí)3D 組織的方面(例如“啟動子-增強子” 循環(huán))來改進。在Basenji[16]中,這是通過使用擴張卷積實現(xiàn)的,它啟用了感受野達到32KB。擴張卷積還允許使用10KB 的感受野從序列中預(yù)測剪接位點。
在基因組學(xué),RNNs 已被用于聚集細(xì)胞神經(jīng)網(wǎng)絡(luò)的輸出用于預(yù)測單細(xì)胞DNA 甲基化狀態(tài)[17],RBP 結(jié)合[23],轉(zhuǎn)錄因子結(jié)合和DNA 無障礙[24]。RNN 在miRNA 生物學(xué)中也有應(yīng)用:deepTarget[25]在從mRNA-miRNA 序列對預(yù)測miRNA 結(jié)合靶標(biāo)方面比現(xiàn)有模型表現(xiàn)更好,并且deepMiRGene[26]從mRNA 序列及其預(yù)測的二級結(jié)構(gòu)中比現(xiàn)有方法更好地預(yù)測前體miRNA 的發(fā)生使用手工制作的功能。來自原始DNA 測序數(shù)據(jù)的堿基調(diào)用是另一個應(yīng)用RNN 的預(yù)測任務(wù)。盡管RNN 有諸多應(yīng)用,但對于基因組學(xué)中常見的序列建模任務(wù),缺乏對循環(huán)和卷積架構(gòu)的系統(tǒng)比較。
在比較CNN 和k-mer 方法時,CNN 在特征提取方面更有效。然而,CNN 通常被認(rèn)為是黑匣子,因為對其輸出的解釋具有挑戰(zhàn)性,并且可能涉及高計算成本。此外,他們的表現(xiàn)有多少來自于學(xué)習(xí)基本的生物規(guī)則,例如關(guān)鍵基序、基序關(guān)系和一般序列視角,這是相當(dāng)不確定的。出于解釋DNA 的目的,k-mer 方法優(yōu)于CNN 和RNN。使用k-mers(或k-tuples,k-gram)頻率對序列進行分類是快速、準(zhǔn)確、無參考和無對齊的。k-mer 是一種基于基因的方法,用于識別序列特征。通常,k-mer 頻率向量與距離函數(shù)配對在一起,以測量任何一對序列之間的數(shù)量相似性?;趩卧~統(tǒng)計來恢復(fù)語義和句法線索很容易解釋,但是,確定為什么以某種方式對序列進行分類并不像更傳統(tǒng)的基于對齊的方法那樣直接。然而,使用k-mer 表示似乎是準(zhǔn)確和快速分類的良好平衡。值得注意的是,也有結(jié)合k-mer 方法和深度學(xué)習(xí)模型的例子[27],盡管尚未系統(tǒng)評估這種方法對精度或可解釋性的影響。
在線性模型等簡單模型中,模型的參數(shù)通常衡量輸入特征對預(yù)測的貢獻。因此,在輸入特征相對獨立的情況下,可以直接用于模型解釋。相比之下,深度神經(jīng)網(wǎng)絡(luò)的參數(shù)由于其冗余和與輸出的非線性關(guān)系而難以解釋。在復(fù)雜模型中,必須通過探測每個預(yù)測示例的 “輸入-輸出” 關(guān)系來間接得到特征重要性分?jǐn)?shù),也稱為屬性分?jǐn)?shù)、相關(guān)性分?jǐn)?shù)或貢獻分?jǐn)?shù)。特征重要性分?jǐn)?shù)顯示了給定輸入中對模型預(yù)測最有影響的部分,從而有助于解釋做出這種預(yù)測的原因。在DNA 序列為基礎(chǔ)的模型中,重要性分?jǐn)?shù)可以表征序列基序,并因此廣泛用于在基因組學(xué)[28]。特征重要性分?jǐn)?shù)還可用于探測更復(fù)雜的上位相互作用[12]。
根據(jù)是使用輸入擾動還是使用反向傳播計算,特征重要性分?jǐn)?shù)可以分為兩大類。對于DNA 序列為基礎(chǔ)的模型中,誘導(dǎo)的擾動可以是單核苷酸取代或調(diào)節(jié)基序的插入?;跀_動的重要性得分的主要缺點是計算成本高,當(dāng)需要計算整個數(shù)據(jù)集的重要性得分時,這一點就變得很明顯?;诜聪騻鞑サ奶卣髦匾苑?jǐn)?shù)是更高效計算方式。在這些方法中,所有輸入特征的重要性分?jǐn)?shù)是使用通過網(wǎng)絡(luò)的單個反向傳播計算的,因此它們只需要兩倍于單個預(yù)測的計算量。最簡單的基于反向傳播的重要性分?jǐn)?shù)是Saliency Maps[29]和Input-Masked Gradients[30]。由于深度學(xué)習(xí)框架支持自動微分,這些分?jǐn)?shù)可以在幾行代碼中有效地實現(xiàn)。
Saliency Maps、Input-Masked Gradients 或基于擾動的方法的一個問題是所謂的神經(jīng)元飽和問題。為了解決此問題,提出了基于參考的方法,如DeepLIFT 和Integrated Gradients[31]。這些方法將輸入特征與其 “參考” 值進行比較,從而避免飽和問題。在DNA 序列的情況下,合理的參考值是原始序列的二核苷酸改組版本。我們注意到目前缺乏基因組學(xué)中特征重要性分?jǐn)?shù)和不同參考值的嚴(yán)格基準(zhǔn)。因此,建議嘗試多種方法,并將它們與一些易于理解的示例或模擬數(shù)據(jù)進行比較。
最近提出了一種 “可見神經(jīng)網(wǎng)絡(luò)” 的方法,DCell模型[32],以提高內(nèi)部神經(jīng)網(wǎng)絡(luò)激活的可解釋性。DCell對應(yīng)于細(xì)胞內(nèi)已知分子子系統(tǒng)的層次結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)中的節(jié)點對應(yīng)分子子系統(tǒng),例如信號通路或大蛋白質(zhì)復(fù)合物,只有上游系統(tǒng)(例如小蛋白質(zhì)復(fù)合物)是下游系統(tǒng)的一部分時,才允許兩個節(jié)點(系統(tǒng))之間的連接(如大的蛋白質(zhì)復(fù)合物)。由于神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元對應(yīng)已知概念,因此可以解釋它們的激活和參數(shù)。這種方法僅適用于底層實體及其層次結(jié)構(gòu)足夠廣為人知的任務(wù),可能無法直接適用于實體或其層次結(jié)構(gòu)通常未知的任務(wù),例如轉(zhuǎn)錄因子結(jié)合。
圖結(jié)構(gòu)數(shù)據(jù),包括 “蛋白質(zhì)-蛋白質(zhì)” 相互作用網(wǎng)絡(luò)和基因調(diào)控網(wǎng)絡(luò),在基因組學(xué)中無處不在。圖表卷積神經(jīng)(GCN)網(wǎng)絡(luò)的使用的節(jié)點的各個特征中的曲線圖和所述節(jié)點連接來解決圖機器學(xué)習(xí)任務(wù)。GCN依次應(yīng)用多個圖變換(層),其中每個圖變換以非線性方式聚合來自相鄰節(jié)點或邊的特征,并用一組新特征表示節(jié)點或邊。GCN 可以訓(xùn)練的任務(wù)包括節(jié)點分類,無監(jiān)督節(jié)點嵌入(旨在找到節(jié)點的信息性低維表示),邊緣分類和圖分類。
GCN 已應(yīng)用于許多生物和化學(xué)問題。例如,一種方法使用無監(jiān)督的方法以無監(jiān)督的方式從 “蛋白質(zhì)-蛋白質(zhì)” 相互作用網(wǎng)絡(luò)中推導(dǎo)出蛋白質(zhì)的新特征,然后使用這些特征來預(yù)測不同組織中的蛋白質(zhì)功能[33]。GCN 也被用于模擬多藥副作用[34]。在化學(xué)中,曲線圖的卷積已經(jīng)成功地用于預(yù)測各種分子的性質(zhì),包括溶解性,藥物功效和光電效率[35]。GCN 的基因組應(yīng)用包括根據(jù)其他基因的表達[36],研究了基因交互圖(相同的路徑、“蛋白質(zhì)-蛋白質(zhì)”、共同表達或研究論文文本關(guān)聯(lián))如何應(yīng)用于深度模型,類似于圖像上的卷積。探索了圖卷積神經(jīng)網(wǎng)絡(luò)在基因組學(xué)的使用,通過結(jié)合基因嵌入以利用圖信息。這種方法在低數(shù)據(jù)約束下為特定的任務(wù)提供了優(yōu)勢,但非常依賴于所用圖形的質(zhì)量?;蛳嗷プ饔脠D的目的是捕捉基因之間的各種關(guān)系,并可用于創(chuàng)建更多的生物直觀模型來進行機器學(xué)習(xí)。當(dāng)前研究也試圖通過利用這些圖進行 “單基因推斷”(SGI)來評估這些圖所提供的偏差。SGI 任務(wù)評估了與使用數(shù)據(jù)集中所有基因的基線相比,一個基因在特定圖形中的鄰居能多好地 “解釋” 該基因本身。GCN為利用圖的結(jié)構(gòu)模式解決有監(jiān)督和無監(jiān)督的機器學(xué)習(xí)問題提供了有前景的工具,我們希望在未來看到更多的基因組學(xué)應(yīng)用。
給定生物序列作為預(yù)測因子,深度學(xué)習(xí)模型可用于預(yù)測分子表型(例如轉(zhuǎn)錄因子結(jié)合、表觀遺傳標(biāo)記、染色質(zhì)狀態(tài)和基因表達水平)。深度學(xué)習(xí)模型最強大的部分是它們能夠?qū)π碌?、以前未見過的序列數(shù)據(jù)(即不在訓(xùn)練集中的數(shù)據(jù))進行從頭預(yù)測。
盡管自然種群中存在大量遺傳變異,但可以對其中的一小部分進行深度學(xué)習(xí)模型訓(xùn)練,以預(yù)測所有其他變異(即整個變異空間)的影響。例如,在某些基因上訓(xùn)練的模型可用于對其他基因進行預(yù)測。這些不僅包括常見的等位基因,還包括低頻和稀有變異,無論其影響程度如何。人類遺傳學(xué)、精準(zhǔn)醫(yī)學(xué)和進化生物學(xué)的關(guān)鍵挑戰(zhàn)包括破譯基因表達的調(diào)控代碼和理解基因組變異的轉(zhuǎn)錄效應(yīng)。然而,由于非編碼突變空間的巨大規(guī)模,這是極困難的?;谏疃葘W(xué)習(xí)的框架ExPecto 可以從DNA 序列中準(zhǔn)確預(yù)測突變的組織特異性轉(zhuǎn)錄效應(yīng),包括那些罕見的或未被觀察到的突變。這使得探究基因表達的進化限制和突變疾病效應(yīng)的初始預(yù)測成為可能,從而使ExPecto 成為預(yù)測表達和疾病風(fēng)險的端到端計算框架。ExPecto 是一個基于深度學(xué)習(xí)的框架,可以僅根據(jù)DNA 序列預(yù)測突變的組織特異性轉(zhuǎn)錄效應(yīng)。ExPecto 可以優(yōu)先考慮GWAS 位點的因果變體,并用于預(yù)測變體的疾病風(fēng)險。由于在密切相關(guān)的物種中控制分子過程的生物學(xué)是保守的,在一個物種中訓(xùn)練的模型可以直接應(yīng)用于密切相關(guān)的物種[37]。或者這些模型可以用作遷移學(xué)習(xí)中的教師模型密切相關(guān)物種的任務(wù),促進知識從研究充分的物種(如擬南芥)遷移到相關(guān)但特征不佳的物種(如十字花科中的其他物種)。
提出了基于生物證據(jù)研究的自動建模(AMBER)[38],這是一個完全自動化的框架,可以有效地設(shè)計和應(yīng)用基因組序列的CNN。AMBER 通過最先進的神經(jīng)結(jié)構(gòu)搜索(NAS)為用戶指定的生物問題設(shè)計最佳模型。將AMBER 應(yīng)用于基因組調(diào)控特征的建模任務(wù),并證明AMBER 設(shè)計的模型的預(yù)測結(jié)果明顯比同等基線的非NAS 模型更準(zhǔn)確,并匹配甚至超過了已發(fā)表的專家設(shè)計的模型。對AMBER 架構(gòu)搜索的解釋揭示了其利用完整的計算操作空間來準(zhǔn)確模擬基因組序列的設(shè)計原則。此外,說明了利用AMBER 準(zhǔn)確發(fā)現(xiàn)等位基因特異性結(jié)合和疾病遺傳性富集的功能性基因組變異[38]。AMBER 為設(shè)計基因組學(xué)中準(zhǔn)確的深度學(xué)習(xí)模型提供了一種有效的自動化方法??傊?,深度學(xué)習(xí)模型可以極大地推動我們對終端表型的基因組變異的理解。
4.5.1 CNN 與RNN 在蛋白質(zhì)預(yù)測中的應(yīng)用
任何蛋白質(zhì)的功能直接取決于其三級結(jié)構(gòu)。蛋白質(zhì)的三級結(jié)構(gòu)可以通過綜合分析各種蛋白質(zhì)特性來揭示,例如二級結(jié)構(gòu)、跨膜拓?fù)洹⑿盘栯?、溶劑可及性、骨架二面角、無序到有序轉(zhuǎn)變、接觸圖、模型質(zhì)量、殘基間接觸、蛋白質(zhì)相互作用位點、蛋白質(zhì)紊亂和酶動力學(xué)。為了從頭肽序列中提取重要的氨基酸特征,使用CNN 方法開發(fā)了DeepNovo[39]?;诖?lián)質(zhì)譜數(shù)據(jù)的新肽測序是獵槍蛋白質(zhì)組學(xué)的關(guān)鍵技術(shù),用于識別沒有任何數(shù)據(jù)庫的肽和組裝未知的蛋白質(zhì)。然而,由于串聯(lián)質(zhì)譜的離子覆蓋率較低,如果某些連續(xù)氨基酸的支持性片段離子全部丟失,則無法確定其順序,這導(dǎo)致了從頭測序的低精度。pNovo 3[40]使用一個學(xué)習(xí)排名框架來區(qū)分每個光譜的相似肽候選者。衡量每個實驗光譜和其對應(yīng)的理論光譜之間的相似性的3 個指標(biāo)被用作重要的特征,其中理論光譜可以由pDeep 算法使用深度學(xué)習(xí)精確預(yù)測。在基于質(zhì)譜的蛋白質(zhì)組學(xué)中,多肽和蛋白質(zhì)的鑒定和定量在很大程度上依賴于序列數(shù)據(jù)庫搜索或光譜庫匹配。由于缺乏準(zhǔn)確的片段離子強度預(yù)測模型,降低了這些方法的實用性[41]。將ProteomeTools 合成肽庫擴展到55 萬條胰蛋白酶肽和2 100 萬條高質(zhì)量串聯(lián)質(zhì)譜。并訓(xùn)練了一個深度神經(jīng)網(wǎng)絡(luò)Prosit,在色譜保留時間和片段離子強度的預(yù)測方面取得顯著提升。
蛋白質(zhì)與蛋白質(zhì)的相互作用(PPI)不斷參與動態(tài)的病理和生物學(xué)研究過程中。因此,徹底理解PPI 是非常重要的,有利于闡明疾病的發(fā)生,實現(xiàn)最佳的“藥物-目標(biāo)” 治療效果,并描述蛋白質(zhì)的復(fù)合結(jié)構(gòu)。
例如,文獻使用圖表示學(xué)習(xí)和結(jié)構(gòu)特征的深度學(xué)習(xí)模型來預(yù)測lncRNA 和蛋白質(zhì)的相互作用,為了通用性和探索不同的模型設(shè)計原則,利用生物信息技術(shù)基于不同的特征提取和選擇方法來開發(fā)lncRNA-蛋白相互作用預(yù)測算法,并基于互作關(guān)系進行功能推測。并在在擬南芥和玉米數(shù)據(jù)集上驗證所提出方法的性能。
然而,與從不同物種和生物體獲得的蛋白質(zhì)序列相比,所揭示的 “蛋白質(zhì)-蛋白質(zhì)” 相互作用的數(shù)量相對有限。為了解決這一難題,許多研究工作都是為了促進發(fā)現(xiàn)新的PPI 而進行的。在這些方法中,僅僅依靠蛋白質(zhì)序列數(shù)據(jù)的PPI 預(yù)測技術(shù)比其他需要廣泛生物領(lǐng)域知識的方法更為廣泛。為了預(yù)測二級結(jié)構(gòu),在深度學(xué)習(xí)模型中使用了相對溶劑可及性和殘基間接觸圖rawMS[42]。然而,深度學(xué)習(xí)算法在不同領(lǐng)域取得了成功,但由于覆蓋率低和數(shù)據(jù)嘈雜,它們對PPI 預(yù)測的有效性非常低。DPPI 成為一種能夠從序列信息中預(yù)測PPI 和同二聚體相互作用的新模型[43]。
提出了一種多模態(tài)的深度表征學(xué)習(xí)結(jié)構(gòu),將蛋白質(zhì)的理化特征與來自PPI 網(wǎng)絡(luò)的圖形拓?fù)涮卣飨嘟Y(jié)合[44]。不僅考慮到了蛋白質(zhì)序列信息,還考慮到了PPI 網(wǎng)絡(luò)中每個蛋白質(zhì)節(jié)點的拓?fù)鋵W(xué)表征。通過構(gòu)建了一個堆疊的自動編碼器架構(gòu),以及一個基于生成的元路徑的連續(xù)詞包(CBOW)模型來研究PPI 預(yù)測。隨后,利用監(jiān)督下的深度神經(jīng)網(wǎng)絡(luò)來識別PPI 并對蛋白質(zhì)家族進行分類。8 個物種的PPI 預(yù)測準(zhǔn)確率從96.76%到99.77%不等,這是第一個用于研究PPI 網(wǎng)絡(luò)的多模態(tài)深度表示學(xué)習(xí)框架。
現(xiàn)有的 “蛋白質(zhì)-蛋白質(zhì)” 相互作用預(yù)測的計算方法大多集中在特征提取和特征組合上[45]。設(shè)計了一種名為Res2vec 的新的殘基表征方法來表示蛋白質(zhì)序列。通過Res2vec 得到的殘基表征更精確地描述了原始序列的 “殘基-殘基” 相互作用,并為下游的深度學(xué)習(xí)模型提供了更有效的輸入。結(jié)合有效的特征嵌入和強大的深度學(xué)習(xí)技術(shù)[45],提供了一個通用的計算管道來推斷 “蛋白質(zhì)-蛋白質(zhì)” 相互作用,即使是在蛋白質(zhì)結(jié)構(gòu)知識完全未知的情況下。
基于不同的蛋白質(zhì)序列編碼器,人們提出了大量的計算方法。一個蛋白質(zhì)序列對的置信度分?jǐn)?shù)可以被看作是對PPI 的一種測量。一個蛋白質(zhì)對的置信度分?jǐn)?shù)越高,該蛋白質(zhì)對就越可能發(fā)生相互作用。因此,引入了一個深度學(xué)習(xí)框架[46],即序數(shù)回歸和遞歸卷積神經(jīng)網(wǎng)絡(luò)(OR-RCNN)方法,從置信度的角度來預(yù)測PPI。它主要包括兩個部分:蛋白質(zhì)序列對的編碼部分和通過置信度分?jǐn)?shù)預(yù)測PPI 的部分。第一部分,應(yīng)用兩個具有共享參數(shù)的遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)構(gòu)建兩個蛋白質(zhì)序列嵌入向量,可以自動從蛋白質(zhì)對中提取穩(wěn)健的局部特征和序列信息。在此基礎(chǔ)上,通過元素相乘的方式將兩個嵌入向量編碼為一個新的嵌入向量。在第二部分中,通過考慮置信度分?jǐn)?shù)背后的序數(shù)信息,使用序數(shù)回歸來構(gòu)建多個子分類器。多個子分類器的結(jié)果被匯總,得到最終的置信度分?jǐn)?shù)。
4.5.2 ALPHAFOLD 在蛋白質(zhì)預(yù)測中的應(yīng)用
蛋白質(zhì)對生命至關(guān)重要,了解其結(jié)構(gòu)可以促進對其功能的機械性理解。通過巨大的實驗努力,大約10萬個獨特的蛋白質(zhì)的結(jié)構(gòu)已被確定,但這只是數(shù)十億已知蛋白質(zhì)序列中的一小部分。由于確定一個蛋白質(zhì)結(jié)構(gòu)需要數(shù)月至數(shù)年的艱苦努力,結(jié)構(gòu)覆蓋率成為當(dāng)前研究的瓶頸。通過分析同源序列的共變性,可以推斷出哪些氨基酸殘基是接觸的,這有助于預(yù)測蛋白質(zhì)結(jié)構(gòu)。AlphaFold 通過訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來對殘基對之間的距離進行準(zhǔn)確的預(yù)測,這比接觸預(yù)測能傳達更多的結(jié)構(gòu)信息。利用這些信息,構(gòu)建了一個能夠準(zhǔn)確描述蛋白質(zhì)形狀的平均力勢。所得到的勢可以通過一個簡單的梯度下降算法進行優(yōu)化,以生成結(jié)構(gòu),而不需要復(fù)雜的采樣程序。即使對于同源序列較少的序列AlphaFold 也能達到很高的準(zhǔn)確性。AlphaFold 代表了蛋白質(zhì)結(jié)構(gòu)預(yù)測的一個相當(dāng)大的進步[47]。
50 多年來,僅根據(jù)其氨基酸序列預(yù)測一個蛋白質(zhì)采用的三維結(jié)構(gòu),即 “蛋白質(zhì)折疊問題” 的結(jié)構(gòu)預(yù)測部分,一直是一個重要的開放式研究問題?,F(xiàn)有的方法遠遠達不到原子的準(zhǔn)確性要求,特別是在沒有同源結(jié)構(gòu)的時候。AlphaFold2 提供了第一個可以定期預(yù)測蛋白質(zhì)結(jié)構(gòu)的計算方法,即使在沒有類似結(jié)構(gòu)的情況下也能達到原子精度。AlphaFold 的基礎(chǔ)是一種新的機器學(xué)習(xí)方法,將有關(guān)蛋白質(zhì)結(jié)構(gòu)的物理和生物知識納入深度學(xué)習(xí)算法的設(shè)計中,利用多序列排列的方式[48]。
AlphaFold2 通過結(jié)合新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Evoformer和基于蛋白質(zhì)結(jié)構(gòu)的進化、物理和幾何約束的訓(xùn)練程序,大大提高了結(jié)構(gòu)預(yù)測的準(zhǔn)確性。提出了一個聯(lián)合嵌入多序列排列(MSA)和成對特征的新架構(gòu),一個新的輸出表示和相關(guān)損失,使準(zhǔn)確的端到端結(jié)構(gòu)預(yù)測成為可能,一個新的等價注意力架構(gòu),使用中間損失來實現(xiàn)預(yù)測的迭代完善,屏蔽MSA 損失來與結(jié)構(gòu)聯(lián)合訓(xùn)練,使用自我蒸餾和自我估計準(zhǔn)確性從無標(biāo)簽的蛋白質(zhì)序列學(xué)習(xí)。Evoforme 是將蛋白質(zhì)結(jié)構(gòu)的預(yù)測視為三維空間中的圖推理問題,其中圖的邊緣是由相近的殘基定義。
BAEK 等探索了基于DeepMind 框架的網(wǎng)絡(luò)架構(gòu)。他們使用了一個三軌網(wǎng)絡(luò)來同時處理序列、距離和坐標(biāo)信息,并取得了接近DeepMind 的精度。通過RoseTTA折疊方法可以解決具有挑戰(zhàn)性的X 射線晶體學(xué)和低溫電子顯微鏡建模問題,并產(chǎn)生準(zhǔn)確的 “蛋白質(zhì)-蛋白質(zhì)” 復(fù)合物模型[49]。通過應(yīng)用AlphaFold2[50],顯著擴大了蛋白質(zhì)組的結(jié)構(gòu)覆蓋范圍,其規(guī)模幾乎涵蓋了整個人類蛋白質(zhì)組(98.5%的人類蛋白質(zhì))。由此產(chǎn)生的數(shù)據(jù)集涵蓋了58%的殘基,其中一個子集(占所有殘基的36%)具有非常高的置信度。同時在AlphaFold 模型基礎(chǔ)上開發(fā)了用于解釋數(shù)據(jù)集的指標(biāo)。AlphaFold2從多序列排列(MSA)中編碼的共同進化關(guān)系中預(yù)測蛋白質(zhì)結(jié)構(gòu)。盡管最近準(zhǔn)確率大幅提高,但仍有3 個挑戰(zhàn):①預(yù)測無法生成MSA 的孤兒和快速進化的蛋白質(zhì);②快速探索設(shè)計的結(jié)構(gòu);③了解溶液中自發(fā)多肽折疊的規(guī)則[1]。提出了一個端到端的可區(qū)分的遞歸幾何網(wǎng)絡(luò)(RGN),能夠在不使用MSA 的情況下從單個蛋白質(zhì)序列預(yù)測蛋白質(zhì)結(jié)構(gòu)。這個深度學(xué)習(xí)系統(tǒng)有兩個新的元素:一個是蛋白質(zhì)語言模型(AminoBERT),它使用轉(zhuǎn)化器從數(shù)以百萬計的未對齊的蛋白質(zhì)中學(xué)習(xí)潛在的結(jié)構(gòu)信息;另一個是幾何模塊,緊湊地表示Cα骨架幾何。RGN2 在孤兒蛋白上的表現(xiàn)優(yōu)于AlphaFold2和RoseTTAFold(以及trRosetta),并在設(shè)計序列上具有競爭力,同時在計算時間上實現(xiàn)了106 倍的減少。
作物育種的一個重要組成部分是在環(huán)境適應(yīng)和現(xiàn)代管理實踐的背景下清除有害等位基因。過去30 年,被概括為育種3.0 時代,見證了標(biāo)記輔助選擇、關(guān)聯(lián)分析和基因組預(yù)測的巨大勝利。值得注意的是,育種3.0時代標(biāo)記輔助育種中使用的遺傳變異不一定是農(nóng)藝性狀的因果變異。當(dāng)育種者有能力大規(guī)模預(yù)測因果有益和有害變異時,可以通過編輯將有益等位基因直接引入優(yōu)良種質(zhì),而不是通過在連鎖位點攜帶有害等位基因的另一個供體親本回交。同樣,可以通過編輯有效地從基因組中清除有害等位基因。模擬研究表明,通過使用基因組編輯將有益的變異引入基因組,可以顯著加速牲畜的育種。然而,由于基因型與環(huán)境之間的相互作用在作物物種中比在牲畜中更為突出,等位基因效應(yīng)(無論是有害的、有益的還是適應(yīng)性的)在作物物種中更具挑戰(zhàn)性。理想情況下,特定于環(huán)境的模型或?qū)h(huán)境因素作為額外輸入的模型將緩解這個問題。因此,可以合理地將深度學(xué)習(xí)模型預(yù)測的功能變異概念化為下一個育種時代的關(guān)鍵,即育種4.0,其中作物物種的遺傳改良在很大程度上取決于基因組編輯[4]。
在進行這種通過編輯繁殖的方法時,我們并不僅限于自然界中已知的有益變體。相反,我們享有完全的自由,可以根據(jù)我們的深度學(xué)習(xí)模型對感興趣的生物過程的 “理解” 來創(chuàng)建新穎的有益等位基因。例如,編輯番茄CLAVATA3 基因(SlCLV3)啟動子[51]以增加果實大小并優(yōu)化花序分枝[52]。由于SlCLV3 啟動子中缺乏功能注釋,飽和啟動子誘變采用CRISPR/Cas9 系統(tǒng),然后選擇具有理想果實和花序特征的突變體。未來,通過從啟動子序列預(yù)測基因表達水平的深度學(xué)習(xí)模型,可以通過單核苷酸分辨率的顯著性評分識別SlCLV3 啟動子上的關(guān)鍵順式元件,預(yù)測它們對SlCLV3基因的功能喪失影響表達,然后實施模型引導(dǎo)的啟動子編輯。
創(chuàng)建具有特定功能的新基因組元素的另一種方法是在合成生物學(xué)中應(yīng)用生成模型。例如,在學(xué)習(xí)現(xiàn)有啟動子的突變空間后,可以訓(xùn)練模型以創(chuàng)建具有時空特異性的新啟動子。然而,盡管變分自編碼器和生成對抗網(wǎng)絡(luò)等生成模型最近引起了廣泛關(guān)注,但它們在合成生物學(xué)中的潛在應(yīng)用仍然相當(dāng)有限。一個例子是應(yīng)用GAN 來生成編碼抗菌肽的合成DNA 序列[53]。
變異自動編碼器(VAEs)和GANs 是在深度學(xué)習(xí)領(lǐng)域出現(xiàn)的兩種強大的生成方法。VAEs 是具有額外分布假設(shè)的自動編碼器,使其能夠生成新的隨機樣本。當(dāng)前自動編碼器已被用于填補缺失數(shù)據(jù),提取基因表達特征,檢測微陣列數(shù)據(jù)和大量RNA,以尋找有意義的概率潛在表示[54]。自動編碼器通常用于插補、降維和表征學(xué)習(xí)。因此,自編碼器可以作為將映射從高維數(shù)據(jù)空間轉(zhuǎn)換為低維特征空間的有效手段,從而提高聚類結(jié)果[55]。為了描述遺傳對基因表達的影響,文獻[56]建立了一個深度自動編碼器模型來評估良好的遺傳變異對基因表達變化的影響。文獻[57]提出了Adversarial Deconfounding AutoEncoder(AD-AE)方法去混淆基因表達潛在空間。通過聯(lián)合訓(xùn)練網(wǎng)絡(luò)生成嵌入,這些嵌入可以編碼盡可能多的信息,而不會編碼任何混雜信號。通過將AD-AE 應(yīng)用于兩個不同的基因表達數(shù)據(jù)集,表明該模型可以:①生成不編碼混雜信息的嵌入;②保存原始空間中存在的生物信號;③在不同的混雜域。
GANs 被認(rèn)為是一種完全不同的生成模型的方法,它涉及兩個神經(jīng)網(wǎng)絡(luò),一個鑒別器和一個發(fā)生器網(wǎng)絡(luò)。它們被聯(lián)合訓(xùn)練,其中生成器旨在生成真實的數(shù)據(jù)點,而判別器則對給定樣本是真實的還是由生成器生成的進行分類。GAN 已經(jīng)被用來生成蛋白質(zhì)編碼的DNA 序列[53],并為蛋白質(zhì)結(jié)合微陣列設(shè)計DNA 探針。GANs能夠生成優(yōu)于訓(xùn)練數(shù)據(jù)集中的序列,以更高的蛋白質(zhì)結(jié)合親和力來衡量[58]。在單細(xì)胞基因組學(xué)領(lǐng)域,GANs已被用于模擬scRNA-seq 數(shù)據(jù)和降維[59]。此外,作者通過擾動解釋了GANs 的內(nèi)部表示。在MAGAN143 中,作者使用一個由兩個GANs 組成的架構(gòu)解決了來自不同領(lǐng)域的數(shù)據(jù)集,即CyTOF 數(shù)據(jù)和scRNA-seq 數(shù)據(jù)的對齊這一挑戰(zhàn)性問題。使用生成模型來創(chuàng)建新的DNA元件、基因,甚至具有所需功能的調(diào)節(jié)回路,并將它們應(yīng)用于作物改良將成為未來育種的發(fā)展重點之一。
本研究對近年來深度學(xué)習(xí)在植物基因組和作物育種研究領(lǐng)域的最新進展進行了總結(jié)梳理??傮w來看,深度學(xué)習(xí)在基因組學(xué)研究諸多領(lǐng)域方向上取得了比傳統(tǒng)方法更好的效果,深度學(xué)習(xí)在基因組學(xué)中的應(yīng)用已經(jīng)產(chǎn)生了具有科學(xué)和經(jīng)濟意義的早期應(yīng)用。深度學(xué)習(xí)的優(yōu)勢主要體現(xiàn)在兩個方面:①端到端學(xué)習(xí),能夠?qū)⒍鄠€預(yù)處理步驟整合到一個模型中;②多模態(tài)數(shù)據(jù)處理能力,可處理基因組學(xué)中極其異質(zhì)的數(shù)據(jù),包括序列、計數(shù)、質(zhì)譜強度和圖像。深度學(xué)習(xí)為基因組學(xué)與作物育種的研究拓展了全新的研究視角,隨著算法精度不斷提高,為促進表型與基因型組學(xué)的不同尺度關(guān)聯(lián)研究帶來新的機會。
深度學(xué)習(xí)當(dāng)前已經(jīng)在基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和合成生物學(xué)等領(lǐng)域取得諸多進展,可以為作物育種和植物基因組學(xué)領(lǐng)域提供強大驅(qū)動力,如完善基因組功能注釋、挖掘新功能基因、預(yù)測植物表型、發(fā)現(xiàn)基因、RNA、蛋白質(zhì)等物質(zhì)的新分類模式,指導(dǎo)基因編輯。如何進一步將揭示與分子表型或終末性狀相關(guān)遺傳位點的關(guān)聯(lián)作圖與從DNA 到分子表型信息流模型相結(jié)合,了解表型變異背后的因果變異,實現(xiàn)因果變異的優(yōu)先級排序,提高表型預(yù)測準(zhǔn)確性,進而加速遺傳增益仍然是未來作物育種工作的巨大挑戰(zhàn)。深度學(xué)習(xí)模型發(fā)展的巨大進步是分子表型預(yù)測,以及這些模型在通過連鎖不平衡的計算機中斷發(fā)現(xiàn)功能變異中的應(yīng)用。研究用于全基因組識別有害和適應(yīng)性變異的深度學(xué)習(xí)方法,是未來農(nóng)業(yè)中基于編輯的作物遺傳改良的先決條件。綜上所述,深度學(xué)習(xí)為植物基因組學(xué)與作物育種的研究帶來了巨大的機遇,為相關(guān)研究與應(yīng)用提供新思路。深度學(xué)習(xí)模型可以極大地推動對終端表型的基因組變異的理解,并有希望應(yīng)用于作物改良研究與實踐中。