張冀東,王志晗,劉 博
(北京工業(yè)大學信息學部,北京 100124)
核酸與蛋白質是生物學研究中2個重要的研究領域.核酸是脫氧核糖核酸(deoxyribonucleic acid, DNA)和核糖核酸(ribonucleic acid, RNA)的總稱.其中,具有遺傳效應的DNA片段稱為基因.基因與許多生物過程高度相關,在相關研究中,基因表達是研究基因的重要領域之一,它是指將來自基因的信息用于合成功能基因產(chǎn)物的過程[1-2].測序作為研究基因表達的重要手段,為直接觀測DNA及RNA信息提供便利,加快了生物學和醫(yī)學的研究與發(fā)現(xiàn)[3].在生物學與醫(yī)學等研究領域中,獲取DNA與RNA序列信息已成為必不可少的基礎研究技術,包括診斷癌癥在內(nèi)的多種疾病[4],同時也可以用于表征抗體庫[5-6],識別和分類更多的生物[5].RNA測序常用來分析不斷變化的基因轉錄過程[7-8].基因表達的差異[9],除了信使RNA(mRNA)轉錄本,RNA測序還可查看不同的RNA群體[10].RNA測序的最新進展包括單細胞測序和固定組織的原位測序[11].現(xiàn)代高通量測序技術的大力發(fā)展,尤其是二代測序技術,使以核酸序列為基礎的基因數(shù)據(jù)可以大規(guī)模產(chǎn)出,為生物信息分析提供了大量的數(shù)據(jù)與可靠的技術支持,也使得相關大數(shù)據(jù)的準確快速處理顯得尤為重要.
蛋白質作為生物研究領域重要組成部分之一,隨著生物技術不斷的發(fā)展,其數(shù)據(jù)規(guī)模也不斷增大.自1997年起,蛋白質研究領域中又分出一個重要的研究方向,即蛋白質組學.它是對蛋白質尤其是在結構和功能上的大規(guī)模性質的研究.蛋白質組會隨著時間的推移及環(huán)境的不同而產(chǎn)生變化[12],使得基礎的蛋白質組也需要被鑒定.在早期的蛋白質研究中,往往依靠RNA分析來完成相關研究[13-14],但是RNA并不是總跟蛋白質相關,已知的mRNA中也有不參與翻譯蛋白質過程的.蛋白質組學的出現(xiàn),為蛋白質直接度量提供了依據(jù).蛋白質組學主要是從定性和定量2個方面對蛋白質進行研究.利用相關技術會產(chǎn)生大量的原生數(shù)據(jù),經(jīng)過復雜的處理與注釋,便成為帶有蛋白質信息的生物信息數(shù)據(jù).
綜上所述,生物序列數(shù)據(jù)主要包含核酸和蛋白質數(shù)據(jù).這類數(shù)據(jù)往往具有數(shù)量大、維度高、相關性較為復雜等特點.傳統(tǒng)生物學分析方法的綜合分析能力較低,相關性較差,結果不準確,分析速度慢,對操作人員要求較高,往往需要富有經(jīng)驗的專家進行操作,因此,制約了現(xiàn)代生物學領域的研究發(fā)展.鑒于此,生物信息數(shù)據(jù)的快速處理及綜合準確分析引起了廣泛的關注.
近年來,基于大數(shù)據(jù)處理的另一研究領域——深度學習技術脫穎而出,作為交叉學科也逐漸應用在生物信息領域,并開始成為生物信息研究熱點.2006年,深度學習概念首次出現(xiàn)在機器學習的研究中[15].它是基于深度神經(jīng)網(wǎng)絡的一系列機器學習技術[16],最早稱為層次學習,在模式識別相關領域中有許多研究.不同于傳統(tǒng)機器學習,深度學習更加關注從原始數(shù)據(jù)和低級數(shù)據(jù)中抽取特征,無需過多、復雜的數(shù)據(jù)特征預處理技術.深度學習可以利用多層次的結構,通過非線性處理抽取抽象特征結構.多層非線性處理指當前層將前一層的輸出作為下一層的輸入,在層之間建立起層次結構以判斷數(shù)據(jù)的有用或無用.深度學習可以將復雜的數(shù)據(jù)轉化為計算機可學習的表示方式,并從中抽取潛在的高維數(shù)據(jù)特征.這種抽取大型數(shù)據(jù)潛在隱含信息的能力是深度學習的主要優(yōu)勢.因此,近年來將深度學習技術應用于大數(shù)據(jù)量基因與蛋白質相關領域的研究得到了快速的發(fā)展,并取得了重要的研究成果,也成為目前2門學科的發(fā)展熱點.本文就深度學習在生物大數(shù)據(jù)處理方面的優(yōu)勢和特點及其在基因與蛋白質領域中的重要研究成果進行梳理與闡述,并展望未來的發(fā)展前景.
伴隨著圖形計算等硬件的飛速發(fā)展,眾多深度學習模型已應用于計算機視覺[17]、機器視覺[18]、語音識別[19]、自然語言處理、音頻識別[20]、社交網(wǎng)絡過濾和機器翻譯等領域,甚至在某些特定場景下的表現(xiàn)超出人們的預期[21].這些證明了其強大的功能和廣泛的適用性.當前主要應用于生物數(shù)據(jù)研究領域中的2種經(jīng)典深度學習模型為循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, RNN)和卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN).除這2種主流神經(jīng)網(wǎng)絡模型外,近幾年圖卷積網(wǎng)絡(graph convo-lutional network, GCN)也逐漸應用于蛋白質的相關分析之中.本文將以這3個神經(jīng)網(wǎng)絡模型作為重點進行介紹.
CNN已經(jīng)廣泛應用于生物信息數(shù)據(jù)的分析之中,如在染色體的可及性、DNA與RNA結合蛋白的結合位點預測以及甲基化等任務中都具有良好的表現(xiàn).CNN首先由LeCun等[22]提出,其設計的初衷是為了處理網(wǎng)格化的數(shù)據(jù),主要的數(shù)據(jù)對象為傳統(tǒng)圖像數(shù)據(jù).CNN中比較重要的特征處理方法為卷積、激活和池化.經(jīng)過卷積運算后的特征,會由激活函數(shù)進行激活操作,常見的CNN中激活函數(shù)多為非線性映射函數(shù),而后模型會對激活后的特征進行池化操作.池化是一種降采樣技術,可以降低特征圖或者特征向量的尺寸.以圖像為例,該方法會降低特征圖的分辨率,過濾冗余細節(jié)并在提取潛在高維特征的同時,擴大感受野,捕捉更多的特征.一個卷積層中對輸入數(shù)據(jù)的特征提取完成后,會輸入到下一個卷積層對已經(jīng)得到的特征圖進行更進一步的高維特征捕捉,堆疊多個卷積層,逐步構建成一個完整的CNN.同時,通過反向傳播,不斷以自學習的方式更新濾波器中的特征權重,完成對輸入數(shù)據(jù)的分析并根據(jù)現(xiàn)實任務做出相應預測.
另一種常見的深度學習模型是RNN.生物信息領域中,RNN往往是通過與CNN配套使用來發(fā)現(xiàn)CNN分析后的數(shù)據(jù)中遠距離依賴等問題.RNN也有眾多變體,如長短期記憶(long short-term memory, LSTM)模型[23]、門控循環(huán)單元(gated recurrent unit, GRU)等.RNN的出現(xiàn)是為處理序列數(shù)據(jù)的信息,尤其經(jīng)常用在處理類似于語言文字等前后存在關聯(lián)性的數(shù)據(jù).RNN由輸入層、隱藏層和輸出層組成.相對于CNN等其他深度學習模型,RNN輸入信息不只有當前輸入值,還有上一次的輸出值和其對應的權重矩陣,從而使得這一次的輸出結果包含著上一層單元的處理信息.RNN本身也可以利用反向傳播算法對權重矩陣進行更新.
GCN是近2年以來極為受人矚目的一種圖神經(jīng)網(wǎng)絡,逐漸被用于生物非歐氏數(shù)據(jù)分析之中,例如分析生物有機大分子物質的空間結構.早期GCN借鑒了RNN的方式進行節(jié)點信息的聚合[24-25]以提取數(shù)據(jù)特征,然而這種方式會造成網(wǎng)絡開銷過大、模型效能降低等問題.得益于CNN的成功表現(xiàn),將卷積算法與圖神經(jīng)網(wǎng)絡融合,發(fā)展成為GCN.與之對應的圖卷積運算主要分為2類:譜圖卷積和空域圖卷積[26].譜圖卷積是利用圖傅里葉變換操作原始數(shù)據(jù)使之滿足卷積定理,實現(xiàn)卷積操作[27],隨后一些研究者又在此基礎上進行了改進[28-29].但是,譜圖卷積也存在著一些問題,例如只能處理無向圖等.這使得對于圖卷積的研究重新回到了空域研究上,如傳播CNN[30]以及結合注意力機制[31]的圖注意力網(wǎng)絡[32].空域圖卷積模型主要是參考傳統(tǒng)CNN的方式在空域上對節(jié)點信息進行融合以實現(xiàn)對數(shù)據(jù)的分析.
生物學領域利用測序、質譜等分析方法獲取相關數(shù)據(jù),經(jīng)過清洗、標注后可以利用深度學習模型進行預測分析.利用深度學習分析數(shù)據(jù)的一般框架如圖1所示.本文將從核酸與蛋白質領域對深度學習在生物信息技術中的應用研究現(xiàn)狀進行分析.
圖1 深度學習在生物學領域的應用
在核酸領域的研究中,多是面向DNA和RNA測序結果的研究.DNA是組成基因的主要組成單位,而RNA是由DNA轉錄而來,這些序列都包含許多重要的生物信息.然而,利用傳統(tǒng)生物學實驗的方式,需要通過合成其對應蛋白質并檢測其功能來推測原始DNA的作用,這使得基因分析與研究往往過分冗長且要消耗巨大的人力物力.DNA序列本身數(shù)據(jù)量也較為龐大且復雜.以人類全染色體組中的DNA數(shù)據(jù)為例[33],最多的有將近50萬條數(shù)據(jù),最少的也有11萬條數(shù)據(jù).數(shù)據(jù)中包含編碼區(qū)與非編碼區(qū)等功能區(qū)域,如果對這些區(qū)域進一步細分,將會產(chǎn)生更具體的DNA數(shù)據(jù),如內(nèi)含子區(qū)域、外顯子區(qū)域等.RNA序列信息盡管相對DNA數(shù)據(jù)量較少,但數(shù)據(jù)量也相當可觀.以ELAVL1蛋白質結合位點來說[34],就有約25萬條數(shù)據(jù).基于此,利用以數(shù)據(jù)驅動的深度學習模型分析預測基因序列的功能作用逐漸成為研究熱點,也取得很多重要的研究成果.本文總結了一部分公開數(shù)據(jù)集,如表1所示.
表1 部分公開的核酸數(shù)據(jù)集
2015年,Alipanahi等[36]在專業(yè)學術期刊NatureBiotechnology上提出了DeepBind模型,該模型將深度CNN應用于分析預測DNA、RNA與蛋白質結合的研究之中.它利用16個濾波器的卷積層,在DNA或者RNA序列上以步長為1、大小為24的窗口進行滑動掃描的方式來進行特征分析.在確定DNA結合蛋白序列特異性方面,該項研究使用了DREAM5 TF-DNA Motif Recognition Challenge中的蛋白質微陣列(protein binding microarrays, PBM)數(shù)據(jù)進行測試.DeepBind得到了在所有算法中最好的測試結果,并且在對體內(nèi)得到的實驗數(shù)據(jù)分析預測中,DeepBind也得到了最高分數(shù).在識別RNA蛋白質結合位點方面,用了不同生物的RNA蛋白質結合位點數(shù)據(jù)進行預測,也進行了將體外數(shù)據(jù)訓練模型應用于體內(nèi)數(shù)據(jù)預測的實驗,DeepBind在2種實驗中都得到了較好的結果.DeepBind也可用于分析基因變異的影響,并通過突變圖譜實現(xiàn)可視化.在實驗中,DeepBind能夠預測啟動子中是否發(fā)生了可能致病的單核苷酸變異.DeepBind模型的出現(xiàn),提供了利用神經(jīng)網(wǎng)絡分析DNA、RNA與蛋白質結合位點的新思路.
2015年,Zhou等[37]提出了DeepSEA模型,該模型適用于對表觀遺傳學的研究,主要應用于轉錄因子、核酸酶超敏感位點和組蛋白修飾及異構體的研究.它對大量已獲得的染色體修飾數(shù)據(jù)進行學習,經(jīng)過不斷的訓練,捕獲序列特征,進而預測序列上堿基的突變對染色體修飾功能造成的影響.該模型由3層CNN和2層全連接層構成,卷積層每層分別有320、480和960個卷積核.在對轉錄因子等數(shù)據(jù)集的分析上,曲線下面積(area under curve,AUC)達到了0.958,取得了良好的分析效果.最后,作者對模型進行擴展,對多種基因突變數(shù)據(jù)集進行分類,其效果均優(yōu)于非深度學習的方法.
Pan等[38]設計了iDeep模型,該模型利用CNN分析RNA序列信息,同時利用深度信念網(wǎng)絡來分析RNA的結構信息,最終將2類信息融合用以分析預測RNA的結合位點和基序.該模型主要是利用神經(jīng)網(wǎng)絡,同時分析了RNA序列與蛋白質的結合位點的序列信息與RNA的結構信息.2018年,iDeep模型進一步提升,iDeepS模型被提出[39].將iDeep中原有的深度信念網(wǎng)絡舍棄,換為CNN.主體是由2個并行的CNN與1個RNN構成,2個CNN中,一個分析序列信息,另一個分析RNA對應的結構信息,融合2個卷積分支的輸出,得到新的特征向量.該特征向量將會通過LSTM模型來分析其中遠距離依賴關系后得到最終結果.iDeepS在與DeepBind模型比較中,多項數(shù)據(jù)取得了更好的分析效果.
韓國技術科學院Chung等[40]提出了利用多個卷積模型、多尺度濾波器的方式分析RNA結合蛋白的結合位點序列與結構信息的模型.該模型在AUC評價標準中取得了不錯的表現(xiàn).這些都展現(xiàn)了深度學習在DNA、RNA與蛋白質結合分析中的良好的分析預測能力.
2017年,DeepCpG的提出實現(xiàn)了利用深度學習對單細胞水平下DNA甲基化的預測[41].該模型利用Bi-GRU學習胞嘧啶和鳥嘌呤雙核苷酸信息,并利用CNN學習DNA序列信息.將2個網(wǎng)絡獲取的特征進行拼接后再由2層全連接層獲得最終結果.
完善發(fā)展治江思路,開展治江重大課題研究。面對嚴峻的治江形勢和艱巨的工作任務,作為水利部派出的流域管理機構,長江委堅定不移地貫徹科學發(fā)展觀和可持續(xù)發(fā)展治水思路,按照國務院批復的 《長江流域綜合規(guī)劃》(以下簡稱長流規(guī))和長江水利發(fā)展戰(zhàn)略確定的目標和任務,緊密結合流域實際,廣泛深入調(diào)查研究,切實加強頂層設計,開展治江重大課題研究,著力強化信息化等基礎工作,進一步完善和發(fā)展新時期治江思路,統(tǒng)籌推進長江治理開發(fā)與保護,為經(jīng)濟社會可持續(xù)發(fā)展提供了可靠保障。
在核酸其他領域中,深度學習也有著不錯的表現(xiàn),例如遺傳變異分析.2018年,谷歌公司在NatureBiotechnology提出一種檢測變異基因的深度學習模型DeepVariant[42],提供了利用CNN處理分析基因中突變部分的新的解決思路.該方法創(chuàng)新性地將圖像識別技術與基因突變分析結合起來,取得了良好的效果.該模型示意圖如圖2所示.
圖2 DeepVariant模型的分析流程
在DeepVariant模型中,將測序結果與標準基因組作為對比,對比后的結果以紅綠藍圖像保留.該模型為這種圖像上3個通道的值重新做了定義,即紅色通道為DNA的序列中的堿基,綠色通道為測序結果質量,藍色通道為其他相關特征值.這些結果被分為三大類:與參考相同、雜合型、純合變異.這些數(shù)據(jù)組成訓練集與測試集,利用CNN進行分析預測.這樣做的好處是巧妙地將對基因序列突變問題分析轉變?yōu)閷D像的分類操作,并且同時綜合了堿基、測序質量值等指標.由于是將該問題轉化為了圖像的分類問題,所以可以利用圖像領域中成熟的神經(jīng)網(wǎng)絡模型進行訓練,如Inception v3[43]網(wǎng)絡模型等.在與傳統(tǒng)的變異檢測方法比較中,DeepVariant在F1得分、召回率上都取得了良好的表現(xiàn).
核酸領域另一個不可忽視的研究方向就是對DNA剪切位點的研究.DNA剪切位點是DNA打開雙螺旋進行轉錄的初始位置,也是基因編輯的重要編輯位點.同時,檢測DNA剪切位點也是反映DNA中基因變異的重要手段.當基因突變發(fā)生時,人體的DNA剪切位點相對于標準基因組的位置會發(fā)生改變甚至不表達.因此,快速查找出DNA中的剪切位點對于生物學核酸領域研究具有十分重要的意義.2019年,Jaganathan等[44]在Cell上提出了一個基于殘差網(wǎng)絡模型[45]的DNA剪切位點檢測模型SpliceAI.在該模型中,考慮轉錄部分對檢測查找剪切位點影響的同時將不參與轉錄的非編碼區(qū)中的邊翼序列也添加進訓練集,從而將非編碼區(qū)域對于編碼區(qū)影響的關系特征也添加進模型之中.但是,目前這種非編碼區(qū)的序列只考慮其存在的長度并不考慮其中具體的堿基序列.根據(jù)編碼區(qū)兩側邊翼序列的總體長度,將模型分成了4類,即SpliceAI-80nt、SpliceAI-400nt、SpliceAI-2k和SpliceAI-10k.在具體的模型實現(xiàn)中,SpliceAI參考了殘差網(wǎng)絡模型,設計了殘差模塊,由于數(shù)據(jù)維度高、體量大,放棄了傳統(tǒng)池化層,利用空洞卷積擴大感受野.同時,為了更加具體地表現(xiàn)模型效果,利用了Top-k準確率作為評價標準.該評價標準是指特定某個指標的預測值與其對應真實值相同的數(shù)據(jù)量占該指標總體預測數(shù)據(jù)總量的百分比.最后,利用人類染色體數(shù)據(jù)對各個模型進行測試,其中表現(xiàn)最好的是SpliceAI-10k,Top-k準確率為0.95,最差的為SpliceAI-80nt,Top-k準確率為0.50.從上述數(shù)據(jù)結果來看,非編碼區(qū)的邊翼序列確實會對剪切位點甄別帶來影響[44].
目前,在利用深度學習分析核酸序列的研究中,多是運用類比圖片的方式,將DNA、RNA中4種不同的堿基對應卷積中的4種信道,再利用一維卷積進行分析.不同的研究區(qū)別在于分析預測的目標不同.在這些研究中,DeepVariant有效地將圖像分析方式與DNA分析進行了結合,打開了對于核酸序列分析的新思路.
基于近年來的研究成果,本文總結了在基因領域應用較多的幾種深度學習的常用模型,并就其模型基礎以及應用目標進行了分類,具體的應用情況如表2所示.
表2 深度學習在核酸領域的應用
深度學習也逐漸應用到了蛋白質的研究中.蛋白質的相關數(shù)據(jù)包括肽段質譜圖、蛋白質有機高分子等數(shù)據(jù)集,而蛋白質有機高分子數(shù)據(jù)集又包含蛋白質互作網(wǎng)絡數(shù)據(jù)集、蛋白質結構數(shù)據(jù)集(protein data bank,PDB)以及蛋白質對接基準數(shù)據(jù)集等.以PDB[46-47]和UniProt[48]為例,PDB中包含15萬多個蛋白質結構數(shù)據(jù),而UnitProt中共包含了約17萬個蛋白質結構數(shù)據(jù).本文對相關公開數(shù)據(jù)集進行了一定的匯總,如表3所示.與核酸研究類似,面對如此龐大的數(shù)據(jù),作為數(shù)據(jù)導向的深度學習方法逐漸成為了研究熱門.
表3 部分公開的蛋白質數(shù)據(jù)集
肽段的定量與定性分析是蛋白質組學中一項重要的研究內(nèi)容,而這些分析又與其本身的質譜特征提取和理化性質密不可分.常見的分析方法為液相色譜分析,主要觀測肽段色譜的保留時間.該保留時間一般是由其理化性質決定的,這往往需要對其理化性質進行進一步研究.因此,出現(xiàn)了很多推算其保留時間的算法,例如LUDE、GPTime等.但是,這些方法往往誤差較大,對實際的推算造成了一定困難.鑒于這種情況,Ma等[49]提出了一種名為 DeepRT的模型.該模型基于CNN和RNN,從肽序列中自動學習特征,無須使用手工特征或設計規(guī)則.特征學習后,使用主成分分析(principal component analysis, PCA)方法進行降維,然后,使用3種常規(guī)的機器學習方法進行建模.該項研究使用2個已發(fā)布的數(shù)據(jù)集來評估DeepRT的性能,并且證明DeepRT的性能大大優(yōu)于目前已知的幾種常規(guī)方法.
液相色譜分析中對于特征提取的敏感度也是影響最終分析的重要因素.Zohora 等[50]提出的DeepIso由2個單獨的基于深度學習的模塊組成,可通過多層神經(jīng)元來學習高維數(shù)據(jù)本身的多個表示形式,并適用于新獲取的數(shù)據(jù).該模型預測肽段的特征列表與基準數(shù)據(jù)集中對比實驗結果達到了97.43%的高質量標識相匹配成功率.這些研究表明新穎的深度學習工具對蛋白質鑒定和定量方面的研究起到了一定的推進作用.
2020年,Alphafold在對蛋白質折疊的問題上取得了良好的效果[51].蛋白質作為維持生命所必需的生物大分子,其特有的空間結構往往決定了它的功能特性.例如,抗體蛋白通常為Y型,便于鎖定病毒和細菌.但是,蛋白質的空間結構是極為復雜的,解析氨基酸殘基形成的長鏈通過折疊形成的蛋白質結構,成為了一項重要的研究內(nèi)容.Alphafold通過利用CNN,對氨基酸之間的距離以及其化學鍵的角度進行學習,給出一個推薦結構,再利用梯度下降算法調(diào)整優(yōu)化整個結構預測結果.該方法利用深度學習方法,大大縮短了確定蛋白質結構的時間,在蛋白質研究方面具有重大的應用價值.
隨著圖卷積的迅猛發(fā)展,利用圖卷積分析蛋白質的相關研究也逐漸增多.ProteinGCN[52]是一種基于圖卷積方法對蛋白質空間結構進行分析的模型,模型示意圖如圖3所示.該模型能夠在最新水平的蛋白質模型中實現(xiàn)較高的預測精度.此外,與之前提出的3D卷積網(wǎng)絡相比,ProteinGCN中的自由參數(shù)數(shù)量少了1~2個數(shù)量級,不僅在蛋白質的空間結構上,而且在對蛋白質界面的分析中也會應用到圖卷積.蛋白質界面預測在藥物發(fā)現(xiàn)和設計中有重要的應用.Fout等[53]利用圖卷積分析了蛋白質的三級結構,并將得到的信息用于分析界面殘基之中,該方法顯著優(yōu)于常用預測手段.
圖3 ProteinGCN模型分析流程圖
在蛋白質的有關研究中,主要是利用CNN對蛋白質相關數(shù)據(jù)進行分析,以Alphafold為代表取得不錯的效果.根據(jù)數(shù)據(jù)類型的不同,采用的CNN也略有不同.對于質譜圖等圖像分析,多采用二維CNN,而對于蛋白質序列的分析多采用一維CNN.新興的GCN多用于研究蛋白質結構信息,隨著技術的逐漸成熟,蛋白質未來發(fā)展將會逐漸向圖卷積方向靠攏.
基于最近的研究成果,本文總結了在蛋白質領域應用較新的幾種深度學習模型,并就其模型基礎以及應用目標進行了分類,具體的應用情況如表4所示.
表4 深度學習在蛋白質領域中的應用
無論是在核酸領域還是在蛋白質領域,利用深度學習對生物數(shù)據(jù)進行分析仍處于發(fā)展階段.深度學習應用在生物學領域的最終目標是利用計算機強大的計算能力模擬復雜繁重的生物學實驗過程,以期加快實驗研究進展,但由于深度學習方法自身因素以及生物信息領域中的限制,距這一目標的實現(xiàn)還有較遠的距離.現(xiàn)階段,深度學習在生物信息分析中仍存在應用局限性,具體體現(xiàn)在以下幾方面.
數(shù)據(jù)對于深度學習是最重要的實驗基礎,但生物數(shù)據(jù)具有高度的復雜性,使得深度學習在生物學中只能對單一目標進行分析.在基因數(shù)據(jù)中,描述一段基因,可以利用其序列信息、表達值信息、變異信息等,而這些信息之間可能又存在著相互關聯(lián).但是就目前深度學習分析而言,在綜合分析生物數(shù)據(jù)方面還存在著欠缺,無論是對于DNA、RNA結合蛋白的分析,抑或是對于剪切位點的分析,都是對于基因中單一目標進行分析預測.在這方面,谷歌公司提出的DeepVarint[42]是一個良好的嘗試,這種兼顧了基因序列與變異值的分析為將深度學習應用在基因分析之中提供了一個新思路、新方向.深度學習對于蛋白質分析的復雜性較高,主要是由于蛋白質本身信息體量較大,種類較多,例如大分子蛋白質結構的建模.
深度學習發(fā)展到今天,對優(yōu)質數(shù)據(jù)的需求度越來越高,對數(shù)據(jù)預處理技術的依賴性也隨之增大.生物數(shù)據(jù)具有高度的復雜性,使得對于相關數(shù)據(jù)的合理清洗與精確標注顯得尤為重要.但是,這種依賴性在生物學上反而成了一定程度上的制約.生物數(shù)據(jù)不同于一般的圖像、文字等數(shù)據(jù),需要生物相關專業(yè)人員進行分析與標注,這就無疑增加了利用深度學習分析數(shù)據(jù)的成本,在一定程度上不利于輕量化生物學實驗進程.盡管目前生物學數(shù)據(jù)有著一些公開數(shù)據(jù)庫,例如NCBI、Esembel 與 UCSC等,但是這些公開數(shù)據(jù)的預處理仍需要良好的生物學領域知識.目前,這一問題的解決方案更多是依靠深度學習中的遷移學習將公開數(shù)據(jù)集的分析結果遷移到某一生物學領域之中,但已有模型參數(shù)是否可以合理遷移也成為相關研究人員重點關注的問題.解決這一問題就需要將深度學習領域與生物學領域交叉發(fā)展,進一步深化,聯(lián)合制定更加具體的分析規(guī)則和程式化的分析方法.
深度學習本身的過程是一個“黑盒”的過程.在整個學習過程中,神經(jīng)網(wǎng)絡捕獲的是人類難以理解的高維特征,這會使得研究人員對于神經(jīng)網(wǎng)絡分析結果的可信度產(chǎn)生一定的懷疑.對于機器自學習捕獲的特征是否正確需要再利用其他技術進行驗證評判.在圖像分析任務中已經(jīng)有不少方法可用來可視化機器分析過程,以判斷機器是否捕獲到合理的特征信息.生物數(shù)據(jù)相對于二維數(shù)據(jù)圖像而言,序列化的核酸數(shù)據(jù)或者是三維的蛋白質結構數(shù)據(jù)難以通過直觀的方法對機器的學習過程進行展示,使得生物研究人員往往需要利用傳統(tǒng)生物學實驗加以驗證.隨著深度學習在生物學領域的不斷發(fā)展,已經(jīng)將可視化技術應用在了基因領域,例如采用Saliency Maps[54]等技術可用于解釋深度學習分析基因序列的過程.但特定任務的深度學習可解釋方法并不普適,需要對不同任務設計相應的解釋方案,實踐難度較大.
深度學習相對于傳統(tǒng)的機器學習,其優(yōu)勢在于可以利用復雜的多層次神經(jīng)網(wǎng)絡,依靠前向傳播與反向傳播,自行捕獲學習數(shù)據(jù)的隱藏特征,并且利用梯度下降等算法對參數(shù)進行優(yōu)化.這使得深度學習技術能夠適應多類型、復雜、體量較大的數(shù)據(jù),從而取得良好的預測效果.盡管深度學習在生物學領域中的應用仍處于起步階段,但利用深度學習方法進行生物數(shù)據(jù)的分析與預測將是未來生物信息技術發(fā)展的重要方向之一.
近幾年來,隨著深度學習領域的不斷發(fā)展,越來越多的新技術被應用到了核酸與蛋白質的分析之中.在核酸的研究領域中,目前應用最多的是CNN,無論是對染色體的可及性分析或者是對基因中存在的遺傳變異分析均有良好的表現(xiàn).但是,生物數(shù)據(jù)的復雜性和深度學習方法對數(shù)據(jù)預處理的高度依賴性同樣是不可忽略的.因此,應用深度學習方法對未來生物數(shù)據(jù)的分析應有以下幾點的考慮:
1)考慮算法的可遷移性.生物過程產(chǎn)生的數(shù)據(jù)復雜繁多,但是這些數(shù)據(jù)之間也存在著相關性.例如,在對蛋白質結構分析時,就應考慮是否可以利用同族蛋白質分析的深度學習模型進行遷移分析,加快分析進程.
2)加強2類領域交叉領域的發(fā)展.當前,生物數(shù)據(jù)的預處理對于深度學習研究人員仍是一大難題.因此,應深化交叉領域合作,制定一套程式化的分析方式,保證準確性的同時,縮短數(shù)據(jù)預處理的時間.生物研究人員也應對深度學習數(shù)據(jù)分析過程進行簡要了解,輔助生物科學的研究
3)加強新技術的應用.縱觀全文,可以發(fā)現(xiàn),大部分的生物數(shù)據(jù)分析研究依然停留在一維CNN.但是,在深度學習領域,也有更多的新模型不斷出現(xiàn),應及時跟進最新技術,發(fā)現(xiàn)新的研究熱點.
相信隨著深度學習技術與以生物序列分析為代表的生物信息技術之間融合程度的不斷加深,深度學習也將會成為生物數(shù)據(jù)分析的一個重要工具.