李佳楠,李 卓,滕小華,高興泉,唐 友,*
(1.吉林化工學院信息與控制工程學院,吉林吉林 132000;2.吉林農業(yè)科技學院電氣與信息工程學院,吉林吉林 132101)
蛋白質的亞細胞定位與其功能緊密相關,蛋白質只有處于正確的亞細胞位置才能維持細胞系統(tǒng)的正常運轉,蛋白質亞細胞定位研究不僅能夠幫助人們了解蛋白質的性質和功能和蛋白質之間的調控機制,還能為人們開發(fā)新藥物提供有效的參考信息。大多數(shù)蛋白質只能在細胞中的1個特定位置(如細胞核、細胞膜)發(fā)揮作用,然而一些其他的蛋白質可以在細胞中的幾個位置發(fā)揮作用。一個蛋白質想要正常的發(fā)揮功能,必須處于細胞中的一個或幾個特定的位置上,否則該蛋白質就會失效。自后基因組時代以來,產生了大量的蛋白質序列,單純依靠傳統(tǒng)的實驗方法進行蛋白質亞細胞定位十分的耗時、耗力。為了更加精準、快速解決蛋白質亞細胞定位問題,人們將研究方法從傳統(tǒng)的實驗手段逐步擴展到機器學習領域。鑒于此,筆者從蛋白質序列特征的刻畫、預測算法、算法評價3個方面闡述現(xiàn)階段蛋白質亞細胞定位預測的研究進展,總結蛋白質亞細胞定位預測方法方面取得的成果及需要不斷完善的3個方面(特征選擇、數(shù)據(jù)處理和改進算法),并提出了未來機器學習在提高預測性能方面的研究重點及重要意義。
圖1 蛋白質亞細胞定位預測應用框架Fig.1 Application framework of protein subcellular localization prediction
對國內外相關研究的分析顯示,機器學習領域的蛋白質亞細胞定位的發(fā)展基本可以分為5個階段:第1階段(2006—2010年)的工作主要集中在預測單位點的蛋白質亞細胞位置,但忽略了多位點蛋白質的存在。第2階段(2011—2013年)的工作主要集中在單位點和多位點蛋白質亞細胞位置的預測,但是大部分為多位點蛋白質開發(fā)的技術,在嘗試進行預測時卻將多位點的問題轉化為了單位點的問題。第3階段(2017—2018年)使用不同的特征提取技術,例如將基因本體(GO)信息融合到通用偽氨基酸組成(PseAAC)中,為多標簽蛋白質亞細胞定位開發(fā)出了許多的預測器。第4階段(2018—2020年)是在用預測器對特征提取后的特征向量進行預測之前,使用不同的數(shù)據(jù)平衡技術處理多標簽蛋白質亞細胞定位中的數(shù)據(jù)不平衡問題。第5階段(2020—2021年)通過優(yōu)化機器學習算法以及特征融合來提升預測的準確性,其中具有代表性的算法有深度學習和集成學習。
很多研究者在闡述關于蛋白質亞細胞定位的相關研究時,都用到了Chou的五步法則:①有效構建優(yōu)質的基準數(shù)據(jù)集用于模型/分類器的訓練與預測;②從蛋白質樣本中提取可用于區(qū)分不同類別的蛋白質的相關特征;③采用或設計1個優(yōu)異的分類算法,用于預測各自類別中的不同蛋白質;④選擇1個合適的驗證方法直觀的評價分類模型的有效性;⑤構建1個可公開訪問的用戶友好型的網(wǎng)絡服務器。具體機器學習方法在蛋白質亞細胞定位預測中的應用框架如圖1所示。
在進行蛋白質序列特征刻畫之前需要構建一個合適的數(shù)據(jù)集,數(shù)據(jù)集是算法模型訓練和測試的數(shù)據(jù)基礎,它決定了模型訓練和測試的效果,因此構建一個合適的數(shù)據(jù)集十分重要。在構建數(shù)據(jù)集時應考慮到以下5個因素:①蛋白質序列條數(shù);②需要預測的位點的個數(shù);③是否需要研究多位點定位問題;④特定物種數(shù)據(jù)集以及基因組數(shù)據(jù)集的差異;⑤序列同源性大小控制。
目前使用的數(shù)據(jù)集基本來源于Swiss-Prot數(shù)據(jù)庫和其他的一些關于物種和位置的專門的數(shù)據(jù)庫,如PPDB(plant proteomics database)和NPD(nuclear protein data base)等。
蛋白質是由氨基酸組成的,蛋白質組成形式可由如下公式表示:
=…
(1)
式中,代表蛋白質序列,(=1,2,…,)代表蛋白質序列下的每一個氨基酸。
蛋白質序列原始字母式數(shù)據(jù)無法直接經過機器學習的方法進行分類和處理,因此需要先將蛋白質的數(shù)據(jù)轉換為一種能夠準確地刻畫出序列模式信息的離散性數(shù)據(jù),再通過機器學習的算法對其進行接下來的分類和處理操作。20種不同的氨基酸殘基按照不同的排列組合形成了蛋白質序列,序列中包含了進化特征、序列特征、理化特征等,這些特征對算法的設計和預測結果都會產生影響。提取的特征過少會導致提取后的數(shù)據(jù)缺失一些重要信息,影響最終預測的結果;提取的特征過多則會導致維數(shù)災難,嚴重影響算法的效率。因此,如何提取有效的特征并進行融合來提升算法預測的結果仍然是現(xiàn)階段的核心問題。該研究從序列信息、注釋信息和多特征融合3個方面來介紹目前主要使用的特征提取方法:
基于序列信息進行蛋白質序列特征提取的表示方法又可細分為以下3種方法:序列同源性、序列信號、氨基酸組成。
(1)序列同源性?;谛蛄型葱苑椒ㄖ饕ㄟ^一些相似性比對工具進行序列間的相似性檢驗:BLAST(Basic local alignment search tool)、PSI-BLAST是2個很常用的相似性比對搜索工具,PSI-BLAST在BLAST的基礎上做了一定的改進,改良過后的PSI-BLAST可對同源性較低的序列之間進行相似性度量。2005年Xie等、2006年Guo等將蛋白質序列同源性信息用于蛋白質亞細胞定位,該方法的缺點為對于一些待測的蛋白質,并不能找到同源性較高的蛋白質序列與之匹配,那么該方法將不再有效。
(2)序列信號。蛋白質的序列上擁有著一部分特殊的子序列,同樣特殊的子序列位于蛋白質的N端,而此類子序列被稱為分選信號。分選信號的存在會使的蛋白質在功能開展及分選過程當中,轉移到特定的亞細胞的位置。目前,已知的分選信號有信號肽、葉綠體運輸肽、線粒體轉移肽等。序列信號的研究工作一直持續(xù)進行,并取得了一定的研究成果,如2000年Emanuelsson等利用N端分選信息預測葉綠體運輸肽;2007年Emanuelsson 等開發(fā)了基于N端分選信號的蛋白質亞細胞定位方法;2012年Tardif等基于N端分選信號開發(fā)了可進行綠藻亞細胞定位預測的工具:PredAlgo。
(3)氨基酸組成。氨基酸是蛋白質序列當中簡單直接的特征。ACC的向量表示形式為:
=[,,,…,]
(2)
式中,(=1,2,3,…,)表示蛋白質在中的20中原生氨基酸出現(xiàn)的頻率。1994年,Nakashima等最早利用組成蛋白質氨基酸含量的百分率來區(qū)分細胞內和細胞外的蛋白質;1995年Chou對ACC的表現(xiàn)形式由原本的20維簡化至19維,發(fā)現(xiàn)兩者是等價的;1998年Reinhardt等在Nakashima和Nishikawa的基礎上提出了用氨基酸對進行蛋白質亞細胞定位,構造了蛋白質亞細胞定位第1個人工神經網(wǎng)絡。在接下來的幾年里,ACC在蛋白質亞細胞定位領域得到了廣泛的使用。該方法的缺點為氨基酸組分無法反應序列的局部信息,只能反應序列的整體信息,且氨基酸組分的方法未能考慮到氨基酸的物理化學性質,因此氨基酸組分具有局限性。2000年Chou將序列的順序因素加入氨基酸組成中進行蛋白質亞細胞定位,發(fā)現(xiàn)該方法能有效地提升最終預測結果。
偽氨基酸組成(pseudo amino acid composition,PseAAC)是在2001年由Chou首次提出的一種新的特征提取方法。PseAAC的向量表示形式為:
=[……20+]
(3)
即一組(20+λ)離散因子。PseAAC中的前20個元素域AAC相同,而20+1到20+λ的元素代表不同的序列的順序相關因子。因子的數(shù)量會有所不同,具體取決于所選氨基酸和層級的功能/特性數(shù)量。目前,已經開發(fā)出4個開放式訪問軟件:PseAAC、PseAAC-Builder、propy和PseAAC-General。前3個程序作為 PseAAC 的補充,用于計算各種形式的 PseAAC,而PseAAC-General不僅用于生成蛋白質特征向量的所有特殊模式,還用于生成高階特征向量模式,如功能域模式、基因本體模式和序列進化模式或“PSSM” 模式。現(xiàn)階段偽氨基酸組成的特征提取方式使用較為廣泛。
蛋白質所處的亞細胞位置決定了蛋白質的功能,想要知道蛋白質的亞細胞位置可以從蛋白質的功能信息著手。蛋白質功能域注釋信息(functional domain,F(xiàn)unD)。2004、2007年Scott等分別將蛋白質序列上的功能域注釋信息用于蛋白質亞細胞定位。功能域注釋信息雖然具備較高的可靠性,但同時該方法也有一定的缺陷,即使用功能域注釋信息時需要保證功能域數(shù)據(jù)庫中的功能域條目達到一定的量才能確定序列中特定的功能域。
基因本體(gene ontology,GO)是基于GO數(shù)據(jù)庫的一種特征提取方法,包括了分子功能、生物學過程和細胞組件3種基本信息。2010年Qu等、2013年Pacharawongsakda等通過使用GO特征提取,實現(xiàn)了蛋白質亞細胞定位預測精度的顯著提高。2018年研究人員通過提取GO特征信息,開發(fā)出了一系列用于多位點蛋白質亞細胞定位預測的web服務。盡管GO很重要,但它有以下主要缺點:①提取蛋白質的GO注釋信息會產生大量特征,需要進一步處理和過濾才能提取出有區(qū)別的特征;②新蛋白質的GO信息不可用,許多研究使用基于同源性的方法來提取這些蛋白質的 GO信息,從而導致提取的信息不準確。
單純依靠單一的特征提取模型來提取特征是遠遠不夠的,將幾個模型結合起來可能會得到顯著的性能,但如果里面包含不合適的模型,結果會適得其反,這是由于過擬合影響模型的計算造成的。因此,需要對于不同的數(shù)據(jù)集要有針對性選擇不同的特征提取方法進行融合。
Qu等融合了5種基于氨基酸物理化學性質的特征提取算法,使用過程當中發(fā)現(xiàn)分類器性能相比于單個特征提取算法的分類器更為明顯。Javed等將29種氨基酸物理化學性質用于偽氨基酸組成方法,通過和SAAC方法的融合,構建出的分類器性能得到顯著提升。國內一些學者在特征融合的道路上也取得了一定的成就:2019年,劉清華等基于特征融合思想在Gram-negative和Gram-positive數(shù)據(jù)集準確率分別達到了89.6%和97.8%。2020年王藝皓等將改進型偽氨基酸組成法、偽位置特異性得分矩陣法和三聯(lián)體編碼法共3種特征提取方法進行融合,在Viral proteins數(shù)據(jù)集和Plant proteins數(shù)據(jù)集上分別取得了98.24%和97.63%高準確率。
多特征融合的目的就是為了更好地提高分類器的效率和算法預測的準確度,但同樣多特征融合也是蛋白質序列特征提取的重點和難點部分,對于不同的數(shù)據(jù)集不能采用同種方式進行多特征融合,需要根據(jù)數(shù)據(jù)類型有所區(qū)分,選擇適合該數(shù)據(jù)的特征進行融合。目前多特征融合提取蛋白質序列特征的方法是現(xiàn)階段主要的研究方法之一。
通常,模型開發(fā)面臨的一個問題是用于實驗的數(shù)據(jù)集不平衡。細胞內有的蛋白質峰度較高,有的蛋白質峰度較低,這樣容易導致樣本集中的樣本嚴重不均衡。用于預測的數(shù)據(jù)集中屬于某一個類別的蛋白質數(shù)量通常情況下不同于屬于其他類別的蛋白質數(shù)量,如果不同類別下的蛋白質數(shù)量之間的差異很大,這種情況下就會使得分類模型過度分類,即由于屬于某個類別的蛋白質樣本數(shù)量較多,分類器在預測數(shù)量較多的類別下的蛋白質時達到的精度可能會更高。
為了解決數(shù)據(jù)不平衡問題,增強識別交互對的能力,很多的研究者提出了很多不同的方法:1992年Zhang等提出了蒙特卡羅樣本擴展方法(Monte Calo sampling approach);1995年Zhang等提出了種子傳播方法(Seed-propagation approach);2006年Cai開發(fā)出了LogiBoost分類器;2001年Laurikkala提出了NCR(neighborhood cleaning technique)方法用于去除冗余的樣本;與NCR類似的還有KNCC方法。以上這些方法一部分是在少數(shù)類中添加重復的實例或者從多數(shù)的類中裁剪同源樣本來使數(shù)據(jù)集達到平衡,另一部分則為訓練樣本分配權重來處理數(shù)據(jù)不平衡問題。研究人員證明了這種線性重采樣對訓練模型的性能沒有多大的提升,因為如果在少數(shù)類中添加類似的樣本,分類器會識別出這些相似的區(qū)域,這種情況下會導致模型訓練的過擬合。2002年Chawla等提出了SMOTE算法,SMOTE算法也在數(shù)量較少的類中增加額外的樣本,但這些樣本并不是類似的樣本,而是通過沿著屬于特定少數(shù)類的線的“K個最近鄰”來綜合收集的。
結果表明,在對不同的數(shù)據(jù)集進行平衡過程中,SMOTE算法很明顯幾乎優(yōu)于其他所有的重采樣方法。在后續(xù)的很多研究中也證明了平衡后的數(shù)據(jù)在通過分類器進行分類時的效果要優(yōu)于未平衡前的數(shù)據(jù)。
預測算法的優(yōu)劣對蛋白質亞細胞定位預測的準確性有較大影響。開發(fā)一個性能優(yōu)異的預測器需要達到2方面的條件:其一是進行特征提取時要根據(jù)數(shù)據(jù)的特性合理的提取特征,其二就是需要一個高通量、高準確率的預測算法。在過去的研究期間內,曾出現(xiàn)非常多的預測算法。剛開始的算法設計較為單一,進行分類的精度不夠,后逐步開始研究集成機器學習;起初未發(fā)現(xiàn)多位點蛋白質時研究重點在單位點的蛋白質亞細胞定位,后來多位點蛋白質的發(fā)現(xiàn)研究重點轉移至多位點多標記學習問題。雖然現(xiàn)階段算法預測的準確率不斷提高,但仍需要進一步深入的研究。集成學習的方法仍舊是目前及未來研究的重點。接下來介紹幾個具有代表性的算法及多標記學習算法:
最近鄰算法(nearest neighbor,NN)通過某種距離度量方法判斷2個樣本之間的距離關系:若距離越近,出現(xiàn)在同一個細胞器中的可能性越大;反之則可能性越小。1996年Horton等提出了KNN(K-nearest neighbor,KNN)分類算法;2004年Huang等使用了模糊KNN方法預測蛋白質亞細胞定位;2006年Chou等通過融合優(yōu)化的證據(jù)理論 K 最近鄰分類器(OET-KNN)預測真核蛋白質亞細胞位置;2017年薛衛(wèi)等基于相似性比對改進KNN的Adaboost集成分類預測算法,在數(shù)據(jù)集CH317和Gram1253上的最高預測準確率達到了92.4%和93.1%。目前一種解決多標記問題的多標簽K近鄰算法(ML-KNN)正被廣泛使用。
KNN算法的思想是某個樣本類別由其附近的個相似樣本中的大多數(shù)決定。模糊KNN算法在KNN算法的基礎上為增加了樣本隸屬度,這樣可以減少KNN算法在運算時的錯誤率從而提高分類的準確率。
人工神經網(wǎng)絡是一種可以進行信息處理的數(shù)學模型,在使用過程當中,類似于人類大腦中的神經突觸連接結構,模擬人類大腦進行信息的傳遞以及信息的處理。人工神經網(wǎng)絡算法有3個非常顯著的優(yōu)點:第一,本身具備非常強的自我學習功能;第二,具備先進的聯(lián)想存儲功能;第三具備尋找優(yōu)化解的能力。1998年,Reinhardt等第1次將神經網(wǎng)絡用于蛋白質亞細胞定位預測研究;2000年Emanuelsson等采用了人工神經網(wǎng)絡的方法進行預測;后來Sun等將概率神經網(wǎng)絡用于蛋白質亞細胞定位預測;目前的一些研究中,使用ML-RBF(RBF neural networks for multi-label learning)對多位點的蛋白質進行亞細胞定位預測,并取得了較好的效果。
1995年Vapnik最先提出支持向量機(Support Vector Machine,SVM)的概念。支持向量機方法在使用過程當中能夠針對高維模式識別,非線性以及小樣本問題進行有效的解決并且具備該方法具備獨特的應用優(yōu)勢,能夠將其應用到函數(shù)擬合等其他的機器學習問題當中。2011年Hua等第1次將SVM算法用于蛋白質亞細胞定位預測;后來一些學者使用SVM算法進行預測并取得了較好的效果;2017年趙南等運用詞袋模型結合傳統(tǒng)的蛋白質特征提取方法,在SVM分類器上進行分類,在一定程度上提升了預測的準確率;2019年研究人員基于特征融合的思想利用LDA方法進行降維,再利用SVM算法進行分類,在Gram-negative和Gram-positive數(shù)據(jù)集上取得了較好的預測效果;2020年胡雪嬌等提出了一種基于PSO_BFA優(yōu)化的詞袋模型,獲得蛋白質序列的詞袋特征后放入SVM分類器中有效地提高了蛋白質亞細胞定位預測精度。
集成機器學習即使用多個不同的學習器的方式來解決同一個問題,通過集成學習的方式可以大大提高學習系統(tǒng)的泛化能力。但同樣集成機器學習也有其局限性,研究小組將集成學習的方法用于蛋白質亞細胞定位預測:Laurila等提出了一種集成方法(PROlocalizer),它結合了多個專門的二進制定位預測算法;Park等開發(fā)了一種線性判別分析 (LDA) 方法 (ConLoc) 來為加權投票分配 LDA 最佳權重;Assfalg等提出了2種集成定位算法:一種是基于預測器的預測精度等級的評分投票方案,另一種選擇J48決策樹(DT)分類器作為集成方案;Shen等提出了1種兩層決策樹方法進行蛋白質亞細胞定位預測。這些方法大都數(shù)集成了10種或者更多的方法用于預測,但沒有考慮它們之間冗余或互補的關系,導致集成算法的計算量很大,后來Lin等提出的極簡集成算法有效地解決了這個問題,2017年薛衛(wèi)等基于相似性比對改進KNN的Adaboost集成分類預測算法在數(shù)據(jù)集CH317和Gram1253上的最高預測準確率達到了92.4%和93.1%。
現(xiàn)階段研究的重點就在于多位點蛋白質亞細胞定位預測問題,多位點蛋白質亞細胞定位換種方式講就是一種多標記學習的問題,對于多標記學習問題可以按照算法分為2類,即問題轉換型和算法適應型。問題轉換型算法即通過二分類算法解決分類問題的方式解決多標記學習問題;算法適應型算法直接構造一種有效的算法解決多標記學習的問題。
問題轉換型。BR (binary relevance ) 方法是一種十分經典的問題轉換型方法,它的特點是簡單有效且算法復雜度低,在多位點蛋白質亞細胞定位中多以SVM作為基本算法。BR方法的缺點:BR方法雖可以并行運算,但卻沒有考慮標記之間的相關性。
CC(classifier chain) 方法在使用過程當中,注重標記樣本之間存在的關聯(lián)性,并在此基礎之上進行模型構建,但它不能進行并行運算且標記的訓練順序具有隨機性,對預測器性能影響較大。
ECC(Ensemble Classifier Chains)方法通過集成學習的方法解決了標記順序帶來的隨機性問題,但同樣也帶來了計算量大等問題。
算法適應型。ML-KNN(Multi-label k-nearest neighbor) 方法是一種基于實例的多標簽分類方法,由傳統(tǒng)的KNN算法發(fā)展而來。ML-KNN在訓練集中識別K近鄰并捕獲每個實例的相關統(tǒng)計信息,采用最大后驗概率準則來預測未知的標簽。試驗結果表明,ML-KNN算法有較好的效果。
ML-GKR(Multi-label gaussian kernel regression)在很多現(xiàn)有的預測器中都有使用,且達到了不錯的效果。
ML-RBF(RBF neural networks for multi-label learning)方法與傳統(tǒng)的徑向基函數(shù)存在直接關系,算法中第一層主要針對標記進行聚類,并對這些標記進行分析,分析后聚類中心作為算法的基函數(shù)原型向量,通過最小化殘差平方和計算,得到神經網(wǎng)絡第二層。
算法預測的準確率是衡量算法優(yōu)劣的重要指標,而評價一個分類算法性能好壞的重要指標是對該算法的性能評估。目前在測試過程當中主要應用的驗證方法有3種,分別為獨立數(shù)據(jù)集測試、二次抽樣測試以及刀切法測試。其中,刀切法(Jackknife test)是目前最為普遍采用、最被人們認可的驗證測試方法。
Jackknife測試方法是Maurice Quenouille在1949年提出的一種再抽樣方法,jackknife方法主要將數(shù)據(jù)集的每個樣本依次挑選出來,挑選出來的樣本用作測試,其余的樣本用作訓練,這樣做的好處是每一個樣本都有可能被作為測試,這樣能最大程度上減小誤差,極大增強了測試的客觀性,是現(xiàn)階段使用的最多且最為客觀的驗證測試方法。在獨立數(shù)據(jù)集測試中,將訓練集和測試集作為2個互相獨立的蛋白質數(shù)據(jù)庫;而二次抽樣測試(sub-sampling test)則是從訓練集中輪流抽取一個樣本作為測試集,將其余的樣本作為訓練集。
蛋白質亞細胞定位分類器的性能通??梢詮囊韵聨讉€指標進行評價:
總體準確率ACC:
總體準確率ACC:
(5)
敏感度SN:
(6)
特異性SP:
(7)
精度PV:
(8)
馬氏相關系數(shù)MCC:
(9)
式中,TP為分類模型正確預測的正樣本數(shù)量;FP為分類模型錯誤預測為正類的負樣本數(shù);TN為分類模型正確預測為負類的負樣本數(shù);FN為分類模型錯誤預測為負類的正樣本數(shù);MCC取值范圍為0~1,MCC的取值越高說明算法性能越好。
當一個算法通過驗證具有優(yōu)異的性能及預測結果后,應當考慮建立一個web服務供其他的研究人員使用。目前已有大量的蛋白質亞細胞定位預測服務器提供了相應的web服務,其中包括單位點和多位點預測服務器,表1列出了一些比較有影響力的預測服務器:
表1 部分有影響力的預測服務器列表Table 1 List of some influential prediction servers
蛋白質亞細胞定位預測研究是生物信息學領域研究的重點問題之一,面對海量的蛋白質序列數(shù)據(jù),研究出如何利用計算機技術實現(xiàn)高效、精準的蛋白質亞細胞定位預測是十分必要的。經過幾十年的發(fā)展,亞細胞定位預測的方法不斷地完善,主要體現(xiàn)在以下3個方面:
(1) 刻畫蛋白質序列的信息越來越豐富。面對越來越復雜的蛋白質序列數(shù)據(jù),單一特征提取的方法已不能有效地將這些蛋白質區(qū)分開來,多特征融合的方法是現(xiàn)階段改進識別效果最有效的手段。
(2) 數(shù)據(jù)集平衡后提升預測精度。數(shù)據(jù)集中屬于某一個類別的蛋白質數(shù)量通常情況下不同于屬于其他類別的蛋白質數(shù)量,如果不同類別下的蛋白質數(shù)量之間的差異很大,就會使得分類模型的過度分類。后續(xù)研究者研究發(fā)現(xiàn),數(shù)據(jù)集平衡后能有效提升預測精度。
(3) 識別算法越來越復雜。從初期的簡單分支算法到KNN、神經網(wǎng)絡、支持向量機和深度學習的使用再到現(xiàn)階段很多預測器使用的集成算法,這些復雜的算法有效克服了數(shù)據(jù)復雜度增加帶來的困難,大大提升了預測精度。
通過對以上3個方面有關完善蛋白質亞細胞定位預測方法的總結,提出了4點關于未來機器學習在蛋白質亞細胞定位預測方面的重要研究方向及研究意義:
(1) 特征融合時若包含不合適的模型往往會影響模型的計算,因此如何選擇更加合適的模型進行融合依舊是研究熱點。多個合適的模型進行融合后會覆蓋數(shù)據(jù)的大部分重要信息,對預測結果有十分積極的影響,是蛋白質亞細胞定位預測研究的重點部分。
(2) 多位點蛋白質數(shù)據(jù)往往會存在很嚴重的數(shù)據(jù)不平衡現(xiàn)象,因此如何有效解決數(shù)據(jù)不平衡問題來提升預測精度成為研究重點之一。解決數(shù)據(jù)不平衡問題,增強識別交互對的能力,有利于提升整體預測效果,達到提升預測精度的目的。
(3) 蛋白質之間存在一定的相關性,如何利用好蛋白質之間的相關性提升預測精度是重要的研究方向。有效利用蛋白質之間的標記相關性,能更好提升蛋白質亞細胞定位的預測性能。
(4) 一個性能優(yōu)異的預測算法能充分的反應分類問題的本質,能很好地提升預測的精度。集成學習方法是現(xiàn)階段研究的重點內容,因此開發(fā)高效的集成學習方法也是重要的研究方向。