鄭珊珊+石卓興+代琦+姚玉華
【摘 要】蛋白質(zhì)的功能與其亞細(xì)胞位置有著密切的聯(lián)系,對于確定一個未知特性蛋白質(zhì)的功能,亞細(xì)胞定位研究能夠提供重要的參考信息。采用傳統(tǒng)實(shí)驗(yàn)的方法研究亞細(xì)胞定位需要耗費(fèi)大量的人力、財力、物力,已經(jīng)不能滿足數(shù)據(jù)庫中蛋白質(zhì)序列爆炸性增長的現(xiàn)實(shí)需要。從已積累的知識和數(shù)據(jù)出發(fā),利用智能算法、機(jī)器學(xué)習(xí)等工具開發(fā)蛋白質(zhì)亞細(xì)胞定位預(yù)測的方法成為了當(dāng)前的重要研究內(nèi)容。本文對國內(nèi)外亞細(xì)胞定位預(yù)測的研究現(xiàn)狀進(jìn)行了綜述。
【關(guān)鍵詞】亞細(xì)胞定位;特征信息提??;預(yù)測算法
亞細(xì)胞定位是指某種蛋白或某種基因表達(dá)產(chǎn)物在細(xì)胞內(nèi)的具體存在部位,即根據(jù)所給出的蛋白質(zhì)序列來預(yù)測其所在的亞細(xì)胞位置。蛋白質(zhì)是基因功能的執(zhí)行者,機(jī)體中的每一個細(xì)胞和所有重要組成部分都有它的參與,正是由于它是與生命及與各種形式的生命活動緊密聯(lián)系在一起的物質(zhì),越來越多的生物學(xué)、生物信息學(xué)研究者開始對蛋白質(zhì)的功能預(yù)測及分析進(jìn)行了研究。然而,蛋白質(zhì)只有經(jīng)分選信號引導(dǎo)后運(yùn)輸?shù)教囟ǖ募?xì)胞器中,才能參與細(xì)胞的各種生命活動,執(zhí)行它的功能,如果其運(yùn)送位置發(fā)生偏差,將會影響細(xì)胞功能甚至整個生物體。因此,蛋白質(zhì)在細(xì)胞中的正確定位是細(xì)胞系統(tǒng)高度有序運(yùn)轉(zhuǎn)的前提保障。研究細(xì)胞中蛋白質(zhì)定位的機(jī)制和規(guī)律,預(yù)測蛋白質(zhì)的亞細(xì)胞定位,對于了解蛋白質(zhì)結(jié)構(gòu)、性質(zhì)和功能,了解蛋白質(zhì)之間的相互作用,研究疾病機(jī)理和發(fā)展新藥物以及探索生命的規(guī)律和奧秘具有重要意義。
隨著核酸和蛋白質(zhì)序列等生物數(shù)據(jù)的高速膨脹,單純以傳統(tǒng)實(shí)驗(yàn)方法來確定蛋白質(zhì)亞細(xì)胞定位具有成本高、實(shí)驗(yàn)時間長,預(yù)測精度不理想,會耗費(fèi)大量的人力和物力等缺點(diǎn),已經(jīng)無法滿足生命科學(xué)研究的需要。因此,需要尋找一種快速、有效、準(zhǔn)確的計算方法來預(yù)測蛋白質(zhì)亞細(xì)胞定位。近年來,生物信息學(xué)在這方面開展了廣泛的研究并且取得一系列很有意義的成果,數(shù)據(jù)庫的構(gòu)建和亞細(xì)胞定位分析及預(yù)測加速了蛋白質(zhì)結(jié)構(gòu)和功能的研究。一方面,生物信息學(xué)研究可以對大規(guī)模的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析和提取生物學(xué)信息,同時可以根據(jù)現(xiàn)有數(shù)據(jù)對一些目前還未知的蛋白質(zhì)做出預(yù)測;另一方面,不斷增長的亞細(xì)胞定位數(shù)據(jù)也可以用來驗(yàn)證并改進(jìn)預(yù)測結(jié)果。目前,利用生物信息學(xué)方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測已經(jīng)成為了一個研究熱點(diǎn)。
從20世紀(jì)90年代初至今,蛋白質(zhì)亞細(xì)胞定位預(yù)測一直是生物信息學(xué)研究的熱點(diǎn)問題之一。通過分析國內(nèi)外研究者的研究方法,不難發(fā)現(xiàn)這些方法的主要不同在于兩個方面: 第一,蛋白質(zhì)特征信息的提取,主要是指將蛋白質(zhì)相關(guān)特征信息提取出之后轉(zhuǎn)化成高維的特征向量,作為預(yù)測的輸入。蛋白質(zhì)序列特征信息主要包括氨基酸順序相關(guān)性、氨基酸在蛋白質(zhì)中出現(xiàn)的頻率、氨基酸物理化學(xué)性質(zhì)等。第二,預(yù)測算法的設(shè)計,根據(jù)提取的特征向量集,利用有效的算法預(yù)測蛋白質(zhì)的亞細(xì)胞定位。算法影響亞細(xì)胞預(yù)測精度的重要因素,現(xiàn)有預(yù)測算法中,統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)方法使用的最為廣泛。
利用計算方法來預(yù)測蛋白質(zhì)亞細(xì)胞定位屬于統(tǒng)計模式識別中的模式多分類問題。問題的研究一般包括以下四個步驟:(1)具有客觀代表性的蛋白質(zhì)數(shù)據(jù)集的構(gòu)建; (2)蛋白質(zhì)序列的特征提取,即蛋白質(zhì)序列編碼,從蛋白質(zhì)中提取特征參數(shù),實(shí)現(xiàn)字母序列到數(shù)值特征的轉(zhuǎn)換;(3)預(yù)測算法的選取,即如何根據(jù)提取的特征參數(shù),設(shè)計有效的分類或識別模型類;(4)對預(yù)測結(jié)果進(jìn)行評估,即預(yù)測模型的測試與檢驗(yàn)以及結(jié)果性能的評估。
1 數(shù)據(jù)集的構(gòu)建
研究蛋白質(zhì)亞細(xì)胞定位的數(shù)據(jù)集基本來自SWISS-PROT數(shù)據(jù)庫。該數(shù)據(jù)庫建于1986年,是目前世界上存儲蛋白質(zhì)序列最主要的一級數(shù)據(jù)庫之一。利用這個數(shù)據(jù)庫研究蛋白質(zhì)的亞細(xì)胞定位時,需要對其中的數(shù)據(jù)進(jìn)行篩選。通常的篩選標(biāo)準(zhǔn)有:(1)針對研究對象,挑選特定物種的相關(guān)蛋白質(zhì)序列;(2)在構(gòu)建數(shù)據(jù)集時,需要知道每個蛋白質(zhì)序列所在的亞細(xì)胞位置,所以只有包含明確的亞細(xì)胞定位信息的序列才被選入數(shù)據(jù)集中;(3)序列長度不能太短;(4)數(shù)據(jù)冗余度,要求同源性低;(5)排除樣本量太少的亞細(xì)胞類別。
除了利用SWISS-PROT數(shù)據(jù)庫外,還有LOCATE、TargetP家族數(shù)據(jù)集等。近年來,隨著研究的不斷深入,蛋白質(zhì)序列數(shù)據(jù)集越來越復(fù)雜,目前最復(fù)雜的數(shù)據(jù)集是酵母蛋白質(zhì)序列數(shù)據(jù)集,包含22種亞細(xì)胞蛋白質(zhì)。
2 蛋白質(zhì)特征信息的提取
蛋白質(zhì)序列特征提取的目的是,從蛋白質(zhì)序列中提取特征信息,并用適當(dāng)?shù)臄?shù)學(xué)方法來描述或表示這些信息,使之能正確反映序列與結(jié)構(gòu)或功能之間的關(guān)系,這于蛋白質(zhì)亞細(xì)胞定位是至關(guān)重要的,也是研究蛋白質(zhì)功能結(jié)構(gòu)的關(guān)鍵。根據(jù)提取特征信息的不同,可以歸納為3類。
2.1 基于氨基酸的組成和性質(zhì)
氨基酸組成是一種最基本的序列特征,也是亞細(xì)胞定位預(yù)測中使用得最為普遍的一種蛋白質(zhì)特征信息。蛋白質(zhì)一般有20 種氨基酸組成,氨基酸組成將每種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率抽取出來作為一個20維的向量。1994年,Nakashima和 Nishikawa最早通過利用氨基酸組成進(jìn)行了蛋白質(zhì)亞細(xì)胞定位預(yù)測,對細(xì)胞內(nèi)和細(xì)胞外蛋白質(zhì)定位分別取得了88%和 84%的預(yù)測準(zhǔn)確率。
2.2 基于蛋白質(zhì)序列的N端分選信號的方法
一般認(rèn)為蛋白質(zhì)在合成的過程中,其N端包含一些特殊的分選信號,這些信號能夠指導(dǎo)新合成的蛋白質(zhì)分選到特定的亞細(xì)胞中,包括信號肽、線粒體轉(zhuǎn)移肽、葉綠體運(yùn)輸肽、核定位信號、類囊體腔轉(zhuǎn)移肽和過氧化物酶體定位信號等。這種信息的有效性取決于蛋白質(zhì)序列完整性,一旦蛋白質(zhì)序列的N端信號不完整或者丟失,預(yù)測結(jié)果就可能失效。
2.3 基于功能域和基因注釋的方法
蛋白質(zhì)序列在長期的進(jìn)化過程中,某些特定位點(diǎn)上的氨基酸殘基具有高度的保守性,這些位點(diǎn)稱為功能域。2002年功能域組分的概念首次被用于蛋白質(zhì)亞細(xì)胞定位,這種方法顯著提高了亞細(xì)胞定位的質(zhì)量。2006年,引入GO注釋來預(yù)測人類蛋白質(zhì)的亞細(xì)胞位置。但是,基于功能與和基因注釋的方法對于數(shù)據(jù)庫功能注釋信息的完善程度依賴性較大,如果數(shù)據(jù)庫中沒有足夠的功能域或基因注釋條目,那么將無法確定蛋白質(zhì)的亞細(xì)胞定位。
由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測效果上取得大的突破。將多種特征提取方法組合起來已經(jīng)成為亞細(xì)胞定位預(yù)測中最為普遍的一種方法。
3 蛋白質(zhì)亞細(xì)胞定位預(yù)測算法
蛋白質(zhì)亞細(xì)胞定位預(yù)測中另一個重要因素是識別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開。在蛋白質(zhì)亞細(xì)胞定位預(yù)測方面,主要的算法包括5類:基于簡單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。
(1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識別的其他領(lǐng)域也得到了廣泛的應(yīng)用。
(2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個使(下轉(zhuǎn)第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測的首選分類器。
(3)基于距離的近鄰方法。基于距離的近鄰方法原理是根據(jù)某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等。基于距離的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問題,運(yùn)算速度較快。
隨著研究的不斷深入,將多種算法進(jìn)行融合,來預(yù)測蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測的精度和加快算法運(yùn)行速度方面取得了良好的效果。
4 預(yù)測算法的檢驗(yàn)和評估
選用適當(dāng)?shù)念A(yù)測算法之后,需要對算法進(jìn)行評估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評價一個分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測算法比較的依據(jù)。預(yù)測算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。
留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對測試樣本的亞細(xì)胞進(jìn)行定位預(yù)測。直到所有樣本序列都被測試一遍為止。LOOCV的缺點(diǎn)是計算成本高,費(fèi)時,但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。
評估預(yù)測算法常用的算法評價指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識別的比例,反映了預(yù)測成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測的可信度。
Sensitivity(i)=■×100%
Spencificity(i)=■×100%
Matthews相關(guān)系數(shù)MCC可以對算法的準(zhǔn)確率進(jìn)行評估。
MCC(i)=■
其中,tp(i)是第i類樣本中被預(yù)測正確的數(shù)目,fn(i)是第i類樣本被錯誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說明分類器的性能越好,當(dāng)MCC取1時,所有樣本均被正確識別;當(dāng)MCC取0時,分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。
【參考文獻(xiàn)】
[1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.
[2]張樹波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測的機(jī)器學(xué)習(xí)方法[J].計算機(jī)科學(xué),2009,36( 4):29-33.
[3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測方法研究[D].湖南:湖南大學(xué)計算與通信學(xué)院,2010.
[4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測[J].信息技術(shù)與信息化,2011,5:73-75.
[5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測方法研究[D].南京:南京航空航天大學(xué),2008.
[6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.
[7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測研究[J].山東師范大學(xué)學(xué)報,2012,4(27):33-37.
[責(zé)任編輯:謝慶云]
由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測效果上取得大的突破。將多種特征提取方法組合起來已經(jīng)成為亞細(xì)胞定位預(yù)測中最為普遍的一種方法。
3 蛋白質(zhì)亞細(xì)胞定位預(yù)測算法
蛋白質(zhì)亞細(xì)胞定位預(yù)測中另一個重要因素是識別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開。在蛋白質(zhì)亞細(xì)胞定位預(yù)測方面,主要的算法包括5類:基于簡單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。
(1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識別的其他領(lǐng)域也得到了廣泛的應(yīng)用。
(2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個使(下轉(zhuǎn)第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測的首選分類器。
(3)基于距離的近鄰方法。基于距離的近鄰方法原理是根據(jù)某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等。基于距離的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問題,運(yùn)算速度較快。
隨著研究的不斷深入,將多種算法進(jìn)行融合,來預(yù)測蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測的精度和加快算法運(yùn)行速度方面取得了良好的效果。
4 預(yù)測算法的檢驗(yàn)和評估
選用適當(dāng)?shù)念A(yù)測算法之后,需要對算法進(jìn)行評估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評價一個分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測算法比較的依據(jù)。預(yù)測算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。
留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對測試樣本的亞細(xì)胞進(jìn)行定位預(yù)測。直到所有樣本序列都被測試一遍為止。LOOCV的缺點(diǎn)是計算成本高,費(fèi)時,但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。
評估預(yù)測算法常用的算法評價指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識別的比例,反映了預(yù)測成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測的可信度。
Sensitivity(i)=■×100%
Spencificity(i)=■×100%
Matthews相關(guān)系數(shù)MCC可以對算法的準(zhǔn)確率進(jìn)行評估。
MCC(i)=■
其中,tp(i)是第i類樣本中被預(yù)測正確的數(shù)目,fn(i)是第i類樣本被錯誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說明分類器的性能越好,當(dāng)MCC取1時,所有樣本均被正確識別;當(dāng)MCC取0時,分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。
【參考文獻(xiàn)】
[1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.
[2]張樹波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測的機(jī)器學(xué)習(xí)方法[J].計算機(jī)科學(xué),2009,36( 4):29-33.
[3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測方法研究[D].湖南:湖南大學(xué)計算與通信學(xué)院,2010.
[4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測[J].信息技術(shù)與信息化,2011,5:73-75.
[5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測方法研究[D].南京:南京航空航天大學(xué),2008.
[6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.
[7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測研究[J].山東師范大學(xué)學(xué)報,2012,4(27):33-37.
[責(zé)任編輯:謝慶云]
由于不同的特征從不同的角度刻畫蛋白質(zhì)序列,目前沒有一種特征能夠很好地刻畫蛋白質(zhì)的亞細(xì)胞定位特征,單獨(dú)利用某種特征難以在預(yù)測效果上取得大的突破。將多種特征提取方法組合起來已經(jīng)成為亞細(xì)胞定位預(yù)測中最為普遍的一種方法。
3 蛋白質(zhì)亞細(xì)胞定位預(yù)測算法
蛋白質(zhì)亞細(xì)胞定位預(yù)測中另一個重要因素是識別算法,成功的分類算法應(yīng)該是能夠高效、正確的將不同亞細(xì)胞位置的蛋白質(zhì)分開。在蛋白質(zhì)亞細(xì)胞定位預(yù)測方面,主要的算法包括5類:基于簡單選擇判別規(guī)則的方法;基于距離度量的近鄰方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法;基于馬爾可夫模型的方法;基于向量機(jī)的方法。常用預(yù)測方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī) 、最鄰近算法三種。
(1)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)具有良好的魯棒性和容錯性,因此,不僅在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域受到青睞,在模式識別的其他領(lǐng)域也得到了廣泛的應(yīng)用。
(2)支持向量機(jī)。支持向量機(jī)是一種基于統(tǒng)計學(xué)習(xí)理論分類技術(shù),它在蛋白質(zhì)特征向量映射到的高維空間中,找到一個使(下轉(zhuǎn)第32頁)(上接第12頁)分類誤差最小的最優(yōu)分類面。由于支持向量機(jī)具有較好的推廣能力,許多學(xué)者選擇它作為蛋白質(zhì)亞細(xì)胞定位預(yù)測的首選分類器。
(3)基于距離的近鄰方法?;诰嚯x的近鄰方法原理是根據(jù)某種距離度量方法來度量樣本之間的相似性,距離越近則兩樣本有可能出現(xiàn)在相同細(xì)胞器中。隨后的研究中,研究者將基于距離的近鄰方法做了推廣,如模糊K近鄰方法,加權(quán)模糊K近鄰方法等?;诰嚯x的近鄰方法,不需要人為的選擇參數(shù),適合求解大規(guī)模問題,運(yùn)算速度較快。
隨著研究的不斷深入,將多種算法進(jìn)行融合,來預(yù)測蛋白質(zhì)亞細(xì)胞定位已經(jīng)逐漸成為研究的趨勢。2010年,趙禹等用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白質(zhì)亞細(xì)胞定位。多種算法的融合,在提高蛋白質(zhì)亞細(xì)胞定位預(yù)測的精度和加快算法運(yùn)行速度方面取得了良好的效果。
4 預(yù)測算法的檢驗(yàn)和評估
選用適當(dāng)?shù)念A(yù)測算法之后,需要對算法進(jìn)行評估,即檢驗(yàn)出算法的準(zhǔn)確率,它是評價一個分類算法性能好壞的重要指標(biāo),也是與其它分類預(yù)測算法比較的依據(jù)。預(yù)測算法的檢驗(yàn)方法主要有自身一致性檢驗(yàn)、獨(dú)立性檢驗(yàn)、留一法檢驗(yàn)三種[29]。
留一交叉驗(yàn)證(1eave-one-outcross-validation,LOOCV)每次取出數(shù)據(jù)集中的一條蛋 白質(zhì)序列作為測試樣本,而剩余的蛋白質(zhì)序列作為訓(xùn)練集對測試樣本的亞細(xì)胞進(jìn)行定位預(yù)測。直到所有樣本序列都被測試一遍為止。LOOCV的缺點(diǎn)是計算成本高,費(fèi)時,但是其結(jié)果更加嚴(yán)格可靠,已經(jīng)在很多方法中得到了應(yīng)用。
評估預(yù)測算法常用的算法評價指標(biāo)有 :敏感性、特異性和 Matthew相關(guān)系數(shù)。敏感性指標(biāo)是指每類樣本中被正確識別的比例,反映了預(yù)測成功率;特異性指標(biāo)是指被判別為第i類的樣本中真正屬于第i類的比例,反映了預(yù)測的可信度。
Sensitivity(i)=■×100%
Spencificity(i)=■×100%
Matthews相關(guān)系數(shù)MCC可以對算法的準(zhǔn)確率進(jìn)行評估。
MCC(i)=■
其中,tp(i)是第i類樣本中被預(yù)測正確的數(shù)目,fn(i)是第i類樣本被錯誤的判別為其他類別的數(shù)目,fp(i)是非第i類樣本但被預(yù)測為第i類樣本的數(shù)目,tn(i)是非第i類樣本中被預(yù)測正確的樣本數(shù)目。MCC指標(biāo)取值0至1,取值越高說明分類器的性能越好,當(dāng)MCC取1時,所有樣本均被正確識別;當(dāng)MCC取0時,分類器的判別效果與隨機(jī)指派的結(jié)果一樣,這樣的分類器是最差的。
【參考文獻(xiàn)】
[1]徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測中的應(yīng)用[J].J Med Mol Biol, 2005,2(3):227-232.
[2]張樹波,賴劍煌.蛋白質(zhì)亞細(xì)胞定位預(yù)測的機(jī)器學(xué)習(xí)方法[J].計算機(jī)科學(xué),2009,36( 4):29-33.
[3]張麗.蛋白質(zhì)亞細(xì)胞定位的序列編碼及預(yù)測方法研究[D].湖南:湖南大學(xué)計算與通信學(xué)院,2010.
[4]郭麗麗,陳月輝.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)亞細(xì)胞定位預(yù)測[J].信息技術(shù)與信息化,2011,5:73-75.
[5]吳文佳.蛋白質(zhì)亞細(xì)胞定位預(yù)測方法研究[D].南京:南京航空航天大學(xué),2008.
[6]趙禹,趙巨東,姚龍.用離散增量結(jié)合支持向量機(jī)方法預(yù)測蛋白質(zhì)亞細(xì)胞定位[J].生物信息學(xué),2010,8(3):241-244.
[7]吳澤月,陳月輝.蛋白質(zhì)亞細(xì)胞定位預(yù)測研究[J].山東師范大學(xué)學(xué)報,2012,4(27):33-37.
[責(zé)任編輯:謝慶云]