張金濤
摘要:集成學(xué)習(xí)是一種新的機(jī)器學(xué)習(xí)范式,它通過訓(xùn)練若干有差異的學(xué)習(xí)器,并將它們的預(yù)測結(jié)果進(jìn)行合成,相對于單個學(xué)習(xí)器,集成學(xué)習(xí)算法可以顯著提高學(xué)習(xí)系統(tǒng)的泛化能力。因此對集成學(xué)習(xí)理論和算法的研究成為了機(jī)器學(xué)習(xí)領(lǐng)域的一個熱點。現(xiàn)在,集成學(xué)習(xí)已經(jīng)成功應(yīng)用于航空航天、地震波分析、生物特征識別、醫(yī)療診斷等眾多領(lǐng)域。但集成學(xué)習(xí)技術(shù)還不成熟,對集成學(xué)習(xí)的研究還存在很大的進(jìn)步空間。
關(guān)鍵詞:腺苷三磷酸 SFLA聚類算法 ELM的集成預(yù)測算法
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)09-0092-02
腺苷三磷酸(Adenosine Triphosphate,ATP)是一種高能磷酸化合物,在預(yù)測蛋白質(zhì)功能方面起著關(guān)鍵作用。針對傳統(tǒng)實驗的方法鑒別ATP與蛋白質(zhì)的結(jié)合位點時存在耗時、耗力、耗資的缺陷,國內(nèi)外學(xué)者均開始嘗試用生物信息學(xué)的方法預(yù)測ATP與蛋白質(zhì)的結(jié)合位點[1]。2009年,Dr.G.P.S.Raghava的科研科研小組利用ATPint軟件程序包預(yù)測ATP與蛋白質(zhì)的結(jié)合位點,預(yù)測總精度達(dá)75.25%,相關(guān)系數(shù)MCC值達(dá)到0.5。2011年,Ke Chen等人組成的科研小組利用ATPsite軟件程序包預(yù)測ATP與蛋白質(zhì)的結(jié)合位點,預(yù)測總精度達(dá)86.13%,相關(guān)系數(shù)MCC值達(dá)到0.46。實際預(yù)測ATP和蛋白質(zhì)結(jié)合位點時,結(jié)合位點(正類)的片段數(shù)量與非結(jié)合位點(負(fù)類)的片段數(shù)量相差懸殊,造成數(shù)據(jù)不平衡。為了減小數(shù)據(jù)不均衡對預(yù)測的影響,這里對負(fù)類樣本運用基于混合蛙跳的(Shuffled Frog Leaping Algorithm,SFLA)聚類算法進(jìn)行欠采樣形成多個不相交的子集,然后在各子集上提取有代表性的樣本集,與正類樣本組成新的平衡訓(xùn)練集。然后,基于字統(tǒng)計模型提取特征,并利用多樣性增量對所提取高維特征進(jìn)行降維。最后,采用基于極端學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)的集成預(yù)測算法對蛋白質(zhì)ATP結(jié)合位點進(jìn)行預(yù)測[2]。
1 基于SFLA聚類算法的數(shù)據(jù)欠采樣
由于在蛋白質(zhì)序列數(shù)據(jù)集中,與ATP結(jié)合的氨基酸位點遠(yuǎn)遠(yuǎn)少于非結(jié)合位點,因此需要對數(shù)據(jù)集進(jìn)行平衡化處理,以使其不致影響后續(xù)分類的精度。處理不平衡數(shù)據(jù)集分類問題常用的主要有算法層面和數(shù)據(jù)層面兩種方法。本項目擬采用在數(shù)據(jù)層面處理不平衡數(shù)據(jù),即首先采用基于SFLA聚類算法進(jìn)行欠采樣,將原始數(shù)據(jù)集中的負(fù)類樣本聚類為多個不相交的子集,然后在各子集上提取有代表性的樣本集,與正類樣本組成新的平衡數(shù)據(jù)集。
假設(shè)原始數(shù)據(jù)集中包含N1個正類數(shù)據(jù)集A,N2個負(fù)類數(shù)據(jù)集B,算法步驟如下:
Step 1:在負(fù)類數(shù)據(jù)集B上,使用基于SFLA聚類算法對N2個負(fù)類數(shù)據(jù)進(jìn)行聚類,聚類后各簇內(nèi)的數(shù)據(jù)個數(shù)分別為,且,為聚類個數(shù),[]為取整符號;
Step 2:計算各簇數(shù)據(jù)到各自聚類中心的距離,并按由小到大的順序排列;
Step 3:分別選取各簇中距離簇中心最近的個數(shù)據(jù)組成包含N3個負(fù)類數(shù)據(jù)的新負(fù)類數(shù)據(jù)集false;
Step 4:將新負(fù)類數(shù)據(jù)集false和正類數(shù)據(jù)集A組合,生成平衡數(shù)據(jù)集。
2 特征提取與降維
2.1 基于字統(tǒng)計模型的特征提取方法
字統(tǒng)計模型是通過在蛋白質(zhì)序列中統(tǒng)計長度為k的氨基酸片段出現(xiàn)的頻率,以作為后續(xù)預(yù)測的特征信息。與傳統(tǒng)統(tǒng)計各氨基酸頻率特征的方法相比,此特征提取方法不僅統(tǒng)計了單個氨基酸出現(xiàn)的頻率,還統(tǒng)計了氨基酸片段出現(xiàn)的頻率,從而獲取了更為全面的蛋白質(zhì)序列信息。對于由20種氨基酸組成的蛋白質(zhì)序列S,主要特征提取步驟如下:
Step 1:由一個n維向量來表示k-字段在序列S中出現(xiàn)的次數(shù),n是所有可能的k-字的總數(shù)。
Step 2:將k-字段在序列S中出現(xiàn)的頻率表示為向量
。
當(dāng)時,該頻率向量則為20種氨基酸在序列中出現(xiàn)的頻率。
2.2 基于多樣性增量的特征降維
多樣性增量(Increment of diversity,ID)是基于多樣性量的一個生物數(shù)學(xué)概念,它反映了兩個樣本之間的生物相似性關(guān)系,ID值越小表示兩個樣本之間越相似。本文利用ID原理對所選高維特征進(jìn)行降維,可以減少降維過程中丟失的信息,避免后續(xù)分類器過訓(xùn)練的情況。
3 基于ELM的集成預(yù)測算法
分類器集成的主要思想是利用多個分類器來解決同一個問題,采用某種規(guī)則把學(xué)習(xí)結(jié)果進(jìn)行組合,以期達(dá)到有效提高學(xué)習(xí)系統(tǒng)泛化能力的目的。生成差異性互補(bǔ)的分類器是提升預(yù)測性能的關(guān)鍵。目前,生成差異性及分類器的方法主要有訓(xùn)練樣本的擾動、模型參數(shù)的設(shè)置、學(xué)習(xí)算法本身的差異等。Bagging(Bootstrap Aggregating)算法是一種基于訓(xùn)練樣本分布擾動的分類器集成技術(shù)。算法每次從訓(xùn)練樣本中隨機(jī)有放回地抽取與訓(xùn)練集數(shù)目相等的樣本,訓(xùn)練基分類器,重復(fù)T次后,就可以訓(xùn)練出T個基分類器。本項目基分類擬采用ELM,通過Bagging算法實現(xiàn)對訓(xùn)練樣本的擾動,從而產(chǎn)生具有差異性的基分類器,再進(jìn)行基分類器的集成學(xué)習(xí)。
將原始數(shù)據(jù)集分成訓(xùn)練集和測試集兩個子集,算法主要步驟如下:
Step 1:采用有放回抽樣從訓(xùn)練集的樣本中選取k個樣本;
Step 2:采用提取的新的k個樣本對ELM基分類器進(jìn)行訓(xùn)練;
Step 3:重復(fù)Step 1和Step 2T次,得到T個ELM基分類器。
Step 4:將測試集輸入各基分類器,采用多數(shù)投票法融合各基分類器輸出結(jié)果。
4 預(yù)測結(jié)果評價
5 集成預(yù)測流程
整體預(yù)測流程如圖1所示。首先,對不平衡原始數(shù)據(jù)進(jìn)行處理,采用SFLA聚類算法對負(fù)類樣本進(jìn)行欠采樣,與正類樣本整合構(gòu)成新的平衡數(shù)據(jù)集。然后,基于字統(tǒng)計模型提取特征構(gòu)成特征向量,并利用多樣性增量原理對所提取高維特征進(jìn)行降維。再次,用Bagging算法產(chǎn)生差異化訓(xùn)練樣本訓(xùn)練各ELM分類器,并采用多數(shù)投票法集成各分類器預(yù)測結(jié)果。最后,計算Ac、Sn、PPV、MCC四種指標(biāo),評價預(yù)測結(jié)果。
參考文獻(xiàn)
[1]周志華,唐偉.基于Bagging的選擇性聚類集成[J].2005,16(4):496-501.
[2]周志華,唐偉,吳建鑫.靜態(tài)灰度圖像中的人臉檢測方法綜述[J].計算機(jī)科學(xué),2002Vo1.29:2-4.