国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MIMLNN的玉米蛋白質(zhì)功能預(yù)測(cè)

2018-10-22 01:48陳彥明
現(xiàn)代計(jì)算機(jī) 2018年25期
關(guān)鍵詞:結(jié)構(gòu)域示例蛋白質(zhì)

陳彥明

(上海海事大學(xué)信息工程學(xué)院,上海 201306)

0 引言

谷物及其制品,提供了人類(lèi)40%-70%的食品[1],玉米是世界上最主要的谷物,大約1萬(wàn)年墨西哥南部的土著人首先種植了玉米[2],現(xiàn)今玉米已成為世界許多地區(qū)的主食,總產(chǎn)量超過(guò)小麥、大米。然而,并不是所有的玉米都直接被人類(lèi)消費(fèi),一些玉米用于生產(chǎn)乙醇、動(dòng)物飼料和其他玉米產(chǎn)品,如玉米淀粉和玉米糖漿。谷類(lèi)對(duì)人體健康有非常重要的積極影響,玉米中的纖維素和植物化學(xué)素等成分對(duì)人體而言具有良好的營(yíng)養(yǎng)保健作用。

對(duì)玉米的蛋白質(zhì)功能進(jìn)行注釋以便對(duì)它功能蛋白的生理意義進(jìn)行理解,對(duì)于玉米蛋白質(zhì)組學(xué)的研究顯然非常重要。在世界上較為主流的蛋白質(zhì)序列數(shù)據(jù)庫(kù)中,已有一定量的經(jīng)人工注釋復(fù)核的玉米蛋白質(zhì)數(shù)據(jù)可供使用,但同時(shí)仍有大量未經(jīng)注釋且功能未知的玉米蛋白質(zhì)序列。面對(duì)這些沒(méi)有經(jīng)過(guò)注釋且功能未知的玉米蛋白質(zhì),顯然手工注釋的方法已經(jīng)跟不上數(shù)據(jù)的腳步,非常需要一種自動(dòng)化的方法來(lái)對(duì)玉米的蛋白質(zhì)進(jìn)行功能預(yù)測(cè)。

在這樣的時(shí)代背景下,不管是從玉米蛋白質(zhì)研究的角度來(lái)說(shuō),還是從玉米對(duì)于我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展的重要性來(lái)說(shuō),研究使用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)玉米的蛋白質(zhì)自動(dòng)化地進(jìn)行功能預(yù)測(cè)具有不言而喻的現(xiàn)實(shí)意義。而機(jī)器學(xué)習(xí)技術(shù)的興起發(fā)展為解決此類(lèi)問(wèn)題提供了一種優(yōu)秀的解決方案,其中一部分技術(shù)則非常適合解決此類(lèi)預(yù)測(cè)問(wèn)題。

1 算法概述

多示例多標(biāo)記學(xué)習(xí)(Multi-Instance Multi-label Learning,MIML)由 Zhou 提出[4],提出后產(chǎn)生了很大的影響,作為一種新穎的機(jī)器學(xué)習(xí)框架得到了很好的發(fā)展,如今整個(gè)多示例多標(biāo)記學(xué)習(xí)的生態(tài)已經(jīng)日益繁榮[4-7]。

傳統(tǒng)的監(jiān)督學(xué)習(xí)使用一個(gè)示例(instance)來(lái)描述一個(gè)對(duì)象(object),這里的示例亦即一個(gè)特征向量,同時(shí)使用一個(gè)類(lèi)別標(biāo)記(label)與此對(duì)象對(duì)應(yīng)。令X表示示例空間(或特征空間),Y表示類(lèi)別標(biāo)記的集合,傳統(tǒng)監(jiān)督學(xué)習(xí)的任務(wù)是從給定數(shù)據(jù)集{(x1,y1),(x2,y2),…,( )xm,ym}中學(xué)習(xí)函數(shù)f:X→Y,其中xi∈X是一個(gè)實(shí)例,yi∈Y是xi的已知標(biāo)記。

這種傳統(tǒng)的監(jiān)督學(xué)習(xí)框架適用于一些問(wèn)題,但有很多現(xiàn)實(shí)世界的問(wèn)題不適合這個(gè)框架。它的缺點(diǎn)在于每個(gè)對(duì)象只屬于一個(gè)概念,相應(yīng)的示例只對(duì)應(yīng)于單個(gè)的類(lèi)別標(biāo)記。然而大多數(shù)現(xiàn)實(shí)世界的對(duì)象并非這樣簡(jiǎn)單,可能同時(shí)對(duì)應(yīng)于多個(gè)的類(lèi)別標(biāo)記。于是,多實(shí)例多標(biāo)簽學(xué)習(xí)框架應(yīng)運(yùn)而生,在此框架中,一個(gè)對(duì)象由多個(gè)示例描述,與多個(gè)類(lèi)別標(biāo)記相關(guān)聯(lián)。對(duì)比上述傳統(tǒng)的監(jiān)督學(xué)習(xí),MIML框架對(duì)于表示復(fù)雜的現(xiàn)實(shí)世界對(duì)象更方便自然。文獻(xiàn)[4]中提出,多示例多標(biāo)記學(xué)習(xí)使用多個(gè)特征向量來(lái)描述一個(gè)對(duì)象,得到多個(gè)示例,同時(shí),使用多個(gè)類(lèi)別標(biāo)記來(lái)與此對(duì)象對(duì)應(yīng)。形式上設(shè)X表示示例空間,Y表示類(lèi)別標(biāo)記的集合。在形式上,多示例多標(biāo)記學(xué)習(xí)任務(wù)被定義為[4]:從給定數(shù)據(jù)集中學(xué)習(xí)函數(shù)f:2X→2Y,其中Xi?X是一組示例 {xi1,xi2,…,xi,ni}的集合,xij∈X(j=1,2,…,ni),Yi?Y是一組標(biāo)記{yi1,yi2,…,yi,li}的集合,yik∈Y(k=1,2,…,li)。這里ni表示Xi中的示例數(shù)量,li表示Yi中的標(biāo)簽數(shù)量。

文獻(xiàn)[4]基于MIML框架提出了多種MIML算法,MIMLNN(Multi-Instance Multi-Label Neural Network)是其中一種較優(yōu)秀的算法。下面簡(jiǎn)要概述MIMLNN算法的主要思想和過(guò)程,并使用偽代碼進(jìn)行描述。

首先,收集每個(gè)MIML示例(Xu,Yu)(u=1,2,…,m)中的Xu并將其放入數(shù)據(jù)集Γ中。然后,對(duì)Γ使用k-Me?doids算法[8]聚類(lèi)。由于Γ中的每個(gè)數(shù)據(jù)項(xiàng),即Xu,是一個(gè)未標(biāo)記的多示例包而不是單個(gè)示例,因此基于最大豪斯道夫距離[4]對(duì)含有每個(gè)標(biāo)記的訓(xùn)練樣本進(jìn)行k-Medoids聚類(lèi),并保留每個(gè)聚類(lèi)簇的中心點(diǎn)。

在數(shù)學(xué)中,豪斯道夫距離(Hausdorff Distance),也稱(chēng)為Pompeiu-Hausdorff距離。常被用于計(jì)算機(jī)視覺(jué)等領(lǐng)域。這個(gè)距離最早是由豪斯多夫在他1919年首次出版的書(shū)《人民報(bào)》中提出的。簡(jiǎn)單來(lái)說(shuō),如果一個(gè)集合中的每個(gè)點(diǎn)都接近另一個(gè)集合的某個(gè)點(diǎn),那么兩個(gè)集合在Hausdorff距離上是接近的。

對(duì)于兩個(gè)示例的包(bag),A={a1,a2,…,ani},B={b1,b2,…,bnj},兩者間的最大豪斯道夫距離為:

式中|.|為集合的元素?cái)?shù)目,||.||為示例之間的歐氏距離(Euclidean Distance)。

在聚類(lèi)過(guò)程之后,數(shù)據(jù)集Γ被劃分為k個(gè)分區(qū),其中中心點(diǎn)(Medoids)為Mt(t=1,2,…,k)。根據(jù)這些中心點(diǎn),原始的多實(shí)例Xu被轉(zhuǎn)換成k維數(shù)值向量zu,其中zu的第i(i=1,2,…,k)分量是Xu和Mi之間的最大豪斯道夫距離,即Hmax(Xu,Mi)。因此,最初的MIML例子(Xu,Yu)(u=1,2,…,m)已經(jīng)被轉(zhuǎn)化為多標(biāo)簽的例子(zu,Yu)(u=1,2,…,m)。然后,從數(shù)據(jù)集中學(xué)習(xí)多標(biāo)簽學(xué)習(xí)函數(shù)fMLL,因?yàn)?,故可以得到所需的MIML函數(shù)。在MIMLNN算法中,使用反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)fMLL。

2 數(shù)據(jù)提取和處理

蛋白質(zhì)數(shù)據(jù)從世界上主流的蛋白質(zhì)序列數(shù)據(jù)庫(kù)UniProtKB取得。UniProtKB分為Swiss-Prot和TrEM?BL兩個(gè)子數(shù)據(jù)庫(kù),Swiss-Prot的注釋經(jīng)過(guò)人工手動(dòng)完成并復(fù)核,本文選用Swiss-Prot中的數(shù)據(jù)進(jìn)行訓(xùn)練和驗(yàn)證,這樣得到的結(jié)果更有說(shuō)服力。

使用關(guān)鍵詞檢索,從Swiss-Prot獲得了153條玉米蛋白質(zhì)數(shù)據(jù),每條玉米蛋白質(zhì)數(shù)據(jù),均包含兩個(gè)部分:蛋白質(zhì)結(jié)構(gòu)域(Domain)序列數(shù)據(jù)和基因本體(Gene Ontology,GO)編號(hào)表示的分子功能(Molecular Function)數(shù)據(jù)。

蛋白質(zhì)結(jié)構(gòu)域是給定蛋白質(zhì)序列和蛋白質(zhì)(三級(jí))結(jié)構(gòu)的保留部分,它可以獨(dú)立于蛋白質(zhì)鏈的其余部分進(jìn)化、作用和存在。每個(gè)結(jié)構(gòu)域形成一個(gè)緊湊的三維結(jié)構(gòu),往往可以獨(dú)立穩(wěn)定和折疊。大多數(shù)蛋白質(zhì)由不止一個(gè)結(jié)構(gòu)域組成,同樣的一個(gè)結(jié)構(gòu)域可能出現(xiàn)在各種不同的蛋白質(zhì)中。分子進(jìn)化使用結(jié)構(gòu)域作為基本的結(jié)構(gòu)單元,這些結(jié)構(gòu)可以以不同的排列進(jìn)行重組,以創(chuàng)建具有不同功能的蛋白質(zhì)。結(jié)構(gòu)域長(zhǎng)度從約25個(gè)氨基酸到500個(gè)氨基酸長(zhǎng)度不等。此概念最早由Wet?laufer在1973年提出[9]。Wetlaufer將結(jié)構(gòu)域定義為蛋白質(zhì)結(jié)構(gòu)的穩(wěn)定單位,可以自動(dòng)折疊。大自然通常將幾個(gè)結(jié)構(gòu)域結(jié)合在一起形成具有多種可能性的多域和多功能蛋白質(zhì)。在多域蛋白質(zhì)中,每個(gè)結(jié)構(gòu)域都可以獨(dú)立地完成自己的功能,或者以與其鄰居一致的方式完成它自己的功能。

她一一向我介紹她的家具:懶人沙發(fā),逍遙椅,水晶吊燈和銀臺(tái)燈。并說(shuō),老同學(xué)喜歡什么就搬走什么,沒(méi)有問(wèn)題。

基因本體論(GO)是一項(xiàng)重要的生物信息學(xué)計(jì)劃。在生物學(xué)領(lǐng)域沒(méi)有通用的標(biāo)準(zhǔn)術(shù)語(yǔ),術(shù)語(yǔ)用法可能特定于物種、研究領(lǐng)域甚至特定的研究小組而異,而此計(jì)劃旨在解決這些混亂的表示方法。簡(jiǎn)單來(lái)說(shuō),GO提供了一種統(tǒng)一的編號(hào)方法來(lái)表示所有物種中基因和基因產(chǎn)物的屬性,它涵蓋三個(gè)領(lǐng)域:細(xì)胞成分、分子功能、生物過(guò)程,本文中我們使用GO分子功能的編號(hào)來(lái)表示蛋白質(zhì)的功能。

GO本體文件可以從GO網(wǎng)站以各種格式免費(fèi)獲得。表1展示了一個(gè)編號(hào)為GO:0000005的用來(lái)描述某種分子功能的GO條目。

表1 GO本體示例

使用文獻(xiàn)[10]中提出的基于Conjoint Triad法[11]的氨基酸序列特征向量提取方法,對(duì)上述每個(gè)條目中的結(jié)構(gòu)域進(jìn)行特征向量的提取,每個(gè)結(jié)構(gòu)域得到對(duì)應(yīng)的一個(gè)特征向量,即為一個(gè)“示例”。同時(shí),每個(gè)GO編號(hào)則對(duì)應(yīng)的作為一個(gè)“標(biāo)記”。以這種邏輯關(guān)系得到一個(gè)完整的玉米多實(shí)例多標(biāo)記樣本庫(kù),導(dǎo)入MIMLNN算法中進(jìn)行訓(xùn)練,并進(jìn)行功能預(yù)測(cè)。

3 結(jié)果與對(duì)比

使用3種主流的多標(biāo)記學(xué)習(xí)評(píng)價(jià)指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)價(jià)。

Hamming Loss指標(biāo)[12-13]用來(lái)評(píng)價(jià)所得結(jié)果與實(shí)際情況之間的差異大小,也就是樣本實(shí)際上擁有標(biāo)記Yi,卻沒(méi)有被成功預(yù)測(cè),或者,實(shí)際上沒(méi)有擁有標(biāo)記Yi,但是被誤認(rèn)為擁有的可能性,其值越小則預(yù)測(cè)效果越好。定義如下:

式中|D|為樣本數(shù)量,|L|為標(biāo)記數(shù)量,xi為預(yù)測(cè)值,yi為真實(shí)值。

maF1、miF1 指標(biāo)[14-15]分別對(duì) F1 值(F1 Measure)應(yīng)用宏平均(macro average)和微平均(micro average)。

式中|D|為樣本數(shù)量,|L|為標(biāo)記數(shù)量,xi為預(yù)測(cè)值,yi為真實(shí)值,yi,l為yi的第l個(gè)元素。

miF1先對(duì)所有示例和標(biāo)記直接進(jìn)行平均。其計(jì)算方法如下:

式中|D|為樣本數(shù)量,|L|為標(biāo)記數(shù)量,xi為預(yù)測(cè)值,yi為真實(shí)值,<·>為數(shù)量積。

使用第2節(jié)處理得到的玉米蛋白質(zhì)數(shù)據(jù),使用MIMLNN算法在最優(yōu)參數(shù)條件下進(jìn)行蛋白質(zhì)功能預(yù)測(cè),使用上述三種主流的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),結(jié)果如表2所示,一共進(jìn)行10次預(yù)測(cè)實(shí)驗(yàn),采用10折交叉驗(yàn)證(保留3位小數(shù))得到,在表的末尾列出了10次實(shí)驗(yàn)結(jié)果的平均值以及方差。如上文所述,Hamming Loss的值越小越好,其余兩者反之。

表2 三種指標(biāo)下玉米蛋白質(zhì)功能預(yù)測(cè)結(jié)果

表3中展示了本文得出的結(jié)果和文獻(xiàn)[16]中對(duì)于兩種微生物的蛋白質(zhì)功能預(yù)測(cè)的結(jié)果對(duì)比,表中數(shù)據(jù)均以平均值±標(biāo)準(zhǔn)差的形式給出。

表3 與同類(lèi)預(yù)測(cè)結(jié)果的對(duì)比

可見(jiàn),在Hamming Loss指標(biāo)下,本文中的預(yù)測(cè)結(jié)果取得了近似同等的表現(xiàn),而在其余兩種指標(biāo)下,本文預(yù)測(cè)結(jié)果皆顯著更好。

4 結(jié)語(yǔ)

玉米作為重要的谷物之一,對(duì)其蛋白質(zhì)進(jìn)行預(yù)測(cè)具有顯而易見(jiàn)的現(xiàn)實(shí)意義。本文應(yīng)用了一種優(yōu)秀的多示例多標(biāo)記學(xué)習(xí)算法MIMLNN進(jìn)行玉米的蛋白質(zhì)功能預(yù)測(cè),通過(guò)對(duì)比,證明取得了良好的結(jié)果,因此具有一定的實(shí)用價(jià)值。同時(shí),在機(jī)器學(xué)習(xí)技術(shù)日新月異的今天,這類(lèi)方法仍有較大的改進(jìn)空間以提高預(yù)測(cè)效果。

猜你喜歡
結(jié)構(gòu)域示例蛋白質(zhì)
細(xì)菌四類(lèi)胞外感覺(jué)結(jié)構(gòu)域的概述
蛋白質(zhì)自由
人工智能與蛋白質(zhì)結(jié)構(gòu)
白描畫(huà)禽鳥(niǎo)(九)
UBR5突變與淋巴瘤B細(xì)胞成熟
10秒記憶
飛吧,云寶
DEP結(jié)構(gòu)域的功能研究進(jìn)展
水稻DnaJ蛋白的生物信息學(xué)分析
高考作文“踮起腳尖”升格示例
玉林市| 安乡县| 彭阳县| 平顺县| 绥江县| 宿迁市| 临城县| 清水县| 武夷山市| 阳原县| 永城市| 祁连县| 明水县| 阳新县| 吴桥县| 白山市| 阜南县| 宜黄县| 宜都市| 团风县| 博兴县| 绥化市| 木兰县| 体育| 临夏市| 谢通门县| 文登市| 鄂伦春自治旗| 盐山县| 黄龙县| 简阳市| 阿拉善右旗| 中卫市| 喀喇沁旗| 宁乡县| 大荔县| 新营市| 新昌县| 尚志市| 河北区| 屏东市|