国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基因表達(dá)譜中特征基因選擇的幾種方法比較研究

2012-01-27 20:43何蘭范繼紅滕輝潘洪明
中國科技信息 2012年14期
關(guān)鍵詞:基因芯片齊齊哈爾特征選擇

何蘭范繼紅滕輝潘洪明

1.齊齊哈爾醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院數(shù)學(xué)教研室,齊齊哈爾,161006 2.齊齊哈爾醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心計(jì)算機(jī)教研室,齊齊哈爾,161006 3.齊齊哈爾醫(yī)學(xué)院醫(yī)學(xué)技術(shù)學(xué)院生化教研室,齊齊哈爾,161006

基因表達(dá)譜中特征基因選擇的幾種方法比較研究

何蘭1范繼紅2滕輝1潘洪明3

1.齊齊哈爾醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院數(shù)學(xué)教研室,齊齊哈爾,161006 2.齊齊哈爾醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心計(jì)算機(jī)教研室,齊齊哈爾,161006 3.齊齊哈爾醫(yī)學(xué)院醫(yī)學(xué)技術(shù)學(xué)院生化教研室,齊齊哈爾,161006

基因表達(dá)譜芯片技術(shù)的產(chǎn)生,為復(fù)雜疾病致病機(jī)理的研究提供了一個(gè)全方位的視角。從大量的基因表達(dá)譜芯片數(shù)據(jù)中挖掘有用的信息,特征選擇技術(shù)起到了關(guān)鍵的作用。對當(dāng)前基因芯片數(shù)據(jù)的特征選擇方法和各種學(xué)習(xí)器效能進(jìn)行了綜述,并通過說明各種特征選擇方法的具體情況來比較它們的優(yōu)劣性,最終得出從特征自身特點(diǎn)出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學(xué)的應(yīng)用。

基因表達(dá)譜;特征選擇;聚類分析;t檢驗(yàn);決策樹;支持向量機(jī)

引言

隨著人類基因組計(jì)劃的逐步實(shí)施以及分子生物學(xué)等學(xué)科的迅猛發(fā)展,越來越多的基因組序列得以測定,人類對基因組研究的重心也進(jìn)入了后基因組時(shí)代,即從基因序列的研究轉(zhuǎn)向到基因組功能的研究?;蛐酒夹g(shù)就是順應(yīng)這一發(fā)展要求的高科技產(chǎn)物?;蛐酒歉鶕?jù)堿基互補(bǔ)的原理,通過檢測雜交信號的強(qiáng)度及分布來進(jìn)行分析的?;蛐酒夹g(shù)經(jīng)過近二十年的發(fā)展,已成為一個(gè)非常穩(wěn)定和可信度極高的實(shí)驗(yàn)技術(shù)[1-2]?;蛐酒夹g(shù)的產(chǎn)生是功能基因組研究的一個(gè)重大突破,運(yùn)用基因芯片技術(shù)可以進(jìn)行正常和異常細(xì)胞中基因的表達(dá)檢測,基因突變檢測,分析復(fù)雜疾病的致病機(jī)理,為疾病的個(gè)性化診斷和治療提供指導(dǎo),同時(shí)在藥物篩選和開發(fā)、環(huán)境保護(hù)、司法鑒定等方面也有重要的應(yīng)用。

面對人類約3萬個(gè)基因的30億個(gè)堿基對序列,近年來,通過基因芯片技術(shù)進(jìn)行生物研究時(shí)也產(chǎn)生了浩如煙海的表達(dá)譜數(shù)據(jù),研究如此海量的基因在生命過程中所擔(dān)負(fù)的功能就成了新的課題?;虮磉_(dá)譜是一組表達(dá)數(shù)據(jù),通常用矩陣表示,行代表基因,列代表樣本,矩陣中的元素代表基因在特定樣本中的表達(dá)水平和豐度信息。據(jù)研究表明,并不是所有基因?qū)膊∵z傳、診斷、治療或醫(yī)學(xué)研究都有決定性作用[3]。因此,為了從大量的表達(dá)數(shù)據(jù)中挖掘有重要應(yīng)用價(jià)值和研究意義的基因,發(fā)現(xiàn)對疾病診斷、預(yù)測具有很強(qiáng)鑒別力的基因組,如何有效地提取與疾病有關(guān)的特征基因,降低特征基因的維數(shù)是基因表達(dá)譜數(shù)據(jù)分析的核心問題,也對樣本分類起到關(guān)鍵性的作用[4-6]。

目前,很多科技工作者在研究中提出了特征基因提取的方法和理論,較早獲得的有聚類分析法、人工神經(jīng)網(wǎng)絡(luò)等特征基因選擇法,近年來又有集成數(shù)據(jù)選擇法[7]、非線性降維選擇法[8],應(yīng)用t檢驗(yàn)、決策樹、支持向量機(jī)等特征基因選取方法。本文針對幾種特征基因選擇方法進(jìn)行介紹,并用不同的分類器比較評價(jià)其效能。

1 特征基因選擇法

1.1 聚類分析法

最常用的是層次聚類法,這種方法是通過計(jì)算各數(shù)據(jù)點(diǎn)間的距離,然后把最近距離聚為一組,再計(jì)算各組之間的距離,然后把它們合并成一個(gè)更大的組,不斷重復(fù)該過程直到最后聚成一組以樹狀結(jié)構(gòu)的數(shù)據(jù)。這種做法的結(jié)果非常直觀,而且還可以根據(jù)樹狀結(jié)構(gòu)分支的長短來評價(jià)基因的相似性。

在用K-means聚類法進(jìn)行分析時(shí),因?yàn)槿狈ο闰?yàn)知識,所以事先不能確定k值。把k作為一個(gè)變量處理,從2開始遞增,對每個(gè)k值都根據(jù)模式質(zhì)量對特征基因進(jìn)行評估,然后遴選出最優(yōu)的基因集作為特征基因集。不斷重復(fù)這一過程,k值遞增,直到找出一個(gè)模式質(zhì)量最大的k值為止。

1.2 t檢驗(yàn)法

數(shù)據(jù)采用美國Affymetrix(昂飛)公司的結(jié)腸癌基因表達(dá)實(shí)驗(yàn)數(shù)據(jù)(www.sph.uth. tmc.edu/hgc),原實(shí)驗(yàn)點(diǎn)有65000個(gè)寡聚核苷酸探針組的基因芯片,樣本包括40例結(jié)腸癌組織和22例正常結(jié)腸組織。我們僅采用U.ALON等篩選出的2000個(gè)基因表達(dá)譜數(shù)據(jù)進(jìn)行分析[9]。

這種方法主要是運(yùn)用統(tǒng)計(jì)學(xué)上的兩組獨(dú)立樣本t檢驗(yàn),此方法的零假設(shè)H0是兩總體的均值相等,備擇假設(shè)H1為均值不等。應(yīng)用檢驗(yàn)結(jié)果可以尋找兩組數(shù)據(jù)間表達(dá)有差異的基因,又由于在實(shí)驗(yàn)中進(jìn)行了多次假設(shè)檢驗(yàn),從而涉及多重檢驗(yàn)問題,第一類錯(cuò)誤會上升,所以可根據(jù)具體情況對每個(gè)基因的值進(jìn)行相應(yīng)調(diào)整,確定檢驗(yàn)的顯著性水平為0.05。通過統(tǒng)計(jì)軟件SAS對兩總體做t檢驗(yàn),計(jì)算每一個(gè)基因的t值,并降序排列,分別篩選t值最大的前5至10個(gè)基因。最后引入n重交叉驗(yàn)證法[10],來驗(yàn)證所選特征基因的樣本識別率。

1.3 決策樹

決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)方法。它通常是利用已知類別的樣本信息,采用自上而下的方式來生成的。決策樹的內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測試,通過比較不同節(jié)點(diǎn)的屬性值來判斷下一個(gè)節(jié)點(diǎn)的分支,直到找到的節(jié)點(diǎn)中包含的樣本滿足某個(gè)條件為止。這樣,當(dāng)一個(gè)決策樹生成時(shí),它的每一個(gè)內(nèi)部節(jié)點(diǎn)的分割都對應(yīng)著一個(gè)特征屬性。

如選定一個(gè)p維樣本,將樣本集分為訓(xùn)練集和試驗(yàn)集。為尋求一個(gè)最能改善分類正確率的特征屬性,從所有訓(xùn)練集的根節(jié)點(diǎn)開始,為了選擇一個(gè)最好的特征,在特征空間做一次窮盡搜索,尋找一個(gè)特征屬性和相應(yīng)的閥值,使得最大程度地減少類別節(jié)點(diǎn)的雜質(zhì)度。重復(fù)以上分支遞歸過程,可得到?jīng)Q策樹上的一套特征子集[11]。試驗(yàn)證明,決策樹特征基因選擇法對支持向量機(jī)具有良好的有效性。

1.4 支持向量機(jī)

支持向量機(jī)分類方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的,在有限的樣本信息和學(xué)習(xí)能力之間尋求最佳,使復(fù)雜度和結(jié)構(gòu)風(fēng)險(xiǎn)達(dá)到最小,以期獲得最好的推廣能力[12]。在有監(jiān)督分析獲取特征基因的過程中,不僅要使分類器的VC維低,同時(shí)也要使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小。支持向量機(jī)可以這樣表述,首先將已知向量映射到一個(gè)高維空間里,使得向量在高維空間里可分,并且線性函數(shù)只需在高維空間進(jìn)行內(nèi)積運(yùn)算,這樣就避開了高維變換計(jì)算問題。然后再尋找一個(gè)最佳超平面,讓這個(gè)超平面把數(shù)據(jù)分開在兩邊,并且使每一類別數(shù)據(jù)之間的分類間隔最大,這樣可以降低結(jié)構(gòu)風(fēng)險(xiǎn)。通過大量試驗(yàn)證明,支持向量機(jī)在解決小樣本、非線性問題中表現(xiàn)出特有的優(yōu)勢,且分類精度高,抗噪能力強(qiáng)。同時(shí)支持向量機(jī)對高維模式識別具有很強(qiáng)的泛化能力[13]。

2 特征基因的分類效能評價(jià)

根據(jù)特征選擇技術(shù)和特征集成技術(shù)找出的特征基因分類效能如何,可用下面四種分類器進(jìn)行評價(jià)[14]。

2.1 Fisher線性判別分類器

這種方法把p維空間的樣本投影到一條直線上,形成一維空間,即把維數(shù)壓縮為一維。通過尋找最佳的投影方向,使樣本在一維空間達(dá)到較好的分離效果。

2.2 Logit非線性分類器

這種方法主要是運(yùn)用Logistic回歸模型,計(jì)算疾病發(fā)生的概率p及疾病不發(fā)生的概率q,通過比較p和q的大小來判別樣本所屬類型。

2.3 基于最小距離的分類器

該方法是把均值作為各類的代表點(diǎn),用距離作為判別函數(shù)進(jìn)行分類,即通過比較檢驗(yàn)樣本與代表點(diǎn)的距離來判別樣本所屬類別的一種方法。

2.4 K 最近鄰法分類器

該方法對于每個(gè)檢驗(yàn)樣本都找出與之距離最近的K個(gè)鄰居,以這K個(gè)鄰居中占主導(dǎo)的類別作為檢驗(yàn)樣本的類別。而對于基因表達(dá)譜數(shù)據(jù),較合理的衡量基因之間距離的方法是Pearson相關(guān)系數(shù)。鄰居數(shù)K可用交叉證實(shí)的方法確定。

3 結(jié)語

基因芯片數(shù)據(jù)對疾病進(jìn)行分類診斷是生物醫(yī)學(xué)中重要的應(yīng)用領(lǐng)域,但是基因芯片的特征選擇面臨的是海量的檢測數(shù)據(jù),從成千上萬的數(shù)據(jù)中尋找特征基因的方法和效能檢驗(yàn)就顯得尤為重要。

對于不同的基因芯片數(shù)據(jù)集,不同的特征選擇算法的性能優(yōu)勢也不盡相同。有的算法分類正確率高,但是所需基因數(shù)較多;有的算法需要較少的基因,但是復(fù)雜度高;有的所需基因較少,分類正確率也不低,但是結(jié)果卻和疾病的機(jī)理相關(guān)性小。因此,考慮到一個(gè)好的基因芯片數(shù)據(jù)的特征選擇法應(yīng)具有的條件,把上述多種算法有效地相結(jié)合[15],綜合每種方法的優(yōu)勢,可得到分類、性能各方面都令人滿意的結(jié)果,即從特征自身特點(diǎn)出發(fā)的特征選擇法可獲得較好的分類效能和生物醫(yī)學(xué)的應(yīng)用。

[1]李霞.生物信息學(xué)[M].北京:人民衛(wèi)生出版社,2010:110~128.

[2]孫繼勇.基因表達(dá)譜的數(shù)據(jù)分析[J].國際病理科學(xué)與臨床雜志,2005,25(5),386~389.

[3]余偉峰,王廣倫,錢夕元.基于GA/SVM的微陣列數(shù)據(jù)特征的選擇和分類[J].計(jì)算機(jī)工程,2007,33(19),204~206.

[4]張玉春,郝平波,王明宇,等.確定腫瘤基因表達(dá)譜特征基因方法的研究[J].沈陽理工大學(xué)學(xué)報(bào),2011,30(1),34~38.

[5]A Buness, M. Ruschhaupt, and R. Kuner,Classification across gene expression microarray studies[J]. BMC Bioinformatics, 2009,(10):453.

[6]呂颯麗,汪強(qiáng)虎,李霞,等.基于決策森林特征基因的兩種識別方法[J].生物信息學(xué),2004,(3):19~22.

[7]王海鵬,楊昆.集成數(shù)據(jù)選擇特征基因[J]杭州電子科技大學(xué)學(xué)報(bào),2010,30(6),17-20.

[8]楊廣源,付旭平,黃燕等.一種非線性降維和Procrustes分析的基因選取方法[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2009,48(3),338~347.

[9]Alon U,Barka I , Notterman D,et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon cancer tissues probed by oligonucleotide arrays[J]. Cell Biology, 1999,(96)∶6745~6750.

[10]趙肖肖,朱寧,黃云騰.Logistic回歸和T檢驗(yàn)在基因特征提取中的應(yīng)用[J].桂林電子科技大學(xué)學(xué)報(bào),2012,32(1),69~71,81.

[11]李霞,饒紹奇,張?zhí)镂?,?應(yīng)用DNA芯片數(shù)據(jù)挖掘復(fù)雜疾病相關(guān)基因的集成決策方法[J].中國科學(xué) C輯 生命科學(xué),2004,34(2):195~202.

[12]. 李霞,張?zhí)镂?李麗,等.決策樹特征基因選擇方法對SVM有效性的研究[J].中國生物醫(yī)學(xué)工程學(xué)報(bào),2004,23(1),66~23.

[13]. 楊俊麗,劉田福,李祥生.樣本類型無關(guān)的多類特征基因選擇方法[J].計(jì)算機(jī)工程與應(yīng)用(優(yōu)先出版),2012,1~5.

[14]王海蕓,李霞,郭政,等.四種模式分類方法應(yīng)用于基因表達(dá)譜分析的比研究[J].生物醫(yī)學(xué)工程雜志,2005,22(3),505~509.

[15]周!,何潔月.生物信息學(xué)中基因芯片的特征選擇技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2007,34(12),143~150.

A

R311;R319

10.3969/j.issn.1001-8972.2012.14.064

齊齊哈爾市科學(xué)技術(shù)局科學(xué)技術(shù)計(jì)劃項(xiàng)目資助

何蘭(1970-),女,碩士,副教授,研究方向:生物信息學(xué)

范繼紅(1968-),女,碩士,副教授,研究方向:生物信息學(xué)

滕輝(1977-),女,碩士,講師,研究方向:生物信息學(xué)

潘洪明(1969-),男,碩士,教授,研究方向:表觀遺傳學(xué)和細(xì)胞信號轉(zhuǎn)導(dǎo)。

猜你喜歡
基因芯片齊齊哈爾特征選擇
齊齊哈爾老年大學(xué)校歌
正交基低冗余無監(jiān)督特征選擇法
齊齊哈爾地區(qū)一例鵝圓環(huán)病毒的PCR診斷
出生時(shí)即可預(yù)判發(fā)育潛力 基因芯片精準(zhǔn)篩選肉牛良種
網(wǎng)絡(luò)入侵檢測場景下的特征選擇方法對比研究
齊齊哈爾冰球城市社會影響力的提升
基因芯片技術(shù)在生物研究中的應(yīng)用進(jìn)展
The benefits and drawbacks of AI
基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
Kmeans 應(yīng)用與特征選擇
巴中市| 望城县| 新丰县| 绵竹市| 辽源市| 镇巴县| 襄城县| 西畴县| 鲜城| 海城市| 阿城市| 台东县| 远安县| 湘阴县| 水富县| 宾阳县| 黑龙江省| 黔南| 武穴市| 工布江达县| 无为县| 扎兰屯市| 建平县| 娱乐| 巴东县| 石嘴山市| 龙川县| 湟源县| 宜兴市| 都江堰市| 元氏县| 昌图县| 茶陵县| 南川市| 肃宁县| 疏附县| 乌海市| 壶关县| 德格县| 平舆县| 集贤县|