国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于判別分析的基因分類

2014-02-21 02:16林薇李勝曹治清
關(guān)鍵詞:判別函數(shù)判別式指標(biāo)值

林薇, 李勝, 曹治清

(成都中醫(yī)藥大學(xué)管理學(xué)院, 四川 成都 611137)

基于判別分析的基因分類

林薇, 李勝, 曹治清

(成都中醫(yī)藥大學(xué)管理學(xué)院, 四川 成都 611137)

利用基因表達(dá)序列識別腫瘤亞型, 具有非常重要的臨床意義. 根據(jù)大腸桿菌基因圖譜篩選出的信息基因, 采用判別分析法, 得到典型判別式函數(shù), 以閾值θ=-0.6935來進(jìn)行分類, 進(jìn)而確定腫瘤基因“標(biāo)簽”.

判別分析; 基因分類; 典則判別函數(shù)

DNA微陣列(DNA microarray)也叫做基因芯片(Gene chip), 是在一種特殊玻璃片上安裝成千上萬個核酸探針, 最終獲取關(guān)于基因序列的信息, 使用基因芯片便于定量分析基因的表達(dá)水平, 在生物分析檢驗?zāi)芰Ψ矫? 能做到快速、高效、低成本. 如果利用基因表達(dá)序列來識別腫瘤亞型, 這將具有非常重要的臨床意義.

蔡立君[1](2006)提出了一種基于遺傳算法的基因分類算法, 其基本思想是利用遺傳算法代替獨(dú)立分量分析中的傳統(tǒng)的估計分離矩陣算法,對基因表達(dá)式數(shù)據(jù)進(jìn)行分類, 從而克服了結(jié)果不精確的問題.蔣紅衛(wèi)[2](2007)等人探討了基于基因表達(dá)譜的疾病分型識別模型建模方法. 方法結(jié)合白血病基因表達(dá)譜數(shù)據(jù)分析,利用偏最小二乘判別分析(PLS-DA)對利用基因微陣列數(shù)據(jù)予以建立白血病分型模型, 通過驗證, 偏最小二乘判別分析的白血病識別模型的擬合準(zhǔn)確度和預(yù)測準(zhǔn)確度均達(dá)到100%. 羊四清[3](2009)提出基于ICA的模式表達(dá)空間的概念,并且在此基礎(chǔ)上, 對數(shù)據(jù)的表達(dá)形式進(jìn)行了重新構(gòu)造, 并根據(jù)此表達(dá)形式進(jìn)行了基因的分類, 通過實驗驗證了此類方法的可行性. 基因表達(dá)譜的回歸分析是可以處理多個基因變量間線性依存關(guān)系的統(tǒng)計方法, 于是研究者們提出了使用回歸分析基因表達(dá)譜數(shù)據(jù), 如Huang[4](2003)在將線性回歸方法應(yīng)用于腫瘤的分類研究中使用了線性回歸的方法;Li.H[5](2004)等人使用互變量(Cox)回歸方法分析基因表達(dá)譜數(shù)據(jù), 用于患者的生存率預(yù)判.

判別分析又稱“分辨法”, 是在分類確定的條件下, 根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法. 本文主要應(yīng)用判別分析的思想, 將大腸桿菌的基因表達(dá)譜中的致癌基因篩選出來,利用典則判別函數(shù)對初始分組案例中的基因進(jìn)行正確分類, 進(jìn)而確定了基因“標(biāo)簽”.

1 基因判別函數(shù)的建立

典則判別函數(shù)基于Bayes判別思想建立, 主要用于考察各類別的觀測值之間的相關(guān)關(guān)系, 然后根據(jù)建立的分類規(guī)則對原始樣本重新進(jìn)行分類, 通過比較預(yù)測分類與原始分類, 確定對初始樣本的判別準(zhǔn)確率.

1.1 樣本的方差解釋及檢驗

就一維總體而言, 取值的分散性可以用方差刻畫. 因此用歐氏距離除以方差作為點(diǎn)到總體的遠(yuǎn)近, 對判別分析而言就比較合理.但是就本文在處理p維總體的判別問題時, 對應(yīng)于總體方差的是協(xié)差陣∑, 為此定義

度量總體Gi中兩點(diǎn)x,y之間的距離;

作為樣本x到總體Gi的距離.

其中μi、∑i分別為總體Gi的均值向量和協(xié)差陣. 若D(x,G1)<D(x,G1), 則x∈G1; 若D(x,G1)>D(x,G1), 則x∈G2; 若D(x,G1)=D(x,G1), 則不判.

根據(jù)數(shù)據(jù)篩選出信息基因28個, 采用判別分析法, 可知判別函數(shù)的方差解釋和顯著性檢驗, 如表1, 表2

表1 特征值

a: 分析中使用了前一個典則判別函數(shù).

表2 Wilks的Lambda

特征值表格給出了典則判別函數(shù)所能解釋的方差變異, 表1說明該函數(shù)解釋了所有變異. ”Wilks的Lambda”用于檢驗該判別函數(shù)是否具有統(tǒng)計學(xué)上意義, 表2從Sig值看, 在0.1的顯著性水平上是比較顯著的, 從而可以接受由此建立的判別規(guī)則.

1.2 典則判別函數(shù)

利用SPSS軟件求出判別函數(shù), 得到標(biāo)準(zhǔn)化的典型判別式函數(shù)f(e)為:

其中,ei(i=1,2,…,28)為篩選的信息基因.

將62個樣本對應(yīng)的的信息基因數(shù)據(jù)代入判別函數(shù)求出對應(yīng)的62個指標(biāo)值(見圖1、圖2)

圖1 VAR00001=0的典則判別函數(shù)1

圖1說明22個致癌基因的均值為-3.04, 標(biāo)準(zhǔn)偏差為0.973.

圖2 VAR00001=1的典則判別函數(shù)1

圖2說明隨機(jī)抽取的40個基因的均值為1.67, 標(biāo)準(zhǔn)偏差為1.014.

2 基因分類結(jié)果

通過觀察, 22個正常的樣本的指標(biāo)值都為負(fù), 而40個癌癥樣本對應(yīng)的指標(biāo)值絕大部分都是正數(shù), 可以發(fā)現(xiàn),若指標(biāo)值越小, 就越能說明此人的基因未發(fā)生突變; 若指標(biāo)值越大, 就越能說明此人是癌癥病人. 采用取各自中間值的方法, 將閾值θ定義為:

i為22個正常樣本中的最大值,j為40個癌癥樣本中的最小值

最后根據(jù)樣本的判別式得分與θ的關(guān)系進(jìn)行判斷:

(1)當(dāng)樣本的判別式f(e)>θ時, 樣本的基因標(biāo)簽定為癌變;

(2)當(dāng)樣本的判別式f(e)<θ時, 樣本的基因標(biāo)簽定為正常;

(3)當(dāng)樣本的判別式f(e)=θ時, 樣本的基因標(biāo)簽不作判斷.

利用SPSS軟件, 采用判別分析法, 按照案例順序的統(tǒng)計量, 可以知道i=-1.448,j=0.061,那么閥值θ=-0.6935,

對分析中的樣本進(jìn)行驗證, 詳情見表3的分類結(jié)果.

表3 分類結(jié)果

表3說明: 在腫瘤基因分類中, 對初始分組案例進(jìn)行了完全正確的分類, 在進(jìn)行交叉分組驗證時, 對樣本的82.3%進(jìn)行分類.

3 結(jié)論

[1] 蔡立軍, 林亞平, 盧新國, 等. 基于遺傳算法的基因分類[J]. 電子學(xué)報, 2006, 34(11): 2115-2119.

[2] 蔣紅衛(wèi), 夏結(jié)來, 李園, 等. 偏最小二乘判別分析在基因微陣列分型中的應(yīng)用[J]. 中國衛(wèi)生統(tǒng)計, 2007, 24(4): 372-374.

[3] 羊四清, 盧新國, 易葉青. 基于 ICA 模式空間的基因分類[J].計算機(jī)工程與應(yīng)用, 2009, 45(23): 40-43.

[4] HUANG X, PAN W. Linear Regression and Two-class Classification with Gene Expression Data[J]. Bioinformatics, 2003, 19: 2072-2078.

[5] LI H, GUI J. Partial Coxregression analysis for Highdimensional Microarray Gene Expression Data[J]. Bioinformatics, 2004, 20: I208-I215.

[6] 林杰斌, 林川雄. SPSS12統(tǒng)計建模與應(yīng)用實務(wù)[M]. 北京: 中國鐵道出版社, 2006.

[7] 袁新生, 邵大宏. LINGO和EXCEL在數(shù)學(xué)建模中的應(yīng)用[M]. 北京: 科學(xué)出版社, 2007.

Gene classification based on discriminate analysis

LIN Wei, LI Sheng, CAO Zhi-qing
(School of Management, Chengdu University of TCM, Chengdu 611137, P.R.C.)

There is important clinical significance for gene expression sequences to identify cancer subtypes. According to E.coli genome information genes, the paper uses discriminate analysis to obtain canonical discriminate function and classify with threshold θ=-0.6935. And then the cancer gene label is determined.

discriminate analysis; gene classification; canonical discriminate function

O29

A

1003-4271(2014)01-0097-04

10.3969/j.issn.1003-4271.2014.01.20

2013-11-18

林薇(1987-), 女, 助教, 碩士, 研究方向: 可靠性理論與應(yīng)用; 郵箱: linwei2321@163.com.

成都中醫(yī)藥大學(xué)科技發(fā)展基金.

猜你喜歡
判別函數(shù)判別式指標(biāo)值
判別式在不定方程中的應(yīng)用
Fisher判別法在個人信用風(fēng)險評估中的應(yīng)用
財政支出績效評價指標(biāo)體系構(gòu)建及應(yīng)用研究
游樂設(shè)施事故與危險量化判別函數(shù)的構(gòu)建
根的判別式的應(yīng)用問題
探究上市公司財務(wù)預(yù)警的數(shù)學(xué)模型
判別式四探實數(shù)根
淺談食品中大腸菌群檢測方法以及指標(biāo)值的對應(yīng)關(guān)系
維修性定性要求評價指標(biāo)融合模型研究
制造業(yè)上市公司財務(wù)預(yù)警研究