国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互信息的前列腺癌基因網(wǎng)絡研究

2015-05-15 01:30馮變英
運城學院學報 2015年6期
關(guān)鍵詞:互信息度量前列腺癌

馮變英

(運城學院 應用數(shù)學系,山西運城044000)

0.引言

前列腺癌是世界上最常見的、嚴重危害男性健康的惡性腫瘤之一。在歐美國家,其發(fā)病率占男性腫瘤第一位,病死率第二位;在我國,發(fā)病率也呈上升趨勢[1]。但是,由于癌癥的發(fā)病機理相當復雜,目前對前列腺癌的發(fā)病機制還不很清楚。

很長一段時間里,人們致力于尋找單個致癌基因。后來發(fā)現(xiàn)癌癥是多基因調(diào)控綜合影響的結(jié)果,必須在基因組的總體水平上來研究癌癥。全基因關(guān)聯(lián)研究方法[2-4]、基因網(wǎng)絡研究方法[5-7]等相繼出現(xiàn)。

基因網(wǎng)絡是建立在分子生物學、數(shù)學和信息學等多學科交叉的基礎上,通過基因表達數(shù)據(jù),結(jié)合一定的分析和計算方法構(gòu)建合適的基因網(wǎng)絡的研究方法,是一種系統(tǒng)的、定量的研究方法,是從基因組的整體水平上研究癌癥的強有力的工具。目前,已有人用微分方程方法、布爾代數(shù)方法、模糊聚類方法的、偏最小二乘回歸方法建立和研究基因網(wǎng)絡,但很少用互信息建立基因相關(guān)網(wǎng)絡。

關(guān)于前列腺癌的相關(guān)基因的研究,文獻[8-12]做了許多的研究,但很少有從基因網(wǎng)絡的角度來進行研究。本文正是以互信息為相關(guān)關(guān)系的度量工具建立基因網(wǎng)絡來研究前列腺癌的關(guān)鍵基因。

1.樣本數(shù)據(jù)

本研究的數(shù)據(jù)來源于美國國立生物技術(shù)信息中心網(wǎng)站公布的數(shù)據(jù)集 GDS2545(網(wǎng)址:http://www.ncbi.nlm.nih.gov/sites/GDSbrowser)。樣本包含171例病例,分四部分,第一部分為正常前列腺組織樣本,第二部分為鄰近前列腺腫瘤的正常組織樣本,第三部分為原發(fā)性前列腺腫瘤組織樣本,第四部分為轉(zhuǎn)移性前列腺腫瘤組織樣本。

本文主要用第二部分(簡稱為正常組)和第三部分(簡稱為癌癥組)的數(shù)據(jù)。兩組數(shù)據(jù)大部分為相同病例的前列腺鄰近腫瘤的正常組織與腫瘤組織的表達數(shù)據(jù)。先將不配對的樣品去除,保留了58對數(shù)據(jù),數(shù)據(jù)格式為.CEL。

2.研究方法

(1)利用配對數(shù)據(jù)的符號檢驗,比較得出正常組和癌癥組的差異表達基因。

(2)利用互信息作為相關(guān)關(guān)系的度量,建立基因相關(guān)網(wǎng)絡。

(3)利用研究復雜網(wǎng)絡的方法,從中篩選出前列腺癌發(fā)病關(guān)鍵基因[12-15]。

3.研究過程

3.1 數(shù)據(jù)預處理

用Affymetrix公司的Expression Console(EC)軟件將其轉(zhuǎn)換為p值。轉(zhuǎn)換后的數(shù)據(jù)共12626行,刪除控制行后余12580行。

下載Affymetrix公司的平臺GPL8300的數(shù)據(jù),將探針與基因?qū)渲杏胁煌结槍嗤虻那樾?,對基因的p值行進行平均;其中也有一個探針對應多個基因的情形,說明探針不能很好地識別基因,將其刪除。整理后的數(shù)據(jù)如表1與表2。

表1 正常組的基因表達譜p值

表2 癌癥組的基因表達譜p值

3.2 識別差異表達基因

對數(shù)據(jù)的分析,首先要識別在癌癥組和正常組有顯著表達差異的基因。常用的分析方法有三類:倍數(shù)分析、統(tǒng)計分析中的t檢驗和方差分析。本文數(shù)據(jù)是配對數(shù)據(jù),采用配對數(shù)據(jù)的符號檢驗來識別差異表達的基因。根據(jù)多重比較中的bonferroni校正原理,以 α =0.00005 為檢驗水平[16-17],發(fā)現(xiàn) 63個差異表達基因。

3.3 計算互信息

基因與基因之間的相關(guān)關(guān)系可以用Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)來度量,但用互信息來度量相關(guān)性有前二者所不及之優(yōu)點,因此采用互信息來度量基因與基因間相關(guān)性。

首先將63個基因的p值數(shù)據(jù)離散化,然后計算相互之間的互信息,得到互信息矩陣,其對角線上的第i個元素為第i個基因與第i個基因的聯(lián)合熵,即第i個基因的熵。由I(X,Y)為對稱陣,且I(X,Y)≤H(X),可將互信息矩陣中的上三角矩陣歸一化處理。歸一化時,要去除熵為零的基因,余47個基因。歸一化后,對角線上的元素為1。

3.4 建立基因網(wǎng)絡

基因網(wǎng)絡的研究是生物學(主要是分子生物學)、數(shù)學(主要是非線性數(shù)學)和信息學(主要是程序算法的設計、信息的度量)三大學科的交叉點上,是生物信息學的熱點之一,也是后基因組研究的重要內(nèi)容?;蚓W(wǎng)絡的研究有助于探索生命現(xiàn)象的一些本質(zhì)問題,它為深入理解生命本質(zhì)提供了一個新的研究框架和平臺。

本文在建立基因網(wǎng)絡時,考慮到互信息值大說明基因間相關(guān)關(guān)系較強,反之,互信息值小說明基因間相關(guān)關(guān)系較弱,將歸一化后的互信息根據(jù)相關(guān)性的強弱分為兩類:以0.2為閾值,大于0.2為相關(guān)性強,記為1,小于等于0.2為相關(guān)性弱,記為0。依此得到基因網(wǎng)絡的鄰接矩陣,也就是建立了基因相關(guān)網(wǎng)絡。正常組和癌癥組的基因網(wǎng)絡圖如圖1和2所示。

圖1 正常組的基因網(wǎng)絡

圖2 癌癥組基因網(wǎng)絡

由圖1和圖2可以看出,正常組和癌癥組的基因網(wǎng)絡結(jié)構(gòu)存在著較大的差別。而前列腺的關(guān)鍵基因應該是在正常組和癌癥組兩個網(wǎng)絡中作用發(fā)生了較大變化的基因。建立兩個基因網(wǎng)絡的目的,就是通過比較兩個基因網(wǎng)絡的結(jié)構(gòu)差異來發(fā)現(xiàn)前列腺癌的關(guān)鍵基因。

3.5 查找關(guān)鍵基因

對基因網(wǎng)絡結(jié)構(gòu)差異的分析,要用到復雜網(wǎng)絡的分析方法。度是復雜網(wǎng)絡中常用的一個指標。一個基因在正常組的度與癌癥組的度差別越大,說明此基因在正常組和癌癥組的作用發(fā)生了較大變化,它在癌癥發(fā)病中的起著越重要的作用,是癌癥的關(guān)鍵基因。

提取了10個度差最大的基因,分別為SPOCK3、SLC4A3、GAS1、SEMA3B、EHD1、PKIG、FHL2、AHNAK2、NACC2、RBMS1。其度差見表3。

表3 10個度差最大的基因

表3中的基因應該是在前列腺癌的發(fā)生或發(fā)展中起著關(guān)鍵作用的基因。已經(jīng)有研究證實GAS1基因與許多腫瘤的發(fā)生有關(guān)。查看這些基因的分子功能,發(fā)現(xiàn)其中有6個基因與粘合功能有關(guān),這也與已有的研究成果相一致。

4.總結(jié)

研究結(jié)果表明,用互信息衡量相關(guān)關(guān)系的強弱來建立基因網(wǎng)絡,查找正常組和癌癥組的基因網(wǎng)絡中度差較大的基因,確定前列腺癌的關(guān)鍵基因,是一種非常有效的方法。基因是否確實是致癌基因、抑癌基因還是其它基因,有待醫(yī)學專家的進一步驗證。

[1]孫潁浩.我國前列腺癌的研究現(xiàn)狀[J].中華泌尿外科雜志,2004(2).

[2]嚴衛(wèi)麗.復雜疾病全基因組關(guān)聯(lián)研究進展——研究設計和遺傳[J].遺傳,2008(4).

[3]嚴衛(wèi)麗.復雜疾病全基因組關(guān)聯(lián)研究進展——遺傳統(tǒng)計分析[J].遺傳,2008(5).

[4]涂欣,石立松,汪樊等.全基因組關(guān)聯(lián)分析的進展與反思[J].生理科學進展,2010(2).

[5]彭華正,潘建偉,朱睦元.基因網(wǎng)絡研究進展[J].生物化學與生物物理進展,2001(6).

[6]張國偉,邵世煌,齊金鵬等.基于信息度量的基因網(wǎng)絡建模[J].生物信息學,2006(4).

[7]張相華.基因網(wǎng)絡分析的統(tǒng)計模型研究[D].合肥:中國科學技術(shù)大學,2011.

[8]周刊群,楊學貞,黃嘯,等.應用基因微矩陣芯片篩選前列腺癌的相關(guān)基因[J].中華醫(yī)學外科雜志,2002(2).

[9]羅烈偉.前列腺癌基因表達譜芯片數(shù)據(jù)分析[D].廣州:南方醫(yī)科大學,2008.

[10]莊振華,王年,李學俊,等.癌癥基因表達數(shù)據(jù)的熵度量分類方法[J].安徽大學學報(自然科學版),2010(2).

[11]朱建國,江福能,畢學成,等.細胞因子通路抑制因子3在前列腺癌中的表達及其意義[J].中華實驗外科雜志,2012(6).

[12][美]ThomasM.Cove.信息論基礎[M].北京:機械工業(yè)出版社,2008.

[13][德]E.Klipp等,朱云平譯.系統(tǒng)生物學的理論、方法和應用[M].上海:復旦大學出版社,2007.

[14][日]北野宏明著,劉筆峰等譯.系統(tǒng)生物學基礎[M].北京:化學工業(yè)出版社,2007

[15]汪小帆,李翔,陳關(guān)榮.復雜網(wǎng)絡理論及其應用[M].北京:清華大學出版社,2006.

[16]馮變英,劉焱青,段淑紅,等.多重比較及其在銷售數(shù)據(jù)分析上的應用[J].運城學院學報,2012(5).

[17]馮變英.關(guān)于均值向量的置換檢驗的研究[D],上海:華東師范大學,2009.

猜你喜歡
互信息度量前列腺癌
鮑文慧《度量空間之一》
代數(shù)群上由模糊(擬)偽度量誘導的拓撲
MTA1和XIAP的表達與前列腺癌轉(zhuǎn)移及預后的關(guān)系
突出知識本質(zhì) 關(guān)注知識結(jié)構(gòu)提升思維能力
前列腺癌,這些蛛絲馬跡要重視
基于改進互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
前列腺癌治療與繼發(fā)性糖代謝紊亂的相關(guān)性
微小RNA-424-3p和5p對人前列腺癌細胞LNCaP增殖和遷移影響的比較
基于互信息的貝葉斯網(wǎng)絡結(jié)構(gòu)學習
地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
四川省| 桃园县| 宁都县| 三台县| 大同市| 新源县| 桃园市| 神农架林区| 灌云县| 博白县| 西藏| 沈丘县| 临城县| 威远县| 乌拉特前旗| 永川市| 清涧县| 新源县| 丽水市| 唐海县| 澳门| 竹北市| 集贤县| 邹平县| 新安县| 德保县| 兰西县| 蓝田县| 普宁市| 苍南县| 江油市| 丰台区| 昌乐县| 石柱| 军事| 尼勒克县| 日照市| 灵寿县| 建平县| 定兴县| 嘉峪关市|