張楊,張威,曹文君,2,李運(yùn)明,3,陳長生
1.第四軍醫(yī)大學(xué) 軍事預(yù)防醫(yī)學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室,陜西 西安 710032;2.長治醫(yī)學(xué)院 基礎(chǔ)部,山西 長治 046000;3.成都軍區(qū)總醫(yī)院 神經(jīng)外科,四川 成都 610083
隨著生物技術(shù)和統(tǒng)計(jì)方法的發(fā)展和改進(jìn),微陣列技術(shù)可以在一次試驗(yàn)中對整個(gè)基因組進(jìn)行分析,已廣泛應(yīng)用于分析大規(guī)模的mRNA 表達(dá)數(shù)據(jù)。目前有4 類生物芯片平臺(tái)被廣泛應(yīng)用,即Affymetrix GeneChip 芯片、寡核苷酸探針芯片、cDNA 芯片和商業(yè)化探針芯片。在腫瘤研究領(lǐng)域,微陣列技術(shù)對腫瘤的診斷和分型、治療和預(yù)后,以及探討腫瘤發(fā)生的分子機(jī)制和發(fā)展都有非常重要的作用。基因表達(dá)譜數(shù)據(jù)分析,對腫瘤患者的個(gè)性化治療和腫瘤的分子分型發(fā)揮著越來越重要的作用。
由于微陣列技術(shù)所得到的基因表達(dá)譜數(shù)據(jù)具有高維(成千上萬個(gè)基因)和樣本量小的特點(diǎn),如何挖掘和解釋其中所蘊(yùn)含的海量基因信息,深層次研究基因功能,選擇適當(dāng)?shù)慕y(tǒng)計(jì)學(xué)方法對于芯片數(shù)據(jù)的處理至關(guān)重要。微陣列基因表達(dá)譜數(shù)據(jù)信息的提取及其統(tǒng)計(jì)分析方法的研究,已成為生物與醫(yī)學(xué)統(tǒng)計(jì)學(xué)領(lǐng)域中富有挑戰(zhàn)性的重要課題。
微陣列試驗(yàn)的基本過程如圖1 所示?;虮磉_(dá)譜通過計(jì)算機(jī)軟件掃描圖像提取得到的原始數(shù)據(jù)首先通過標(biāo)準(zhǔn)化方法過濾掉那些低質(zhì)量的探針數(shù)據(jù),即在所有樣本中都表現(xiàn)出較低的信號(hào)強(qiáng)度或變化幅度,對感興趣的表型或條件不可能有貢獻(xiàn)[1]。芯片數(shù)據(jù)只有通過標(biāo)準(zhǔn)化處理后,才能進(jìn)行下游的統(tǒng)計(jì)分析,如篩選差異表達(dá)的基因或腫瘤分型。微陣列技術(shù)通常被作為篩選工具,生物驗(yàn)證和解釋應(yīng)對選定的基因做進(jìn)一步研究。
圖1 微陣列試驗(yàn)流程圖,其中標(biāo)星號(hào)的流程為統(tǒng)計(jì)分析部分
微陣列數(shù)據(jù)的質(zhì)量對下游的統(tǒng)計(jì)分析至關(guān)重要,包括RNA 的質(zhì)量、探針標(biāo)記、雜交條件、洗板,以及在掃描當(dāng)中的信號(hào)強(qiáng)度和背景干擾。尤其在低豐度表達(dá)RNA 分子的研究中容易受背景系統(tǒng)的影響而導(dǎo)致系統(tǒng)偏差。這些偏移可導(dǎo)致基因表達(dá)數(shù)據(jù)研究的錯(cuò)誤結(jié)論,即假陽性和假陰性的預(yù)測。但這些變異和微陣列數(shù)據(jù)的系統(tǒng)性偏差可通過科學(xué)的重復(fù)和歸一化進(jìn)行控制。
在實(shí)驗(yàn)過程中,當(dāng)我們從實(shí)驗(yàn)組和對照組樣本中獲得基因表達(dá)譜后,可以通過計(jì)算每個(gè)基因在Cy3和Cy5 通道的熒光染料強(qiáng)度的平均對數(shù)比值而得到該基因的表達(dá)強(qiáng)度[1]。通過比較在不同處理組中該基因表達(dá)強(qiáng)度的差異,對其進(jìn)行進(jìn)一步的研究。在得到該表達(dá)強(qiáng)度的數(shù)據(jù)后,首先要進(jìn)行的是將低重復(fù)性的探針數(shù)據(jù)過濾去除。該過程可以通過控制編譯系數(shù)(小于特定的閾值)和表達(dá)密度(大于特定表達(dá)水平)進(jìn)行。經(jīng)過預(yù)處理后,掃描圖像的整體亮度和試驗(yàn)變化所造成的系統(tǒng)性偏差可以得到有效控制。例如,模塊和染料的影響。此步驟對微陣列數(shù)據(jù)的多重比較和下游的統(tǒng)計(jì)分析是必不可少的。這一過程統(tǒng)稱為歸一化。
歸一化的方法很多,其中應(yīng)用最廣泛的是全局歸一化(global normallization)。該方法的目的是將所有芯片探針均歸一化為具有相同的中位表達(dá)強(qiáng)度,這一方法可以很好地矯正模塊數(shù)據(jù)。然而,大量的統(tǒng)計(jì)學(xué)研究證明模塊數(shù)據(jù)的影響是存在的。針對這一影響,Dudoit 等經(jīng)過不斷研究,發(fā)展了對每個(gè)模塊強(qiáng)度數(shù)據(jù)歸一化方法,稱為“LOESS歸一化”[1]?;旧飳W(xué)假設(shè)是,在一個(gè)模塊中上調(diào)基因和下調(diào)基因的表達(dá)量是基本一致的。由于這一歸一化方法的假設(shè)條件,因此不適用于定制芯片和經(jīng)處理的特定細(xì)胞系表達(dá)數(shù)據(jù)的研究。在該方法的基礎(chǔ)上,Tseng等[2]使用“不變基因集”作為看家基因的代理,并僅基于該不變基因集的強(qiáng)度來估計(jì)模塊強(qiáng)度。Fan 等[3]在沒有以上方法的生物學(xué)假設(shè)條件下,利用陣列內(nèi)重復(fù),提出切片內(nèi)半線性模型(semilinear in-slide)歸一化方法。該方法基于芯片內(nèi)約100 次的重復(fù)探針,以避免序列特異性和噪音干擾。其基本依據(jù)是,在同一模塊中重復(fù)探針的基因表達(dá)差異基本反映了除隨機(jī)噪音之外的系統(tǒng)誤差,而這些系統(tǒng)誤差可以通過探針配對加以去除。使用切片內(nèi)半線性模型,通過選取神經(jīng)瘤細(xì)胞轉(zhuǎn)移抑制因子靶向基因,以實(shí)時(shí)反轉(zhuǎn)錄PCR 反應(yīng)被加以驗(yàn)證,而普通的歸一化方法則容易造成一些基因的缺失。隨后,F(xiàn)an 等[4]通過芯片內(nèi)重復(fù)探針和聯(lián)合其他芯片的信息,顯著擴(kuò)大了這一方法的適用范圍。除了以上歸一化方法外,其他有用的歸一化方法還包括雙向半線性模型[5]和穩(wěn)?。╮obust)歸一化等[6]。
芯片內(nèi)重復(fù)不僅對歸一化的作用很大,而且對于驗(yàn)證數(shù)據(jù)歸一化是否正確也非常有用。其基本的思想是,芯片內(nèi)重復(fù)之間的差異是系統(tǒng)偏差除去后的純粹的隨機(jī)噪聲。當(dāng)估計(jì)每個(gè)單獨(dú)基因的噪聲水平并且芯片通過歸一化,那么總的標(biāo)準(zhǔn)化方差大概服從卡方分布。這對檢測數(shù)據(jù)是否已歸一化提供了一個(gè)簡單而有用的診斷測試方法。這一檢驗(yàn)統(tǒng)計(jì)量也可作為一個(gè)給定陣列選擇歸一化方法的標(biāo)準(zhǔn)——最小的檢驗(yàn)統(tǒng)計(jì)量(最一致的重復(fù))是最優(yōu)的選擇??梢酝ㄟ^過濾方法和經(jīng)驗(yàn)貝葉斯的方法估計(jì)相應(yīng)的方差的差異[7]。芯片內(nèi)重復(fù)也被用于改進(jìn)基因集方差估計(jì)的精度,從而提高推斷方法的設(shè)計(jì)來識(shí)別差異表達(dá)基因[8]。
微陣列實(shí)驗(yàn)的主要目的就是篩選實(shí)驗(yàn)組和對照組或者更復(fù)雜的比較組間的差異表達(dá)基因[9]。選擇恰當(dāng)?shù)慕y(tǒng)計(jì)學(xué)方法在此過程中至關(guān)重要。首先,是選擇恰當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量,通常是經(jīng)過修正的檢驗(yàn)統(tǒng)計(jì)量,如在微陣列顯著性分析中,修正過的單樣本和兩樣本t檢驗(yàn)、方差分析或經(jīng)典貝葉斯方法[10]。由于微陣列數(shù)據(jù)的一個(gè)顯著特點(diǎn)是一般只有一小部分的基因是差異表達(dá)的,因此,根據(jù)不同芯片本身的特點(diǎn)選擇合適的檢驗(yàn)統(tǒng)計(jì)量,以提高芯片數(shù)據(jù)處理的靈敏度和特異度。
在選擇好檢驗(yàn)統(tǒng)計(jì)量之后,下一個(gè)步驟是計(jì)算檢驗(yàn)統(tǒng)計(jì)量并由此得出顯著性P值。芯片數(shù)據(jù)常常要同時(shí)處理成千上萬個(gè)基因,相應(yīng)的P值的計(jì)算也較為復(fù)雜。例如,當(dāng)樣本量較大,且服從正態(tài)分布時(shí),可采用student't 分布以計(jì)算P值;而在小樣本非正態(tài)分布時(shí),permutation 或bootsrapping 方法是較為合適的選擇。
判斷出P值之后,接下來將是篩選差異表達(dá)的基因。由于微陣列試驗(yàn)同時(shí)檢驗(yàn)成千上萬個(gè)基因,很可能出現(xiàn)較高的陽性結(jié)果錯(cuò)誤發(fā)現(xiàn)率。因此,控制錯(cuò)誤發(fā)現(xiàn)率對結(jié)果的生物學(xué)解釋至關(guān)重要[11-12]。目前已發(fā)表了很多關(guān)于控制錯(cuò)誤發(fā)現(xiàn)率方法的論文。Storey等[11]和Dudoit等[12]對關(guān)于基因集中控制錯(cuò)誤發(fā)現(xiàn)率的方法進(jìn)行了綜述。這些方法要求非常精確地P值,通常在10-6數(shù)量級。此外,有些方法可以通過判斷檢驗(yàn)統(tǒng)計(jì)量是否超過某一界值或相應(yīng)的P值(小于閥值)來篩選差異表達(dá)基因,從而控制錯(cuò)誤發(fā)現(xiàn)率[2,10]。例如,假設(shè)在15 000 個(gè)基因中有100 個(gè)基因相應(yīng)的P值小于0.001,則期望的被錯(cuò)誤發(fā)現(xiàn)的基因數(shù)不超過0.001×15 000=15,那么我們可以估計(jì)錯(cuò)誤發(fā)現(xiàn)率為15/100=15%[2]。
微陣列技術(shù)腫瘤臨床研究的一個(gè)重要應(yīng)用是發(fā)現(xiàn)腫瘤生物學(xué)標(biāo)志物和對腫瘤進(jìn)行病理分類。Inamura 等[13]在其研究中對這一領(lǐng)域進(jìn)行了較為詳細(xì)的闡述。他們在肺癌和正常肺組織標(biāo)本的研究中,通過分層聚類和非負(fù)矩陣因子化的方法將肺鱗狀細(xì)胞癌分為2個(gè)不同的亞型,2個(gè)亞型具有完全不同的分子特征和臨床結(jié)局。
分類也被稱為有監(jiān)督學(xué)習(xí)。許多統(tǒng)計(jì)分析方法被應(yīng)用于聚類和分類,這些方法包括決策樹分類方法、線性鑒別分析、支持矢量機(jī)法,以及神經(jīng)網(wǎng)絡(luò)特征分析[14]。使用歸一化芯片數(shù)據(jù)作為輸入向量,可以建立分類規(guī)則。Svrakic 等[15]對基因集中所應(yīng)用的聚類方法做了全面綜述。
通常我們在對腫瘤的分類研究中,希望在篩選基因或腫瘤標(biāo)志物的過程中得到具有較高判別效能和低誤判率的差異表達(dá)基因。這不僅提高了基因在腫瘤中功能的理解,而且降低了錯(cuò)誤分類的幾率?;虮磉_(dá)譜收縮因子方法在腫瘤分類研究中被作為一種重要的分類方法[16]。統(tǒng)計(jì)變量選擇法,如誤判的出發(fā)散度,也可被應(yīng)用于篩選重要的差異表達(dá)基因和腫瘤標(biāo)志物[17]。
聚類也稱為無監(jiān)督學(xué)習(xí)方法,常常用于對基因表達(dá)譜中具有相似表達(dá)特征的基因進(jìn)行歸類[15]。這有利于我們發(fā)現(xiàn)共表達(dá)或表達(dá)特性相似的基因群。聚類算法的一個(gè)重要步驟是如何在輸入空間中定義合適矩陣指標(biāo),如分層和K最近鄰分類法[15-16]。這些輸入向量既可以是不相關(guān)的基因集中具有相似表達(dá)特性的基因,也可以是不同樣本的同一表達(dá)基因。在聚類過程中,常用的計(jì)算指標(biāo)包括歐氏距離和Pearson 相關(guān)系數(shù)。相似表達(dá)基因通常通過系統(tǒng)樹圖或彩色編碼表示。
為了監(jiān)測基因的隊(duì)列表達(dá)模式,基因隨著疾病的進(jìn)展時(shí)間,或在不同治療中的表達(dá)情況,我們可以在不同的時(shí)間點(diǎn)取樣獲得基因的表達(dá)數(shù)據(jù)。統(tǒng)計(jì)學(xué)上一個(gè)重要的問題是,在某個(gè)特定時(shí)間點(diǎn)經(jīng)過處理后的基因表達(dá)是否有差異。Hotelling T2檢驗(yàn)可用來驗(yàn)證隨著時(shí)間的推移,基因的表達(dá)譜是否發(fā)生變化。隨著時(shí)間的進(jìn)程,某些基因的表達(dá)上調(diào)或下調(diào),某些基因的表達(dá)保持不變,可以發(fā)現(xiàn)隨著時(shí)間及條件的變化表現(xiàn)出不同表達(dá)水平的標(biāo)識(shí)基因?;虮磉_(dá)模式的時(shí)間序列也有利于理解與疾病相關(guān)的表達(dá)通路及其功能。單樣本t檢驗(yàn)可用于評估在每個(gè)特定的時(shí)間點(diǎn)基因的表達(dá)是否上調(diào)和下調(diào)或保持不變。那么,基因表達(dá)模式的時(shí)間進(jìn)程可通過一類分類技術(shù)來加以分析,這對理解基因間的調(diào)控過程和生物通路提供了非常有用的工具[15]。Schulte 等[18]研究了不同的基因表達(dá)模式,包括即早基因、“延遲”基因和效應(yīng)基因在神經(jīng)母細(xì)胞瘤中TrkA和TrkB 受體中的表達(dá)情況,進(jìn)而發(fā)現(xiàn)在誘導(dǎo)即早基因和下游的靶點(diǎn)調(diào)控中的分子機(jī)理。
目前,在時(shí)間序列微陣列研究中已發(fā)展了許多方法,這些方法都是針對提取時(shí)間過程中的差異表達(dá)基因。Storey等[19]利用基于spline的方法發(fā)現(xiàn)了在時(shí)間過程中基因表達(dá)的改變。Yuan 等[20-21]分別在2006和2008 年用基于隱馬爾科夫算法的模型分析了多種生物條件下的時(shí)間序列微陣列數(shù)據(jù)。Tai和Speed[22]提出了一種多變量經(jīng)驗(yàn)貝葉斯的統(tǒng)計(jì)方法鑒別差異表達(dá)基因。Ma 等[23]在2009 年通過功能性ANOVA 混合效應(yīng)模型將時(shí)間序列基因表達(dá)值分類,并且鑒別差異表達(dá)基因。Zhou 等[24]在2010 年根據(jù)時(shí)間序列基因表達(dá)數(shù)據(jù)發(fā)展了一種對生存結(jié)果的預(yù)測模型。Tibshirani 等[25]在2013 年提出了一種根據(jù)時(shí)間序列基因表達(dá)譜對病人分類的方法,這種方法的提出為腫瘤的個(gè)性化治療提供了新的手段。
基于通路和GSEA 的方法在功能基因組學(xué)研究中已經(jīng)發(fā)展了十余年。由于不完整的信息和通路數(shù)據(jù)注釋不佳,研究人員開始結(jié)合基因集富集分析方法和基于網(wǎng)絡(luò)模塊的方法,以鑒別較大幅度的分子機(jī)制。第三代基因表達(dá)譜分析方法(包括基因集/通路/網(wǎng)絡(luò)分析)可被定義為一個(gè)以知識(shí)為導(dǎo)向的數(shù)據(jù)驅(qū)動(dòng)的方法,這不僅是基于先驗(yàn)基因集的知識(shí),而且利用了基因集內(nèi)部或基因集之間的通路/網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。2007 年,Vidal[26]的研究小組在哈佛大學(xué)利用各種生物信息學(xué)數(shù)據(jù)集對乳腺癌的易感性構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò),并確定HMMR 為新的疾病易感位點(diǎn)。隨后,TreyIdeker[27]的研究小組在加州大學(xué)圣地亞哥分校綜合蛋白質(zhì)網(wǎng)絡(luò)和基因表達(dá)數(shù)據(jù),以提高乳腺癌患者轉(zhuǎn)移形成的預(yù)測。這2 項(xiàng)研究是一個(gè)新的里程碑,標(biāo)志著網(wǎng)絡(luò)和通路的激動(dòng)人心的開始,雖然容易出錯(cuò),而且不完整,但可作為一種導(dǎo)向,引導(dǎo)今后的微陣列數(shù)據(jù)分析。
基因芯片技術(shù)已被廣泛應(yīng)用于遺傳變異,基因網(wǎng)絡(luò)、調(diào)控過程中的相互作用,以及生物通路等方面的研究,已成為理解基因的相互作用、協(xié)同、網(wǎng)絡(luò)調(diào)控等的有力工具[28]。
微陣列技術(shù)正深入到人類腫瘤疾病研究的各個(gè)方面。與其他研究方法相比,該技術(shù)更關(guān)注腫瘤在不同條件下基因表達(dá)的變化??梢酝ㄟ^微陣列技術(shù)對基因組進(jìn)行分析來確定新的潛在的治療途徑或研發(fā)新的診斷試劑,即所謂的生物標(biāo)志物發(fā)現(xiàn)研究[29]。
由于腫瘤受多重因素的影響,因此我們所獲得的差異表達(dá)基因,哪怕是一個(gè)簡單的比較試驗(yàn),也可能受到其他信號(hào)的干擾。癌癥樣本的來源各異,包括直接手術(shù)活檢的樣本、很有限的針刺活檢樣本、尸檢樣本、特定癌癥所建立的細(xì)胞系,甚至是石蠟固定樣本的切片。當(dāng)比較腫瘤樣本及其正常對照時(shí),必須確保樣本的匹配度,如乳腺癌樣本必須與相對應(yīng)的正常乳腺細(xì)胞相比較。但這可能很難做到,如活檢樣本不可能是均質(zhì)的,含有多種細(xì)胞類型,是正常和惡性細(xì)胞或不同階段腫瘤細(xì)胞的混合物。此外,腫瘤細(xì)胞的正常對照也可能并不確定,因此需要分析多個(gè)不同的正常樣本。同樣,不同患者樣本的遺傳差異也可能會(huì)影響結(jié)果,需要增加足夠的對照以減少這些因素的干擾。顯然,正常樣本和腫瘤樣本的匹配程度也取決于實(shí)驗(yàn)的目標(biāo)。如探索性分析實(shí)驗(yàn)的目的是了解某一系統(tǒng)的基本生物學(xué)特征,那么樣本匹配度的要求可能不像生物標(biāo)志物篩選那么嚴(yán)格,因?yàn)樯飿?biāo)志物篩選的目標(biāo)是確定可靠的診斷工具。因此,實(shí)驗(yàn)設(shè)計(jì)、原始數(shù)據(jù)分析及統(tǒng)計(jì)方法的選擇,是腫瘤研究中至為重要的步驟。
將一個(gè)基因表達(dá)譜或特殊基因表達(dá)信號(hào)轉(zhuǎn)換成生物學(xué)上可以理解的概念,仍然是一個(gè)需要很大努力和充滿挑戰(zhàn)的任務(wù)。在這方面,對人類基因組及其他模式生物基因組功能越來越多的了解,將為基因表達(dá)研究提供大量的補(bǔ)充信息。另外,近年出現(xiàn)的系統(tǒng)生物學(xué),在轉(zhuǎn)錄組水平的目的是能夠描述支持個(gè)體基因表達(dá)狀態(tài)的基因調(diào)節(jié)網(wǎng)絡(luò),也將及時(shí)提供細(xì)胞轉(zhuǎn)錄水平的可預(yù)見的詳細(xì)圖譜。通過表達(dá)譜分析,可以預(yù)測疾病狀態(tài)的細(xì)胞和組織中受影響的特殊生化途徑和生物學(xué)過程。
腫瘤基因表達(dá)譜數(shù)據(jù)挖掘不僅對認(rèn)識(shí)腫瘤發(fā)生發(fā)展的機(jī)理具有重要意義,而且也會(huì)為腫瘤的分子診斷和防治開辟全新的途徑,并有助于腫瘤個(gè)性化治療的實(shí)現(xiàn)。利用基因表達(dá)譜對腫瘤樣本進(jìn)行準(zhǔn)確診斷,構(gòu)建腫瘤基因調(diào)控網(wǎng)絡(luò),是一項(xiàng)具有重要意義的大課題。
[1]Dudoit S,Yang Y,Callow M J,et al.Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments[J].Stat Sin,2002,12:111-139.
[2]Tseng G C,Oh M K,Rohlin L,et al.Issues in cDNA microarray analysis:quality filtering,channel normalization,models of variations and assessmentof gene effects[J].Nucleic Acids Res,2001,29(12):2549-2557.
[3]Fan J,Tam P,Vande Woude G,et al.Normalization and analysis of cDNA micro-arrays using within-array replications applied to neuroblastoma cell response to a cytokine[J].Proc Natl Acad Sci USA,2004,101(5):1135-1140.
[4]Fan J,Peng H,Huang T.Semilinear high-dimensional model for normalization of microarray data:a theoretical analysis and partial consistency[J].J Am Stat Assoc,2005,100(471):781-813.
[5]Huang J,Wang D,Zhang C H.A Two-way semi-linear model for normalization and analysis of cDNA microarray data[J].J Am Stat Assoc,2005,100:814-829.
[6]Ma S,Kosorok M R,Huang J,et al.Robust semiparametric cDNA microarray normalization and significance analysis[J].Biometrics,2006,62(2):555-561.
[7]Cui X,Hwang J T G,Qiu J,et al.Improved statistical tests for differential gene expression by shrinking variance components estimates[J].Biostatistics,2005,6(1):59-75.
[8]Smyth G K,Michaud J,Scott H S.Use of within-array replicate spots for assessing differential expression in microarray experiments[J].Bioinformatics,2005,21(9):2067-2075.
[9]Kerr M K,Churchill G A.Experimental design for gene expression microarrays[J].Biostatistics,2001,2(2):183-201.
[10]Tusher V G,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response[J].Proc Natl Acad Sci USA,2001,98(9):5116-5121.
[11]Storey J D,Tibshirani R.Statistical significance for genomewide studies[J].Proc Natl Aca Sci USA,2003,100(16):9440-9445.
[12]Dudoit S,Shaffer J P,Boldrick J C.Multiple hypothesis testing in microarray experiments[J].Stat Sci,2003,18(1):71-103.
[13]Inamura K,Fujiwara T,Hoshida Y,et al.Two subclasses of lung squamous cell carcinoma with different gene expression profiles and prognosis identified by hierarchical clustering and non-negative matrixfactorization[J].Oncogene,2005,24:7105-7113.
[14]Hastie T J,Tibshirani R,Friedman J.The elements of statistical learning:data mining,inference and prediction[M].2nd ed.New York:Springer,2005:83-85.
[15]Svrakic N M,Nesic O,Dasu M R K,et al.Statistical approach to DNA chip analysis[J].Recent Prog Horm Res,2003,58:75-93.
[16]Tibshirani R,Hastie T,Narasimhan B,et al.Diagnosis of multiple cancer types by shrunken centroids of gene expression[J].Proc Natl Acad Sci USA,2002,99(10):6567-6572.
[17]Fan J,Li R.Statistical challenges with high dimensionality:feature selection in knowledge discovery[J].Proc Madrid Intl Congress Math,2006,111:595-622.
[18]Schulte J,Schramm A,Klein-Hitpass L,et al.Microarray analysis reveals differential gene expression patterns and regulation of single target genes contributing to the opposing phenotype of TrkA-and TrkB-expressing neuroblastomas[J].Oncogene,2005,24(1):165-177.
[19]Storey J D,Xiao W J,Tompkins R,et al.Significance analy-sis of time course microarray experiments[J].Proc Natl Acad Sci USA,2005,102(36):12837-12842.
[20]Yuan M,Kendziorski C.Hidden markov models for microarray time course data under multiple biological conditions[J].J Am Stat Assoc,2006,101(476):1323-1332.
[21]Yuan Y,Li C T,Wilson R.Partial mixture model for tight clustering of gene expression time-course[J].BMC Bioinf,2008,9:287.
[22]Tai Y C,Speed T P.A multivariate empirica bayes statistic for replicated microarray time course data[J].Ann Stat,2006,34(5):2387-2412.
[23]Ma P,Zhong W,Liu J S.Identifying differentially expressed genes in time course microarray data[J].Stat Biosci,2009,1:144-159.
[24]Zhou B,Xu W,Herndon D,et al.Analysis of factorial timecourse microarrays with application to a clinical study of burn injury[J].Proc Natl Acad Sci USA,2010,107(22):9923-9928.
[25]Zhang Y,Tibshirant R,Davis R.Classification of patients from time-course gene expression[J].Biostatistics,2013,14(1):87-98.
[26]Pujana M A,Han J D J,Starita L M,et al.Network modeling links breast cancer susceptibility and centrosome dysfunction[J].Nat Genet,2007,39(11):1338-1349.
[27]Chuang H Y,Lee E,Liu Y T,et al.Network-based classification of breast cancer metastasis[J].Mol Syst Biol,2007,3:140-149.
[28]Akiyoshi T,Kobunai T,Watanabe T.Predicting the response to preoperative radiation or chemoradiation by a microarray analysis of the gene expression profiles in rectal cancer[J].Surgery Today,2012,42(8):713-719.
[29]Qian Z,Qingshan C,Chun J,et al.High expression of TNFSF13 in tumor cells and fibroblasts is associated with poor prognosis in non-small cell lung cancer[J].Am J Clin Pathol,2014,141(2):226-233.