国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)隱馬爾科夫模型的畜禽全基因組關(guān)聯(lián)分析中的多重檢驗(yàn)方法

2015-06-15 01:14:26梅步俊王志華
安徽農(nóng)學(xué)通報(bào) 2015年10期
關(guān)鍵詞:假設(shè)檢驗(yàn)人工神經(jīng)網(wǎng)絡(luò)

梅步俊 王志華

摘 要:為了改進(jìn)在畜禽全基因組關(guān)聯(lián)分析中,利用隱馬爾可夫模型(HMM)進(jìn)行多重檢驗(yàn)時(shí)的過學(xué)習(xí)問題,提出將人工神經(jīng)網(wǎng)絡(luò)算法(ANN)作為預(yù)處理,引入畜禽全基因組關(guān)聯(lián)分析中,較好地彌補(bǔ)了已有的多重檢驗(yàn)方法的缺陷,提高了統(tǒng)計(jì)推斷性能,其運(yùn)算速度也顯著提高。

關(guān)鍵詞:全基因組關(guān)聯(lián)分析;隱馬爾科夫模型;人工神經(jīng)網(wǎng)絡(luò);多重比較;假設(shè)檢驗(yàn)

中圖分類號(hào) S852 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1007-7731(2015)10-22-03

Abstract:In order to improve the learning problem of hidden Markov Model(HMM)for multiple testing in whole-genome Association analysis of livestock and poultry,a algorithm of artificial neural network(ANN)as a pretreatment is proposed in multiple testing methods of genome-wide association analysis of livestock and poultry. Results showed that it just well make up for the deficiencies of multiple testing methods based on HMM,and improve the performance of statistical inference,and its speed is also improved significantly.

Key words:Genome-wide association study(GWAS);Hidden Markov Model(HMM);Artificial neural network(ANN):Multiple comparisons; Hypothesis testing

全基因組關(guān)聯(lián)分析(Genome-Wide Association Studies,GWAS)是基于“常見疾病,常見變異(common disease,common variant)”的假設(shè),利用標(biāo)記和突變位點(diǎn)在群體水平的連鎖不平衡檢測(cè)QTL。這種關(guān)聯(lián)性的產(chǎn)生是由于當(dāng)前群體攜帶有源于共同祖先的染色體片段,這些片段包含相同的QTL等位基因或單倍型。一般認(rèn)為,對(duì)于復(fù)雜性狀,除了受少數(shù)幾個(gè)效應(yīng)較大的基因控制外,還受許多微、中效基因控制。隨著對(duì)基因組信息認(rèn)識(shí)水平的的提高和高通量測(cè)序技術(shù)的發(fā)展,GWAS已經(jīng)變成研究復(fù)雜性狀遺傳機(jī)理的重要手段。截至2014年7月,僅在人類上就有1 927篇GWAS文章發(fā)表,共報(bào)道13 418個(gè)SNP與各類性狀有顯著性相關(guān)。國(guó)內(nèi)外不少研究者對(duì)畜禽的重要經(jīng)濟(jì)性狀、遺傳缺陷性疾病、復(fù)雜疾病的抗性、品種特征等性狀也開展了GWAS。Zhang等[1]使用澳大利亞996頭婆羅門牛和1 097頭有6次產(chǎn)犢記錄的母牛進(jìn)行繁殖性狀的遺傳評(píng)估。Santana等[2]使用720頭公瘤牛的平均日增重(ADG)和354 147SNP數(shù)據(jù)進(jìn)行GWAS,采用混合模型和回歸方法檢測(cè)到3號(hào)染色體上的6個(gè)SNP與ADG顯著相關(guān)。顯著性最高的SNP(p=9.49×10-8)解釋了5.62%的表型方差。

大尺度多重檢驗(yàn)(large scale multiple test)是現(xiàn)代統(tǒng)計(jì)學(xué)的重要研究領(lǐng)域,廣泛應(yīng)用在GWAS、DNA芯片分析和腦圖像分析等領(lǐng)域。在這些研究中,常常同時(shí)檢測(cè)數(shù)以萬計(jì)甚至百萬假設(shè)檢驗(yàn)。在GWAS中,常常使用Bonferroni矯正多重比較問題,但是由于連鎖不平衡,SNP之間是不獨(dú)立的,這與傳統(tǒng)假設(shè)檢驗(yàn)所有假設(shè)之間獨(dú)立、所有樣本來源于單一分布不同。例如,不同的基因可能在同一通路中,這些基因表現(xiàn)較強(qiáng)的相關(guān)性。畜禽群體中,由于個(gè)體之間存在親緣關(guān)系和共同環(huán)境效應(yīng),這都會(huì)對(duì)多重檢驗(yàn)造成顯著影響。Finner和Roters[3]、Owen[4]研究表明假設(shè)檢驗(yàn)間的相關(guān)性顯著影響Ⅰ型錯(cuò)誤率的期望和方差。Sun和Tony等[5]應(yīng)用復(fù)合決策理論,由隱馬爾科夫模型(HMM)研究假設(shè)檢驗(yàn)間不獨(dú)立情況下的多重檢驗(yàn)問題,構(gòu)建“局部顯著性指數(shù)”(local index of significance,LIS)替代p值,改進(jìn)了假設(shè)檢驗(yàn)間不獨(dú)立情況下的假發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)性能。Wei和Sun等[6]應(yīng)用類似的方法發(fā)展了“匯集局部顯著性指數(shù)”(pooled local index of significance,PLIS)控制FDR,該方法具有最小的假陰性率(false negative rate,F(xiàn)NR),比傳統(tǒng)的基于P值的假設(shè)檢驗(yàn)方法有更高的功效。Li和Wei等[7]利用SNP間的LD信息作為先驗(yàn)信息,建立加權(quán)LD圖模型,應(yīng)用馬爾科夫隨機(jī)場(chǎng)模型(Markov random field model,HMRF)控制GWAS中的假發(fā)現(xiàn)率。但基于單倍型的方法可能由于自由度太高、單倍型推斷中的錯(cuò)誤和單倍型包含SNP數(shù)的武斷性而損失功效?,F(xiàn)有基于HMM的多重檢驗(yàn)方法存在過學(xué)習(xí)的問題,訓(xùn)練出的模型可能存在過擬合情況。本研究將人工神經(jīng)網(wǎng)絡(luò)算法(ANN)和HMM結(jié)合,ANN算法具有很強(qiáng)的抗干擾性,也不存在過學(xué)習(xí)的問題,彌補(bǔ)了HMM的缺陷,提高了多重檢驗(yàn)的功效。

1 研究背景

1.1 隱馬爾可夫模型 設(shè)[θ=θm1=θ1,…,θm]是服從伯努利分布的隨機(jī)變量,[θi=0]表明變量[i]來源于零假設(shè),反之來源于非零假設(shè)。假設(shè)觀察值[x=x1,…,xm]由以下條件概率產(chǎn)生:

1.3 人工神經(jīng)網(wǎng)絡(luò)算法(ANN)人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(或稱神經(jīng)元)之間相互聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)(activation function)。每2個(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對(duì)于通過該連接信號(hào)的加權(quán)值,稱之為權(quán)重,這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵(lì)函數(shù)的不同而不同。鑒于ANN和HMM的互補(bǔ)性,利用ANN的長(zhǎng)處來克服HMM的不足,將ANN作為HMM的預(yù)處理部分,利用ANN的抗干擾能力改進(jìn)HMM的過學(xué)習(xí),具有預(yù)測(cè)精度高、耗時(shí)少的特點(diǎn)。

2 材料與方法

2.1 第15屆QTL-MAS公共數(shù)據(jù)集 該公共數(shù)據(jù)由一個(gè)遠(yuǎn)交群體構(gòu)成,使用 LDSO 軟件[9]模擬產(chǎn)生。歷史群體首先模擬了1 000個(gè)世代,每個(gè)世代1 000個(gè)個(gè)體,隨后模擬30個(gè)世代,每個(gè)世代150個(gè)個(gè)體?;蚪M共模擬了5條染色體、9 990個(gè) SNP標(biāo)記,每條染色體長(zhǎng)度1M(Morgan),攜帶均勻分布的SNP標(biāo)記1 998個(gè)(相鄰SNP標(biāo)記間距0.05cM)。最終用于基因組選擇評(píng)估的數(shù)據(jù)由3 220個(gè)個(gè)體組成,其中包括20頭公畜、200頭母畜(每頭公畜與10頭母畜交配)和3 000個(gè)后裔(每頭母畜生產(chǎn) 15 個(gè)后裔)。所有個(gè)體都模擬了9 990個(gè)SNP 標(biāo)記的基因型,并且沒有基因型缺失或判型錯(cuò)誤。每頭母畜的15個(gè)后裔中,有10個(gè)模擬了一個(gè)連續(xù)性狀的表型值。2 000個(gè)有表型值的后裔及其它1 000個(gè)沒有表型值(但有模擬的真實(shí)育種值)的后裔,分別作為參考群和驗(yàn)證群。

2.2 模擬數(shù)據(jù) 全基因組數(shù)據(jù)模擬需要首先定義基因組的結(jié)構(gòu)。與基因組結(jié)構(gòu)相關(guān)的參數(shù)包括:染色體長(zhǎng)度(Lc)、染色體數(shù)(Nc)、總標(biāo)記數(shù)(Nm)、標(biāo)記位置的分布和基因數(shù)或數(shù)量性狀基因座(QTL)數(shù)(NQTL)。為便于模擬,一般設(shè)定不同染色體的長(zhǎng)度相同,為1M(Morgan),不同染色體上的標(biāo)記數(shù)目一般也假設(shè)相同。

2.3 模擬研究 結(jié)合HMM和ANN,利用ANN彌補(bǔ)HMM的不足。HMM訓(xùn)練模型主要基于最大似然準(zhǔn)則(Maximum Likelihood,簡(jiǎn)稱ML)和最大共有信息準(zhǔn)則(MaximumMutual Information,簡(jiǎn)寫為MMI),采用梯度法計(jì)算,更新HMM模型中的參數(shù)。采用最小均方誤差(MMSE)準(zhǔn)則,ANN提高HMM的識(shí)別能力,保證H0,H1推斷的正確性。具體步驟:建立3層ANN結(jié)構(gòu)(一個(gè)輸入層,一個(gè)隱含層,一個(gè)輸出層)和隨機(jī)初始ANN神經(jīng)元鏈接權(quán)重,由n個(gè)輸入節(jié)點(diǎn)和n個(gè)輸出節(jié)點(diǎn)組成。采用類似于交叉驗(yàn)證策略,將模擬數(shù)據(jù)真實(shí)值作為輸入,訓(xùn)練鏈接權(quán)重。將ANN算法的輸出,輸入到HMM模型中,采用Baum-Welch算法得出對(duì)數(shù)似然值,應(yīng)用梯度下降法調(diào)整模型參數(shù)。測(cè)試的誤差評(píng)價(jià)準(zhǔn)則為平均相對(duì)誤差:

3 結(jié)果與分析

研究采用自編軟件產(chǎn)生模擬數(shù)據(jù),結(jié)合公共數(shù)據(jù)集,將ANN和HMM相結(jié)合,提出改進(jìn)PLIS法-ANN-PLIS。通過比較PLIS、BH[11]、ANN-PLIS的預(yù)測(cè)性能,結(jié)果表明,ANN-PLIS較單純使用HMM的PLIS運(yùn)算速度很快,ANN-PLIS具有很強(qiáng)的魯棒性、記憶能力、非線性映射能力以及強(qiáng)大的自學(xué)習(xí)能力,運(yùn)算速度也大大加快,提高了多重比較過程的準(zhǔn)確性(表1)。但是ANN也有其缺點(diǎn):(1)最嚴(yán)重的問題是沒能力來解釋自己的推理過程和推理依據(jù);(2)不能向用戶提出必要的詢問,而且當(dāng)數(shù)據(jù)不充分的時(shí)候,神經(jīng)網(wǎng)絡(luò)就無法進(jìn)行工作;(3)把一切問題的特征都變?yōu)閿?shù)字,把一切推理都變?yōu)閿?shù)值計(jì)算,其結(jié)果勢(shì)必是丟失信息;(4)理論和學(xué)習(xí)算法還有待于進(jìn)一步完善和提高。

致謝:本研究部分靈感及部分計(jì)算設(shè)備由中國(guó)農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院張勤教授課題組提供。

參考文獻(xiàn)

[1]Zhang,Y.D.,et al.. Genomic selection for female reproduction in Australian tropically adapted beef cattle[J]. Animal Production Science,2014,54(1):16-24.

[2]Santana,M.H.,et al.,Genome-wide association study for feedlot average daily gain in Nellore cattle(Bos indicus)[J]. J Anim Breed Genet,2014,131(3):210-216.

[3]Finner,H.,M. Roters. Multiple hypotheses testing and expected number of type I[J].Ann. Statist.,2002:220-238.

[4]Owen,A..Variance of the number of false discoveries[J].Journal of the Royal Statistical Society 2005,B(67):411-426.

[5]Sun,W.,T. Tony Cai. Large-scale multiple testing under dependence[J]. Journal of the Royal Statistical Society:Series B(Statistical Methodology),2009,71(2):393-424.

[6]Wei,Z.,et al..Multiple testing in genome-wide association studies via hidden Markov models[J].Bioinformatics,2009,25(21):2802-2808.

[7]Li,H.,Z. Wei,J. Maris. A hidden Markov random field model for genome-wide association studies[J]. Biostatistics,2010,11(1):139-150.

[8]Wenguang,S.,T.T. Cai,Large-scale multiple testing under dependence[J]. Journal of the Royal Statistical Society Series B,2009,71(2):393-424.

[9]Ytournel,F(xiàn)..Linkage disequilibrium and QTL fine mapping in a selected population[J].Station de Génétique Quantitative et Appliquée,INRA,2008.

[10]Meuwissen,T.,M. Goddard.Accurate Prediction of Genetic Values for Complex Traits by Whole Genome Resequencing[J].Genetics,2010,185:623-631.

[11]Benjamini,Y.,Y. Hochberg.Controlling the False Discovery Rate:A Practical and Powerful Approach to Multiple Testing[J].Journal of the Royal Statistical Society. Series B(Methodological),1995,57(1):289-300. (責(zé)編:張宏民)

猜你喜歡
假設(shè)檢驗(yàn)人工神經(jīng)網(wǎng)絡(luò)
假設(shè)檢驗(yàn)結(jié)果的對(duì)立性分析
利用人工神經(jīng)網(wǎng)絡(luò)快速計(jì)算木星系磁坐標(biāo)
人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)簡(jiǎn)單字母的識(shí)別
電子制作(2019年10期)2019-06-17 11:45:10
一種求解假設(shè)檢驗(yàn)拒絕域和計(jì)算p-值的系統(tǒng)化方法
滑動(dòng)電接觸摩擦力的BP與RBF人工神經(jīng)網(wǎng)絡(luò)建模
統(tǒng)計(jì)推斷的研究
雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
統(tǒng)計(jì)學(xué)教學(xué)中關(guān)于假設(shè)檢驗(yàn)問題探討
人工神經(jīng)網(wǎng)絡(luò)和安時(shí)法電池SOC估計(jì)
全州县| 云安县| 营口市| 嵊州市| 襄垣县| 博白县| 东山县| 五台县| 湖南省| 成安县| 奉化市| 蒙自县| 祁门县| 当阳市| 大姚县| 沙湾县| 罗源县| 喜德县| 耿马| 安平县| 农安县| 五峰| 新龙县| 楚雄市| 大渡口区| 工布江达县| 贵南县| 乐昌市| 宁都县| 新河县| 深圳市| 长乐市| 紫云| 莱州市| 永和县| 项城市| 堆龙德庆县| 东光县| 抚顺市| 松溪县| 海伦市|