国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

腦血管病基因組學(xué)數(shù)據(jù)分析流程建設(shè)

2022-04-06 12:36許喆程絲劉陽石延楓李昊
中國卒中雜志 2022年3期
關(guān)鍵詞:遺傳變異基因組學(xué)腦血管病

許喆,程絲,劉陽,石延楓,李昊

腦血管病是我國第一大死亡原因[1],且具有病因分型多[2]、遺傳架構(gòu)(genetic architecture)復(fù)雜等特點(diǎn)[3]。隨著高通量測序和質(zhì)譜技術(shù)的進(jìn)步,在腦血管病分子機(jī)制研究中,基因組、轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組、代謝組、宏基因組等組學(xué)技術(shù)被應(yīng)用[4-6],融合各組學(xué)技術(shù)的多組學(xué)分析已經(jīng)成為未來醫(yī)學(xué)和生命科學(xué)研究的趨勢[7-8]。在眾多組學(xué)提供的不同維度的數(shù)據(jù)中,基因組信息在體內(nèi)最為穩(wěn)定,組織特異性低,因此成為多組學(xué)研究重要的切入點(diǎn)[7],應(yīng)用也最為廣泛[9-15]。但是由于研究目標(biāo)、樣本選擇有所不同,腦血管病領(lǐng)域各個基因組學(xué)研究的分析方案不盡相同,導(dǎo)致腦血管病領(lǐng)域基因組數(shù)據(jù)生物信息學(xué)分析流程整合度不高,缺乏系統(tǒng)、全面的匯總。

本研究在臨床需求和文獻(xiàn)調(diào)研的基礎(chǔ)上,梳理了腦血管病基因組學(xué)研究中常用、主流、穩(wěn)定的分析方案,以模塊化的設(shè)計思路,以中國國家卒中登記Ⅲ(China national stroke registry-Ⅲ,CNSR-Ⅲ)研究的基因組學(xué)數(shù)據(jù)為測試集[16-17],搭建標(biāo)準(zhǔn)化的生物信息學(xué)分析流程,為腦血管病臨床和基礎(chǔ)研究提供大數(shù)據(jù)支撐。

1 方法

1.1 確定分析流程所需模塊和技術(shù)參數(shù)

1.1.1 文獻(xiàn)復(fù)習(xí) 通過查閱MEGASTROK E(multi-ancestry genome-wide association study of stroke)項(xiàng)目、GENS(GENetics of Stroke)登記研究、CHARGE(cohorts for heart and aging research in genomic epidemiology)合作組研究的相關(guān)文獻(xiàn)[15,18-19],總結(jié)腦血管病隊列和群體遺傳學(xué)研究中常用的分析策略、研究方案設(shè)計原則、數(shù)據(jù)質(zhì)控方案和管理模式等,收集生物信息學(xué)分析的技術(shù)參數(shù)。

1.1.2 專家咨詢 咨詢神經(jīng)病學(xué)、神經(jīng)生物學(xué)、流行病學(xué)專家,調(diào)研臨床診斷和基因檢測對基因組學(xué)、生物信息學(xué)數(shù)據(jù)分析的需求。向生物信息學(xué)、群體遺傳學(xué)、基因組學(xué)、生物樣本庫等領(lǐng)域?qū)<?,咨詢基因組學(xué)數(shù)據(jù)分析中合理的功能模塊和實(shí)現(xiàn)方案。

1.1.3 數(shù)據(jù)庫和在線工具調(diào)研 調(diào)研生物信息學(xué)、基因組學(xué)、表觀遺傳學(xué)、轉(zhuǎn)錄組學(xué)等多組學(xué)數(shù)據(jù)庫,下載相應(yīng)數(shù)據(jù)或者優(yōu)化檢索方式,將數(shù)據(jù)庫的內(nèi)容或信息嵌入分析流程。調(diào)研數(shù)據(jù)庫包括RegulomeDB[20]、GTEx(genotypetissue expression)[21]、GeneHancer(genomewide integration of enhancers and target genes in GeneCards)[22]、ClinVar(public archive of interpretations of clinically relevant variants)[23]、OMIM(online mendelian inheritance in man,https://omim.org)、Orphanet(www.orpha.net)等。同時調(diào)研了Galaxy等在線分析工具[24],考察基因組學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化分析流程設(shè)計思路。

1.2 高性能運(yùn)算集群 基于首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院高性能運(yùn)算集群,開發(fā)和搭建生物信息學(xué)分析流程。集群包括80臺1路、76臺2路、4臺4路、1臺8路CPU計算節(jié)點(diǎn),9臺GPU計算節(jié)點(diǎn),理論浮點(diǎn)運(yùn)算能力375萬億次/秒。采用中科曙光parastor 200并行存儲系統(tǒng),提供5.3 PB可用存儲空間。集群使用1套100 Gbps Infiniband網(wǎng)絡(luò),1套千兆管理網(wǎng)絡(luò),提供1臺登錄節(jié)點(diǎn),提供用戶登錄、編譯軟件、提交作業(yè)、上傳下載數(shù)據(jù)等功能;提供1臺管理節(jié)點(diǎn),安裝Gridview作業(yè)管理系統(tǒng),并提供集群監(jiān)控功能。

1.3 流程測試和優(yōu)化 基于CNSR-Ⅲ研究等隊列的基因組學(xué)數(shù)據(jù),對流程進(jìn)行測試。測試樣本為CNSR-Ⅲ研究隊列遺傳亞組共12 603例缺血性腦血管病患者外周血白細(xì)胞DNA[17]。這些DNA樣本被用于進(jìn)行全基因組測序,生成的遺傳數(shù)據(jù)經(jīng)過本研究搭建的生物信息學(xué)流程處理,保留測序數(shù)據(jù)質(zhì)量合格、無污染、無親緣關(guān)系、無顯著遺傳背景差異的樣本,用于后續(xù)的群體遺傳學(xué)、多組學(xué)數(shù)據(jù)挖掘。在測試過程中,基于高性能運(yùn)算集群的架構(gòu)和各個計算節(jié)點(diǎn)的算力,結(jié)合數(shù)據(jù)量、單個運(yùn)算任務(wù)對內(nèi)存需求、不同模塊中生物信息軟件的算法和并行計算的參數(shù)、集群帶寬等,拆分計算任務(wù),使集群算力得到高效應(yīng)用。

1.4 數(shù)據(jù)管理方案調(diào)研 遵照《中華人民共和國生物安全法》《中華人民共和國人類遺傳資源管理?xiàng)l例》及《首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院人類遺傳資源管理辦法》的相關(guān)規(guī)定,對研究涉及的數(shù)據(jù)和樣本進(jìn)行管理。與國內(nèi)相關(guān)研究團(tuán)隊的數(shù)據(jù)管理部門、相關(guān)專家進(jìn)行學(xué)術(shù)交流,學(xué)習(xí)人類遺傳資源管理經(jīng)驗(yàn)。

2 結(jié)果

本研究搭建的基因組學(xué)數(shù)據(jù)生物信息學(xué)分析流程,主要包括組學(xué)大數(shù)據(jù)質(zhì)控和預(yù)處理、群體遺傳學(xué)質(zhì)控和樣本清理、臨床相關(guān)位點(diǎn)解析等部分,各部分又按照研究目的和功能、使用軟件和軟件組合的不同,細(xì)分為不同模塊(圖1)。不同模塊之間可以自由組合,增強(qiáng)了本流程的兼容性和普適性。此外,本流程在搭建過程中也考慮到研究方案頂層設(shè)計和項(xiàng)目管理的需求,在項(xiàng)目論證和規(guī)劃階段引入基因組學(xué)、生物信息學(xué)專家,以便明確研究目標(biāo),選擇合理的組學(xué)檢測技術(shù)。

圖1 基因組學(xué)數(shù)據(jù)分析流程

2.1 檢測技術(shù)選擇 生物信息分析人員根據(jù)醫(yī)師科學(xué)家的研究目的,協(xié)商選取合適的檢測技術(shù),預(yù)先確認(rèn)分析方案。檢測技術(shù)的選擇遵循以下原則:①優(yōu)先選擇數(shù)據(jù)質(zhì)量可靠,穩(wěn)定性、重復(fù)性好,認(rèn)可程度高的檢測技術(shù);②選擇樣本消耗量適中的檢測技術(shù),兼顧數(shù)據(jù)和樣本用于后續(xù)其他研究的可能;③對于個體化訂制的檢測方案(如探針和靶向捕獲試劑盒等),需要進(jìn)行預(yù)試驗(yàn),評估檢測體系運(yùn)轉(zhuǎn)情況和數(shù)據(jù)質(zhì)量,利用預(yù)試驗(yàn)產(chǎn)生的基因組學(xué)數(shù)據(jù),對分析流程進(jìn)行測試和優(yōu)化;④項(xiàng)目的檢測方法一旦確定,不宜中途調(diào)整,檢測試劑和儀器也應(yīng)確保是同一型號、相同批次,避免檢測結(jié)果出現(xiàn)批次效應(yīng)。

2.2 原始數(shù)據(jù)預(yù)處理與質(zhì)量評估

2.2.1 高通量測序數(shù)據(jù) 高通量測序作為目前獲取樣本最全面遺傳信息的主流技術(shù)手段,被廣泛應(yīng)用于復(fù)雜疾病的基因組學(xué)分析、孟德爾遺傳病的分子診斷等領(lǐng)域。通常情況下,高通量測序的實(shí)驗(yàn)由專業(yè)的檢測機(jī)構(gòu)或?qū)嶒?yàn)室完成,檢測結(jié)果以測序原始數(shù)據(jù)(FASTQ格式)和檢測報告的形式向臨床研究人員反饋。

在測序原始數(shù)據(jù)復(fù)制、傳輸、備份的全部環(huán)節(jié),都需要核對數(shù)據(jù)完整性,避免數(shù)據(jù)文件損壞。數(shù)據(jù)每復(fù)制一次,檢測原文件和復(fù)制本的MD5碼,兩文件的MD5碼必須完全一致。

而后,按照GATK(genome analysis toolkit)最佳實(shí)踐的高通量測序數(shù)據(jù)檢出種系變異中的單核苷酸變異(single nucleotide variants,SNV)和插入缺失多態(tài)(insertion-deletion,INDEL)的處理流程(圖2)[25],對測序原始數(shù)據(jù)進(jìn)行預(yù)處理,同時完成測序深度、覆蓋情況、微生物污染(GC含量)、人源污染等方面的評估。

圖2 GATK最佳實(shí)踐流程

2.2.2 分型數(shù)據(jù) 分型是指獲取樣本預(yù)設(shè)變異位點(diǎn)基因型的操作,通常是指獲取單核苷酸多態(tài)(single nucleotide polymorphism,SNP)位點(diǎn)的基因型。根據(jù)通量和分型原理的不同,采用不同的方案進(jìn)行預(yù)處理。

對于通量較高的全基因組SNP分型芯片,使用芯片廠家指定的軟件,如GenomeStudio(Illumina)和Genotyping Console(Affymetrix)進(jìn)行SNP分型芯片的數(shù)據(jù)預(yù)處理。在生產(chǎn)廠商的網(wǎng)站找到相應(yīng)型號芯片的解析文件,用于原始數(shù)據(jù)的導(dǎo)入和可視化。而后需評估各個樣本的質(zhì)量,如果某樣本在全基因組上被成功分型的位點(diǎn)數(shù)目低于芯片全部預(yù)設(shè)位點(diǎn)數(shù)目的95%,則認(rèn)為該樣本DNA發(fā)生降解,故而將該樣本剔除。在剩余樣本組成的群體中,再進(jìn)行位點(diǎn)水平的質(zhì)量評估,如果一個位點(diǎn)有超過3%的樣本沒有分型成功,分析該位點(diǎn)的統(tǒng)計學(xué)效力不足,這些位點(diǎn)也需剔除。

對通量較低的候選SNP位點(diǎn)進(jìn)行分型,如熒光探針分型(TaqMan)、質(zhì)譜分型(Agena Bioscience)、KASPar?等[26-28],受上樣量、檢測儀器、操作熟練程度等外部因素影響較大,分型成功率的閾值可降低到80%。

2.2.3 污染評估 可控和不可控因素引入的樣本污染,將降低來自污染樣本基因組學(xué)數(shù)據(jù)的可信度,因此污染樣本需要從研究群體中刪除。

樣本污染主要來自微生物和人源DNA。被微生物污染的樣本,測序得到的基因組GC含量明顯異于正常人類基因組GC含量(39%~45%),因此可以通過全基因組測序數(shù)據(jù)預(yù)處理、計算GC含量來判斷。人源DNA污染會導(dǎo)致被檢測樣本的基因組上存在過多的雜合變異,可使用VerifyBamID軟件判斷全基因組測序和芯片分型樣本人源污染情況[26]。2.3 群體遺傳學(xué)質(zhì)控 無污染、遺傳變異檢測成功率合格、數(shù)據(jù)量滿足要求的樣本,可以按照研究目標(biāo)的不同,開展面向群體的關(guān)聯(lián)分析、面向家系的連鎖分析,以及面向單基因病個體的突變致病性注釋等研究(圖1)。其中用于關(guān)聯(lián)分析、連鎖分析的樣本,需要進(jìn)行群體遺傳學(xué)質(zhì)控。對于關(guān)聯(lián)分析,研究群體中不得存在重復(fù)樣本、具有親緣關(guān)系的樣本或遺傳背景明顯離群的樣本,同時評估群體的亞分層等群體遺傳結(jié)構(gòu);對于連鎖分析,需通過群體遺傳質(zhì)控確定家系中沒有樣本遺傳數(shù)據(jù)與親緣關(guān)系不匹配的情況。使用RelPair、KING等軟件[29-30],分析樣本間的親緣關(guān)系以及樣本有無重復(fù)。對于關(guān)聯(lián)分析,以保留盡可能多的樣本進(jìn)入分析流程為原則,去掉具有親緣關(guān)系的樣本對中的一個樣本,確保納入分析的樣本中不存在具有3度以內(nèi)的親緣關(guān)系樣本。

遺傳背景的離群值和人群亞分層使用主成分分析進(jìn)行。在全基因組上選取沒有連鎖不平衡關(guān)系的SNP位點(diǎn),使用GCTA軟件進(jìn)行主成分分析[31],使用STRUCTURE軟件評估人群遺傳結(jié)構(gòu)[32]。本分析流程使用千人基因組數(shù)據(jù)庫中的中國南北方漢族,或歐洲人群、非洲人群作為參考人群[33],對目標(biāo)群體的樣本進(jìn)行主成分分析和聚類分析。如果目標(biāo)群體在前二或前三個主成分中有明顯的離群個體,或者明顯和其他族裔人群聚類接近,則將該樣本刪除。如果人群具有明顯的分類,需要在后續(xù)的關(guān)聯(lián)分析中,將該樣本的前2~10個主成分作為協(xié)變量,以降低人群亞分層對關(guān)聯(lián)分析結(jié)果的影響。

上述群體遺傳學(xué)質(zhì)控只能使用覆蓋全基因組的SNP位點(diǎn)來進(jìn)行,因此對于候選基因SNP分型的項(xiàng)目和樣本,無法進(jìn)行相應(yīng)的群體遺傳質(zhì)控。

在CNSR-Ⅲ研究隊列全基因組測序樣本中,完成群體遺傳學(xué)質(zhì)控后,最終獲得無3度以內(nèi)親緣關(guān)系、遺傳背景離群和亞分層的研究人群,樣本共計10 241例,這些樣本可用于全基因組關(guān)聯(lián)分析。

2.4 變異功能注釋 注釋是根據(jù)遺傳變異在基因組上的物理位置、變異形式等信息,解析和預(yù)測該遺傳變異的生物學(xué)功能的流程。根據(jù)注釋方法和內(nèi)容的不同,注釋在蛋白編碼和基因表達(dá)調(diào)控兩個水平上展開。

2.4.1 蛋白編碼區(qū)注釋 位于基因的編碼區(qū)遺傳變異會直接改變密碼子的組成,對蛋白編碼造成影響。同時,基因內(nèi)含子區(qū)的可變剪切位點(diǎn)發(fā)生變異,會影響蛋白編碼中外顯子和開放閱讀框的選取,也會影響蛋白質(zhì)中的氨基酸序列排布。選取VEP(ensembl variant effect predictor)和ANNOVAR(annotation of genetic variants)軟件[34-35],對基因編碼區(qū)的變異進(jìn)行注釋,使用dbscSNV數(shù)據(jù)庫和SpliceAI軟件對可變剪切位點(diǎn)的變異功能進(jìn)行注釋和預(yù)測[36-37]。

2.4.2 表達(dá)調(diào)控區(qū)注釋 基因組上超過97%的序列為非編碼區(qū),但是這些序列可能執(zhí)行調(diào)節(jié)基因表達(dá)的功能[38]。這些區(qū)域發(fā)生的DNA變異有可能改變轉(zhuǎn)錄調(diào)節(jié)因子的結(jié)合能力,從而影響基因表達(dá)。對于表達(dá)調(diào)控區(qū)變異的注釋,主要通過檢索RegulomeDB、GTEx、GeneHancer等數(shù)據(jù)庫來完成[20-22]。通過判斷遺傳變異是否位于表達(dá)調(diào)控區(qū)預(yù)測對轉(zhuǎn)錄調(diào)節(jié)因子結(jié)合能力的影響,判斷遺傳變異對基因表達(dá)的潛在影響。

2.4.3 變異致病性評估 對于單基因病患者的基因組研究,主要目標(biāo)是確定導(dǎo)致患者發(fā)病的變異。因此對該類患者攜帶的遺傳變異,除了進(jìn)行功能注釋,還需要進(jìn)行致病性評估,在實(shí)踐中采用軟件評估和數(shù)據(jù)庫檢索兩種方案進(jìn)行。軟件預(yù)測采用InterVar等軟件[39],按照美國醫(yī)學(xué)遺傳學(xué)與基因組學(xué)學(xué)會(American College of Medical Genetics and Genomics,ACMG)標(biāo)準(zhǔn)[40],進(jìn)行變異的致病性評估。數(shù)據(jù)庫檢索是從ClinVar[23]、OMIM(https://omim.org)、Orphanet(www.orpha.net)等數(shù)據(jù)庫中檢索患者攜帶的遺傳變異是否為數(shù)據(jù)庫已收錄的致病變異,并分析患者表型與數(shù)據(jù)庫收錄的表型是否相符。

2.5 連鎖分析 連鎖分析是在疾病家系中,按遺傳多態(tài)和疾病表型的共分離關(guān)系,定位疾病致病變異的分析(圖1),該分析在具有親緣關(guān)系的家系樣本中展開??梢允褂玫能浖∕erlin(multipoint engine for rapid likelihood inference)、Haplo2Ped等[41-42]。需要注意的是,連鎖分析通常是將遺傳變異作為標(biāo)注基因組區(qū)段的分子標(biāo)記,進(jìn)行致病基因所在區(qū)段的定位,并不能直接定位致病突變。因此,須對連鎖分析得到的陽性區(qū)段內(nèi)所有遺傳變異進(jìn)行注釋和精細(xì)定位,并進(jìn)行分子生物學(xué)、細(xì)胞生物學(xué)實(shí)驗(yàn),對可能致病的遺傳變異進(jìn)行功能驗(yàn)證,才能確定致病變異。

2.6 關(guān)聯(lián)分析 關(guān)聯(lián)分析是指以不同個體的遺傳變異信息作為自變量,個體的表型信息作為因變量,在群體層面研究遺傳變異和表型的相關(guān)關(guān)系的方法[43]。按照遺傳變異在群體中的頻率不同,分別進(jìn)行常見變異關(guān)聯(lián)分析和低頻變異關(guān)聯(lián)分析。

2.6.1 常見變異關(guān)聯(lián)分析 常見變異是指次要等位基因頻率(minor allele frequency,MAF)在群體中>1%,或者在研究樣本中攜帶者數(shù)量超過一定閾值(如30個)的遺傳變異。常見變異關(guān)聯(lián)分析采用廣義線性模型對遺傳數(shù)據(jù)和性狀信息進(jìn)行線性擬合,對于數(shù)量性狀和質(zhì)量性狀,分別采用線性回歸和logistic回歸的方法。常見變異關(guān)聯(lián)分析使用PLINK軟件開展[44],以單獨(dú)一個遺傳變異位點(diǎn)為單位進(jìn)行計算,估計其與表型的相關(guān)性。

在常見變異關(guān)聯(lián)分析的過程中,由于遺傳變異測序或分型失敗,導(dǎo)致一部分樣本的個別位點(diǎn),或者樣本群體的部分位點(diǎn)基因型數(shù)據(jù)缺失。這時可采用基因型填補(bǔ)(impute)方法,推測缺失位點(diǎn)的基因型。該操作基于參考群體的基因組遺傳變異和數(shù)據(jù)缺失的遺傳變異之間連鎖不平衡關(guān)系,推斷基因型已知的遺傳變異位點(diǎn)周邊基因組區(qū)域中,基因型未知或未被分型的遺傳變異的基因型。該操作對于常見變異表現(xiàn)較好,但是能夠被推定基因型的遺傳變異數(shù)量有限。

在常見變異關(guān)聯(lián)分析中,基因型填補(bǔ)能夠增加基因組的覆蓋范圍和密度,提高用于關(guān)聯(lián)分析的遺傳變異數(shù)量。在本流程中,使用IMPUTE2軟件及其相應(yīng)的參考人群數(shù)據(jù),完成基因型填補(bǔ)過程[45]。

2.6.2 低頻變異關(guān)聯(lián)分析 低頻變異是指MAF<1%,或者在研究樣本中攜帶者數(shù)量低于一定閾值(如30個)的遺傳變異。盡管低頻變異的數(shù)量眾多,但從單個遺傳變異的頻率來看,攜帶者數(shù)量較少,因此不適宜采用常見變異關(guān)聯(lián)分析中,以單個變異為單位進(jìn)行關(guān)聯(lián)分析的方法。而是將一段基因組區(qū)域內(nèi)的全部低頻變異進(jìn)行歸納,依據(jù)頻率等因素對每個低頻變異進(jìn)行加權(quán),構(gòu)建統(tǒng)計量,再與表型進(jìn)行關(guān)聯(lián)分析。在本流程中,使用SKAT、rvtests等軟件[46-47],以基因組區(qū)段為單位,進(jìn)行低頻變異關(guān)聯(lián)分析。

2.6.3 薈萃分析 整合不同研究的全基因組關(guān)聯(lián)分析結(jié)果進(jìn)行薈萃分析,可以提升樣本量,增加統(tǒng)計學(xué)效力。對于可以開展薈萃分析的項(xiàng)目和數(shù)據(jù),使用METAL和RARE METAL軟件[48-49],進(jìn)行常見變異薈萃分析和低頻變異薈萃分析。

2.7 跨組學(xué)研究 關(guān)聯(lián)分析得到的結(jié)論往往只能表明相關(guān)性而不是因果關(guān)系,因此關(guān)聯(lián)分析的研究結(jié)果難以實(shí)現(xiàn)臨床轉(zhuǎn)化。在大數(shù)據(jù)、多組學(xué)時代,可以通過跨組學(xué)分析的方法,證明因果關(guān)系或者中介因素。使用遺傳多態(tài)作為分組依據(jù),模仿隨機(jī)對照試驗(yàn)對樣本分組進(jìn)行的孟德爾隨機(jī)研究,能夠推斷來自不同組學(xué)的表型數(shù)據(jù)之間的因果關(guān)系。為此,在流程中設(shè)計基于CIT包的因果推斷檢驗(yàn)[50],以及基于TwoSampleMR包的孟德爾隨機(jī)分析[51]。

3 討論

腦血管病是嚴(yán)重威脅我國國民健康的復(fù)雜疾病,對腦血管病分子機(jī)制的研究,有助于發(fā)現(xiàn)潛在的藥物靶標(biāo),開發(fā)新的治療方案。以高通量測序和質(zhì)譜為代表的組學(xué)技術(shù)蓬勃發(fā)展,推動了腦血管病在基因組、轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組、代謝組、宏基因組等領(lǐng)域研究的長足進(jìn)步,加深了對腦血管病分子機(jī)制的認(rèn)識。但是由于種種限制,以往研究樣本量較小、組學(xué)數(shù)據(jù)維度單一,通常只能證明相關(guān)性而非因果關(guān)系,因而對臨床治療的幫助有限。在大樣本量隊列中展開多組學(xué)分析,不僅能夠從多個維度揭示疾病分子機(jī)制,也能更清楚地確定生物標(biāo)志物、藥物靶標(biāo)和疾病結(jié)局的因果關(guān)系。多組學(xué)是融合了基因組、轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組、代謝組、宏基因組等多個組學(xué)的綜合性學(xué)科。一次性開展多個組學(xué)的研究,成本巨大而且風(fēng)險較高,因此在多組學(xué)研究中需要進(jìn)行良好的頂層設(shè)計和分析,以期為腦血管病的臨床治療和研究提供新的支持[52]。

以往生物信息學(xué)標(biāo)準(zhǔn)化分析流程的研究中,對于基因組數(shù)據(jù)的標(biāo)準(zhǔn)化分析關(guān)注較少[53]。以往腦血管病的基因組學(xué)研究,由于目標(biāo)、組學(xué)技術(shù)和數(shù)據(jù)的差異,分析策略和流程的選擇較為單一。因此,基因組學(xué)數(shù)據(jù)的分析流程缺少有效的集成和優(yōu)化,難以滿足腦血管病等多種復(fù)雜疾病的研究需求[54]。不同亞型的腦血管病臨床表現(xiàn)難以區(qū)分,單基因病和多因微效型腦血管病患者臨床表現(xiàn)相似,增加了分型診療的難度。對于腦血管病的大規(guī)模測序研究,建議先對單基因病型腦血管病患者進(jìn)行致病性評估和連鎖分析,為臨床診斷定位可能的致病突變。在關(guān)聯(lián)分析中,優(yōu)先保留多因微效型腦血管病患者的資料,增強(qiáng)樣本遺傳架構(gòu)的一致性和研究的統(tǒng)計效力。為了分析CNSR-Ⅲ研究隊列基因組學(xué)數(shù)據(jù),在調(diào)研研究需求和腦血管病特點(diǎn)的基礎(chǔ)上,搭建了基因組學(xué)數(shù)據(jù)分析流程。該流程以模塊化設(shè)計思路,包含了關(guān)聯(lián)分析、連鎖分析、遺傳變異功能注釋、致病性評估、跨組學(xué)分析等多種分析方法,能夠滿足腦血管病研究所需的單基因病患者評估、關(guān)聯(lián)分析等功能??梢愿鶕?jù)不同的研究目的,有選擇地使用本流程的不同模塊。本流程為分析腦血管病基因組數(shù)據(jù)提供了全面、系統(tǒng)的方案。同時,本研究關(guān)注了以往研究論文較少提及的高通量組學(xué)數(shù)據(jù)的管理方案,介紹了組學(xué)數(shù)據(jù)接收、核對、安全管理的原則,有助于腦血管病領(lǐng)域基因組學(xué)和多組學(xué)研究的開展。

本研究建立的分析流程在以下方面需要繼續(xù)優(yōu)化:首先,本流程主要用于基因組DNA遺傳變異的檢出和研究,對多組學(xué)包含的其他組學(xué)數(shù)據(jù),如轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組、代謝組等研究產(chǎn)出的數(shù)據(jù),尚未搭建分析流程。其次,本流程適合于基因組DNA發(fā)生的種系變異,不適用于體細(xì)胞變異的分析。在CNSR-Ⅲ研究后續(xù)的基因組等多組學(xué)研究中,隨著研究的深入和其他組學(xué)數(shù)據(jù)的產(chǎn)生,將逐步完善分析流程。最后,需要指出的是,盡管能夠通過流程,提升數(shù)據(jù)分析效率,但是在臨床科研的實(shí)際操作中,具體的參數(shù)設(shè)置,如協(xié)變量、病例-對照分組等,都會對分析結(jié)果產(chǎn)生影響。因此在分析過程中,仍然需要根據(jù)臨床和生物學(xué)知識,調(diào)試相應(yīng)參數(shù)以獲取合理的分析結(jié)果。

說明:本文涉及的部分生物信息學(xué)術(shù)語或數(shù)據(jù)庫名稱在國內(nèi)尚無統(tǒng)一譯文,強(qiáng)行將這些術(shù)語或名稱翻譯成中文將影響讀者對原意的理解,因此本文對此類術(shù)語及名稱未進(jìn)行翻譯。

【點(diǎn)睛】標(biāo)準(zhǔn)化、模塊化生物信息分析流程的確立,為全面挖掘腦血管病基因組學(xué)數(shù)據(jù)、展示其蘊(yùn)含的致病信息提供了系統(tǒng)性解決方案,將推動腦血管病多組學(xué)研究的發(fā)展。

猜你喜歡
遺傳變異基因組學(xué)腦血管病
葡萄醇?;D(zhuǎn)移酶編碼基因遺傳變異研究
腦血管病知多少
科普一下:腦血管病診斷中CT與MRI的優(yōu)劣!
基于改進(jìn)粒子群優(yōu)化算法的電動汽車最優(yōu)充放電策略研究
本草基因組學(xué)
本草基因組學(xué)
建構(gòu)“軟磁鐵模型”突破教學(xué)難點(diǎn)的課例分析
肝纖維化無創(chuàng)診斷的研究現(xiàn)狀
我院近12年9630例腦血管病住院病例統(tǒng)計分析
腦血管病昏迷患者的基礎(chǔ)護(hù)理體會
长垣县| 罗源县| 贡山| 商丘市| 天峨县| 池州市| 保亭| 新宁县| 海兴县| 察雅县| 乾安县| 衡南县| 金塔县| 松阳县| 武城县| 呈贡县| 元江| 甘南县| 上杭县| 达州市| 台北县| 海门市| 伊川县| 新化县| 句容市| 星座| 梁平县| 舟山市| 麦盖提县| 柳州市| 泰宁县| 北京市| 城口县| 克什克腾旗| 泰来县| 大姚县| 静安区| 绥阳县| 加查县| 巴塘县| 石景山区|