門致雨 王鑫 朱琍燕
摘 要:目的:SNP與疾病關(guān)聯(lián)性研究的薈萃分析是近幾年常見的研究類型。本文重點(diǎn)關(guān)注此類研究相關(guān)軟件的使用情況,并對(duì)R語言中用于此類分析常用程序包的功能及使用方法作一簡單介紹。材料方法:(1)通過檢索中國知網(wǎng)2010年、2015年、2020年、2021年及2022年發(fā)表的SNP疾病關(guān)聯(lián)性薈萃分析的研究論文,分析相關(guān)統(tǒng)計(jì)軟件的使用頻次;(2)統(tǒng)計(jì)了全球用于薈萃分析的R語言程序包下載情況;(3)最后結(jié)合相關(guān)資料對(duì)meta包及metafor包使用方法作了簡單介紹。結(jié)論:(1)Stata與RevMan是此類研究中最常用的軟件,R語言出現(xiàn)時(shí)間晚,使用次數(shù)少;(2)近年全球薈萃分析相關(guān)R程序包使用增長迅速,meta包及metafor包為其中的核心程序包;(3)meta包及metafor包均可實(shí)現(xiàn)SNP與疾病關(guān)聯(lián)性研究的薈萃分析,metafor包功能全面,meta包使用簡便,后者更適于初學(xué)者進(jìn)行學(xué)習(xí)。
關(guān)鍵詞:SNP;薈萃分析;統(tǒng)計(jì)軟件;R語言
1 概述
薈萃分析,又稱Meta分析、元分析,是一種對(duì)獨(dú)立研究中的效應(yīng)量進(jìn)行定量綜合以匯總結(jié)果的統(tǒng)計(jì)方法,常在系統(tǒng)綜述中使用[1]。與單項(xiàng)研究相比,薈萃分析采用統(tǒng)計(jì)方法匯總多個(gè)結(jié)果,有利于更準(zhǔn)確地估計(jì)效應(yīng)量的大小。在獨(dú)立研究的結(jié)果相互沖突時(shí),薈萃分析可進(jìn)一步量化各研究結(jié)果間的變異程度,有利于闡述其意義[12]。
薈萃分析自誕生以來不斷發(fā)展,已出現(xiàn)多種不同類型的分析方法,包括單組率的薈萃分析、單純P值的薈萃分析、Meta回歸分析、累計(jì)薈萃分析、比較性薈萃分析、診斷性薈萃分析、個(gè)體數(shù)據(jù)薈萃分析、前瞻性薈萃分析以及常規(guī)薈萃分析等[3]。
單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)是一種常見的可遺傳變異,具有數(shù)據(jù)量大、分布均勻等特點(diǎn),被廣泛用于遺傳病理學(xué)研究[4]。SNP可用于探尋疾病相關(guān)基因,也因其與個(gè)體表型差異、藥物與疾病易感性相關(guān),可作為生物標(biāo)志物[5],具有豐富的研究價(jià)值。然而,由于實(shí)際研究中存在發(fā)表偏倚、納入樣本量過少、樣本群體混雜等原因,遺傳關(guān)聯(lián)性研究表現(xiàn)出可重復(fù)性差的特點(diǎn),其價(jià)值也一度受到質(zhì)疑[6]。薈萃分析可合并多個(gè)研究結(jié)果,提高檢驗(yàn)效能,也可發(fā)現(xiàn)并量化各研究間的異質(zhì)性,恰可彌補(bǔ)遺傳關(guān)聯(lián)性研究的缺點(diǎn)。20世紀(jì)初有關(guān)SNP的疾病關(guān)聯(lián)性薈萃分析數(shù)量呈指數(shù)級(jí)增長,在當(dāng)今仍為重要的研究方向[7](圖1)。
目前基礎(chǔ)和臨床研究中用于SNP相關(guān)疾病關(guān)聯(lián)性薈萃分析的軟件很多,例如Stata、RevMan、SPSS、R語言等,由于R語言具有開源、免費(fèi),擴(kuò)展性強(qiáng)、程序包豐富,編程語法簡單靈活等特點(diǎn),近年來被廣泛應(yīng)用于統(tǒng)計(jì)和公共衛(wèi)生領(lǐng)域[89]。然而,關(guān)于R語言在SNP疾病關(guān)聯(lián)性薈萃分析中的應(yīng)用目前仍缺乏系統(tǒng)綜述和使用方法介紹。為此,本文將圍繞此領(lǐng)域中常用的meta包及metafor包的功能,簡要介紹基于R語言進(jìn)行SNP相關(guān)疾病關(guān)聯(lián)性薈萃分析的方法。
2 資料與方法
2.1 國內(nèi)薈萃分析統(tǒng)計(jì)軟件使用趨勢(shì)調(diào)查
以“Meta”“薈萃分析”“元分析”“基因多態(tài)性”“SNP”為關(guān)鍵詞檢索中國知網(wǎng)(CNKI)2010年、2015年、2020年、2021年及2022年發(fā)表的期刊與碩博論文。通過閱讀標(biāo)題和摘要篩選出基因單核苷酸多態(tài)性與相關(guān)疾病的薈萃分析論文。通過閱讀全文,記錄各研究所使用的統(tǒng)計(jì)計(jì)算與繪圖軟件,最后對(duì)結(jié)果進(jìn)行分析,使用Excel軟件繪制堆積百分比圖,展示近10余年有關(guān)SNP疾病關(guān)聯(lián)性研究中統(tǒng)計(jì)軟件的使用情況及變化趨勢(shì)。
2.2 用于薈萃分析的R程序包調(diào)查
為了解R語言中可用于薈萃分析的常用程序包,檢索并閱讀相關(guān)文獻(xiàn),同時(shí)瀏覽R包存儲(chǔ)網(wǎng)站The Comprehensive R Archive Network(CRAN)的薈萃分析專欄[10],整理出與薈萃分析相關(guān)的R程序包。通過使用R語言(版本4.0.5)的packageRank[11]程序包,獲取了相應(yīng)程序包自2013年至今的累計(jì)下載量,并對(duì)其進(jìn)行排序后使用ggplot2程序包[12]繪制最常用程序包的累計(jì)下載量折線圖。
2.3 meta包及metafor包功能介紹
meta包介紹文檔包括R程序包參考手冊(cè)及一本包含示例代碼的薈萃分析詳細(xì)教材[13]。metafor包除參考手冊(cè)外,曾出版過一篇較為簡潔的介紹程序包功能的論文[14],值得一提的是,作者針對(duì)該包還制作了程序包功能介紹網(wǎng)站[15],便于使用者快速掌握此包的使用方法。本文結(jié)合程序包說明文檔及個(gè)人使用經(jīng)驗(yàn),將對(duì)這兩個(gè)包的功能作一簡要介紹。
3 結(jié)果
3.1 國內(nèi)SNP相關(guān)薈萃分析統(tǒng)計(jì)軟件變化趨勢(shì)
2010年、2015年、2020年、2021年及2022年分別篩選得到相關(guān)文獻(xiàn)95篇、204篇、112篇、97篇、51篇,記錄到統(tǒng)計(jì)及繪圖軟件使用頻次為106次、236次、135次、106次、63次。記錄到的軟件包括Stata(310次)、RevMan(292次)、SPSS(21次)、R(8次)、SAS(7次)、Comprehensive MetaAnalysis(3次)、open metaanalyst(2次)、Excel(1次)、Quanto(1次)及GraphPad(1次)。各年份中不同統(tǒng)計(jì)軟件所占比例參見圖2。
圖2 國內(nèi)SNP疾病關(guān)聯(lián)性薈萃分析統(tǒng)計(jì)軟件使用比例圖
根據(jù)統(tǒng)計(jì)數(shù)據(jù)結(jié)果,國內(nèi)有關(guān)SNP與疾病關(guān)聯(lián)性研究的薈萃分析最常用的軟件為Stata和RevMan,由于R語言在此領(lǐng)域運(yùn)用較晚,在國內(nèi)相關(guān)領(lǐng)域中的運(yùn)用頻次較世界其他國家仍然較低。在統(tǒng)計(jì)的年份中,僅在2020年至2022年間被使用了8次。
3.2 用于薈萃分析的R程序包下載頻次
首先,結(jié)合Polanin等人關(guān)于薈萃分析R程序包的綜述[16]及CRAN中Meta analysis任務(wù)介紹欄,共統(tǒng)計(jì)到169個(gè)用于各類薈萃分析的R程序包,據(jù)此推斷R語言功能豐富,可完成多種類型的薈萃分析。其次,我們統(tǒng)計(jì)了2013年至今下載量最高的6個(gè)薈萃分析相關(guān)程序包(effectsize、brms、metafor、meta、epiR和forestplot)的下載情況,如圖3所示,用于薈萃分析R語言程序包下載量在2013、2014年較低,此后逐年增高,這在一定程度上解釋了2010年及2015年國內(nèi)發(fā)表的此領(lǐng)域薈萃分析沒有使用R程序的原因。此外,meta包[17]和metafor包[14]是較早發(fā)布用于薈萃分析的程序包,其下載量在所有用于薈萃分析的R程序包中始終保持高位,這兩個(gè)包覆蓋了傳統(tǒng)薈萃分析的所有方面[16],功能豐富,是R語言薈萃分析的核心包,具有較高的應(yīng)用價(jià)值。本文后續(xù)將介紹這兩個(gè)程序包在SNP疾病關(guān)聯(lián)性薈萃分析方面的應(yīng)用。
3.3 Meta和metafor包功能介紹與對(duì)比
SNP與疾病關(guān)聯(lián)性分析屬于觀察性研究的一種,目前關(guān)于遺傳關(guān)聯(lián)性研究薈萃分析的發(fā)表標(biāo)準(zhǔn)仍然缺乏,MOOSE規(guī)范可用于參考[1819]。結(jié)合報(bào)告規(guī)范,此類型薈萃分析需要使用統(tǒng)計(jì)軟件的步驟主要包括效應(yīng)量合并、異質(zhì)性檢驗(yàn)、亞組分析、敏感性分析、發(fā)表偏倚分析及相應(yīng)圖形的繪制。表1詳細(xì)列舉了meta包及metafor包實(shí)現(xiàn)上述功能的方式。
根據(jù)前期分析結(jié)果,我們發(fā)現(xiàn)meta包及metafor包均可以滿足有關(guān)SNP相關(guān)疾病關(guān)聯(lián)性薈萃分析的需求。然而,通過比較分析發(fā)現(xiàn),metafor包在功能上更加全面,但許多統(tǒng)計(jì)方法在目前此類薈萃分析的論文中并不常見。metafor包功能更加全面的同時(shí)也帶來了更為陡峭的學(xué)習(xí)曲線。例如在森林圖繪制方面,metafor程序包需要手動(dòng)完成代碼,使用方法較meta包更為復(fù)雜,雖然其森林圖繪制有很高的靈活性,但代碼編寫花費(fèi)時(shí)間長,使用更為不便。因此,對(duì)于編程了解不多的研究者,若想使用R語言進(jìn)行SNP疾病關(guān)聯(lián)性薈萃分析,meta包因其較為簡明易用的特點(diǎn),是更為合適的選擇。然而,當(dāng)研究中出現(xiàn)較為復(fù)雜的問題,需要使用更為復(fù)雜的統(tǒng)計(jì)方法或圖形解決時(shí),建議使用metafor包相應(yīng)的函數(shù)作為補(bǔ)充,以便更好地解決實(shí)際問題。
4 討論
盡管R語言開源、免費(fèi),可拓展性高,功能強(qiáng)大,meta包及metafor包因其全面的薈萃分析功能越來越受到研究者的青睞,下載量逐年升高,但目前國內(nèi)SNP相關(guān)薈萃分析論文的統(tǒng)計(jì)數(shù)據(jù)表明,R軟件在國內(nèi)受關(guān)注程度仍然較低,僅在近幾年有少量運(yùn)用。其中的原因可能有以下幾點(diǎn):一是R語言發(fā)展較晚,第一版meta包于2006年發(fā)布,初版metafor包于2009年發(fā)布,從下載曲線也可看出,2014年及之前薈萃分析相關(guān)程序包下載量普遍較低。而RevMan、Stata等軟件發(fā)布早,在早期市場占用率已較高[20],故R這一起步較晚的軟件在國內(nèi)使用較少。
其次,R語言為程序語言,由于其缺少圖形用戶界面(GUI),操作常需要通過輸入代碼完成,有一定學(xué)習(xí)成本,而SNP相關(guān)疾病關(guān)聯(lián)性分析又屬較傳統(tǒng)的薈萃分析,通常數(shù)據(jù)量小,分析步驟較簡單,多數(shù)早期軟件都可完成。再次,R語言參考手冊(cè)均為英文,直至目前在國內(nèi)可用于學(xué)習(xí)參考的幫助文檔數(shù)量相較于其他軟件也明顯偏少,這也可能是阻礙R語言在國內(nèi)流行的障礙之一。鑒于R語言擁有豐富的英文參考文檔,本文雖對(duì)meta包及metafor包的功能與使用方法作了簡要介紹,但受限于篇幅限制,無法對(duì)其進(jìn)行更加全面詳細(xì)的介紹,讀者若需深入了解可進(jìn)一步參考相關(guān)資料。
我們通過多次醫(yī)學(xué)相關(guān)領(lǐng)域的數(shù)據(jù)分析實(shí)踐發(fā)現(xiàn),在花費(fèi)一定時(shí)間掌握R程序后,后續(xù)分析由于每次代碼改動(dòng)不大,多次分析時(shí)可大大提高效率,其強(qiáng)大的繪圖功能也使得圖片的質(zhì)量和自定義程度較高,無需花費(fèi)額外時(shí)間通過其他軟件繪制調(diào)整圖形,這些都在一定程度上減輕了工作量,提高了科研效率。此外,R語言因其豐富的拓展性,可用于多種領(lǐng)域的統(tǒng)計(jì)分析和圖片制作,更加有利于拓展研究的廣度,增加創(chuàng)新性。
總之,R語言程序廣泛應(yīng)用于薈萃分析領(lǐng)域。本文通過研究薈萃分析中常用的兩個(gè)程序包后發(fā)現(xiàn),meta包及metafor包的功能十分完備,均可實(shí)現(xiàn)SNP疾病關(guān)聯(lián)性研究薈萃分析。metafor包功能更加豐富,而meta包操作更加簡便,因此,建議初學(xué)入門者使用meta包做薈萃分析,具有一定生信基礎(chǔ)的研究人員可以使用metafor包完成較為復(fù)雜的研究分析。
參考文獻(xiàn):
[1]Khan S.MetaAnalysis:Methods for Health and Experimental Studies.Singapore:Springer Nature Singapore Pte Ltd,2020.
[2]Borenstein M,V.Hedges L,等.Meta分析導(dǎo)論[M].李國春,等,譯.北京:科學(xué)出版社,2013.
[3]曾憲濤,冷衛(wèi)東,郭毅,等.Meta分析系列之一:Meta分析的類型[J].中國循證心血管醫(yī)學(xué)雜志,2012,4(01):35.
[4]李雄.單核苷酸多態(tài)性數(shù)據(jù)挖掘方法及其應(yīng)用研究[D].湖南大學(xué),2015.
[5]孫宇.關(guān)聯(lián)分析中SNP與疾病關(guān)聯(lián)關(guān)系建模研究[D].西安電子科技大學(xué),2010.
[6]Colhoun HM,McKeigue PM,Smith GD.Problems of reporting genetic associations with complex outcomes.The Lancet,2003,361(9360):865872.
[7]翁鴻,李妙竹,耿培亮,等.遺傳關(guān)聯(lián)性研究及其Meta分析的簡介[J].中國循證心血管醫(yī)學(xué)雜志,2016,8(10):11561158.
[8]蔣文瀚,陳炳為,鄭建光,等.R語言meta包在Meta分析中的應(yīng)用[J].循證醫(yī)學(xué),2011,11(05):305309.
[9]李杏,劉濤,肖建鵬,等.R語言在公共衛(wèi)生領(lǐng)域的應(yīng)用:Meta分析[J].華南預(yù)防醫(yī)學(xué),2020,46(05):568570.
[10]CRAN Task View:MetaAnalysis[Internet].2021.Available from:https://CRAN.Rproject.org/view=MetaAnalysis.
[11]Li P.packageRank:Computation and Visualization of Package Download Counts and Percentiles.2021.(Accessed at https://CRAN.Rproject.org/package=packageRank).
[12]Wickham H.ggplot2:Elegant Graphics for Data Analysis.SpringerVerlag New York,2016.
[13]Schwarzer G,Carpenter JR,Rücker G.MetaAnalysis with R.Springer International Publishing,2015.
[14]Viechtbauer W.Conducting MetaAnalyses in R with the metafor Package.Journal of Statistical Software,2010,36(3):148.
[15]Viechtbauer W.metafor:A MetaAnalysis Package for R.github,2021.(Accessed at https://wviechtb.github.io/metafor).
[16]Polanin JR,Hennessy EA,TannerSmith EE.A Review of MetaAnalysis Packages in R.Journal of Educational and Behavioral Statistics,2016,42(2):206242.
[17]Balduzzi S,Rücker G,Schwarzer G.How to perform a metaanalysis with R:a practical tutorial.Evidence Based Mental Health,2019,22(4):153160.
[18]臧長海,李茁立.應(yīng)用臨床試驗(yàn)報(bào)告規(guī)范提高醫(yī)學(xué)論文質(zhì)量[J].山西醫(yī)藥雜志,2015,44(02):169173.
[19]Stroup DF,Berlin JA,Morton SC,et al.Metaanalysis of observational studies in epidemiology:a proposal for reporting.Metaanalysis Of Observational Studies in Epidemiology(MOOSE)group.JAMA,2000,283(15):20082012.
[20]楊悅.兩種計(jì)算機(jī)軟件在醫(yī)學(xué)Meta分析中的應(yīng)用[J].河北醫(yī)藥,2008(09):14301432.
基金項(xiàng)目:本項(xiàng)目的研究成果受“蘇州大學(xué)‘大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃”(Undergraduate Training Program for Innovation and Entrepreneurship,Soochow University)資助,項(xiàng)目編號(hào):202110285052、202210285072Z
作者簡介:門致雨(2000— ),男,漢族,河南商丘人,蘇州大學(xué)蘇州醫(yī)學(xué)院本科生;王鑫(2000— ),男,漢族,重慶武隆人,蘇州大學(xué)蘇州醫(yī)學(xué)院本科生。
*通訊作者:朱琍燕(1982— ),女,漢族,江蘇無錫人,醫(yī)學(xué)博士,高級(jí)實(shí)驗(yàn)師,研究方向:疼痛發(fā)生發(fā)展的免疫分子機(jī)制和疾病關(guān)聯(lián)性數(shù)據(jù)分析研究。