侯 勇
(湖北華大基因研究院,湖北武漢 430074)
生物研究大數(shù)據(jù)的開(kāi)放與共享探討
侯 勇
(湖北華大基因研究院,湖北武漢 430074)
首先介紹生物研究大數(shù)據(jù)概念及其開(kāi)放與共享現(xiàn)狀,認(rèn)為生物研究大數(shù)據(jù)開(kāi)放與共享對(duì)科學(xué)研究具有促進(jìn)的作用。然后針對(duì)生物研究大數(shù)據(jù)開(kāi)放與共享的困難,以GigaScience為例探討了生物研究大數(shù)據(jù)開(kāi)放共享具體研究與做法。最后針對(duì)生物研究大數(shù)據(jù)開(kāi)放與共享面臨的技術(shù)挑戰(zhàn),提出了進(jìn)一步的發(fā)展建議,以推動(dòng)生物研究大數(shù)據(jù)開(kāi)放與共享。
生物研究;大數(shù)據(jù)基因組;生物數(shù)據(jù)開(kāi)放共享;GigaScience;開(kāi)放存取
近年來(lái),生物研究越來(lái)越離不開(kāi)計(jì)算和數(shù)據(jù)。以基因組為代表的生物大數(shù)據(jù)是近年來(lái)興起的一個(gè)生命科學(xué)與數(shù)據(jù)科學(xué)交叉融合的名詞?;蚪M學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、環(huán)境組學(xué)、宏基因組學(xué)、影像組學(xué)等一系列生物大數(shù)據(jù)的發(fā)表為生物研究大數(shù)據(jù)的開(kāi)放與共享提供了巨大的機(jī)遇與挑戰(zhàn)。近期調(diào)查和研究證明,數(shù)據(jù)開(kāi)放與共享是促進(jìn)科學(xué)研究,消弭科學(xué)研究重復(fù)性陷阱的必經(jīng)之路。在促進(jìn)生物研究大數(shù)據(jù)開(kāi)放與共享方面已經(jīng)進(jìn)行了一些有益的嘗試并取得了不錯(cuò)的效果。但是,未來(lái)生命科學(xué)正朝著定量化與數(shù)字科學(xué)方向發(fā)展,生物研究大數(shù)據(jù)的開(kāi)放與共享也將面臨著更大的技術(shù)挑戰(zhàn)。本文將重點(diǎn)討論生物研究大數(shù)據(jù)開(kāi)放共享的問(wèn)題,以期為促進(jìn)數(shù)據(jù)開(kāi)放與共享、打造一個(gè)更為開(kāi)放和透明的生物大數(shù)據(jù)研究領(lǐng)域提供一定的參考建議。
生物大數(shù)據(jù)是近年來(lái)興起的一個(gè)生命科學(xué)與數(shù)據(jù)科學(xué)交叉融合的名詞。究其本源,離不開(kāi)以基因組學(xué)技術(shù)為代表的組學(xué)技術(shù)的發(fā)展。人類基因組計(jì)劃完成以來(lái),繪制一個(gè)人完整基因組的成本已經(jīng)從數(shù)十億美元降低至1000元美元。眾所周知,人類基因組有30億個(gè)堿基對(duì),一個(gè)人的基因組學(xué)數(shù)據(jù)可以達(dá)到100G之多。與此同時(shí),由于生命的中心法則和生命的復(fù)雜性,轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、可穿戴組學(xué)、環(huán)境組學(xué)、宏基因組學(xué)、影像組學(xué)等相關(guān)技術(shù)也都蓬勃發(fā)展起來(lái)。諸如,生化實(shí)驗(yàn)檢測(cè)結(jié)果、MRI/CT、超聲、皮膚影像檢測(cè)、三維晶體結(jié)構(gòu)等目前也在朝著數(shù)據(jù)開(kāi)放和共享方向發(fā)展。這樣,每個(gè)人實(shí)時(shí)動(dòng)態(tài)的完整生命組學(xué)數(shù)據(jù)就接近1Tb,而這些數(shù)據(jù)正以超過(guò)指數(shù)增長(zhǎng)的方式在持續(xù)增長(zhǎng)。如今,基因組學(xué)的興起已經(jīng)滲人到進(jìn)化研究、臨床醫(yī)學(xué)、法醫(yī)學(xué)、考古學(xué)、健康管理等研究和應(yīng)用領(lǐng)域。近年來(lái),越來(lái)越多的生物醫(yī)學(xué)研究使用了生物大數(shù)據(jù),而生物大數(shù)據(jù)也與這些學(xué)科交叉融合。這些大數(shù)據(jù)對(duì)傳統(tǒng)研究成果的發(fā)表方式、對(duì)沒(méi)有數(shù)據(jù)科學(xué)背景的生物學(xué)家甚至是科研基金機(jī)構(gòu)等都帶來(lái)了巨大的挑戰(zhàn),特別是對(duì)以往的重結(jié)果輕過(guò)程、重論文輕數(shù)據(jù)、重競(jìng)爭(zhēng)輕共享、重保密輕開(kāi)放的慣性科研思維產(chǎn)生重大的影響。同時(shí),海量的生物大數(shù)據(jù)需要海量的存儲(chǔ)資源和計(jì)算資源,也決定了生物大數(shù)據(jù)具有共享和開(kāi)放的特征,因?yàn)槿魏我患已芯繖C(jī)構(gòu)或者科學(xué)家都不能獨(dú)立地從所有大數(shù)據(jù)中挖掘出所有有價(jià)值的信息。然而在未來(lái),生物大數(shù)據(jù)也將結(jié)合計(jì)算機(jī)領(lǐng)域的深度學(xué)習(xí)、人工智能等技術(shù),創(chuàng)造出全新的生物科學(xué)與醫(yī)學(xué)知識(shí)。
在近幾個(gè)世紀(jì)里,研究論文都是學(xué)術(shù)交流的主要載體,不管是網(wǎng)上出版還是開(kāi)放獲取,都沒(méi)有從根本上改變研究論文出版的過(guò)程和結(jié)構(gòu)。隨著生物和生物醫(yī)學(xué)研究越來(lái)越朝著數(shù)據(jù)驅(qū)動(dòng)方向發(fā)展,像基因組、影像等方面出版物的信息量、計(jì)算工具、編碼等已經(jīng)呈現(xiàn)指數(shù)級(jí)增長(zhǎng),然而,如果缺少支撐這些出版物的原始資源特別是數(shù)據(jù),就會(huì)造成所謂的“重復(fù)性陷阱”[1]。
重復(fù)性陷阱的出現(xiàn)正是由于期刊或者文章的作者僅僅提供有限的信息。在對(duì)不同研究領(lǐng)域的研究可重復(fù)性進(jìn)行測(cè)試時(shí),Ioannidis和同事們發(fā)現(xiàn)不少發(fā)表的結(jié)果是錯(cuò)誤或者過(guò)分強(qiáng)調(diào)的,并且估計(jì)約有85%的研究資源因此而被浪費(fèi)[2]。例如,一項(xiàng)研究表明,在微陣列研究中,9項(xiàng)工作中僅有一項(xiàng)能夠被重復(fù)出來(lái)[3]。類似的情況也出現(xiàn)在腫瘤研究領(lǐng)域,僅僅有11%的研究可以被重復(fù)出來(lái)[4]。從過(guò)去很多發(fā)表的圖片以及臨床前研究中發(fā)現(xiàn)的不可重復(fù)的結(jié)構(gòu)累積已經(jīng)超過(guò)了50%。換句話說(shuō),每年有高達(dá)28億美元的臨床前研究無(wú)法得到重復(fù)[5]。隨著撤稿率的不斷升高,特別是高水平期刊的撤稿率的提升[6],如何降低甚至消除重復(fù)性陷阱確實(shí)已經(jīng)成為避免浪費(fèi)研究資源和得到錯(cuò)誤的研究結(jié)論以及增強(qiáng)公眾對(duì)科研工作者信心的頭等大事。
雖然大家都意識(shí)到“重復(fù)性陷阱”對(duì)科學(xué)界的信譽(yù)以及科學(xué)的發(fā)展是一個(gè)巨大的問(wèn)題,但是在現(xiàn)實(shí)世界中數(shù)據(jù)或者源碼的開(kāi)放并自由獲取卻遇到了巨大的挑戰(zhàn)。目前,很多作者僅僅依賴于在自己的網(wǎng)頁(yè)上提供的數(shù)據(jù)和材料,這樣的做法已經(jīng)被證明對(duì)數(shù)據(jù)的開(kāi)放不會(huì)產(chǎn)生太大的作用。最近,由癌癥生物學(xué)組織發(fā)起了一項(xiàng)針對(duì)研究重復(fù)性的研究,這項(xiàng)研究旨在對(duì)研究重復(fù)性進(jìn)行定量分析。研究人員選取了在2010年至2012年的50篇高引用率論文,他們獲取每項(xiàng)研究相關(guān)的數(shù)據(jù)平均耗時(shí)2個(gè)月,而在50項(xiàng)研究中甚至有4項(xiàng)的作者在一年后才配合提供相關(guān)的研究數(shù)據(jù)[7]。進(jìn)一步地,基于ACM會(huì)議和期刊論文的評(píng)估,唯一能證明可重復(fù)性和重復(fù)利用性的源代碼平均需要2個(gè)月才能獲取,而且只是其中44%的文章有回應(yīng)。又有一項(xiàng)針對(duì)200篇經(jīng)濟(jì)學(xué)論文的調(diào)查發(fā)現(xiàn),只有64%的作者有回應(yīng),而其中有56%的作者表示不愿意提供或者共享補(bǔ)充材料。最近出現(xiàn)的長(zhǎng)期未發(fā)現(xiàn)的數(shù)據(jù)造假丑聞(包括最近一位作者通過(guò)數(shù)據(jù)作假發(fā)表了172篇文章),進(jìn)一步凸顯了能夠十分輕松地訪問(wèn)數(shù)據(jù)的重要性,因?yàn)檫@樣可以確保其他人進(jìn)行獨(dú)立的重復(fù)驗(yàn)證,并且增強(qiáng)科學(xué)界的相互信任。
對(duì)于一些基金機(jī)構(gòu)來(lái)說(shuō),比如美國(guó)國(guó)家自然科學(xué)基金已經(jīng)開(kāi)始計(jì)劃對(duì)所有資助項(xiàng)目進(jìn)行數(shù)據(jù)共享和開(kāi)放,而美國(guó)國(guó)立衛(wèi)生研究院已經(jīng)走在了前面。美國(guó)國(guó)立衛(wèi)生研究院投資了“大數(shù)據(jù)到知識(shí)”項(xiàng)目,計(jì)劃的名字叫做“bioCADDIE(http://biocaddie.ucsd.edu/)”,希望以此來(lái)推動(dòng)生物醫(yī)學(xué)和健康管理方面的數(shù)據(jù)發(fā)現(xiàn)和索引生態(tài)系統(tǒng)的建設(shè)工作。數(shù)據(jù)發(fā)現(xiàn)索引使得“bioCADDIE”項(xiàng)目瞄準(zhǔn)了醫(yī)學(xué)和生命科學(xué)領(lǐng)域數(shù)據(jù)庫(kù)PubMed中已經(jīng)存儲(chǔ)的數(shù)據(jù),比如Pubmed以及PubMed Central,來(lái)提供存檔數(shù)據(jù)的結(jié)構(gòu)建設(shè)和管理。在歐洲,研究和創(chuàng)新基金以及OpenAIRE計(jì)劃都要求參與者在開(kāi)放存取的期刊上發(fā)表他們的結(jié)果。他們也有一個(gè)數(shù)據(jù)開(kāi)放早期研究項(xiàng)目已經(jīng)被“地平線2020”項(xiàng)目選中,進(jìn)行數(shù)據(jù)管理計(jì)劃以及數(shù)據(jù)存儲(chǔ)計(jì)劃的研究。英國(guó)研究委員會(huì)已經(jīng)草擬了一個(gè)數(shù)據(jù)開(kāi)放相關(guān)的草案,敦促各方開(kāi)放數(shù)據(jù)并使得數(shù)據(jù)可以重復(fù)使用。然而,在國(guó)際間并沒(méi)有一個(gè)專門的機(jī)構(gòu)進(jìn)行協(xié)調(diào)和統(tǒng)一,因此也給國(guó)際化研究的數(shù)據(jù)開(kāi)放造成了一定的困難。
生物研究大數(shù)據(jù)開(kāi)放的另一重要參與方就是期刊。他們?nèi)绻軌蚣訌?qiáng)管理政策制定與執(zhí)行就能夠起到一定的效果,比如在生態(tài)學(xué)期刊中的數(shù)據(jù)聯(lián)合存檔政策。盡管有不少積極的信號(hào)已經(jīng)在鼓勵(lì)開(kāi)放存取的出版商開(kāi)始解決生物研究大數(shù)據(jù)開(kāi)放共享的問(wèn)題,但是生物研究大數(shù)據(jù)開(kāi)放共享還有很長(zhǎng)的路要走[8]。最近的一項(xiàng)調(diào)查發(fā)現(xiàn),在影響力最高的50種期刊中,44種已經(jīng)制定了數(shù)據(jù)共享的政策,但是能夠訪問(wèn)數(shù)據(jù)的僅僅是其中的很小一部分,而在一些情況下能夠訪問(wèn)到原始數(shù)據(jù)則更少,不到10%[9-10]。隨著生物醫(yī)學(xué)研究越來(lái)越依賴計(jì)算機(jī),計(jì)算方法和代碼共享要比數(shù)據(jù)共享更為困難[11]。
雖然在生物研究中,大數(shù)據(jù)的開(kāi)放與共享存在著上述諸多的困難和挑戰(zhàn),但是也有一些很好的例子在推進(jìn)生物大數(shù)據(jù)的開(kāi)放與共享,促進(jìn)科學(xué)研究。比如由華大基因主辦的開(kāi)放獲取期刊《GigaScience》[1,12-13]。GigaScience是 一 個(gè) 嶄 新的開(kāi)放型在線期刊,于2012年7月12日創(chuàng)刊。GigaScience采用標(biāo)準(zhǔn)全文文獻(xiàn)、數(shù)據(jù)庫(kù)信息以及信息分析工具相結(jié)合的模式,為科研工作者提供免費(fèi)公開(kāi)的有效數(shù)據(jù)以及生物學(xué)發(fā)現(xiàn)等資源。在同行評(píng)議的過(guò)程中,GigaScience可以為審稿人提供所有支撐性的信息和數(shù)據(jù)。這些通過(guò)ftp訪問(wèn)的數(shù)據(jù)在有些研究中已經(jīng)達(dá)到了100G。比如,在SOAPdenovo2[14]的發(fā)表過(guò)程中,編輯與審稿專家完整地測(cè)試了不同工具的表現(xiàn)情況,以確保測(cè)試結(jié)果與作者在文章中的陳述相一致。而參與這個(gè)過(guò)程的8名審稿人均在一個(gè)含有他們名字的報(bào)告上簽名,作為文章發(fā)表前的歷史參考。同時(shí),GigaScience的審稿過(guò)程是公開(kāi)化與透明化的。GigaScience在選擇審稿人時(shí)通常會(huì)選擇愿意公開(kāi)自己的審稿人,這就使得審稿人在接受審稿后變得異常的謹(jǐn)慎,既確保了審稿的質(zhì)量,也確保了所有的相關(guān)作者得到相對(duì)公正的對(duì)待。同時(shí),GigaScience創(chuàng)造性地給數(shù)據(jù)集和工具集以DOI,使其可以被單獨(dú)檢索和引用,從而保障了所有利益相關(guān)方的利益,同時(shí)也促使更多的作者愿意以這種方式公開(kāi)自己的數(shù)據(jù)和相關(guān)的分析工具。
目前,GigaScience的數(shù)據(jù)庫(kù)中已經(jīng)有超過(guò)200個(gè)關(guān)于數(shù)據(jù)的DOI,是世界上最大的組學(xué)數(shù)據(jù)庫(kù),包括測(cè)序相關(guān)的基因組、轉(zhuǎn)錄組、表觀基因組、宏基因組,同時(shí)還有質(zhì)譜技術(shù)的蛋白質(zhì)組和代謝組。最近,也增加了許多MRI/CT等影像學(xué)數(shù)據(jù)以及電生理等其他系統(tǒng)生物學(xué)數(shù)據(jù)。目前,已經(jīng)有30T的數(shù)據(jù)可供自由下載,其中最大的是農(nóng)業(yè)相關(guān)數(shù)據(jù)庫(kù),包括379只牛、3000株水稻以及人類腫瘤數(shù)據(jù)。
GigaScience還解決了一個(gè)長(zhǎng)期困擾科學(xué)界的問(wèn)題,就是在文章發(fā)表前,數(shù)據(jù)的傳播速度很慢,而這些數(shù)據(jù)如果能夠盡早公布,就能夠獲得更多的科學(xué)發(fā)現(xiàn),促進(jìn)科學(xué)的發(fā)展,甚至很有可能挽回一些人的性命。比如,帝企鵝、北極熊等數(shù)據(jù)在論文發(fā)表前3年就已經(jīng)通過(guò)GigaScience發(fā)表,而在這3年間,已經(jīng)在一些群體遺傳學(xué)和進(jìn)化生物學(xué)研究中引用了這些數(shù)據(jù)[15],然而這些引用并沒(méi)有影響論文在2014年《細(xì)胞》雜志上以封面文章的形式發(fā)表[16]。再比如2015年出版的《科學(xué)》雜志鳥(niǎo)類???。該??某霭嬉馕吨茖W(xué)家首次能夠在分子層面上解析鳥(niǎo)類的進(jìn)化之謎,闡述了控制聲音學(xué)習(xí)的分子通路在一些鳥(niǎo)類和人類的大腦語(yǔ)言控制區(qū)域中的獨(dú)立演化過(guò)程、鳥(niǎo)類性染色體復(fù)雜的演化歷程、鳥(niǎo)類在早期演化過(guò)程中是如何丟失牙齒、鳥(niǎo)類近親鱷魚(yú)的基因組是怎樣演化的、鳥(niǎo)類歌唱行為在大腦內(nèi)的基因調(diào)控機(jī)制以及一種利用大規(guī)?;蚪M數(shù)據(jù)構(gòu)建演化樹(shù)的新方法。在《科學(xué)》鳥(niǎo)類專刊發(fā)表前,GigaScience已經(jīng)陸續(xù)公布了多達(dá)4TB的43種鳥(niǎo)類的基因組數(shù)據(jù)供全球的科學(xué)家研究和解析,包括了鳥(niǎo)類的基因組以及光學(xué)遺傳圖譜的數(shù)據(jù)。
另外再舉一個(gè)例子。致死性大腸桿菌在歐洲造成了50人死亡、1000余人感染的惡果。這是一個(gè)非常實(shí)用的證明數(shù)據(jù),提前公開(kāi)可以增進(jìn)人類健康福祉的例子。2011年由華大基因和德國(guó)科學(xué)家共同完成了致死性大腸桿菌的基因序列[17]。GigaScience和華大基因第一時(shí)間公開(kāi)了基因測(cè)序數(shù)據(jù),而后相關(guān)文章在新英格蘭醫(yī)學(xué)雜志上發(fā)表?;蛐蛄泄己?,很多科學(xué)家參考這種方式公布了他們的測(cè)序結(jié)果。很快地,來(lái)自北美、歐洲、澳大利亞、埃及等國(guó)家和中國(guó)香港等地區(qū)的科學(xué)家以及熱心的科研愛(ài)好者都加人了分析,這使得科學(xué)家快速定位出了致病基因與致死基因以及傳染源,有效地制定了公共衛(wèi)生政策來(lái)應(yīng)對(duì)疫情。除此之外,大數(shù)據(jù)公開(kāi)的時(shí)效性還體現(xiàn)在另外一個(gè)及時(shí)公布的數(shù)據(jù)上。在2014年9月GigaScience公布了全球首個(gè)用OXFORD NANOPORE技術(shù)獲得的微生物全基因組序列[18]。這些數(shù)據(jù)高達(dá)125G,結(jié)果是如何讓全球的科學(xué)家快速獲取這些數(shù)據(jù)卻成了難題。GigaScience又與EBI的科學(xué)家合作,通過(guò)鏡像轉(zhuǎn)移數(shù)據(jù),使得許多歐洲科學(xué)家也能夠在第一時(shí)間獲取數(shù)據(jù)。這些數(shù)據(jù)的公開(kāi),漸漸平息了科學(xué)界關(guān)于新一代單分子測(cè)序數(shù)據(jù)質(zhì)量問(wèn)題的爭(zhēng)論,因?yàn)槿魏我粋€(gè)實(shí)驗(yàn)室都可以自由訪問(wèn)這些數(shù)據(jù),可以自由且自主地評(píng)價(jià)這些數(shù)據(jù)的質(zhì)量。
除了上述內(nèi)容外,GigaScience還特別重視大數(shù)據(jù)分析工具的提供。GigaScience在GITHUB上開(kāi)通了專門的網(wǎng)頁(yè),提供發(fā)表文章的源代碼,以供感興趣的科學(xué)家對(duì)大數(shù)據(jù)進(jìn)行同步分析。
綜上所述,生物研究大數(shù)據(jù)開(kāi)放與共享離不開(kāi)期刊、基金機(jī)構(gòu),特別是研究人員的推動(dòng)。因此,提出幾點(diǎn)相關(guān)的建議。
(1)期刊編輯和審稿人要提出嚴(yán)格要求。如果高水平期刊的編輯應(yīng)該要求作者必須執(zhí)行數(shù)據(jù)公開(kāi)和共享的政策,那么上述出現(xiàn)的很多重復(fù)性陷阱或許能夠避免。另外,通過(guò)改革審稿方式,如果能夠使審稿人的信息公開(kāi)透明,那么可以營(yíng)造一個(gè)更加公平的同行評(píng)議環(huán)境。
(2)訓(xùn)練科學(xué)家的數(shù)據(jù)科學(xué)思維。對(duì)于高標(biāo)準(zhǔn)的數(shù)據(jù)分析來(lái)說(shuō),必要的基礎(chǔ)知識(shí)和技能是不可或缺的。因此,如果能夠?qū)η嗄昕茖W(xué)家進(jìn)行數(shù)據(jù)科學(xué)的訓(xùn)練,讓他們學(xué)會(huì)使用諸如Github之類的工具去共享自己的代碼,使用Github上的代碼進(jìn)行研究和引用。對(duì)于沒(méi)有計(jì)算機(jī)或者相關(guān)背景的科學(xué)家來(lái)說(shuō),可以在實(shí)驗(yàn)室里保留一個(gè)Github來(lái)管理和共享所有相關(guān)的代碼,并且通過(guò)規(guī)范化管理,加強(qiáng)對(duì)數(shù)據(jù)科學(xué)的重視。除此之外,也可以利用網(wǎng)絡(luò)學(xué)習(xí)等自學(xué)方式,尋找適合自己的工具或者習(xí)題來(lái)提高自己的知識(shí)和技能。
(3)在公開(kāi)的數(shù)據(jù)庫(kù)中提供或者引用計(jì)算工具的源代碼。軟件是數(shù)據(jù)驅(qū)動(dòng)的生命科學(xué)研究的重中之重。如果缺乏計(jì)算方法或者工具,研究人員無(wú)法完全理解研究者提供的大數(shù)據(jù)真正的意義。為其他研究人員提供計(jì)算工具的源代碼,比如放在Github上能夠方便其他研究者進(jìn)行相關(guān)研究。在論文中引用源代碼具體的位置,盡量避免引用不提供源代碼的文章。而對(duì)于作者來(lái)說(shuō),盡量使用規(guī)范化和格式化的語(yǔ)言進(jìn)行編程,這樣可以使自己的工作通俗易懂,也有可能更加廣泛地為人所使用。對(duì)于期刊來(lái)說(shuō),除了提供數(shù)據(jù)的存儲(chǔ)外,也提供一些與數(shù)據(jù)相對(duì)應(yīng)的分析流程,并且可以將這些分析流程部署在云上,使沒(méi)有計(jì)算生物學(xué)或者計(jì)算機(jī)背景的科學(xué)家或者沒(méi)有計(jì)算資源的科學(xué)家也能對(duì)開(kāi)放共享的生物研究大數(shù)據(jù)進(jìn)行深度研究。
目前,生物醫(yī)學(xué)研究數(shù)據(jù)呈現(xiàn)指數(shù)增長(zhǎng)的趨勢(shì)。很多研究的數(shù)據(jù)體量已經(jīng)從G級(jí)別提升到了T級(jí)別。要共享如此大的數(shù)據(jù)量,在技術(shù)上將面臨非常大的挑戰(zhàn)。目前,已經(jīng)有一些方法解決了這個(gè)問(wèn)題。比如,使用工業(yè)化的大數(shù)據(jù)云計(jì)算技術(shù),這也就使期刊從發(fā)表數(shù)據(jù)變?yōu)榘l(fā)表計(jì)算資源。再如,利用虛擬機(jī)、Bioboxes等方式使海量數(shù)據(jù)共享實(shí)現(xiàn)標(biāo)準(zhǔn)化、規(guī)?;鸵?guī)范化。未來(lái)生命科學(xué)將向著定量化與數(shù)字科學(xué)方向發(fā)展,生物研究大數(shù)據(jù)的開(kāi)放與共享將面臨著更大的技術(shù)挑戰(zhàn)。但是,我們堅(jiān)信,只要科學(xué)家達(dá)成促進(jìn)數(shù)據(jù)開(kāi)放與共享的共識(shí),未來(lái)我們一定能夠打造一個(gè)更為開(kāi)放和透明的生物大數(shù)據(jù)研究領(lǐng)域。
[1]EDMUNDS S C, LIP, HUNTER C I, et al. Experiences in integrated data and research object publishing using GigaDB[J]. International Journal on Digital Libraries,2016, 18(2): 99-111.
[2]IOANNIDIS J P. How to make more published research true[J]. PLoS Med, 2014, 11(10): e1001747.
[3]IOANNIDIS J P, ALLISON D B, BALL C A, et al.Repeatability of published microarray gene expression analyses[J].Nat Genet, 2009, 41(2): 149-155.
[4]BEGLEY C G, ELLIS L M. Drug development: raise standards for preclinical cancer research[J]. Nature,2012, 483(7391): 531-533.
[5]FREEDMAN L P, COCKBURN I M, SIMCOE T S.The economics of reproducibility in preclinical research[J]. PLoS Biol, 2015, 13(6): e1002165.
[6]FANG F C CASADEVALlA. Retracted science and the retraction index[J]. Infect Immun, 2011, 79(10): 3855-3859.
[7]VANNoorden R. Sluggish data sharing hampers reproducibility effort[J]. Nature, 2015, 10: 1038/nature.2015.17694.
[8]BLOOM T, GANLEY E, WINKER M. Data access for the open access literature: PLOS’s data policy[J]. PLoS Medicine, 2014, 11(2): e1001607.
[9]MAVERGAMES C, SAVAGE C J, VICKERS A J. Empirical study of data sharing by authors publishing in PLoSJournals[J]. PLoS ONE, 2009, 4(9): e7078.
[10]BOUTRON I, ALSHEIKH-ALI A A, QURESHIW,et al. Public availability of published research data in High-Impact Journals[J]. PLoS ONE, 2011, 6(9):e24357.
[11]ZAYKIN D, STODDEN V, GuoP, et al. Toward reproducible computational research: an empirical analysis of data and code policy adoption by journals[J]. PLoS ONE, 2013, 8(6): e67111.
[12]EDMUNDS S C. Peering into peer-review at Giga-Science[J]. GigaScience, 2013, 2(1): 10.1186/2047-217X-2-1.
[13]KENALL A, EDMUNDSS, GOODMANL, et al.Better reporting for better research: a checklist for reproducibility[J]. GigaScience, 2015, 4(1): 10.1186/s13059-015-0710-5.
[14]LUO R, LIUB, XIEY, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. GigaScience, 2012(1): 10.1186/2047-217X-1-18.
[15]NACHMAN M W, CAHILLJ A, GREENR E, et al.Genomic evidence for island population conversion resolves con fl icting theories of polar bear evolution[J].PLoS Genetics, 2013, 9(3): e1003345.
[16]LIU S, LORENZEN Eline D, FUMAGALLIM, et al.Population genomics reveal recent speciation and rapid evolutionary adaptation in polar bears[J]. Cell, 2014,157(4): 785-794.
[17]ROHDE H, QINJ, CUIY, et al. Open-source genomic analysis of Shiga-Toxin–Producing E. coliO104: H4[J].New England Journal of Medicine, 2011, 365(8): 718-724.
[18]QUICK J, QUINLANA R, LOMAN N J. A reference bacterial genome dataset generated on the MinION?portable single-molecule nanoporesequencer[J]. GigaScience, 2014, 3(1): 10.1186/2047-217X-3.
Study of Openness and Sharing for Bioresearch Big Data
HOU Yong
(BGI-Wuhan, Wuhan 430074)
This paper presents the concept of bioresearch big data and introduces its openness and sharing statue, and it is believed that biological data openness and sharing can promote scientific research. Due to difficulty of openness and sharing for bioresearch big data in practice exploit, so taking GigaScience for example, its specific research and method are studied in it. Finally, confronting its technological challenge,further development proposes and preliminary forecast are proposed to it.
bioresearch, big date genome, biological data openness and sharing, GigaScience, open access
G203
A
10.3772/j.issn.1674-1544.2017.04.002
侯勇(1989—),男,博士,華大基因研究院副院長(zhǎng),研究員,主要研究方向:腫瘤藥物基因組研究、單細(xì)胞分析轉(zhuǎn)化醫(yī)學(xué)研究。
2017年6月24日。