生物數(shù)據(jù)標(biāo)準(zhǔn)化研究進(jìn)展
操利超,陳鳳珍,嚴(yán)志祥*
(深圳華大基因研究院,深圳 518083)
摘要:隨著生物測序技術(shù)的快速發(fā)展,積累了海量的生物數(shù)據(jù)。生物數(shù)據(jù)資源作為生物分析研究及應(yīng)用的核心和源頭,為保證數(shù)據(jù)的正確性、可用性和安全性,對生物數(shù)據(jù)資源進(jìn)行標(biāo)準(zhǔn)化的管理非常重要和迫切。本文綜述了目前國內(nèi)外生物數(shù)據(jù)標(biāo)準(zhǔn)化研制進(jìn)展,目前國內(nèi)外對生物數(shù)據(jù)缺少一個總體的規(guī)劃,生物數(shù)據(jù)語義存在大量的不兼容性,數(shù)據(jù)格式多種多樣,在生物數(shù)據(jù)收集、處理、存儲和共享等方面缺乏統(tǒng)一的標(biāo)準(zhǔn)。國內(nèi)外生物數(shù)據(jù)標(biāo)準(zhǔn)化處于起步階段,但各國生物專家都在努力進(jìn)行標(biāo)準(zhǔn)研制工作。文章最后從生物數(shù)據(jù)術(shù)語、生物數(shù)據(jù)資源收集、處理和交換、存儲、生物數(shù)據(jù)庫建設(shè)和生物數(shù)據(jù)倫理規(guī)范等方面出發(fā),對標(biāo)準(zhǔn)研制工作進(jìn)行一一探討,期望能為生物數(shù)據(jù)標(biāo)準(zhǔn)制定提供一定的參考和依據(jù)。
關(guān)鍵詞:生物數(shù)據(jù) ; 標(biāo)準(zhǔn)化 ; 標(biāo)準(zhǔn)研制
中圖分類號:Q-1文獻(xiàn)標(biāo)志碼:A
收稿日期:2014-09-15;修回日期:2014-11-26.
基金項目:國家自然科學(xué)基金青年項目(31301388);中國博士后面上項目(2014M562109);湖南省自然科學(xué)基金(14JJ3092);湖南省科學(xué)技術(shù)廳科技計劃項目(2014GK3046);湖南農(nóng)業(yè)大學(xué)大學(xué)生科技創(chuàng)新基金(團(tuán)委)資助科研項目(18);湖南農(nóng)業(yè)大學(xué)植物保護(hù)學(xué)院"大學(xué)生創(chuàng)新性實驗計劃項目(SAY1106)。
作者簡介:劉偉,男,在讀本科,研究方向:生物信息學(xué);E-mail:liuwei_hnnd@163.com.
doi:10.3969/j.issn.1672-5565.2015.01.07
Research development of biological data Standardization
CAO Lichao, CHEN Fengzhen,YAN Zhixiang*
(BGI-Shenzhen,Shenzhen518083,China)
Abstract:Vast amounts of biological data have been accumulated with the rapid development of bio-sequencing technology. Meanwhile, biological data resources are essential for biological research and application, the standardization of biological is very important and urgent in terms of ensuring data accuracy, availability and security. This paper reviews the research progress of biological data standards. At present, there are still many unsolved problems , such as incompatibility of relevant biological data semantic, varied data formats and uniform standards in biological data collection, processing, storage and sharing and so on. Although the standardization of biological data is at the beginning stage, relevant experts are trying to draft the standardization sheme. Finally, this paper discusses some topics in the future such as the terms of biological data, the collection, processing, exchange and storage of biological data resources, the construction of biological databases, the ethics of biological data. We hope it will provide a guide for the research of biological data standardization.
Keywords:Biological data; Standardization; Standardization research
隨著測序技術(shù)的快速發(fā)展,特別是HiSeq X 10、Complete Genomics(CG)等高通量測序儀的應(yīng)用,基因組測序的費用越來越低[1]。據(jù)GOLD(Genomes Online Database)不完全統(tǒng)計,截至到2014年5月全球正在進(jìn)行的基因組測序項目有24 189個,已完成的基因組測序項目有19 093個,這些項目都會產(chǎn)生海量的基因組學(xué)數(shù)據(jù)。截止到2014年3月,GenBank/EMBL/DDBJ 核苷酸數(shù)據(jù)庫核苷數(shù)量達(dá)202 392 167 431,核苷條數(shù)達(dá)171 164 046,SRA(Sequence Read Archive)數(shù)據(jù)庫堿基數(shù)量超過2.5 PB。目前,基因測序技術(shù)已從科研服務(wù)走向健康醫(yī)療、農(nóng)業(yè)和環(huán)境能源等產(chǎn)業(yè),從實驗室走向個人,影響力將越來越大。因此,生物數(shù)據(jù)資源已成為21世紀(jì)重要的戰(zhàn)略資源。
然而,目前生物數(shù)據(jù)來源廣泛,測序儀器種類眾多,數(shù)據(jù)類型和格式各異;測序數(shù)據(jù)量大,大型存儲設(shè)備和存儲結(jié)構(gòu)不完善,很難保證數(shù)據(jù)的延續(xù)性、可用性、完整性和安全性;在數(shù)據(jù)共享和管理方面,每個科研機(jī)構(gòu)甚至同一機(jī)構(gòu)內(nèi)部各成體系,并涉及倫理和知識產(chǎn)權(quán)等問題,導(dǎo)致數(shù)據(jù)共享困難。因此,建立共同的生物數(shù)據(jù)標(biāo)準(zhǔn)十分重要和迫切[2]。
1生物數(shù)據(jù)標(biāo)準(zhǔn)現(xiàn)狀
1.1國內(nèi)數(shù)據(jù)標(biāo)準(zhǔn)現(xiàn)狀
中國具有大量的人口和豐富的物種資源,隨著測序技術(shù)的發(fā)展,生物數(shù)據(jù)在爆炸性增長,政府也已制定了很多相關(guān)政策來支持生物數(shù)據(jù)平臺構(gòu)建和標(biāo)準(zhǔn)制定工作。例如,在《國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要》中指出“充分利用現(xiàn)代信息技術(shù)手段,建設(shè)基于科技條件資源信息化的數(shù)字科技平臺,促進(jìn)科學(xué)數(shù)據(jù)與文獻(xiàn)資源的共享”;在《標(biāo)準(zhǔn)化事業(yè)十二五發(fā)展規(guī)劃》里指出“研制人口管理、人類遺傳資源、計劃生育、生殖健康等領(lǐng)域的標(biāo)準(zhǔn)”和“整體規(guī)劃和整合標(biāo)準(zhǔn)化信息資源,統(tǒng)一管理標(biāo)準(zhǔn)化資源數(shù)據(jù)”等。
在政府的支持和科學(xué)家們的共同努力下,國內(nèi)一些科研單位在生物數(shù)據(jù)的采集、存儲、使用和共享等方面做了很多工作,生物數(shù)據(jù)中心已經(jīng)初具規(guī)模,建立了大規(guī)模測序、生物信息和醫(yī)學(xué)健康等技術(shù)平臺,并已經(jīng)開始摸索著從事構(gòu)建生物數(shù)據(jù)平臺和標(biāo)準(zhǔn)方面的工作,取得了一些進(jìn)展。例如,在華大基因,至少已經(jīng)對5.7萬個人類基因組進(jìn)行了測序。專攻生命科學(xué)的紐約投資研究公司的Ross J. Muken認(rèn)為,華大基因在全球基因測序服務(wù)市場上的份額至少為25%,數(shù)據(jù)規(guī)模達(dá)到PB級別。2013年,華大基因與中國標(biāo)準(zhǔn)化研究院等共同制定了《生物信息學(xué)術(shù)語》國家標(biāo)準(zhǔn)。在生物信息數(shù)據(jù)庫建設(shè)方面也取得了重要進(jìn)展,如深圳國家基因庫構(gòu)建和完善了覆蓋人類資源、動物資源、植物資源、微生物資源和海洋資源等各方面資源的數(shù)據(jù)庫。這些生物數(shù)據(jù)庫的建立,積累了大量的相關(guān)標(biāo)準(zhǔn)規(guī)范化工作的實踐經(jīng)驗,2013年,深圳華大基因研究院制定并通過了《生物基因信息數(shù)據(jù)庫建設(shè)與管理規(guī)范》地方標(biāo)準(zhǔn)。
另外,國內(nèi)科學(xué)家和相關(guān)機(jī)構(gòu)積極參加到國際標(biāo)準(zhǔn)組織,參與數(shù)據(jù)標(biāo)準(zhǔn)工作。例如,國內(nèi)蛋白質(zhì)組研究工作組與歐盟研究機(jī)構(gòu)合作共同制定蛋白質(zhì)組學(xué)數(shù)據(jù)標(biāo)準(zhǔn);2014年,深圳華大基因研究院參與生物技術(shù)(ISO/TC 276 Biotechnology)標(biāo)準(zhǔn)工作委員會,并向該技術(shù)委員會提交了“The collection, processing, storage and usage specification for the biological information data”、“methods to evaluate the quality of the massive sequencing data” 等國際標(biāo)準(zhǔn)草案,積極參與國際標(biāo)準(zhǔn)的制定工作,該單位還參與FDA牽頭的高通量基因測序SEQC國際標(biāo)準(zhǔn)的編制等。
然而,目前中國在生物數(shù)據(jù)標(biāo)準(zhǔn)化工作中存在諸多問題,突出表現(xiàn)在以下兩個方面:
(1)缺乏生物數(shù)據(jù)標(biāo)準(zhǔn)化的總體規(guī)劃和一個可以覆蓋生物數(shù)據(jù)采集到共享使用各環(huán)節(jié)的標(biāo)準(zhǔn)體系;
(2)生物數(shù)據(jù)語義、數(shù)據(jù)格式等存在大量的不兼容性,在數(shù)據(jù)采集、存儲和共享使用也缺乏統(tǒng)一協(xié)調(diào)的標(biāo)準(zhǔn)。
因此,要解決這些問題就必須研究和制定生物數(shù)據(jù)標(biāo)準(zhǔn)。這需要中國生物科學(xué)工作者和各科研單位相互合作,加快標(biāo)準(zhǔn)工作進(jìn)程。
1.2國外數(shù)據(jù)標(biāo)準(zhǔn)現(xiàn)狀
近年來,隨著生物信息科學(xué)領(lǐng)域的快速發(fā)展,國際上也成立了很多生物相關(guān)標(biāo)準(zhǔn)組織。例如,2013年,在德國成立了ISO/TC276 生物技術(shù)標(biāo)準(zhǔn)工作委員會;2013年7月, 在加拿大多倫多成立了全球基因和健康聯(lián)盟,該聯(lián)盟旨在建立統(tǒng)一的管理和操作方法,以促進(jìn)基因研究和人類健康,加速信息廣泛傳播,該聯(lián)盟成立了四個工作組:臨床工作組(Clinical Working Group)、數(shù)據(jù)工作組(Data Working Group)、管理和倫理工作組(Regulatory and Ethics Working Group)和安全工作組(Security Working Group),旨在建立相關(guān)標(biāo)準(zhǔn)規(guī)范。
為促進(jìn)生物數(shù)據(jù)資源標(biāo)準(zhǔn)化,加強(qiáng)生物數(shù)據(jù)的交流與共享,來自全球30多家科研機(jī)構(gòu)的50多名研究人員共同建立了ISA Commons(www.isacommons.org/)標(biāo)準(zhǔn)聯(lián)盟,該項目發(fā)表的評論文章中提到,目前世界上擁有一些較成熟的數(shù)據(jù)庫,但是沒有對入庫數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化,導(dǎo)致數(shù)據(jù)交流共享困難,因而該聯(lián)盟制定了ISA-Tab file format數(shù)據(jù)格式標(biāo)準(zhǔn)[3]。同時,為規(guī)范化國際上基因組數(shù)據(jù)的描述、交換和整合,成立了基因標(biāo)準(zhǔn)聯(lián)盟(The Genomic Standards Consortium, GSC),該聯(lián)盟制定了一系列基因序列格式標(biāo)準(zhǔn),如minimum information about a genome sequence(MIGS)[4]、Minimum information about a marker gene sequence (MIMARKS)[5];在轉(zhuǎn)錄組方面,國際上成立了RNAi Global,并制定了Minimum Information About an RNAi Experiment (MIARE)等標(biāo)準(zhǔn),方便RNA數(shù)據(jù)的共享;在蛋白質(zhì)組學(xué)方面,成立了蛋白質(zhì)組學(xué)標(biāo)準(zhǔn)組織 (PSI, Proteomics Standards Initiative),并成立相關(guān)工作組,包括分子相互作用(Molecular Interactions,MI)、質(zhì)譜(Mass Spectrometry, MS)、蛋白質(zhì)組學(xué)信息學(xué)(Proteomics Informatics, PI)、蛋白質(zhì)的修改(Protein Modifications, MOD)和蛋白質(zhì)分離(Protein Separation, PS)工作組,制定了一系列蛋白質(zhì)數(shù)據(jù)格式標(biāo)準(zhǔn),如The Minimum Information About a Proteomics Experiment (MIAPE)[6]、The minimum information required for reporting a molecular interaction experiment (MIMIx)[7]、質(zhì)譜鑒定的肽段或蛋白質(zhì)數(shù)據(jù)交換格式mzIdentML、mzQuantML等和質(zhì)譜數(shù)據(jù)格式mzML、mzData等標(biāo)準(zhǔn);在代謝組學(xué)方面,成立了代謝組學(xué)標(biāo)準(zhǔn)組織 (Metabolomics Standards Initiative, MSI);在數(shù)據(jù)質(zhì)量控制方面,國際上成立了MAQC(MicroArray Quality Control)項目組,旨在建立相關(guān)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),提高微芯片和二代測序技術(shù)的數(shù)據(jù)質(zhì)量。另外,Biosharing(http://www.biosharing.org/)匯總和發(fā)現(xiàn)已有的標(biāo)準(zhǔn)信息,廣泛涵蓋生物、自然科學(xué)和生物醫(yī)學(xué)方面的標(biāo)準(zhǔn),識別重復(fù)的標(biāo)準(zhǔn),促進(jìn)協(xié)調(diào)標(biāo)準(zhǔn)的制定,并協(xié)調(diào)停止重復(fù)的標(biāo)準(zhǔn)制定工作。據(jù)統(tǒng)計,截止至2014年10月, biosharing收集的標(biāo)準(zhǔn)類型里術(shù)語文件標(biāo)準(zhǔn)(Terminology artifact)336篇,交換格式(Exchange format)157篇,報告指南(Reporting guideline)72篇。
然而,目前這些標(biāo)準(zhǔn)組織成立時間都較短,標(biāo)準(zhǔn)的內(nèi)容主要涉及生物數(shù)據(jù)術(shù)語、生物數(shù)據(jù)交換格式等,數(shù)據(jù)分析、存儲、使用和共享等方面的標(biāo)準(zhǔn)較為欠缺??傮w而言,國際上正努力進(jìn)行生物數(shù)據(jù)標(biāo)準(zhǔn)工作的研制,但仍然還有很長的一段路要走。
2生物數(shù)據(jù)標(biāo)準(zhǔn)前景分析
2.1生物數(shù)據(jù)術(shù)語規(guī)范
生物學(xué)由遺傳學(xué)、數(shù)學(xué)和信息學(xué)等各個學(xué)科相互交叉融合,因而導(dǎo)致大量新概念,新術(shù)語出現(xiàn),并存在同義詞以及一詞多義等模糊性現(xiàn)象。生物數(shù)據(jù)方面急需要制定相關(guān)的術(shù)語標(biāo)準(zhǔn),便于生物數(shù)據(jù)相關(guān)概念的統(tǒng)一、協(xié)調(diào)和學(xué)術(shù)交流,有利于生物數(shù)據(jù)的共享、使用。生物術(shù)語的定義應(yīng)具備準(zhǔn)確性、適度性和簡明性,避免循環(huán)定義。生物學(xué)起源于歐美等發(fā)達(dá)國家,在翻譯成漢語的時候,需遵從漢語的造詞習(xí)慣,表達(dá)簡單清晰,減少多義和同義現(xiàn)象。
2.2生物數(shù)據(jù)資源的收集規(guī)范
當(dāng)前,各個科研單位、企業(yè)、學(xué)校等產(chǎn)生的生物數(shù)據(jù)以各種不同的數(shù)據(jù)格式和存儲方式進(jìn)行收集和管理,為規(guī)范收集和管理不同單位產(chǎn)生的數(shù)據(jù)資源,需確立科研機(jī)構(gòu)數(shù)據(jù)資源收集規(guī)范,如規(guī)定所有申請科研資助項目必須提交一個數(shù)據(jù)管理計劃,數(shù)據(jù)管理計劃作為基金或課題申請書的一部分等。
在生物數(shù)據(jù)收集的過程中,數(shù)據(jù)質(zhì)量直接影響到數(shù)據(jù)本身的價值,因此,生物數(shù)據(jù)質(zhì)量控制標(biāo)準(zhǔn)的制定十分重要。例如,2014年,深圳華大基因研究院參與制定的《高通量測序質(zhì)量評估方法》國際標(biāo)準(zhǔn),包括堿基的質(zhì)量控制、物種間的交叉污染評估和index-adaptor污染評估等。然而,在制定數(shù)據(jù)質(zhì)量規(guī)范過程中,需考慮更多的因素,比如不同的測序平臺,質(zhì)量評估的方法可能各異,各種不同的分析工具,如FastQC、NGSQC[8]、QC-Chain[9]等可能造成測序質(zhì)量評估有所差異。這些因素需要由更多的標(biāo)準(zhǔn)來規(guī)范,因此,還需要更多的該領(lǐng)域內(nèi)的工作者共同努力去完善。
2.3數(shù)據(jù)處理和交換規(guī)范
要實現(xiàn)生物數(shù)據(jù)在信息系統(tǒng)之間進(jìn)行快速便捷的處理和交換,需統(tǒng)一生物數(shù)據(jù)的信息分類與編碼。如通過規(guī)范的元數(shù)據(jù)、生物分類表和主題詞表,運用合適的生物信息數(shù)據(jù)表示方法,如使用XML標(biāo)識語言將生物數(shù)據(jù)進(jìn)行合理的組織,便于公眾快速檢索,交換和使用數(shù)據(jù)。然而,目前該方面的標(biāo)準(zhǔn)規(guī)范主要來源于計算機(jī)科學(xué)行業(yè),而生物數(shù)據(jù)具有其自身的特性,我們需要結(jié)合這些特性來制定相關(guān)標(biāo)準(zhǔn),提高生物數(shù)據(jù)處理和交換的效率。
2.4生物數(shù)據(jù)存儲規(guī)范
隨著測序行業(yè)的發(fā)展,全球每天都會產(chǎn)生巨量的生物數(shù)據(jù),這將會產(chǎn)生龐大的數(shù)據(jù)存儲需求。當(dāng)前,很多公司正在打造生物數(shù)據(jù)存儲平臺,如DNAnexus、Flatiron Health、BaseSpace、EasyGenomics等,但是生物存儲仍然存在很多問題,如語義異構(gòu)、模式異構(gòu)和生物數(shù)據(jù)安全問題等,急需制定相關(guān)的標(biāo)準(zhǔn)。針對生物數(shù)據(jù)模式異構(gòu)問題,可考慮在存儲之前,對數(shù)據(jù)中包含的信息進(jìn)行抽象,如對生物數(shù)據(jù)基本信息、物種、類別、功能和測序進(jìn)行抽象[10],然后采用適當(dāng)統(tǒng)一的存儲模式進(jìn)行存儲。XML結(jié)構(gòu)化的特點使其成為最佳的生物信息描述語言,而且數(shù)據(jù)各部分具有獨立性,當(dāng)前很多大型的生物數(shù)據(jù)庫都已經(jīng)使用了XML數(shù)據(jù)格式[11-12]。為確保數(shù)據(jù)安全性,需從存儲系統(tǒng)、數(shù)據(jù)管理、存儲網(wǎng)絡(luò)和人員等各方面考慮,制定生物數(shù)據(jù)安全標(biāo)準(zhǔn),保證生物數(shù)據(jù)的安全性。
2.5生物信息數(shù)據(jù)庫建設(shè)規(guī)范
隨著生物數(shù)據(jù)增加,各種生物數(shù)據(jù)庫也隨之增多,但各生物數(shù)據(jù)庫之間數(shù)據(jù)格式不統(tǒng)一,數(shù)據(jù)類型各異,缺乏相關(guān)的數(shù)據(jù)庫建設(shè)標(biāo)準(zhǔn),導(dǎo)致在搜集和整理生物數(shù)據(jù)資源時缺乏依據(jù),在建設(shè)生物數(shù)據(jù)庫時無法保證數(shù)據(jù)的準(zhǔn)確性、完整性和安全性。最終導(dǎo)致數(shù)據(jù)共享和使用困難。為規(guī)范生物數(shù)據(jù)庫建設(shè),需要從生物數(shù)據(jù)采集、處理、存儲、管理、使用和共享等各方面進(jìn)行全面的調(diào)研和研究,制定細(xì)致全面的數(shù)據(jù)建設(shè)標(biāo)準(zhǔn)。
2.6生物數(shù)據(jù)倫理規(guī)范
生物大數(shù)據(jù)很大一部分是關(guān)于個人的或者私有的,很多人都會擔(dān)心隱私問題。較典型的例子是Lars Steinmetz與他的研究小組公開發(fā)表世界上最著名的人體細(xì)胞系海拉細(xì)胞基因組的研究成果時,引來很多倫理方面的爭論,最后不得不將基因組數(shù)據(jù)從公共數(shù)據(jù)庫中移除。因此,生物數(shù)據(jù)標(biāo)準(zhǔn)的制定需要充分考慮患者的隱私、知情同意、數(shù)據(jù)的發(fā)布和使用等問題。
3展望
基于快速增長的生物數(shù)據(jù),依照標(biāo)準(zhǔn)和規(guī)范先行原則,對生物數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行分析和研究,是生物科學(xué)發(fā)展所必需。目前,生物數(shù)據(jù)標(biāo)準(zhǔn)化研制還處于初步階段,未來需從總體規(guī)劃構(gòu)建生物數(shù)據(jù)標(biāo)準(zhǔn)體系框架;從生物數(shù)據(jù)定義、采集、分析、存儲、共享和利用等各個環(huán)節(jié)出發(fā),針對生物數(shù)據(jù)多種多樣、格式不一和存儲不規(guī)范等方面進(jìn)行研究,以實用性、共享性和方便性等為原則,研制更詳細(xì)的數(shù)據(jù)格式、存儲和利用等標(biāo)準(zhǔn);更重要的是,生物數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)與實施需要生物領(lǐng)域研究工作者的共同參與;同時,國內(nèi)外專家及組織需共同合作,加強(qiáng)溝通交流,早日形成共識,加速生物數(shù)據(jù)標(biāo)準(zhǔn)化工作的研制,指導(dǎo)生物數(shù)據(jù)資源合理使用和共享,助推生物產(chǎn)業(yè)發(fā)展。
參考文獻(xiàn)(References)
[1]DRMANAC R, SPARKS A B, CALLOW M J, et al. Human genome sequencing using unchained base reads on self-assembling DNA nanoarrays[J]. Science, 2010, 327(5961): 78-81.
[2]SANSONE S A, ROCCA-SERRA P, FIELD D, et al. Toward interoperable bioscience data[J]. Nature Genetics, 2012, 44:121-126.
[3]NATHAN A, JULI D, STACEY L, et al. Standardizing data[J]. Nature Nanotechnology, 2013, 8:73-74.
[4]FIELD D, GARRITY G, GRAY T, et al. The minimum information about a genome sequence (MIGS) specification[J]. Nature Biotechnology, 2008, 26:541-547.
[5]YILMAZ P, KOTTMANN R, FIELD D, et al. Minimum information about a marker gene sequence (MIMARKS) and minimum information about any (x) sequence (MIxS) specifications[J]. Nature Biotechnology, 2011, 29:415-420.
[6]TAYLOR C F, PATON N W, LILLEY K S, et al. The minimum information about a proteomics experiment (MIAPE)[J]. Nature Biotechnology, 2007, 25:887-893.
[7]ORCHARD S, SALWINSKI L, KERRIEN S, et al. The minimum information required for reporting a molecular interaction experiment (MIMIx)[J]. Nature Biotechnology, 2007, 25:894-898.
[8]PATEL R K, JAIN M. NGS Q C Toolkit: A toolkit for quality control of next generation sequencing data[J]. PLoS One, 2012, 7(2): e30619.
[9]ZHOU Q, SU X, WANG A, et al. QC-Chain: fast and holistic quality control method for next-generation sequencing data[J]. PLoS One, 2013, 8(4):e60234.
[10]楊進(jìn)才,趙森,劉小姣, 等.一個基于軟件設(shè)計模式的生物信息存儲模式[J].計算機(jī)應(yīng)用研究, 2010, 27(7):2598-2601.
YANG Jincai, ZHAO Sen, LIU Xiaojiao,et al. Storage pattern of bio-information based on software design patterns[J]. Application Research of Computers, 2010, 27(7) :2598-2601.
[11]WANG L, RIETHOVEN J J, ROBINSON A. XEMBL: distributing EMBL data in XML format[J]. Bioinformatics, 2002, 18(8):1147-1148.
[12]MIYAZAKI S, SUGAWARA H, GOJOBORI T, et al. DNA data bank of Japan (DDBJ) in XML[J]. Nucleic Acids Res, 2003, 31(1):13-16.
*通信作者:周瑋,女,博士,副教授,研究方向:生物信息學(xué);E-mail:mengrzhou@163.com.