国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于林業(yè)大數(shù)據(jù)的生物信息云平臺(tái)的構(gòu)建研究

2018-02-02 05:37趙友杰曹涌熊飛
電腦知識(shí)與技術(shù) 2018年1期
關(guān)鍵詞:生物信息學(xué)云平臺(tái)大數(shù)據(jù)

趙友杰+曹涌+熊飛

摘要:針對(duì)林業(yè)生物信息學(xué)中的數(shù)據(jù)量大、存儲(chǔ)成本高、分析及利用技術(shù)門檻高等問(wèn)題,該文提出一種基于林業(yè)大數(shù)據(jù)的生物信息云平臺(tái)的設(shè)計(jì)方案。該平臺(tái)擬整合多個(gè)國(guó)際數(shù)據(jù)庫(kù)中林業(yè)相關(guān)的基因組、轉(zhuǎn)錄組、表達(dá)和功能等常用數(shù)據(jù),構(gòu)建以林業(yè)為主的生物信息學(xué)大數(shù)據(jù)平臺(tái),為林業(yè)研究人員提供綜合的生物信息數(shù)據(jù)服務(wù)(DaaS)。在該大數(shù)據(jù)基礎(chǔ)上,構(gòu)建以現(xiàn)有計(jì)算機(jī)服務(wù)器為基礎(chǔ)的硬件服務(wù)平臺(tái)(IaaS),以網(wǎng)絡(luò)化linux操作系統(tǒng)為基礎(chǔ)的虛擬分析平臺(tái)(PaaS),以及以常用生物信息學(xué)分析軟件為基礎(chǔ)的個(gè)性化可定制軟件服務(wù)平臺(tái)(SaaS),最終為林業(yè)研究人員提供一站式的虛擬易用的生物信息學(xué)云服務(wù)。

關(guān)鍵詞:林業(yè);生物信息學(xué);大數(shù)據(jù);云平臺(tái)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)01-0023-03

Abstract: A scheme of forestry bioinformatics cloud was proposed for solving the problems of mega data, high storage cost and technology threshold in the forest research. The platform would intend to integrate multiple forestry genomes, transcriptome, expression and function data from international database. Bioinformatics big data platform was constructed to provide comprehensive bioinformatics data service (Data as a service, DAAS) for forestry research. Based on the bioinformatics big data, hardware service platform (Infrastructure as a Service, IAAS) was constructed to provide computing resource services, virtual operating system platform (Platform-as-a-Service, PAAS) was constructed to provide virtual linux computer environment services, and software analysis service platform (Software-as-a-Service, SaaS) was constructed to provide common bioinformatics analysis and customizable analysis services. Forestry bioinformatics cloud platform would provide one-stop virtual easy bioinformatics cloud services for forestry researchers.

Key words: Forestry; Bioinformatics; Big data; Cloud platform

1 概述

近年來(lái),隨著新一代測(cè)序技術(shù)的發(fā)展[1],測(cè)序成本不斷減低,使得高通量測(cè)序逐漸成為生命科學(xué)研究的常規(guī)實(shí)驗(yàn)。眾所周知,高通量測(cè)序產(chǎn)生的數(shù)據(jù)量巨大,單次測(cè)序量常常達(dá)到GB的級(jí)別,而一個(gè)實(shí)驗(yàn)室研究一類物種,從基因組測(cè)序、轉(zhuǎn)錄組測(cè)序、小RNA測(cè)序以及其他個(gè)性化測(cè)序,往往積累的數(shù)據(jù)高達(dá)TB甚至PB級(jí)別。特別是林業(yè)相關(guān)物種,基因組龐大,數(shù)據(jù)量更是呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。以松屬物種為例,2014年完成的火炬送基因組項(xiàng)目顯示,松樹基因組高達(dá)27G,為目前基因組最大的物種之一。而為了實(shí)現(xiàn)分子進(jìn)化及育種研究,一個(gè)課題組往往會(huì)對(duì)不同品種的基因組、轉(zhuǎn)錄組、小RNA等進(jìn)行測(cè)序及比較,再結(jié)合國(guó)際公共數(shù)據(jù)庫(kù)中發(fā)布的十幾種松樹的轉(zhuǎn)錄組、表達(dá)及功能等不同類型的數(shù)據(jù),一個(gè)松屬林業(yè)項(xiàng)目的相關(guān)生物信息數(shù)據(jù)就高達(dá)幾百GB甚至幾個(gè)TB。

面對(duì)如此海量種類繁多的林業(yè)生物信息(簡(jiǎn)稱林業(yè)生物大數(shù)據(jù)),如何進(jìn)行數(shù)據(jù)整合、存儲(chǔ)、分析,將成為生物學(xué)家和計(jì)算機(jī)學(xué)家面臨的重大課題。顯然個(gè)人計(jì)算機(jī)無(wú)法滿足存儲(chǔ)大數(shù)據(jù),一般課題組是利用項(xiàng)目經(jīng)費(fèi)購(gòu)買相應(yīng)服務(wù)器或者集群,但由于在研究過(guò)程中,為了比較分析,經(jīng)常需要從國(guó)際數(shù)據(jù)庫(kù)下載相關(guān)物種的數(shù)據(jù)信息,這會(huì)導(dǎo)致存儲(chǔ)空間不足。其次是數(shù)據(jù)分析,從linux服務(wù)器的搭建,到常用生物信息學(xué)分析軟件的安裝配置,以及個(gè)性化分析流程的創(chuàng)建,都需要專業(yè)的生物信息分析人員。而目前,僅從項(xiàng)目申請(qǐng)人參與的中國(guó)科學(xué)院、中國(guó)林業(yè)科學(xué)院以及高校的多個(gè)國(guó)家基金來(lái)看,硬件服務(wù)器配置不足,服務(wù)器管理及分析人員缺乏等問(wèn)題嚴(yán)重,大部分項(xiàng)目只能將數(shù)據(jù)分析外包給專門的生物信息學(xué)公司來(lái)做,導(dǎo)致分析成本比測(cè)序成本都高。最嚴(yán)重的是生物學(xué)問(wèn)題和數(shù)據(jù)分析的脫節(jié),將導(dǎo)致生物學(xué)家拿到公司的分析結(jié)果后無(wú)法入手。

本研究將基于云計(jì)算平臺(tái),構(gòu)建以林業(yè)生物信息大數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)服務(wù)云(DaaS),提供多個(gè)物種多種類型的林業(yè)生物信息的數(shù)據(jù)服務(wù);構(gòu)建以現(xiàn)有服務(wù)器為基礎(chǔ)的林業(yè)生物信息硬件資源云(IaaS),提供生物信息硬件資源服務(wù);構(gòu)建以linux服務(wù)器及常用開發(fā)環(huán)境為基礎(chǔ)的林業(yè)生物信息分析平臺(tái)云(PaaS),提供虛擬的網(wǎng)絡(luò)化的數(shù)據(jù)分析環(huán)境;構(gòu)建以常用生物信息學(xué)軟件及個(gè)性化分析流程為基礎(chǔ)的林業(yè)生物信息軟件服務(wù)云(SaaS),提供在線的可定制的數(shù)據(jù)分析服務(wù),最后實(shí)現(xiàn)“一站式”的林業(yè)生物信息云服務(wù)平臺(tái)。endprint

2 國(guó)內(nèi)外現(xiàn)狀

云計(jì)算[2-4] 是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問(wèn), 進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。目前,隨著高通量測(cè)序技術(shù)的快速發(fā)展,生物信息學(xué)進(jìn)入組學(xué)時(shí)代,組學(xué)測(cè)序產(chǎn)生了海量的數(shù)據(jù),引領(lǐng)著生物信息學(xué)步入大數(shù)據(jù)時(shí)代。海量生物數(shù)據(jù)的存儲(chǔ)和分析等問(wèn)題亟待需要利用云的方式來(lái)解決[5-7]。

中科院基因組所章張等人[8]分析了現(xiàn)有生物信息學(xué)領(lǐng)域的云計(jì)算服務(wù)(簡(jiǎn)稱:生物信息云),根據(jù)其服務(wù)特點(diǎn)首次提出分類方法:數(shù)據(jù)即服務(wù)(DaaS,Data as a Service)[9-11]、軟件即服務(wù)(SaaS,Software as a Service)、平臺(tái)即服務(wù)(PaaS,Platform as a Service)以及基礎(chǔ)設(shè)施即服務(wù)(IaaS,Infrastructure as a Service)。生物信息云從四個(gè)方面提供了海量生物數(shù)據(jù)的儲(chǔ)存、獲取、分析等相關(guān)需求的服務(wù)。同時(shí),對(duì)云計(jì)算在生物信息學(xué)的應(yīng)用進(jìn)行了展望和討論,提出并分析了以下幾個(gè)亟需解決問(wèn)題,即生物信息云應(yīng)實(shí)現(xiàn)數(shù)據(jù)和軟件的云儲(chǔ)存,結(jié)合最新的高速傳輸、P2P、數(shù)據(jù)壓縮等技術(shù)支持大數(shù)據(jù)的傳輸,開發(fā)基于云的輕量型編程環(huán)境,以及建立開放的生物信息學(xué)云平臺(tái)。

華大基因作為國(guó)內(nèi)測(cè)序巨頭,2011年在《自然》上闡述了生物云計(jì)算相關(guān)服務(wù)[12],希望為生命科學(xué)研究人員提供全面快捷的生物信息學(xué)云服務(wù)。最終目標(biāo)希望用戶通過(guò)互聯(lián)網(wǎng)遠(yuǎn)程調(diào)用云服務(wù),實(shí)現(xiàn)測(cè)序數(shù)據(jù)的常規(guī)處理,隨時(shí)隨地獲取生物信息分析資源。在國(guó)際上,華大基因并不是唯一一個(gè)開展云計(jì)算服務(wù)的測(cè)序中心,但華大基因?qū)y(cè)序服務(wù)與內(nèi)部云計(jì)算相結(jié)合,突出了其“一站式”服務(wù)的優(yōu)勢(shì)。希望為“組學(xué)”研究領(lǐng)域的科研人員提供快捷、準(zhǔn)確和便于操作的高通量測(cè)序分析服務(wù),從而更好地應(yīng)對(duì)及解決海量生物信息數(shù)據(jù)的存儲(chǔ)、處理、計(jì)算和分析等問(wèn)題。

由于當(dāng)前基因組測(cè)序數(shù)據(jù)迅猛增加,使得生物產(chǎn)業(yè)對(duì)于計(jì)算與存儲(chǔ)的需求呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)速度(特別是林業(yè)數(shù)據(jù))。這種由于不斷產(chǎn)生的信息洪流而形成的對(duì)存儲(chǔ)能力和計(jì)算能力超常規(guī)的增長(zhǎng),使得生物云計(jì)算[13-15]區(qū)別于其他行業(yè),具有特征和對(duì)技術(shù)的更高要求,也使得越來(lái)越多的生物學(xué)家和計(jì)算機(jī)學(xué)家認(rèn)識(shí)到生物信息云計(jì)算平臺(tái)建設(shè)的必要性和迫切性。

3 林業(yè)生物信息云平臺(tái)的設(shè)計(jì)

1) 林業(yè)生物信息數(shù)據(jù)的收集及清洗

林業(yè)生物信息源數(shù)據(jù)主要來(lái)源于公開的國(guó)際數(shù)據(jù)庫(kù)??紤]到國(guó)際數(shù)據(jù)庫(kù)更新較快,可以通過(guò)網(wǎng)頁(yè)解析技術(shù),利用程序自動(dòng)獲取“林業(yè)”相關(guān)的一級(jí)序列數(shù)據(jù)、二級(jí)基因功能及蛋白數(shù)據(jù)和三級(jí)結(jié)構(gòu)數(shù)據(jù),實(shí)現(xiàn)林業(yè)生物信息云平臺(tái)源數(shù)據(jù)的自動(dòng)獲取及更新。大數(shù)據(jù)計(jì)算環(huán)境和傳統(tǒng)應(yīng)用存在較大的區(qū)別,源數(shù)據(jù)獲取后需要通過(guò)適當(dāng)?shù)霓D(zhuǎn)換和清洗,整理成可為大數(shù)據(jù)計(jì)算環(huán)境服務(wù)業(yè)務(wù)數(shù)據(jù)。

2) 林業(yè)生物信息的大數(shù)據(jù)服務(wù)(DaaS)的構(gòu)建

針對(duì)林業(yè)研究中的常見問(wèn)題,這里把林業(yè)生物信息數(shù)據(jù)按照基因組、轉(zhuǎn)錄組、基因功能、蛋白結(jié)構(gòu)及其他零散數(shù)據(jù)等幾類來(lái)存儲(chǔ)[25]。大數(shù)據(jù)存儲(chǔ)技術(shù)需要針對(duì)全類型數(shù)據(jù)存儲(chǔ)和多樣化計(jì)算需求,使用中低端存儲(chǔ)設(shè)備,以分布式文件系統(tǒng)為基礎(chǔ),綜合基于分布式文件系統(tǒng)的各類數(shù)據(jù)庫(kù),實(shí)現(xiàn)高效低成本的大數(shù)據(jù)存儲(chǔ)。技術(shù)上使用Hadoop[16]大數(shù)據(jù)集成平臺(tái)Cloudera來(lái)構(gòu)建,數(shù)據(jù)庫(kù)采用Oracle。大數(shù)據(jù)平臺(tái)主要涉及數(shù)據(jù)管理(HDFS)、數(shù)據(jù)操作系統(tǒng)(YARN)、數(shù)據(jù)訪問(wèn)模塊集、數(shù)據(jù)治理與集成模塊集、安全模塊等。

3) 林業(yè)生物信息硬件資源服務(wù)(IaaS) 的構(gòu)建

用戶租用云計(jì)算上的虛擬主機(jī)可以自己控制計(jì)算、存儲(chǔ)等硬件設(shè)備,建立需要的計(jì)算環(huán)境。并且大量的生物信息學(xué)工具可以打包為虛擬鏡像用于租用的云計(jì)算的虛擬主機(jī)上,可以很方便的進(jìn)行多種數(shù)據(jù)分析。如CloVR[24]提供的一個(gè)包含預(yù)配置和自動(dòng)的生物信息學(xué)流程的虛擬主機(jī),可以運(yùn)行在本地的計(jì)算機(jī)上也可以運(yùn)行在云計(jì)算平臺(tái)上。此虛擬機(jī)以Ubuntu和BioLinu為基礎(chǔ)[23],安裝了Grid Engine和Hadoop作為作業(yè)調(diào)度。

這樣就為用戶提供了一個(gè)生物信息學(xué)分析的硬件虛擬環(huán)境及軟件開發(fā)環(huán)境,用戶可以使用自己的pc作為客戶端,連接生物信息云平臺(tái)的虛擬機(jī),使用虛擬機(jī)強(qiáng)大的計(jì)算資源及內(nèi)存(很多生物信息學(xué)分析需要大內(nèi)存資源)。

4) 林業(yè)生物信息分析環(huán)境服務(wù)(PaaS)的構(gòu)建

生物信息分析環(huán)境應(yīng)該包含生物信息開發(fā)語(yǔ)言環(huán)境及常用的生物信息學(xué)軟件支持庫(kù)。目前生物信息學(xué)中常用的開發(fā)語(yǔ)言有C\C++、JAVA、perl、python等,并且這些語(yǔ)言大都有自己配套的生物信息學(xué)開發(fā)庫(kù),例如Bioperl、Biojava等。為了后期的統(tǒng)計(jì)分析方便,可以把R語(yǔ)言的生物信息學(xué)庫(kù)Bioconductor安裝到云平臺(tái)上。常用的生物信息學(xué)軟件支持庫(kù)有Galaxy Cloudman和Eoulsan[22]等。Galaxy整合了一系列的簡(jiǎn)單易用的工具,提供一個(gè)簡(jiǎn)易的網(wǎng)頁(yè)用來(lái)分析數(shù)據(jù)。Galaxy Cloudman把Galaxy的軟件工具打包成一個(gè)鏡像,可以在AWS(Amazon Web Service)上應(yīng)用[17]。用戶可以將其他安裝在Galaxy平臺(tái)上的軟件安裝到自己的云計(jì)算平臺(tái)上,甚至可以在Galaxy Cloudman上定義插件。通過(guò)添加額外的工具,可以擴(kuò)展默認(rèn)函數(shù)并測(cè)試和使用。從這個(gè)意義上說(shuō),Galaxy Cloudman可以看做PaaS。 Eoulsan整合了很多下一代基因數(shù)據(jù)分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一個(gè)框架內(nèi),同時(shí),它也支持用戶自己開發(fā)的插件用于數(shù)據(jù)分析。

5) 林業(yè)生物信息分析軟件服務(wù)(SaaS)的構(gòu)建endprint

目前大多數(shù)的生物信息學(xué)分析軟件都是開源的或者需要自主開發(fā)。很多傳統(tǒng)的生物信息學(xué)工具如BLAST、UCSC Genome Browser僅用瀏覽器就可以登錄到服務(wù)器使用相應(yīng)的服務(wù),它們也可以稱為SaaS。這些服務(wù)一般由軟件工具的開發(fā)者提供,伸縮性很差,需要進(jìn)行進(jìn)一步的并行及分布式計(jì)算的完善。序列匹配是指當(dāng)前生物信息學(xué)分析中的重要應(yīng)用,特別是高通量測(cè)序產(chǎn)生的大量短序列片段,需要匹配到基因或基因組上。隨著云計(jì)算及大數(shù)據(jù)的發(fā)展,為了提高分析效率,越來(lái)越多的軟件都向并行、分布式計(jì)算發(fā)展。CloudAligner[18],CloudBurst[19],SEAL[20]和Crossbow都是應(yīng)用于云計(jì)算基于MapReduce的軟件[21],可以匹配高通量的測(cè)序大數(shù)據(jù)。

常用的分布式計(jì)算軟件配置在云平臺(tái)的虛擬機(jī)中,用戶登錄虛擬機(jī)后除了享受硬件服務(wù)還可以使用進(jìn)行常規(guī)分析。特別是針對(duì)當(dāng)前的二代測(cè)序,安裝配置一體化的組學(xué)分析流程,包含流行的基因組測(cè)序分析、轉(zhuǎn)錄組測(cè)序分析、宏基因分析等,使用戶在云平臺(tái)中不用關(guān)系硬軟件技術(shù),能夠分析自己的數(shù)據(jù),并支持可定制性分析??傊疄橛脩籼峁┮粋€(gè)方便易用的分析及統(tǒng)計(jì)環(huán)境[26]。

4 結(jié)束語(yǔ)

生物信息云平臺(tái)的建設(shè)由于涉及的物種多、數(shù)據(jù)類型多、數(shù)據(jù)分析多樣化等問(wèn)題,硬件成本高、工程量巨大,不是短期能夠見效的。但針對(duì)某一個(gè)行業(yè)的生物信息云平臺(tái)的建設(shè),涉及的數(shù)據(jù)量及工程量都相對(duì)較小,并且云平臺(tái)的建設(shè)較容易看到成效。本文針對(duì)林業(yè)生物信息大數(shù)據(jù),建立包含數(shù)據(jù)服務(wù)云(DaaS)、硬件資源云(IaaS)、分析平臺(tái)云(PaaS)和軟件服務(wù)云(SaaS)的專用林業(yè)生物信息云平臺(tái),為林業(yè)相關(guān)生物學(xué)研究提供“一站式”的生物信息學(xué)數(shù)據(jù)服務(wù)、平臺(tái)服務(wù)和分析服務(wù),使得研究人員能夠?qū)W⒂谧约旱牧謱W(xué)問(wèn)題,不用受限于計(jì)算機(jī)硬件平臺(tái)和軟件分析的技術(shù)瓶頸。林業(yè)生物信息云平臺(tái)的建立,將可預(yù)見性在數(shù)據(jù)共享、硬件平臺(tái)和軟件分析方面的方便研究人員,使其直面自己關(guān)心的科研問(wèn)題,極大的提高工作效率。

參考文獻(xiàn):

[1] 張文力.高通量測(cè)序數(shù)據(jù)分析現(xiàn)狀與挑戰(zhàn)[J]. 集成技術(shù),2012(3):20-24.

[2] 趙為民.云計(jì)算難掩十大優(yōu)勢(shì),2012年將遍地開花[J]. 網(wǎng)絡(luò)與信息,2012,26(3):14-15.

[3] 葉惠.云計(jì)算:讓服務(wù)觸手可及[J]. 通訊世界,2009(7):34-35.

[4] 趙為民.云計(jì)算何時(shí)遍地開花?十大難題亟待解決[J]. 網(wǎng)絡(luò)與信息,2012,26(3):44-45.

[5] 郝彤,馬紅武,趙學(xué)明.云計(jì)算在生物技術(shù)領(lǐng)域的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2012,24(17):117-123.

[6] 楊帥,胡宗倩,伯曉晨,等.云計(jì)算在生物醫(yī)學(xué)中的應(yīng)用[J].中國(guó)科學(xué):生命科學(xué),2013,43(7):569-578.

[7] 崔振.云計(jì)算在高通量測(cè)序數(shù)據(jù)分析中的應(yīng)用[J].基因組學(xué)與應(yīng)用生物學(xué),2014,33(2):467-471.

[8] Dai L, Gao X, Guo Y, Xiao J, Zhang Z. Bioinformatics clouds for big data manipulation. Biology Direct. 2012;7(1).endprint

猜你喜歡
生物信息學(xué)云平臺(tái)大數(shù)據(jù)
“PBL+E—learning”教學(xué)模式探索
移動(dòng)教學(xué)在生物信息學(xué)課程改革中的應(yīng)用
企業(yè)云平臺(tái)建設(shè)研究