紀兆華 王春云 高春紅 于靜紅
【摘? 要】論文探討生物大數(shù)據(jù)可視化直觀展現(xiàn)測序數(shù)據(jù)、分子結(jié)構(gòu)數(shù)據(jù)等多種生物學(xué)數(shù)據(jù)。數(shù)據(jù)可視化幫助生物大數(shù)據(jù)科學(xué)分析數(shù)據(jù)結(jié)果,如同時間或空間相關(guān)的信息等,通過計算機圖形學(xué)、統(tǒng)計學(xué)等技術(shù)轉(zhuǎn)變?yōu)楦又庇^生動的圖或表。計算機可視化操作能夠?qū)⒊橄蟮男畔⑦M行直觀的分析并表示出來,有助于更好地理解數(shù)據(jù),增強認知數(shù)據(jù)。
【Abstract】This paper discusses the biological big data visualization and visual presentation of sequencing data, molecular structure data and other biological data. Data visualization helps biological big data analyze data results scientifically, such as information related to time or space, etc., which can be transformed into more intuitive and vivid graphs or tables through computer graphics, statistics and other technologies. Computer visualization can analyze and represent abstract information intuitively, which is helpful to better understand data and enhance cognitive data.
【關(guān)鍵詞】云計算技術(shù);生物大數(shù)據(jù);可視化
【Keywords】cloud computing technology; biological big data; visualization
【中圖分類號】TP311.1;Q811.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2021)01-0193-02
1 引言
生物大數(shù)據(jù)中蘊含著生命起源、疾病健康和農(nóng)作物培育等重要信息,對生物大數(shù)據(jù)的高效準(zhǔn)確解讀事關(guān)人類健康、糧食安全等重要問題。由于生物大數(shù)據(jù)有著類型復(fù)雜、結(jié)構(gòu)異質(zhì)、冗余性高和體積龐大等特點,科研人員需要借助數(shù)據(jù)可視化等方法才能理解其組成特征和內(nèi)在聯(lián)系,進而更加快速和有針對性地從中挖掘出相關(guān)知識信息[1]。
2 生物學(xué)進入了大數(shù)據(jù)時代
隨著生物技術(shù)的不斷發(fā)展,海量數(shù)據(jù)信息正在得以飛速累計,生物學(xué)跨入大數(shù)據(jù)時代,以二代高通量測序為代表的各種新型實驗技術(shù)正在快速產(chǎn)生和累積出海量的數(shù)據(jù)集合,這些蘊藏著豐富知識信息的數(shù)據(jù)集合被稱為生物大數(shù)據(jù)。近年來,世界范圍內(nèi)產(chǎn)生多個大型生物學(xué)大數(shù)據(jù)產(chǎn)出項目,如癌癥基因組圖譜計劃(TCGA)、千人基因組計劃等,這些數(shù)據(jù)存儲在歐洲生物信息學(xué)研究所(EBI)、美國國立生物技術(shù)信息中心(NCBI)等公共數(shù)據(jù)庫中,我國自主創(chuàng)辦的生命與健康大數(shù)據(jù)中心(BIGD)也已建成并對外提供服務(wù)[2]。
3 數(shù)據(jù)可視化有利于科學(xué)地展示數(shù)據(jù)分析的結(jié)果
數(shù)據(jù)可視化將具有大量數(shù)據(jù)的數(shù)據(jù)庫中的文本或者二進制數(shù)據(jù)的特征信息,如同時間或空間相關(guān)的信息等通過計算機圖形學(xué)、統(tǒng)計學(xué)等技術(shù)轉(zhuǎn)變?yōu)楦又庇^生動的圖或表,計算機可視化操作能夠?qū)⒊橄蟮男畔⑦M行直觀的分析并表示出來,有助于更好地理解數(shù)據(jù),增強認知數(shù)據(jù),并挖掘出大量數(shù)據(jù)中蘊含的事務(wù)之間的規(guī)律或內(nèi)在信息[3]。生物學(xué)大數(shù)據(jù)可視化分析的作用主要包括三個方面:幫助科研人員快速從體積龐大、缺乏組織脈絡(luò)的原始數(shù)據(jù)集中抽取出本質(zhì)特征,為研究工作提供理論指引;抽取出生物學(xué)大數(shù)據(jù)中某一維度的特征,以圖形化的方式進行直觀展示和強調(diào);可以有效地將生物學(xué)大數(shù)據(jù)進行解構(gòu),去除其中的冗余信息和背景噪音,得到更加具有科學(xué)意義的數(shù)據(jù)分析結(jié)果[4]。
4 基于云計算生物大數(shù)據(jù)可視化
4.1 云計算
隨著生物學(xué)大數(shù)據(jù)的不斷快速累積,國內(nèi)外科研人員一直在尋找高效快速解決大數(shù)據(jù)問題的有效途徑,其中云計算技術(shù)是被廣泛認可的一種較為成熟的技術(shù)體系。云計算的常用服務(wù)模式包括“平臺即服務(wù)”(PaaS)、“軟件即服務(wù)”(SaaS)、“基礎(chǔ)設(shè)施即服務(wù)”(IaaS),這些服務(wù)模式的出現(xiàn)都旨在使用戶更加容易地獲取和使用到足夠的計算資源,同時免除自行維護計算機硬件的負擔(dān)。常用的云計算框架則包括了Hadoop、Spark等,通過將整體運算、存儲和數(shù)據(jù)傳輸負載均勻分配到計算機集群中的每個節(jié)點,達到了加速數(shù)據(jù)分析速度的目的,基于這些技術(shù)構(gòu)建的應(yīng)用程序在處理大數(shù)據(jù)時可以表現(xiàn)出優(yōu)異的性能。
云計算技術(shù)是計算機科學(xué)中為了解決大數(shù)據(jù)問題而提出的一套技術(shù)體系,在生物學(xué)大數(shù)據(jù)分析中也被多次證明其實用性和可行性?;谠朴嬎慵夹g(shù)可以構(gòu)建生物學(xué)大數(shù)據(jù)可視化平臺,進行高效易用的大數(shù)據(jù)可視化分析,各可視化工具密切配合,共同協(xié)作完成生物學(xué)大數(shù)據(jù)可視化這一重要分析任務(wù)。
鑒于此,近年來先后出現(xiàn)了多個基于云計算技術(shù)的生物學(xué)大數(shù)據(jù)分析軟件,在相關(guān)文獻的評價測試中,這些軟件也取得了較為令人滿意的成績。隨著輸入數(shù)據(jù)集大小的增加,這些基于云計算技術(shù)開發(fā)的生物學(xué)分析軟件性能指標(biāo)超過了傳統(tǒng)軟件乃至數(shù)倍。
4.2 傳統(tǒng)數(shù)據(jù)可視化軟件
常用的可視化工具通常采用一些專業(yè)工具如Tableau、DataV等,開發(fā)簡單并且不用開發(fā)代碼,具有較好的展示效果。傳統(tǒng)的數(shù)據(jù)可視化方案大多是針對規(guī)模較小的數(shù)據(jù)集進行設(shè)計和實現(xiàn),無法高效、直觀地展現(xiàn)出生物學(xué)大數(shù)據(jù)所蘊含的關(guān)鍵信息。這些軟件所存在的共有問題還包括了可定制程度低,只能在其提供的可視化樣式之中選擇。對于有更深層次定制化需求的用戶,使用基于R語言或者Python語言的可視化工具,如BioConductor(http://www.bioconductor.org/)和BioPython(http:// biopython.org/)等[5]。
4.3 基于云計算生物大數(shù)據(jù)可視化技術(shù)
近年來先后出現(xiàn)了多個基于云計算技術(shù)的生物學(xué)大數(shù)據(jù)分析軟件,隨著輸入數(shù)據(jù)集大小的增加,這些基于云計算技術(shù)開發(fā)的生物學(xué)分析軟件性能指標(biāo)超過了傳統(tǒng)軟件乃至數(shù)倍。采Web技術(shù)和Web前端技術(shù)相互結(jié)合實現(xiàn),如常用的技術(shù)為Web技術(shù)、數(shù)據(jù)庫技術(shù)和前端技術(shù),其特點是可定制能力強。Web的生物大數(shù)據(jù)挖掘,采用了云計算存儲和處理架構(gòu)、分布式數(shù)據(jù)挖掘算法和大數(shù)據(jù)存儲、處理服務(wù)模式,易于使用基于Web的大數(shù)據(jù)挖掘技術(shù)構(gòu)建基于Web的大數(shù)據(jù)分析環(huán)境[6]。
Hadoop和Spark技術(shù)是云計算領(lǐng)域中常用的數(shù)據(jù)分析技術(shù),在生物大數(shù)據(jù)可視化工具的后端分析計算任務(wù),通過盡量均勻地將分析任務(wù)計算負載和數(shù)據(jù)傳輸負載分散到計算機器中的每個節(jié)點,達到提高系統(tǒng)整體并行加速性能指標(biāo)的目的。Hadoop是開源分布式計算框架,在大數(shù)據(jù)分析和半結(jié)構(gòu)化數(shù)據(jù)集方便具有良好的存儲功能,其中HDFS提高了大數(shù)據(jù)文件的存取速率,MapReduce將大規(guī)模數(shù)據(jù)集切分成多個不同大小的數(shù)據(jù)分片map,執(zhí)行map任務(wù),之后將結(jié)果通過hash分區(qū)分發(fā)到reduce任務(wù)的多個節(jié)點進行存儲。Spark為基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,可以處理實時的大數(shù)據(jù),在性能上比MapReduce高,有較強的容錯性和高可伸縮性。Spark與Hadoop結(jié)合,共享集群節(jié)點提供的資源,提高運行效率,速度快、通用性強[7]。
基于云計算技術(shù)的生物大數(shù)據(jù)可視化分析平臺可視化強、效率高。雖然目前在生物學(xué)大數(shù)據(jù)可視化的相關(guān)研究領(lǐng)域中,云計算技術(shù)缺乏成熟應(yīng)用,但是許多通用型大數(shù)據(jù)可視化軟件已經(jīng)流行開來,如Highcharts(https://www.highcharts.com/)、D3(https://d3js.org/)和ZoomData(https://www.zoomdata.com/)等。這些軟件大多采用HTML5技術(shù)來實現(xiàn),有著交互性強、界面美觀、易于使用等特點,并且提供動態(tài)網(wǎng)頁作為輸出可視化結(jié)果選項,大大方便了軟件工具間的整合?;贖TML5的可視化技術(shù),相比于傳統(tǒng)的靜態(tài)可視化展現(xiàn)方式,基于HTML5的可視化展現(xiàn)方式有著高交互性、界面更加美觀、易于和其他軟件工具相互結(jié)合和便于傳播分享等優(yōu)點。D3圖形可視化庫來完成項目設(shè)計的可視化展示,更加適應(yīng)生物大數(shù)據(jù)可視化需求。采用云計算技術(shù)可以構(gòu)建運行效率高、實用性強和可擴展性好的生物學(xué)大數(shù)據(jù)可視化平臺,科研人員通過該平臺可以直觀展現(xiàn)測序數(shù)據(jù)、分子結(jié)構(gòu)數(shù)據(jù)、關(guān)系網(wǎng)絡(luò)數(shù)據(jù)等多種生物學(xué)數(shù)據(jù),為生物學(xué)和醫(yī)學(xué)等領(lǐng)域中的可視化問題提供基礎(chǔ)軟件設(shè)施[8]。
5 結(jié)語
生物大數(shù)據(jù)在處理流程上和傳統(tǒng)的生物數(shù)據(jù)處理流程沒有大的差異,關(guān)鍵在于生物大數(shù)據(jù)處理要分析大量非結(jié)構(gòu)化數(shù)據(jù)。生物學(xué)數(shù)據(jù)可視化貫穿科研工作的各個階段,在實驗材料選擇、實驗方案設(shè)計、結(jié)果分析討論和論文發(fā)表等階段均起到不可替代的重要作用,生物學(xué)數(shù)據(jù)可視化軟件的運行效率、易用與否將直接決定了相關(guān)科研人員的工作效率。生物大數(shù)據(jù)規(guī)模大、維度高、非結(jié)構(gòu)化,通過生物大數(shù)據(jù)可視化分析展現(xiàn)了數(shù)據(jù)實時場景及交互性能,更有利于理解數(shù)據(jù)及對相關(guān)數(shù)據(jù)時間、空間信息知識的展現(xiàn)。
【參考文獻】
【1】周琳,孔雷,趙方慶.生物大數(shù)據(jù)可視化的現(xiàn)狀及挑戰(zhàn)[J].科學(xué)通報,2015,60(Z1):547-557.
【2】張廣旭.基于Spark的基因數(shù)據(jù)聚類分析及可視化[D].長沙:湖南大學(xué),2017.
【3】傅耀威,賈燕紅,張軍,等.大數(shù)據(jù)可視分析發(fā)展現(xiàn)狀與趨勢[J].中國基礎(chǔ)科學(xué),2019,21(04):53-58.
【4】楊立博.云計算技術(shù)發(fā)展分析及其應(yīng)用探討[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(04):89+92.
【5】劉江濤,邢輝.淺析生物大數(shù)據(jù)可視化的現(xiàn)狀及挑戰(zhàn)[J].中國新通信,2016,18(02):152.
【6】王玉.大數(shù)據(jù)時代Hadoop和Spark技術(shù)研究[J].品牌研究,2020(04):88-90.
【7】檀照望.基于Spark的大數(shù)據(jù)處理可視化工具的設(shè)計和實現(xiàn)[D].北京:北京郵電大學(xué),2017.
【8】李萬鋒.基于Java EE的數(shù)據(jù)可視化平臺設(shè)計及主要功能實現(xiàn)[D].北京:中國科學(xué)院大學(xué)(中國科學(xué)院工程管理與信息技術(shù)學(xué)院),2017.