国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)處理平臺Spark及其生物醫(yī)學(xué)應(yīng)用

2015-05-26 10:06:45范煒瑋趙東升
中國中醫(yī)藥圖書情報 2015年2期
關(guān)鍵詞:大數(shù)據(jù)

范煒瑋+趙東升

摘要:隨著生命科學(xué)和醫(yī)療信息化的快速發(fā)展,生物醫(yī)學(xué)數(shù)據(jù)出現(xiàn)了爆炸式增長趨勢,其處理面臨數(shù)據(jù)量大、維度關(guān)系復(fù)雜和交互式響應(yīng)要求高等問題。傳統(tǒng)的數(shù)據(jù)庫以及Hadoop框架在處理生物醫(yī)學(xué)大數(shù)據(jù)方面都存在一些不足。Spark是一個新興的基于內(nèi)存計算的開源大數(shù)據(jù)平臺,具有豐富的編程接口、通用的處理框架和多元化的運行模式。本文介紹了Spark的關(guān)鍵技術(shù)和特性,以及不同來源生物醫(yī)學(xué)大數(shù)據(jù)特點和成功案例,表明Spark在生物醫(yī)學(xué)大數(shù)據(jù)處理中的適用性和潛在優(yōu)勢。

關(guān)鍵詞:大數(shù)據(jù);Spark:醫(yī)學(xué)研究:生物醫(yī)學(xué)信息學(xué)

doi:10.3 969/j.issn.2095-5 707.2015.02.001

對生物醫(yī)學(xué)數(shù)據(jù)的處理,最終目的是從中獲取知識,為提高衛(wèi)生服務(wù)效率、促進醫(yī)學(xué)發(fā)展和衛(wèi)生管理提供支持,使得“數(shù)據(jù)信息知識”的認知鏈更臻完善。隨著生命組學(xué)、醫(yī)學(xué)技術(shù)和醫(yī)療信息化的快速發(fā)展,生物醫(yī)學(xué)數(shù)據(jù)出現(xiàn)了爆炸式增長趨勢,其處理面臨數(shù)據(jù)量大、維度關(guān)系復(fù)雜、計算強度高等問題。將大數(shù)據(jù)技術(shù)引入醫(yī)學(xué)領(lǐng)域,可以及時充分地共享醫(yī)療信息、感知醫(yī)療資源,通過模型分析和數(shù)據(jù)挖掘,描述生命現(xiàn)象和醫(yī)療決策中規(guī)律并預(yù)測其發(fā)展趨勢。例如,谷歌在2009年初通過用戶在網(wǎng)上的搜索記錄成功預(yù)測甲型HIN1流感的爆發(fā),其“流感趨勢系統(tǒng)”通過結(jié)合傳統(tǒng)監(jiān)測方法和大數(shù)據(jù)處理技術(shù),可以預(yù)測美國未來1周的流感感染情況;美國的FlatironHealth公司,致力于通過收集和分析海量的臨床數(shù)據(jù)進行癌癥治療的分析和預(yù)測,該公司已獲得谷歌風投部門超過l億美元的投資;美國政府于2012年3月發(fā)布了“大數(shù)據(jù)的研究和發(fā)展計劃”,其中多個項目涉及醫(yī)療、公共衛(wèi)生和生命組學(xué)研究。

Hadoop是Apache基金會的頂級開源項目,已成為目前最重要的大數(shù)據(jù)技術(shù)框架之一,其MapReduce計算模型和完善的生態(tài)系統(tǒng)大大簡化了大數(shù)據(jù)處理系統(tǒng)開發(fā)和運維管理。Hadoop在生物醫(yī)學(xué)大數(shù)據(jù)處理中得到成功應(yīng)用,涵蓋了生物信息學(xué)、智慧醫(yī)療、健康檔案、流行病預(yù)警、傳染病監(jiān)測等多個方面阻。Explorys醫(yī)療數(shù)據(jù)公司基于Hadoop的云平臺能夠幫助醫(yī)生提高聚合、分析、管理和獲得輔助決策信息的能力。當前的Hadoop版本也存在一些不足。由于MapReduce在設(shè)計上追求簡化的計算模型、大規(guī)模分布計算的容錯性和可擴展性,因而存在較大的磁盤I/O開銷以及冗余讀寫和編程不夠靈活等問題,更適合大規(guī)模數(shù)據(jù)的批量或離線計算,不能充分滿足數(shù)據(jù)挖掘和機器學(xué)習常用的迭代計算、圖計算和低延遲的交互式查詢計算等更復(fù)雜的計算需求。

Spark最初由伯克利大學(xué)AMPLab實驗室于2009年提出,是一個通用大數(shù)據(jù)處理引擎,旨在快速、易用地處理復(fù)雜數(shù)據(jù)。Spark的出現(xiàn)彌補了Hadoop的不足,成為發(fā)展最快的大數(shù)據(jù)處理平臺之一,已廣泛應(yīng)用于騰訊、雅虎和淘寶等一線互聯(lián)網(wǎng)公司的報表和廣告推薦等業(yè)務(wù),在生物醫(yī)學(xué)領(lǐng)域也出現(xiàn)了一些成功案例。

1 Spark關(guān)鍵技術(shù)與相關(guān)子項目

1.1

Spark特點和關(guān)鍵技術(shù)

Spark (http://spark. apache. org/)是Apache基金會開源項目,它充分整合利用了現(xiàn)有云計算和大數(shù)據(jù)技術(shù),具有豐富的編程接口,支持在單機、HadoopYarn、Mesos (http://mesos.apache.org/)集群和亞馬遜EC2云等多種平臺上運行,能夠訪問HDFS文件系統(tǒng)和Hbase數(shù)據(jù)庫等任意Hadoop支持的數(shù)據(jù)源,提供批處理、交互式、流處理等多種數(shù)據(jù)處理模式,為大數(shù)據(jù)應(yīng)用提供一個統(tǒng)一的平臺。據(jù)Apache官方測試,Spark運行邏輯回歸算法的計算速度是Hadoop的10~100倍。如此之高的性能提升,得益于以下關(guān)鍵技術(shù)。

1.1.1 彈性分布式數(shù)據(jù)集(Resilient DistributedDatasets,RDD) RDD是Spark計算框架的核心技術(shù)。在Spark中,所有的數(shù)據(jù)都抽象成RDD。用戶可將中間結(jié)果緩存在內(nèi)存中,便于有效地被重用和進行并發(fā)操作,免去不必要的I/O開銷。RDD只能通過兩種方式創(chuàng)建,一是讀取本地或Hadoop分布式文件系統(tǒng)( HDFS)上的文件,二是由其他RDD轉(zhuǎn)換而來,具有只讀(一組RDD可以通過數(shù)據(jù)集操作生成另外一組RDD,但是不能直接被改寫)、彈性擴展和容錯等特性。

1.1.2 共享變量 與MapReduce不同的是,Spark提供廣播( Broadcast)和累加器(Accumulators)兩種受限的共享變量,可以像分布式內(nèi)存系統(tǒng)一樣提供全局地址空間接口,提高了數(shù)據(jù)的共享性。

1.1.3 容錯機制 分布式共享內(nèi)存系統(tǒng)一般通過檢查點( checkpoint)和回滾(rollback)方式容錯,而RDD通過稱為“世系關(guān)系”(Lineage)的機制提供高效的容錯,該機制使RDD包含其演化過程中一系列的依賴關(guān)系,能夠自動從節(jié)點失敗中重構(gòu)丟失的RDD。

1.1.4 支持有向無環(huán)圖(Directed Acyclic Graph,DAG)編程框架 由于MapReduce設(shè)計上的約束,Hadoop缺少對迭代計算和DAG運算的支持。Spark具有豐富全面的數(shù)據(jù)集運算操作,除了Map和Reduce操作,還增加了過濾、抽樣、分組、排序、并集、連接、分割、計數(shù)、收集、查找等80多種算子,并合理地劃分為Transformation(變換)和Ac tion(動作)兩大類。利用這些算子,能夠方便地建立起RDD的DAG計算模型,將所有操作優(yōu)化成DAG圖,提高計算效率和編程靈活性。

1.2

Spark相關(guān)子項目

Spark在機器學(xué)習、交互式查詢、流計算和圖計算等方面都有相關(guān)子項目,使用同一個引擎便能高效地滿足數(shù)據(jù)統(tǒng)計查詢、機器學(xué)習和流數(shù)據(jù)處理的應(yīng)用需求。這些子項目形成了Spark核心計算框架上的工具(庫),以便于開發(fā)無縫集成的應(yīng)用程序。

1.2.1 流計算框架( Spark Streaming) 流計算框架( http://spark.apache.org/streaming/)將數(shù)據(jù)流根據(jù)小時間片分解成一系列短小的批處理作業(yè),根據(jù)業(yè)務(wù)需求對中間結(jié)果疊加計算或者存儲到外部設(shè)備,具有高吞吐量和高效的容錯處理能力。

1.2.2 可擴展機器學(xué)習庫(MLBase/MLlib) Mllib(http://spark.apache.org/mllib/)包括一些常見的機器學(xué)習算法和實用程序,包括分類、回歸、聚類、協(xié)同過濾、降維、特征變換及底層優(yōu)化。MLbase通過邊界定義,力圖將MLbase打造成一個機器學(xué)習平臺,讓一些并不深入了解機器學(xué)習的用戶也能方便地使用MLbase來處理自己的數(shù)據(jù),其機器學(xué)習優(yōu)化器能夠根據(jù)用戶輸入場景選擇最適合的機器學(xué)習算法和相關(guān)參數(shù)。

1.2.3 即席數(shù)據(jù)查詢引擎( Spark SQL) 從ApacheHive表、parquet和JSON格式的文件中裝載和查詢數(shù)據(jù),通過Python、Scala和Java語言編程接口將結(jié)構(gòu)化數(shù)據(jù)作為RDD進行查詢,實現(xiàn)SQL查詢(http://spark. apache.org/sql/)和Spark程序的無縫集成,使運行帶有SQL查詢的復(fù)雜分析算法更容易。同時,可以不加修改地運行Apache Hive數(shù)據(jù)倉庫查詢,支持傳統(tǒng)JDBC/ODBC連接。

1.2.4 并行圖計算框架(GraphX) GraphX(http://spark.apache.org/graphx/)基于Spark的圖處理和圖并行計算API,可將一組數(shù)據(jù)同時看作集合( Collection)和圖(Graph)兩種視圖,每種視圖都有自己獨特的操作符,利用基于RDD的圖操作保證了操作靈活性和執(zhí)行效率。

1.2.5 采樣近似計算查詢引擎(BlinkDB) BlinkDB( http://blinkdb.org/)是一個在海量數(shù)據(jù)上運行交互式查詢的大規(guī)模并行查詢引擎。它通過維護一組多維樣本的自適應(yīng)優(yōu)化框架和動態(tài)樣本選擇策略,允許用戶權(quán)衡數(shù)據(jù)精度來提升查詢響應(yīng)時間性能,而數(shù)據(jù)會被限制在誤差范圍以內(nèi)。在2012年超大規(guī)模數(shù)據(jù)庫(Very Large Database,VLDB)會議上的一個演示中,BlinkDB對17 TB數(shù)據(jù)的一組查詢不到2s即可完成,比Hive快200倍,而錯誤率在2%~10%之間。

1.2.6 分布式內(nèi)存文件系統(tǒng)(Tachyon) Tachyon( http://tachyon-project.org/)是一個高容錯的分布式文件系統(tǒng),允許文件以內(nèi)存的速度在計算機集群中進行可靠的讀寫和共享,以達到提高效率的目的。項目開發(fā)者提出了一種在存儲層利用“世系信息”( lineage)的容錯機制,克服了傳統(tǒng)寫操作中數(shù)據(jù)同步的瓶頸,在測試中比HDFS快110倍。

2 Spark在生物醫(yī)學(xué)大數(shù)據(jù)中的應(yīng)用

2.1 生物醫(yī)學(xué)大數(shù)據(jù)來源及特點

當前的生物醫(yī)學(xué)大數(shù)據(jù)主要包括以下5大類,以高通量測序為代表的生命組學(xué)數(shù)據(jù),以靶向藥物研發(fā)為代表的藥物研究實驗產(chǎn)生的過程數(shù)據(jù),以電子病歷為代表的臨床醫(yī)療服務(wù)數(shù)據(jù),以居民電子健康檔案為代表的個人健康監(jiān)測與健康管理數(shù)據(jù),以疾病監(jiān)測和衛(wèi)生監(jiān)督為代表的公共衛(wèi)生管理數(shù)據(jù)。這些數(shù)據(jù)與電子商務(wù)、社交媒體等互聯(lián)網(wǎng)大數(shù)據(jù)相比,具有明顯的不同。

互聯(lián)網(wǎng)大數(shù)據(jù)的樣本量至少在億級,例如,淘寶2014年“雙十一”促銷活動1天就產(chǎn)生了2. 78億筆交易。但其每個樣本只是一次交易記錄,結(jié)構(gòu)化較強,樣本的屬性數(shù)量不會超過100個。同時,其數(shù)據(jù)分析主要是基于人群分類的廣告推薦等,計算結(jié)果不需很精確。而醫(yī)療數(shù)據(jù)涉及到人的生命安全,對其進行分析研究,要求結(jié)果要很精確。

2.1.1 生命組學(xué)大數(shù)據(jù) 目前的單個研究樣本量不大,但每個樣本的數(shù)據(jù)量很大且復(fù)雜度高,是典型的“小樣本大數(shù)據(jù)”。以“國際千人基因組計劃”為例,總樣本量只有1200人,但每個人的全基因組測序數(shù)據(jù)量很大,根據(jù)測序深度的不同可達數(shù)十甚至數(shù)百GB,因此該項目數(shù)據(jù)總量很大,經(jīng)過整理后達50 TB;同時,數(shù)據(jù)結(jié)構(gòu)復(fù)雜、維度很高,每個人的原始數(shù)據(jù)包含幾千萬短串序列,覆蓋3萬條基因的各種信息。因此,對其挖掘分析技術(shù)要求很高。

2.1.2 臨床醫(yī)療大數(shù)據(jù)樣本量較大,一家三甲醫(yī)院每年可產(chǎn)生上百萬條門診紀錄、幾萬份住院病歷,單個樣本的數(shù)據(jù)量比基因測序數(shù)據(jù)小,但描述樣本的信息復(fù)雜、關(guān)聯(lián)度強,因此是“大樣本復(fù)雜關(guān)聯(lián)數(shù)據(jù)”。以中醫(yī)醫(yī)院的臨床信息系統(tǒng)為例,對每個就診患者而言,既有門診、住院、實驗室檢驗等結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),也有病理分析、B超、PACS影像等大量非結(jié)構(gòu)化數(shù)據(jù);既有按照中醫(yī)診療方法和術(shù)語規(guī)范產(chǎn)生的數(shù)據(jù),也有按照現(xiàn)代西醫(yī)標準產(chǎn)生的數(shù)據(jù)。此外,臨床醫(yī)療數(shù)據(jù)天然地具有分布式特性,醫(yī)療機構(gòu)信息系統(tǒng)內(nèi)部及與其他衛(wèi)生機構(gòu)信息系統(tǒng)之間還存在數(shù)據(jù)標準不統(tǒng)一、融合性差等問題。因此,臨床醫(yī)療大數(shù)據(jù)研究的重點在于如何標化整理這些數(shù)據(jù)、基于大數(shù)據(jù)的循證醫(yī)學(xué)以及個性化醫(yī)療。

2.1.3 公共衛(wèi)生大數(shù)據(jù)樣本量很大,但每個樣本的數(shù)據(jù)量較小,結(jié)構(gòu)簡單,需要融合不同類別的監(jiān)測數(shù)據(jù)進行分析。以我國傳染病監(jiān)測報告為例,監(jiān)測的樣本量數(shù)以億計,而每條記錄僅為幾十個特定的結(jié)構(gòu)化字段。但為了監(jiān)測和預(yù)測傳染病暴發(fā),需要同時對傳染病報告數(shù)據(jù)、癥狀群監(jiān)測數(shù)據(jù)、互聯(lián)網(wǎng)搜索熱詞數(shù)據(jù)、環(huán)境氣象數(shù)據(jù)進行融合分析,才能得出較準確的結(jié)果。因此,公共衛(wèi)生大數(shù)據(jù)是融合大數(shù)據(jù)。

生物醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用場景包括醫(yī)學(xué)研究、個性化醫(yī)療、衛(wèi)生統(tǒng)計決策、流行病預(yù)警和趨勢預(yù)測等,其處理分析主要集中在清洗轉(zhuǎn)換、特性抽取、語義建模、分類、聚類、序列分析、關(guān)聯(lián)分析和回歸分析等方面,對迭代計算、交互式查詢和計算精度的要求都很高。

2.2 醫(yī)學(xué)大數(shù)據(jù)Spark應(yīng)用案例

隨著Spark平臺不斷發(fā)展完善,一些醫(yī)學(xué)研究機構(gòu)開始使用Spark來提高數(shù)據(jù)處理能力。

美國的霍華德·休斯醫(yī)學(xué)研究所使用250個節(jié)點的Spark集群進行大腦工作機制的研究,通過統(tǒng)計分析、回歸分析、降維和聚類分析處理1TB/min的影像數(shù)據(jù),可在幾秒鐘之內(nèi)對6800萬條時間序列進行處理,研究大腦不同區(qū)域在處理特定方向移動時的表現(xiàn),生成大腦對方向響應(yīng)的高清區(qū)域圖。采用SparkStreaming實時監(jiān)視神經(jīng)元,以此來發(fā)現(xiàn)神經(jīng)元之間的互相影響。該研究是Spark用于處理醫(yī)學(xué)大數(shù)據(jù)的成功嘗試,在2013年Spark峰會上引起了強烈反響和關(guān)注。他們的研究一直持續(xù),并在2014年Spark峰會上開源了一個尋找模式復(fù)雜、高維神經(jīng)反應(yīng)的庫“Thunder”,采用Spark Streaming和MLLib進行流處理和機器學(xué)習算法的整合,適用于多種神經(jīng)數(shù)據(jù)的處理。

基因組學(xué)大數(shù)據(jù)分析在臨床醫(yī)療尤其是個性化醫(yī)療中將發(fā)揮非常關(guān)鍵的作用。2014年Spark峰會上,加州大學(xué)伯克利分校的研究人員介紹了他們將Spark引入到在基因組學(xué)研究中的部分成果。短讀基因序列校準器是數(shù)據(jù)處理中最昂貴的步驟之一,他們研發(fā)的基于Spark的核苷酸排列程序(ScalableNucleotide Alignment Program,SNAP)是迄今為止最準確和最快的校準器,使此類數(shù)據(jù)的處理速度比之前快3~10倍。ADAM是一個基于Spark的高性能DNA測序數(shù)據(jù)分析流程,能夠執(zhí)行復(fù)雜的計算密集型任務(wù)。使用一個82個節(jié)點的Spark集群,ADAM可以用比其他系統(tǒng)快50~110倍的速度來執(zhí)行基因?qū)W中兩個最關(guān)鍵的步驟。他們還將Spark處理平臺用于識別個體和參考標準之間的差異,提出了一種具有合適評價指標的基因組學(xué)基準SMASH。

3 小結(jié)

Spark作為一個開源的大數(shù)據(jù)處理平臺,以其內(nèi)存計算、可伸縮及高效的容錯特性,與分布式文件存儲系統(tǒng)、分布式數(shù)據(jù)庫結(jié)合使用,配合其豐富的生態(tài)系統(tǒng),解決了數(shù)據(jù)增長和處理性能需求之間存在的瓶頸問題。Spark能夠滿足醫(yī)學(xué)信息處理中以交互式查詢和迭代計算為代表的統(tǒng)計分析、數(shù)據(jù)挖掘、圖形計算等各種數(shù)據(jù)處理需求,可用于臨床轉(zhuǎn)化醫(yī)學(xué)研究、基于海量原始數(shù)據(jù)的實時衛(wèi)生統(tǒng)計和輔助決策、文獻挖掘、流行病預(yù)警和預(yù)測,加速從發(fā)現(xiàn)知識到實際應(yīng)用的過程,將在生物醫(yī)學(xué)大數(shù)據(jù)處理分析中得到更廣泛和深入的應(yīng)用。

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數(shù)據(jù)的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數(shù)據(jù)時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
开原市| 丰镇市| 景洪市| 永清县| 砚山县| 南漳县| 四平市| 中阳县| 新兴县| 壶关县| 大竹县| 博兴县| 泸水县| 巴塘县| 普格县| 乡城县| 黔西县| 台北市| 平乐县| 巩留县| 石林| 资阳市| 宁强县| 抚松县| 图片| 望城县| 宣化县| 合阳县| 旺苍县| 衡山县| 葵青区| 达拉特旗| 安泽县| 郧西县| 筠连县| 礼泉县| 静海县| 盘锦市| 泗阳县| 沁阳市| 三穗县|