□ 洪娜 錢慶 方安 吳思竹 楊林/中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020
數(shù)據(jù)驅(qū)動(dòng)的科學(xué)工作流及其在生物醫(yī)學(xué)中的應(yīng)用實(shí)踐*
□ 洪娜 錢慶 方安 吳思竹 楊林/中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020
E-Science關(guān)注數(shù)字環(huán)境下的科研活動(dòng),然而隨著生物醫(yī)學(xué)大數(shù)據(jù)的爆發(fā),數(shù)據(jù)密集型科學(xué)研究為e-Science帶來了新的挑戰(zhàn)。科學(xué)工作流通過形式化科學(xué)計(jì)算的流程,支持在一個(gè)專門的程序環(huán)境下自動(dòng)協(xié)調(diào)多任務(wù)多步驟的處理,從而減少科研投入,提高科研效率。文章首先歸納并總結(jié)了科學(xué)工作流的相關(guān)定義,然后分析了當(dāng)前主流的科學(xué)工作流系統(tǒng),提出科學(xué)工作流處理如何應(yīng)對(duì)密集的生物醫(yī)學(xué)數(shù)據(jù),并基于Taverna開展了生物醫(yī)學(xué)領(lǐng)域的科學(xué)工作流實(shí)驗(yàn)。最后總結(jié)了科學(xué)工作流當(dāng)前的研究現(xiàn)狀和存在的一些問題。
科學(xué)工作流,e-Science,數(shù)據(jù)密集,共享工作流,Taverna
作為繼理論和實(shí)驗(yàn)之后的第三種科研手段,科學(xué)計(jì)算已經(jīng)在科研領(lǐng)域中發(fā)揮著非常重要且不可替代的作用[1]??茖W(xué)計(jì)算通常需要組合涉及多個(gè)專業(yè)和領(lǐng)域的成千上萬的儀器設(shè)備、應(yīng)用程序、科研人員等對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)、查詢、移動(dòng)、處理、分析與可視化等操作,進(jìn)而幫助科學(xué)家進(jìn)行科學(xué)發(fā)現(xiàn)。如此復(fù)雜的計(jì)算流程和協(xié)同共享對(duì)目前的科研工作環(huán)境和科學(xué)計(jì)算支持工作平臺(tái)提出了嚴(yán)峻的挑戰(zhàn)。
科學(xué)工作流是指以數(shù)據(jù)驅(qū)動(dòng),面向科學(xué)實(shí)驗(yàn)過程的工作流。針對(duì)科學(xué)工作流,不同研究人員從不同的角度給出了不同的定義:在第四范式背景下[1],C. Goble等人認(rèn)為,“科學(xué)工作流是科研過程的精確描述,它包含一個(gè)能夠協(xié)調(diào)多任務(wù)的多步驟處理過程,就像一個(gè)復(fù)雜的腳本”。M. P. Singh等人則認(rèn)為[2]“科學(xué)工作流是描述求解科學(xué)問題中的一系列結(jié)構(gòu)化活動(dòng)和計(jì)算過程”;B. Ludascher等人將科學(xué)工作流定義為[3]“是完成一個(gè)科學(xué)目標(biāo)的過程的形式化描述,過程表示了計(jì)算任務(wù)及任務(wù)間的依賴關(guān)系”。
科學(xué)求解過程的特殊環(huán)境和獨(dú)特需求,使得科學(xué)工作流和一般事物型工作流在關(guān)鍵技術(shù)方面存在著明顯的不同??茖W(xué)工作流通過對(duì)復(fù)雜應(yīng)用程序及各程序間的數(shù)據(jù)依賴關(guān)系進(jìn)行組合,并控制各部分在時(shí)間、空間以及資源等約束條件下按序完成,為科學(xué)家進(jìn)行科學(xué)數(shù)據(jù)管理、分析、仿真和可視化等提供流程組合和自動(dòng)化運(yùn)行的管理平臺(tái),已經(jīng)成為復(fù)雜科學(xué)計(jì)算流程管理的必要手段,有效推動(dòng)了科學(xué)研究的進(jìn)展。在科學(xué)工作流的研究和發(fā)展歷程中,多個(gè)大型的科研組織針對(duì)各自需求及研究背景建設(shè)了面向不同應(yīng)用的科學(xué)工作流系統(tǒng),其中比較著名的有Taverna、Pegasus、Triana、Kepler、KNIME、GridFlow、ICENI等。
Taverna[4]是在英國(guó)e-Science研究框架下啟動(dòng)的項(xiàng)目myGrid中的一個(gè)子項(xiàng)目。myGrid主要為生物學(xué)和生物信息學(xué)領(lǐng)域的in silico實(shí)驗(yàn)進(jìn)行開發(fā),該實(shí)驗(yàn)的目標(biāo)在于使用計(jì)算機(jī)的信息存儲(chǔ)能力和分析能力來驗(yàn)證科學(xué)假設(shè)、論證理論推理、探索新模式或驗(yàn)證已知事實(shí);而myGrid則旨在為生物學(xué)研究人員提供一個(gè)透明的基于網(wǎng)格的實(shí)驗(yàn)環(huán)境進(jìn)行知識(shí)密集型任務(wù)的開發(fā),從而減少科學(xué)家在與具體計(jì)算相關(guān)的工作上的投入。Taverna平臺(tái)允許用戶在遠(yuǎn)程與本地機(jī)器上構(gòu)建復(fù)雜的分析工作流,并使用他們自己的數(shù)據(jù)來運(yùn)行工作流并對(duì)計(jì)算結(jié)果進(jìn)行可視化。
Triana[5]是由Cardiff大學(xué)在EU的資助下為GridLab實(shí)驗(yàn)開發(fā)的一個(gè)開源問題解決環(huán)境,在強(qiáng)大的數(shù)據(jù)分析工具中組合了一個(gè)可視化接口,已經(jīng)被科學(xué)家廣泛應(yīng)用于信號(hào)、文本與圖像處理等多個(gè)應(yīng)用領(lǐng)域中。Triana最初是在1990年為GEO600設(shè)計(jì)的,此后在多個(gè)領(lǐng)域中進(jìn)行了擴(kuò)展,目前系統(tǒng)中已經(jīng)開發(fā)了500多個(gè)應(yīng)用程序。Triana的一個(gè)重要的特征是系統(tǒng)中不存在任何控制結(jié)構(gòu),任務(wù)間所有的依賴關(guān)系都通過數(shù)據(jù)流進(jìn)行表達(dá),而循環(huán)選擇等復(fù)雜的控制結(jié)構(gòu)則通過專門的組件來實(shí)現(xiàn)。Triana也支持圖形化的流程設(shè)計(jì)方式,并將流程自動(dòng)保存成基于XML的作業(yè)描述語言GJD(GridLabJobDefinition)。Triana系統(tǒng)中支持多種類型服務(wù)的組合,其中包括Web服務(wù)、網(wǎng)格服務(wù)、Gridlab服務(wù)以及第三方服務(wù)等。
Pegasus[6]是美國(guó)的威斯康辛大學(xué)為GriPhyN項(xiàng)目開發(fā)的一個(gè)子項(xiàng)目,它是一個(gè)典型的使用規(guī)劃技術(shù)來支持流程動(dòng)態(tài)生成的工作流系統(tǒng),目前已經(jīng)應(yīng)用于生物信息學(xué)、生物學(xué)、宇航學(xué)、高能物理、地震波檢測(cè)與地震科學(xué)等研究領(lǐng)域中。與Taverna類似,在Pegasus中也實(shí)現(xiàn)了一個(gè)基于語義進(jìn)行流程組合和表達(dá)的工具Wings,科學(xué)家可以在功能層設(shè)計(jì)工作流而不需要考慮實(shí)際的執(zhí)行環(huán)境是網(wǎng)格還是一系列的Condor池或是本地機(jī)器,并通過XDTM語言對(duì)數(shù)據(jù)集與工作流流程進(jìn)行抽象描述形成抽象工作流。Pegasus架構(gòu)在底層作業(yè)調(diào)度器Condor和DAGMan之上,采取基于任務(wù)聚類的作業(yè)調(diào)度算法,工作流引擎對(duì)工作流任務(wù)進(jìn)行聚合后提交到合適的資源上,并由該資源上的DAGMan或Condor代理對(duì)作業(yè)進(jìn)行提交。
Kepler[7]是由美國(guó)國(guó)家科學(xué)基金(NSF)資助,由UC Berkeley和San Diego超級(jí)計(jì)算中心聯(lián)合開發(fā)的基于Java的科學(xué)工作流管理系統(tǒng),其目標(biāo)在于提供給科學(xué)家一個(gè)開源的科學(xué)工作流管理系統(tǒng)以幫助科學(xué)家進(jìn)行流程設(shè)計(jì),并在網(wǎng)格資源上進(jìn)行調(diào)度和執(zhí)行,達(dá)到提高工作效率的目標(biāo)。Kepler在Ptolemy II的基礎(chǔ)上開發(fā)而來,繼承了Ptolemy II面向角色建模的特點(diǎn),能在單個(gè)科學(xué)工作流中組合不同的計(jì)算模型,計(jì)算模型通過相應(yīng)的Director進(jìn)行控制。Kepler中的任務(wù)由Actor進(jìn)行表示,通過輸入輸出端口對(duì)多個(gè)Actor進(jìn)行連接,形成科學(xué)工作流。Kepler利用內(nèi)嵌的并行控制和工作流調(diào)度機(jī)制,將科學(xué)工作流的設(shè)計(jì)、執(zhí)行、運(yùn)行時(shí)交互、本地和遠(yuǎn)程數(shù)據(jù)訪問、本地和遠(yuǎn)程服務(wù)調(diào)度無縫地組合起來。Kepler主要應(yīng)用于生物學(xué)、生態(tài)學(xué)、天文學(xué)以及社會(huì)生態(tài)學(xué)等領(lǐng)域,也有多個(gè)應(yīng)用系統(tǒng)在其基礎(chǔ)上進(jìn)行二次開發(fā)。
KNIME(Konstanz Information Miner)[19]最初設(shè)計(jì)目標(biāo)是建立一個(gè)具有友好操作界面、智能的、集數(shù)據(jù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析和數(shù)據(jù)調(diào)查于一體的數(shù)據(jù)挖掘平臺(tái),目前也被用于一些場(chǎng)合的科學(xué)工作流建設(shè),如OpenPHACTS項(xiàng)目。KNIME使用戶以視覺化的方式創(chuàng)建數(shù)據(jù)流或數(shù)據(jù)通道以及工作流,可選擇性地運(yùn)行一些或全部的分析步驟,并可以對(duì)分析的結(jié)果進(jìn)行圖形處理以及交互式處理。
KNIME由Java寫成,其基于Eclipse并通過插件的方式來提供更多的功能,用戶也可以根據(jù)自己的需要,編寫具有獨(dú)特功能的節(jié)點(diǎn)。KNIME支持的處理操作廣泛,從最基本的數(shù)據(jù)操作(例如為統(tǒng)計(jì)函數(shù)進(jìn)行數(shù)據(jù)篩選、整合,如計(jì)算均值、標(biāo)準(zhǔn)差或是進(jìn)行線性回歸系數(shù)),到需要大量計(jì)算的數(shù)據(jù)處理任務(wù)(如聚類、決策樹、神經(jīng)網(wǎng)絡(luò))。此外,大多數(shù)的擁有建模功能的節(jié)點(diǎn)會(huì)為用戶提供一個(gè)交互式的環(huán)境,幫助用戶透過多種不同視圖來探索產(chǎn)生的數(shù)據(jù)。KNIME的數(shù)據(jù)流程包含若干節(jié)點(diǎn),節(jié)點(diǎn)之間通過流水線進(jìn)行連接,數(shù)據(jù)或模型在這些流水線上傳輸。每個(gè)節(jié)點(diǎn)會(huì)處理到來的數(shù)據(jù)或模型,當(dāng)需要數(shù)據(jù)輸出時(shí),節(jié)點(diǎn)會(huì)產(chǎn)生結(jié)果來滿足要求。
上述的5個(gè)系統(tǒng)有各自的特色,應(yīng)用的領(lǐng)域也有所不同。Taverna大量整合了分子生物學(xué)領(lǐng)域的工具和數(shù)據(jù)庫,支持針對(duì)特定領(lǐng)域的數(shù)據(jù)文檔的處理,并在myExperiment[8]中共享了大量已開發(fā)的工作流,具有較好的領(lǐng)域適用性。Kepler能操作很多格式的數(shù)據(jù),既可以本地運(yùn)行,也可以聯(lián)網(wǎng)運(yùn)行。強(qiáng)大的網(wǎng)絡(luò)能力使Kepler軟件能幫助用戶分享、復(fù)用那些由科學(xué)社區(qū)開發(fā)的數(shù)據(jù)、工作流和構(gòu)件,從而滿足一般的公共需求。所以需要遠(yuǎn)程交流的用戶可以考慮選擇Kepler。Pegesus系統(tǒng)都是基于分布式的,面向大數(shù)據(jù)量的計(jì)算,如果有許多數(shù)據(jù)需要計(jì)算,比如DNA序列的生物研究,還有天文學(xué)的相關(guān)研究,都需要進(jìn)行大量的數(shù)據(jù)計(jì)算,可以考慮使用上述系統(tǒng)。
目前,生物醫(yī)學(xué)數(shù)據(jù)呈現(xiàn)大規(guī)模、快速增長(zhǎng)的態(tài)勢(shì)。 隨著基因測(cè)序、高通量篩選等技術(shù)的快速發(fā)展,大量的候選基因被識(shí)別;基于QTL分析,每個(gè)染色體區(qū)域可以產(chǎn)生超過200個(gè)基因;微陣列基因表達(dá)研究可以將整個(gè)基因組嵌入到一個(gè)芯片上;而且這些基因信息在不斷地變化,這些現(xiàn)狀都為生物醫(yī)學(xué)領(lǐng)域的科學(xué)研究帶來巨大挑戰(zhàn),當(dāng)前的科學(xué)研究方法也呈現(xiàn)出了一定的局限性,主要體現(xiàn)在:
(1)數(shù)據(jù)規(guī)模過大,導(dǎo)致研究人員難以分析;
(2)為了開展研究,通常進(jìn)行數(shù)據(jù)的篩選,而這些篩選往往帶有科研人員的主觀色彩,甚至是采用不成熟的篩選策略;
(3)大多數(shù)情況下,科研人員仍然遵從假設(shè)驅(qū)動(dòng)的數(shù)據(jù)分析;
(4)科學(xué)數(shù)據(jù)的更新加快,常常需要對(duì)變化的數(shù)據(jù)進(jìn)行重新分析;
(5)有時(shí)候?yàn)榱藬?shù)據(jù)分析,采用并不恰當(dāng)?shù)姆椒ǎ?/p>
(6)錯(cuò)誤被逐層放大,這很可能是由于在某一個(gè)環(huán)節(jié)出現(xiàn)了人為錯(cuò)誤,或者是上述任何一種原因?qū)е隆?/p>
面對(duì)如此多的數(shù)據(jù)問題,科學(xué)研究過程迫切需要借助計(jì)算機(jī)技術(shù)來延伸科研人員的數(shù)據(jù)處理能力,這就需要用自動(dòng)化的方式來分析數(shù)據(jù)。科學(xué)工作流成為了解決這種數(shù)據(jù)困擾的途徑之一。
生物醫(yī)學(xué)研究的一個(gè)重要環(huán)節(jié)是科學(xué)實(shí)驗(yàn),而科學(xué)實(shí)驗(yàn)的一個(gè)重要特點(diǎn)則是實(shí)驗(yàn)過程的可重復(fù)性和實(shí)驗(yàn)結(jié)果的可驗(yàn)證性。在數(shù)據(jù)密集型數(shù)據(jù)實(shí)驗(yàn)過程中,科學(xué)工作流將會(huì)逐步成為數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究的重要核心,它提供一系列的技術(shù)手段用于支持科學(xué)實(shí)驗(yàn)??茖W(xué)工作流將會(huì)成為一種將常規(guī)科學(xué)研究過程進(jìn)行系統(tǒng)化、精確化、可重復(fù)執(zhí)行的理想模式。
從抽象層次來看,科學(xué)工作流是一種在計(jì)算機(jī)中實(shí)現(xiàn)的具備明確、準(zhǔn)確、模型化表示的科學(xué)實(shí)驗(yàn)操作協(xié)議,在多層次上來支持?jǐn)?shù)據(jù)驅(qū)動(dòng)的的科研,包括數(shù)據(jù)、服務(wù)、方法和工作流模板等,科學(xué)工作流將在以下方面發(fā)揮重要的作用[9,10]:
(1)科學(xué)工作流的動(dòng)態(tài)生成和自由組合功能能夠很好地支持科研人員將即刻的需求轉(zhuǎn)化為可操作的實(shí)踐;
(2)通過將現(xiàn)有工作流重新配置或改造成新的組件,加速科學(xué)實(shí)驗(yàn)設(shè)計(jì);
(3)科學(xué)工作流提供了一種系統(tǒng)化和自動(dòng)化的途徑,用來對(duì)各種不同的數(shù)據(jù)集進(jìn)行分析并支持多類型的應(yīng)用;
(4)科學(xué)工作流捕捉到了科研的形式化過程,從而使科研結(jié)果可以重現(xiàn),科研方法可以被檢驗(yàn)和重復(fù)利用,以及二次改造;
(5)科學(xué)工作流往往都提供一個(gè)可視化的界面幫助用戶操作,科研人員可以在不具備底層編程知識(shí)的背景下創(chuàng)建這些流水線,同時(shí)科研人員也不需要掌握所有的專業(yè)知識(shí),只需要對(duì)各種功能節(jié)點(diǎn)進(jìn)行組裝;
(6)超越數(shù)據(jù)集成,科學(xué)工作流固化了數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、算法的參數(shù)控制等高級(jí)過程;
(7)在一個(gè)通用軟件平臺(tái)和共享框架下,科學(xué)工作流將各種科學(xué)應(yīng)用以明確和可重用的規(guī)范集成進(jìn)來;
(8)科學(xué)工作流平臺(tái)是一個(gè)不斷增長(zhǎng)的資源池,在開放共享的科研趨勢(shì)下,大量的獨(dú)立資源會(huì)被不斷加入到這個(gè)資源池中,便于廣泛范圍下科研人員的訪問和使用。
由于科學(xué)求解過程的不同和數(shù)據(jù)類型的差異,一般情況下,科學(xué)工作流系統(tǒng)都有各自傾向的適用領(lǐng)域。由于Taverna大量整合了分子生物學(xué)領(lǐng)域的工具和數(shù)據(jù)庫,且能夠支持大部分的生物數(shù)據(jù)處理,被認(rèn)為是生物醫(yī)學(xué)領(lǐng)域的科學(xué)工作流代表性系統(tǒng)。
Taverna提供了一個(gè)用于流程定義的可視化操作平臺(tái),以及數(shù)據(jù)演化過程中的來源數(shù)據(jù)自動(dòng)捕獲和記錄功能,可以支持科學(xué)實(shí)驗(yàn)的重運(yùn)行。盡管Taverna并不能支持所有類型的醫(yī)學(xué)數(shù)據(jù),但它支持多種Web Services的服務(wù)調(diào)用,還支持可擴(kuò)展的組件集成,特殊需求的組件可以自行開發(fā)后嵌入到Taverna系統(tǒng)中,與它現(xiàn)有的組件共同生成工作流,具有足夠的擴(kuò)展功能??梢姡谏镝t(yī)學(xué)領(lǐng)域,Taverna是一個(gè)較為理想的科學(xué)工作流系統(tǒng)。
本文開展了基于Taverna的生物醫(yī)學(xué)工作流實(shí)踐,面向生物醫(yī)學(xué)具體應(yīng)用場(chǎng)景,基于Taverna平臺(tái)設(shè)計(jì)了一個(gè)從關(guān)聯(lián)數(shù)據(jù)中獲取Alzheimer病相關(guān)信息的工作流實(shí)例。在實(shí)踐過程中,本文詳細(xì)分析了Taverna的工作機(jī)制,對(duì)其進(jìn)行了配置、調(diào)用和測(cè)試。
Taverna提供了多達(dá)3000多個(gè)服務(wù),在進(jìn)行工作流組合時(shí),為了便于在大量服務(wù)中進(jìn)行查找和選擇,Taverna提供基于語義的服務(wù)組合方法,通過GRIMOIRES對(duì)服務(wù)進(jìn)行語義注冊(cè),并將語義元數(shù)據(jù)存儲(chǔ)在KAVA中;在流程設(shè)計(jì)過程中,由Feta組件對(duì)KAVA中的服務(wù)進(jìn)行語義查找并組合成抽象工作流;抽象工作流由Scufl語言進(jìn)行描述,并由工作流引擎FreeFluo來進(jìn)行解析和調(diào)度。圖1為Taverna 2.X系列版本的平臺(tái)模塊圖。
圖1 Taverna 2.x平臺(tái)結(jié)構(gòu)圖
圖2 Taverna的服務(wù)目錄
當(dāng)前采用的Taverna版本是2.2版,Taverna工作臺(tái)分為三個(gè)大的區(qū)域,分別是服務(wù)調(diào)用區(qū)、工作流瀏覽器和工作流面板。
服務(wù)調(diào)用區(qū)提供了所有可以訪問和使用的服務(wù),以樹形結(jié)構(gòu)組織了一個(gè)服務(wù)目錄,這些服務(wù)由本地服務(wù)和遠(yuǎn)程服務(wù)共同組成,能夠支持大多數(shù)生物醫(yī)學(xué)領(lǐng)域科學(xué)研究場(chǎng)景下的功能分解和流程組裝,如圖2所示。
工作流瀏覽器顯示了用戶編輯工作流的詳細(xì)信息,包含輸入、輸出的默認(rèn)值和描述,遠(yuǎn)程服務(wù)如何分配,也包括配置參數(shù)細(xì)節(jié)的顯示,例如迭代和循環(huán)。Taverna還支持對(duì)工作流的驗(yàn)證,在執(zhí)行一個(gè)工作流之前,Taverna會(huì)檢查它的內(nèi)部連通性以及服務(wù)可獲得性等。
工作流面板是當(dāng)前編輯工作流的可視化顯示區(qū)域,它支持輸入、輸出、服務(wù)和數(shù)據(jù)流的顯示,支持通過拖拽的方式連接服務(wù)或者編輯工作流,面板還支持對(duì)工作流的存儲(chǔ)和共享。一個(gè)工作流面板中編輯的工作流實(shí)例如圖3所示。
以上工作流支持從Bio2RDF中獲取有關(guān)Alzheimer疾病相關(guān)的基因、蛋白、遺傳、PubMed文獻(xiàn)等信息,該實(shí)例可以擴(kuò)展到任何一種疾病相關(guān)信息的查詢。該實(shí)例是基于myExperiment中的工作流進(jìn)行的二次開發(fā),myExperiment是一個(gè)優(yōu)秀的工作流倉儲(chǔ),其中存儲(chǔ)了大量的共享工作流,支持用戶的二次利用?;诖罅康墓蚕砉ぷ髁骱蚑averna的服務(wù),我們可以認(rèn)為任何科研流程的形式化表示,都可以通過Taverna實(shí)現(xiàn),關(guān)鍵的問題是在復(fù)雜性和重用性之間進(jìn)行取舍,從而形式化那些適合用工作流長(zhǎng)期存儲(chǔ)和執(zhí)行的科研過程。
圖3 工作流實(shí)例——查找Bio2RDF關(guān)聯(lián)數(shù)據(jù)中有關(guān)Alzheimer病的相關(guān)信息
盡管科學(xué)工作流已經(jīng)在眾多的科研領(lǐng)域開展了實(shí)驗(yàn),但是其發(fā)展仍然受限于多種因素,諸如工作流系統(tǒng)之間缺少支持互操作的標(biāo)準(zhǔn)、用戶不同層面的需求難以同時(shí)滿足、來源數(shù)據(jù)的及時(shí)獲取不易實(shí)現(xiàn)等問題,但是目前最迫切需要解決的問題是工作流的共享和利用,建立一個(gè)保障工作流長(zhǎng)期保存和演化的機(jī)制,才能真正推動(dòng)科學(xué)工作流的應(yīng)用;同時(shí)利用用戶共享和用戶標(biāo)注的機(jī)制,支持工作流的組織和獲取;工作流開發(fā)者在共享工作流時(shí)應(yīng)當(dāng)盡量多地提供元數(shù)據(jù)和描述文檔,從而有效支持工作流的利用和二次開發(fā);為了保障工作流的靈活機(jī)制,應(yīng)當(dāng)盡可能地創(chuàng)建獨(dú)立功能的小型工作流,多個(gè)小型工作流可以靈活組裝成面向不同功能的大型復(fù)雜工作流。由此,科學(xué)工作流才能真正發(fā)揮其價(jià)值,將科學(xué)家從繁瑣的常規(guī)數(shù)據(jù)處理工作中解脫出來,使他們集中精力關(guān)注研究?jī)?nèi)容,促進(jìn)研究探索和科學(xué)發(fā)現(xiàn)。
[1] GOBLE C, DE ROURE D. The impact of workflow tools on datacentric research [J]. 2009.
[2] SINGH M P, VOUK M A. Scientific workflows: scientific computing meets transactional workflows [C]//Proceedings of the NSF Workshop on Workflow and Process Automation in Information Systems: State-of-the-Art and Future Directions. 1996: 28-34.
[3] LUD?SCHER B, ALTINTAS I, BOWERS S, et al. Scientific process automation and workflow management [J]. Scientific Data Management: Challenges, Existing Technology, and Deployment, Computational Science Series, 2009: 476-508.
[4] OINN T, GREENWOOD M, ADDIS M, et al. Taverna: lessons in creating a workflow environment for the life sciences [J]. Concurrency and Computation: Practice and Experience, 2006, 18(10): 1067-1100.
[5] MAJITHIA S, SHIELDS M, TAYLOR I, et al. Triana: A graphical web service composition and execution toolkit [C]//Proceedings, IEEE International Conference on Web Services, IEEE, 2004: 514-521.
[6] DEELMAN E, SINGH G, SU M H, et al. Pegasus: A framework for mapping complex scientific workflows onto distributed systems [J]. Scientific Programming, 2005, 13(3): 219-237.
[7] ALTINTAS I, BERKLEY C, JAEGER E, et al. Kepler: an extensible system for design and execution of scientific workflows [C]//Proceedings, 16th International Conference on Scientific and Statistical Database Management. IEEE, 2004: 423-424.
[8] myExperiment [EB/OL].[2013-12-29]. http://www.myexperiment. org/.
[9] DEELMAN E, GANNON D, SHIELDS M. Workflows for e-Science [M]. Springer-Verlag London Limited, 2007.
[10] The fourth paradigm: data-intensive scientific discovery [J]. 2009.
Data Driven Scientific Workflow and Its Application in Biomedicine
Hong Na, Qian Qing, Fang An, Wu Sizhu, Yang Lin/Institute of Medical Information of Chinese Academy of Medical Sciences, Beijing, 100020
E-Science focuses on the scientific activities under digital environment. However, with the burst of biomedical big data, data intensive scientific research brings the new challenges to e-Science. Scientific workflow supports formalizing the flow of scientific computing, automatically coordinates multi-task and multi-steps process under a special program environment for reducing cost and promoting efficiency. In this paper, we explicit the definition of scientific workflow and then analyze the main current scientific workflow systems, besides, we propose how to deal with intensive biomedical data within scientific workflow, and some experiments have been done by using Taverna workbench. Finally, we conclude state of art of current research and some problems in this field.
Scientific workflow, e-Science, Data intensive, Workflow share, Taverna
2014-02-14)
10.3772/j.issn.1673—2286.2014.03.004
*本文系國(guó)家“十二五”科技支撐計(jì)劃項(xiàng)目課題“科技知識(shí)組織體系共享服務(wù)平臺(tái)建設(shè)”(編號(hào):2011BAHl0B03)、國(guó)家社會(huì)科學(xué)基金項(xiàng)目“關(guān)聯(lián)數(shù)據(jù)中潛在知識(shí)關(guān)聯(lián)的發(fā)現(xiàn)方法研究”(編號(hào):11CTQ016)和中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)課題“面向大數(shù)據(jù)的醫(yī)學(xué)科研支撐環(huán)境建設(shè)初步研究”(編號(hào):13R0102)的研究成果之一。
洪娜(1980- ),中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所副研究員,研究方向:語義Web、關(guān)聯(lián)數(shù)據(jù)、大數(shù)據(jù)。E-mail: hong.na@imicams.ac.cn
錢慶(1970- ),中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所研究員,研究方向:知識(shí)組織、知識(shí)發(fā)現(xiàn)、大數(shù)據(jù)。
方安(1976- ),中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所副研究員,研究方向:知識(shí)組織,工具集成。
吳思竹(1981- ),中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所副研究員,研究方向:文本挖掘,知識(shí)組織。
楊林(1984- ),中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所副研究員,研究方向:科學(xué)數(shù)據(jù),數(shù)字圖書館。