■高 雅 翁彥琴 董文杰
中國科學(xué)院文獻(xiàn)情報(bào)中心,北京市中關(guān)村北四環(huán)西路33號 100190
21世紀(jì)以來,數(shù)字技術(shù)的發(fā)展掀起了出版?zhèn)鞑ヮI(lǐng)域革命性的創(chuàng)新浪潮,對出版媒介的形態(tài)、出版內(nèi)容的形式乃至出版觀念都帶來了前所未有的沖擊和變革。在這個過程中,網(wǎng)絡(luò)出版和數(shù)據(jù)出版等新興出版形態(tài)應(yīng)運(yùn)而生,海量的科學(xué)數(shù)據(jù)不斷被生成和發(fā)布,尤其是大數(shù)據(jù)概念的提出,使得科學(xué)研究變成以數(shù)據(jù)驅(qū)動為主的研究模式[1]。
科學(xué)數(shù)據(jù)的潛在價(jià)值也逐漸喚醒了出版領(lǐng)域?qū)?shù)據(jù)開放與共享的重視。2008年,BioMed Central出版社較早地進(jìn)行了數(shù)據(jù)期刊的探索性實(shí)驗(yàn),出版了開放獲取期刊BMC Research Notes,以數(shù)據(jù)論文作為其子欄目之一。2009年,由Copernicus Publications出版的Earth System Science Data以發(fā)表數(shù)據(jù)論文為主要形式[2]。2014年5月,自然出版集團(tuán)(Nature Publishing Group,NPG)推出了在線出版的開放獲取數(shù)據(jù)期刊——Scientific Data,該雜志要求作者針對數(shù)據(jù)集進(jìn)行詳細(xì)描述,幫助科研人員發(fā)布、發(fā)現(xiàn)和重用研究數(shù)據(jù)[3]。Nature雜志在2014年10月申明,在其上發(fā)表的論文的計(jì)算機(jī)代碼數(shù)據(jù)將可被訪問,作者需要申明是否提供計(jì)算機(jī)代碼以及所設(shè)置的訪問權(quán)限[4]。面對數(shù)據(jù)出版的蓬勃發(fā)展,科學(xué)數(shù)據(jù)資源不僅被視為科學(xué)研究的成果,同樣成為了支持更為復(fù)雜的創(chuàng)新研究所不可替代的資源存量,具有明顯的可開發(fā)價(jià)值[5]。如何對不同出版平臺上的科學(xué)數(shù)據(jù)進(jìn)行管理、共享、集成和挖掘,讓科學(xué)數(shù)據(jù)實(shí)現(xiàn)價(jià)值的最大化,幫助研究人員和科學(xué)家們更容易地將科學(xué)數(shù)據(jù)運(yùn)用于自己的研究工作中,成為傳統(tǒng)研究機(jī)構(gòu)、出版機(jī)構(gòu)以及廣大研究人員共同關(guān)心的問題[6]。
相關(guān)學(xué)者已經(jīng)對科學(xué)數(shù)據(jù)開放和出版展開了大量的研究。相關(guān)研究主要集中在對科研機(jī)構(gòu)[7]、學(xué)術(shù)期刊[8]等的數(shù)據(jù)政策的調(diào)研與分析,對國內(nèi)外科學(xué)數(shù)據(jù)開放和出版現(xiàn)狀[9-10]、特點(diǎn)[1]以及類型[11]的總結(jié)等方面。本文嘗試從科學(xué)數(shù)據(jù)挖掘和利用的實(shí)踐角度探討如何致力于提高用戶對開放科學(xué)數(shù)據(jù)的利用程度和效果。Nature Publishing Group(NPG)的 ENCODE(the Encyclopedia of DNA Elements)項(xiàng)目在這個方面做了許多有益的嘗試,開創(chuàng)了一種全新的出版模式,實(shí)現(xiàn)了在不同雜志之間進(jìn)行主題線索的交織。因在出版創(chuàng)新方面的突出貢獻(xiàn),Nature ENCODE項(xiàng)目入圍2013年ALPSP出版創(chuàng)新獎提名[12]。
本文在介紹ENCODE項(xiàng)目背景的基礎(chǔ)上,以出版模式創(chuàng)新的角度,從Nature ENCODE創(chuàng)造的引導(dǎo)工具 Nature ENCODE Explorer和提出的新概念Thread以及開發(fā)的分析工具ENCODE analysis virtual machine三個方面探討項(xiàng)目方案,并以ENCODE Explorer展示界面為例介紹引導(dǎo)工具的效果與呈現(xiàn),以期展現(xiàn)這種出版模式在科學(xué)數(shù)據(jù)挖掘和利用方面的創(chuàng)新之處,最后簡要總結(jié)該出版模式的特點(diǎn)并展望其后續(xù)發(fā)展?fàn)顩r。
ENCODE是由美國國立人類基因組研究院(US National Human Genome Research Institute,NHGRI)在2003年9月組織并啟動的跨國研究項(xiàng)目。ENCODE項(xiàng)目的一個主要目標(biāo)就是去分析人類的基因組中占98.5%的所謂“垃圾”序列的功能。經(jīng)過項(xiàng)目探索后發(fā)現(xiàn),在人類基因組中,大約有80%的DNA至少從生物化學(xué)角度來看是有目的或者說是有功能的[13-14]。2012年 12月 21日,ENCODE項(xiàng)目被Science評為年度十大科學(xué)突破之一[15]。
ENCODE項(xiàng)目的價(jià)值不僅僅在于對人類生命科學(xué)領(lǐng)域的重大貢獻(xiàn)。ENCODE項(xiàng)目自2003年啟動之后,吸引了來自美國、英國、西班牙、日本和新加坡五國的32個研究機(jī)構(gòu)的442名科學(xué)家參與,項(xiàng)目于2012年9月基本結(jié)題,并將該項(xiàng)目的階段性研究成果整理成30篇論文,發(fā)表于Nature(6 篇)、Genome Research(6 篇)和Genome Biology(18 篇)三本雜志上[13]。 項(xiàng)目組在研究過程中積累了豐富的數(shù)據(jù)資源,獲得并分析了超過15萬億字節(jié)的原始數(shù)據(jù)。到項(xiàng)目結(jié)項(xiàng)時,共產(chǎn)生了1640個數(shù)據(jù)集,參與ENCODE項(xiàng)目研究的科研人員累計(jì)發(fā)表了400多篇論文,其中,有110多篇論文使用了ENCODE公布的研究數(shù)據(jù)[14]。
為了充分利用如此龐大的數(shù)據(jù)和文獻(xiàn)資源,NHGRI早在2007年9月便投入了資金使ENCODE工程規(guī)?;⒘藬?shù)據(jù)協(xié)調(diào)中心(Data Coordinating Center,DCC)和數(shù)據(jù)分析中心(Data Analysis Center),前者用于追蹤、存儲和公布數(shù)據(jù),而后者則用來對數(shù)據(jù)進(jìn)行綜合分析[16]。目前,所有ENCODE項(xiàng)目中產(chǎn)生的數(shù)據(jù)會被提交到數(shù)據(jù)協(xié)調(diào)中心進(jìn)行質(zhì)量控制并發(fā)布,發(fā)布后用戶即可通過ENCODE項(xiàng)目注冊的門戶網(wǎng)站(http://www.encodeproject.org)免費(fèi)獲取到。
為了科研的需要,幾乎所有的研究人員在面對大量信息和數(shù)據(jù)時,都會對搜集的研究論文、科研報(bào)告或書籍中最感興趣的內(nèi)容進(jìn)行重點(diǎn)標(biāo)記或者整理,從而在腦海中和書面上建立條理清晰的“信息圖譜”。而NPG將這一過程“工具化”了,為了幫助他人瀏覽和分析ENCODE項(xiàng)目產(chǎn)生的30篇公開論文和大量數(shù)據(jù),NPG充分運(yùn)用數(shù)據(jù)可視化技術(shù)創(chuàng)造了一個互動的形象化引導(dǎo)工具——Nature ENCODE Explorer。NPG為ENCODE項(xiàng)目創(chuàng)建的網(wǎng)站(http://www.nature.com/encode/)通過 Nature ENCODE Explorer把發(fā)表在不同期刊上的30篇相關(guān)論文有效整合在一起。Nature ENCODE Explorer是NPG與After the Flood公司合作完成的一個可視化項(xiàng)目,其作為一個互動的形象化的引導(dǎo)工具,展示了人類基因組相關(guān)論文中主題內(nèi)容之間的關(guān)聯(lián),為使用者提供了一個與ENCODE項(xiàng)目組論文進(jìn)行交互的方式。使用者在Nature ENCODE Explorer中既可以瀏覽單篇的論文,也可以通過Thread深入探究這些文章中的“原材料”。
Nature ENCODE Explorer的設(shè)計(jì)原則:①敏感的顏色層次。在對每個Thread的顏色進(jìn)行編碼的時候,對顏色與顏色之間做足夠的區(qū)分。②重要的顏色被預(yù)留下來并用于關(guān)鍵功能元件。這個程序的關(guān)鍵在于——不僅僅需要做可視化設(shè)計(jì),也要考慮可視化環(huán)境、可視化控制、與其他網(wǎng)站或應(yīng)用程序的鏈接,并始終把用戶視作界面設(shè)計(jì)過程的中心。
After the Flood公司是這樣評價(jià)ENCODE計(jì)劃的:“NPG在紙版科學(xué)可視化方面有豐富的經(jīng)驗(yàn),但這次是他們迄今為止最雄心勃勃的數(shù)字可視化項(xiàng)目?!保?7]NPG對計(jì)劃的科學(xué)性、完整性進(jìn)行了測試,并希望系統(tǒng)能在瀏覽器和平板電腦上工作,所以需要非常強(qiáng)大、實(shí)用以及創(chuàng)新的可視化效果。如今,Nature ENCODE Explorer由于它的易用性獲得了科學(xué)界的諸多贊譽(yù)。
所謂“Thread”,即“線程”,也稱為“主題線程”(Themed Thread),是ENCODE提出的一個科學(xué)信息出版的新概念,開辟了一種全新的數(shù)據(jù)挖掘程序。
如果孩子稍微慢一點(diǎn),媽媽就失去了耐心,還給孩子貼上“磨蹭”的標(biāo)簽,會強(qiáng)化孩子磨蹭的心理——你看,我就是這么慢!導(dǎo)致如果是必須做的事情他就慢慢做,如果是可以不做的事情他就拖著不做。
當(dāng)一個大型研究項(xiàng)目長時間內(nèi)產(chǎn)生大量數(shù)據(jù)時,這些數(shù)據(jù)可能涵蓋很多不同層次和主題的信息。ENCODE項(xiàng)目在準(zhǔn)備發(fā)布其第一輪研究結(jié)果時就意識到,他們必須決定哪些信息在傳統(tǒng)的研究論文范圍內(nèi)是最突出和最完整的。為了將這些包含在多個文件中的支離破碎的信息進(jìn)行整合,他們建立了一套“Thread”。Thread是 Nature ENCODE Explorer的核心,是一個探索多篇文章中的共同主題的方式,使得看似普通的研究報(bào)告在數(shù)字世界里以一種整合的形式呈現(xiàn)在讀者面前,滿足了研究人員希望能將每篇文章中最感興趣的關(guān)注點(diǎn)進(jìn)行拼貼匯總的需求。
ENCODE項(xiàng)目的作者除了完成論文的創(chuàng)作之外,還需要做一些額外的工作,即從每篇文章中挑選出他們認(rèn)為能夠引起不同研究領(lǐng)域內(nèi)的科學(xué)家們極大興趣的部分。這個提煉精華的步驟是研究人員們所希望看到的,同時也是科學(xué)信息發(fā)布的過程之一。于是,Nature的編輯們對項(xiàng)目發(fā)表的30篇文章中的相關(guān)段落和圖表進(jìn)行了整合匯總,提煉出了文章中的13個生物主題,形成了13個“Thread”。需要說明的是,這13個Thread并不是含有ENCODE項(xiàng)目原始數(shù)據(jù)的生物主題,而是對文章中的內(nèi)容進(jìn)行的提煉匯總,每個Thread都是由一個特定主題的相關(guān)文章中的段落、數(shù)字和表格組成,其中包含有相關(guān)文章的鏈接,讀者們能夠很方便地在多篇文章之間切換,清楚地了解數(shù)據(jù)之間是如何聯(lián)系起來的。
盡管Thread至今還沒有一個標(biāo)準(zhǔn)的定義,也不能被數(shù)據(jù)庫檢索,但這種方式提供了一個從不同角度探索文章中信息的工具,力求使文章的價(jià)值最大化。與ENCODE項(xiàng)目的作者們共事的Nature雜志編輯Skipper曾說過:“研究者們喜歡線程的原因是其視覺吸引力和內(nèi)容富有價(jià)值。未來的一個理想狀態(tài)是能夠自動生成任何主題的線程?!保?8]
除了Thread的概念以外,ENCODE項(xiàng)目還同時引入了另一項(xiàng)科技創(chuàng)新技術(shù)——虛擬計(jì)算機(jī)(ENCODE analysis virtualmachine),幫助用戶對文章中的數(shù)據(jù)集進(jìn)行重用和計(jì)算。在Nature發(fā)表的這30篇文章中,有一篇ENCODE項(xiàng)目的概述文章中的“supplementary information(補(bǔ)充信息)”部分,包含了一套代碼包,這套代碼包提供與文章相關(guān)的分析方法的腳本和處理步驟。分析團(tuán)隊(duì)基于這套代碼包建立了一個ENCODE分析虛擬機(jī),其中每個分析程序都已經(jīng)進(jìn)行了運(yùn)行測試,并且實(shí)現(xiàn)了一部分的實(shí)例提供給使用者,方便其決定是否或者如何建模分析。
ENCODE項(xiàng)目團(tuán)隊(duì)一直強(qiáng)調(diào)“透明度”。首先,虛擬計(jì)算機(jī)對使用者是免費(fèi)提供的;其次,使用者可以隨意運(yùn)用相關(guān)軟件對ENCODE的數(shù)據(jù)進(jìn)行數(shù)據(jù)集計(jì)算。既可以進(jìn)行數(shù)據(jù)的調(diào)閱、拼接、分析、整合和預(yù)測,也可以對文章中某些特定內(nèi)容進(jìn)一步分析研究,通過調(diào)整某些具體的參數(shù),發(fā)現(xiàn)原作者沒有發(fā)現(xiàn)的現(xiàn)象或規(guī)律。項(xiàng)目的成員還開發(fā)和訓(xùn)練了諸多軟件工具,例如用于對多種數(shù)據(jù)類型進(jìn)行綜合分析的軟件等。
這種看似復(fù)雜的多樣性的分析方法對于從事研究工作的科學(xué)家們并不陌生,但也許會令缺少大數(shù)據(jù)處理經(jīng)驗(yàn)的人感到困惑。然而,設(shè)計(jì)分析工具的目的不是提供易于使用的程序,或強(qiáng)大的工程解決方案,而是使得分析結(jié)果更具科學(xué)透明度。
另外需要說明的是,為了保證用于分析挖掘的科學(xué)數(shù)據(jù)的數(shù)量和質(zhì)量,ENCODE制定了其數(shù)據(jù)發(fā)布政策,并定期更新。最新的ENCODE數(shù)據(jù)發(fā)布政策發(fā)布于2014年3月,以便研究者自由下載、分析和發(fā)布基于ENCODE數(shù)據(jù)的研究結(jié)果。首先,ENCODE項(xiàng)目組鼓勵盡可能廣泛地使用數(shù)據(jù)集,生產(chǎn)的所有數(shù)據(jù)在被釋放到公共數(shù)據(jù)庫之后,便可被不受限制地使用。其次,鼓勵使用未發(fā)布的ENCODE數(shù)據(jù)的研究人員與該數(shù)據(jù)的提供者協(xié)商,合作發(fā)表出版物。當(dāng)然這是非強(qiáng)制性的建議。再次,政策要求研究者在出版物或發(fā)言中使用ENCODE的數(shù)據(jù)集(發(fā)布的和未發(fā)布的)時,要以一定的形式援引ENCODE聯(lián)盟,例如引用聯(lián)盟最新的綜合出版物,或者提及ENCODE數(shù)據(jù)協(xié)調(diào)中心(DCC),或數(shù)據(jù)集在GEO數(shù)據(jù)庫里的唯一識別號,或者承認(rèn)是由ENCODE聯(lián)盟和實(shí)驗(yàn)室產(chǎn)生了特定的數(shù)據(jù)集。
在Nature ENCODE的網(wǎng)站(http://www.nature.com/encode/)上,匯集了ENCODE計(jì)劃的主要研究成果——同時發(fā)表在 Nature,Genome Research和Genome Biology上的30篇相關(guān)論文和眾多的綜合分析。網(wǎng)站首頁上方嵌入了Nature ENCODE Explorer的展示界面,簡潔明了地提示用戶需要做什么,即從13個Thread中任選其一,點(diǎn)擊查看(參見圖1)。
當(dāng)一個Thread被觸發(fā)時,會呈現(xiàn)對該Thread的概述(Thread Overview),并且與該Thread相關(guān)聯(lián)的論文會高亮突出顯示。任意選擇一篇相關(guān)論文,界面右側(cè)將會呈現(xiàn)這篇文章的基本信息,包括文章作者、題目、發(fā)表刊物、刊期,并提供一個閱讀全文的鏈接(如圖2所示)。值得一提的是,界面還會提示用戶該文章所屬的其他主題,用戶可隨意點(diǎn)擊其編號進(jìn)行主題的切換,查看文章所屬的其他主題。如前文所述,Nature ENCODE Explorer為用戶匯總了13個特定的科學(xué)主題,用戶點(diǎn)擊“Read Thread”按鈕,即可深入探究一個特定主題線程的詳情,包含了從發(fā)表的ENCODE論文中提取的相關(guān)章節(jié)、圖表等內(nèi)容(如圖3所示)。
圖2 Nature ENCODE Explorer的 Thread[20]
圖3 某個Thread的詳情[21]
ENCODE促發(fā)了一種新的出版模式的出現(xiàn),這種出版模式在科學(xué)數(shù)據(jù)挖掘和利用方面的創(chuàng)新之處可以總結(jié)為以下兩點(diǎn):第一,項(xiàng)目創(chuàng)建的Nature ENCODE Explorer可以把不同期刊上相關(guān)論文的內(nèi)容歸類,基于可視化技術(shù)和數(shù)據(jù)挖掘技術(shù),創(chuàng)造易于使用的可視化工具,對項(xiàng)目成果進(jìn)行了有效整合;第二,ENCODE注重科學(xué)數(shù)據(jù)的重用,引入分析工具有效提升科學(xué)數(shù)據(jù)的再生價(jià)值。
然而在推廣這種模式的過程中,也會面臨一些障礙。首先,目前的文本挖掘工具還有些滯后,例如還不能充分提取相關(guān)的數(shù)據(jù)或條目。其次,整合不同期刊上的論文建立在不同出版商合作關(guān)系的基礎(chǔ)之上,還可能受到論文的開放獲取方式和相關(guān)版權(quán)協(xié)議的制約,如果出版商拒絕合作,“Thread”將難以組織而失去意義;再次,虛擬計(jì)算機(jī)的運(yùn)行需要組織得當(dāng)?shù)?、完全開放的數(shù)據(jù),這也將是一項(xiàng)困難的工作。盡管面臨這些實(shí)際問題,項(xiàng)目組在結(jié)題之后的幾年中并沒有停止成果產(chǎn)出,期間不斷有科研論文問世,項(xiàng)目產(chǎn)生的數(shù)據(jù)集也在不斷增加。
開放共享已經(jīng)成為信息社會發(fā)展的必然趨勢,伴隨著大數(shù)據(jù)技術(shù)在出版領(lǐng)域的逐步滲透和數(shù)據(jù)開放步伐的加快,科學(xué)家們獲得了比以往更多的可支配數(shù)據(jù)。對于科技期刊來說,如果能夠克服政策和技術(shù)的障礙,允許對期刊論文(數(shù)據(jù))進(jìn)行重用,把不同出版平臺上的論文(數(shù)據(jù))以一定的標(biāo)準(zhǔn)整合在一起,由學(xué)界將各自研究領(lǐng)域中感興趣的內(nèi)容進(jìn)行歸類和整合,再配合數(shù)據(jù)可視化技術(shù)充分展現(xiàn)數(shù)據(jù)背后的精彩,將會營造一個更加開放、互動性更強(qiáng)、科研成果更豐富的學(xué)術(shù)環(huán)境,相信這將是科學(xué)家和研究人員們所期許的。
致謝:感謝中國科學(xué)院文獻(xiàn)情報(bào)中心編輯出版中心動態(tài)研究組以及馬建華老師的精心指導(dǎo)。
[1]李志芳,鄧仲華.國內(nèi)開放科學(xué)數(shù)據(jù)的分布及其特點(diǎn)分析[J].情報(bào)科學(xué),2015(3):45-49.
[2]歐陽崢崢,青秀玲,顧立平,等.國際數(shù)據(jù)期刊出版的案例分析及其特征[J].中國科技期刊研究, 2015,26(5):437-444.
[3]Welcome to Scientific Data[EB/OL].[2015-07-01].http://www.nature.com/sdata/about.
[4]Code Share[EB/OL].[2015-07-01].http://www.nature.com/news/code-share-1.16232.
[5]左建安,陳雅.基于大數(shù)據(jù)環(huán)境的科學(xué)數(shù)據(jù)共享模式研究[J].情報(bào)雜志, 2013,32(12):151-154.
[6]黃如花,邱春艷.國外科學(xué)數(shù)據(jù)共享研究綜述[J].情報(bào)資料工作,2013(4):24-30.
[7]楊云秀,顧立平,張瑤,等.國外科研教育機(jī)構(gòu)數(shù)據(jù)政策的調(diào)研與分析——以英國10所高校為例[J].圖書情報(bào)工作,2015,59(3):53-60.
[8]劉晶晶,顧立平.數(shù)據(jù)期刊的政策調(diào)研與分析——以Scientific Data為例[J].中國科技期刊研究,2015,26(4):331-339.
[9]吳立宗,王亮緒,南卓銅,等.科學(xué)數(shù)據(jù)出版現(xiàn)狀及其體系框架[J].遙感技術(shù)與應(yīng)用,2013,28(3):383-389.
[10]黃永文,張建勇,黃金霞,等.國外開放科學(xué)數(shù)據(jù)研究綜述[J].數(shù)字圖書館, 2013(5):21-27.
[11]劉鳳紅,崔金鐘,韓芳橋,等.數(shù)據(jù)論文:大數(shù)據(jù)時代新興學(xué)術(shù)論文出版類型探討[J].中國科技期刊研究,2014,25(12):1451-1456.
[12]ALPSPAwards2013-theWinners[EB/OL].[2015-07-01].http://www.alpsp.org/Ebusiness/AboutALPSP/ALPSPStatements/Statementdetails.aspx?ID=500.
[13]ENCODE:The Human Encyclopaedia[EB/OL].[2015-07-01].http://www.nature.com/news/encode-the-human-encyclopaedia-1.11312.
[14]Elizabeth Pennisi.ENCODE ProjectWrites Eulogy for Junk DNA[J].Science, 2012, 337(6099):1159-1161.
[15]Science年度十大科學(xué)突破公布[EB/OL].[2015-07-01].http://www.ebiotrade.com/newsf/2012-12/201212191739 17404.htm.
[16]The ENCODE Project:ENCyclopedia Of DNA Elements.[EB/OL].[2015-07-01].http://www.genome.gov/10005107.
[17]Encode Explorer. [EB/OL]. [2015-07-01].http://aftertheflood.co/projects/encode-explorer.
[18]ENCODE's Threads. [EB/OL]. [2015-07-01].http://biomedicalcomputationreview.org/content/encodes-threads.
[19]Nature Encode.[EB/OL].[2015-07-01].http://www.nature.com/encode/.
[20]Thread Overview.[EB/OL].[2015-07-01].http://www.nature.com/encode//threads/characterization-of-network-topology/long-range-interaction-landscape-of-gene-promoters.
[21]Characterization of Network Topology.[EB/OL]. [2015-07-01].http://www.nature.com/encode/threads/characterizationof-network-topology.