文/王勝開 王偉
科研信息化技術支撐條件發(fā)展研究
文/王勝開 王偉
信息化的發(fā)展對科研活動產生深刻影響,極大地增強了人們的科研能力和協(xié)同合作能力,創(chuàng)造了新的科研工作模式,拓展了科研思路、開辟了新興領域、推動了科學發(fā)展。這一切都是在強大的技術支撐下實現(xiàn)的。隨著現(xiàn)代科研問題越來越復雜、科研工作越來越精細、工程規(guī)模越來越龐大、科研數(shù)據(jù)越來越海量,對科研方法和科研手段不斷提出新挑戰(zhàn),更加需要現(xiàn)代化的技術條件、網絡化的基礎實施、信息化的科研環(huán)境提供強力支撐。
下面基于科研信息化的基本含義,以科研數(shù)據(jù)為基線,結合科研工作涉及的主要活動,從數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)傳輸、數(shù)據(jù)計算、科研管理等方面出發(fā),闡述科研信息化關鍵支撐技術的發(fā)展狀況。
科學數(shù)據(jù)已成為信息時代的一種戰(zhàn)略性資源,呈現(xiàn)海量化、多樣化、復雜化、精細化等發(fā)展特點。隨著科研信息化的推進,數(shù)據(jù)密集型、驅動型的科研活動和方式不斷涌現(xiàn)。做好數(shù)據(jù)采集是開展科研工作的第一步,在先進技術支撐下,數(shù)據(jù)采集正由傳統(tǒng)的人工觀測、記錄方式轉為基于網絡的、計算機、傳感器與PDA等設備支撐下的自動采集、記錄方式,并迅速向衛(wèi)星遙感、遙測獲取數(shù)據(jù)的方向發(fā)展。
就我國而言,近年來,我國自主研制的對地觀測遙感衛(wèi)星得到巨大發(fā)展,已形成氣象、海洋、資源三大衛(wèi)星系列,并正著手建設環(huán)境與災害衛(wèi)星星座。新型科研儀器和設備,如巡天望遠鏡、宇宙觀測設施、“子午工程”空間系統(tǒng)等,均可直接產生海量的數(shù)字數(shù)據(jù)。在野外觀測和科考活動中,基于e-Science概念的數(shù)字傳感器和傳感器網絡、移動數(shù)字終端等新的數(shù)據(jù)采集手段正越來越多地得到應用。
我國自主研制的對地觀測遙感衛(wèi)星已形成氣象、海洋、資源三大衛(wèi)星系列。
在先進數(shù)據(jù)采集技術與設備的支撐下,數(shù)據(jù)采集的實時性、自動化、網絡化程度越來越高,數(shù)據(jù)采集的效率、準確性越來越高,為愈加深入的科研實踐提供了數(shù)據(jù)基礎和支撐。
科研數(shù)據(jù)只有借助一定的存儲技術、設備和手段保存起來,才能實現(xiàn)后續(xù)的共享、傳輸和交流等,才能保證科研工作的協(xié)同合作、持續(xù)有效進行。在科研信息化中,數(shù)據(jù)存儲方面的技術支撐主要涉及科研數(shù)據(jù)庫、數(shù)據(jù)中心、數(shù)字圖書館等的建設與維護,它們正從支撐科研活動的基礎資源演變?yōu)橹螄铱萍紕?chuàng)新發(fā)展的重要資產和戰(zhàn)略資源。
由教科文組織及32個合作的公共團體共同成立,而由全球規(guī)模最大的圖書館“美國國會圖書館”主導開發(fā),提供全球讀者免費使用珍貴的圖書、地圖、手抄本、影片與照片等服務。
科研信息化的蓬勃發(fā)展對數(shù)據(jù)存儲容量、存取速度以及安全性等提出了更高要求,存儲技術已從傳統(tǒng)的本地存儲發(fā)展為網絡存儲,相繼提出了直接附加存儲(DAS)、網絡附加存儲(NAS)、存儲區(qū)域網絡(SAN)、虛擬存儲(SV)等網絡存儲架構,實現(xiàn)了網絡技術與存儲技術的有機結合,實現(xiàn)了數(shù)據(jù)存儲大容量、快傳輸、高可用、低成本等目標,并正向更新的云存儲方向發(fā)展。
云存儲是近年來興起的一種新的數(shù)據(jù)存儲與數(shù)據(jù)服務模式,云存儲平臺架構可分為四個層次:將多存儲設備互連起來的數(shù)據(jù)存儲層、為多服務提供公共支撐技術的數(shù)據(jù)管理層、支持多存儲應用的數(shù)據(jù)服務層、面向多用戶的訪問層。其中,最底層的數(shù)據(jù)存儲層主要基于NAS、SAN等技術,以構建數(shù)據(jù)的網絡存儲基礎平臺;上面三層主要提供對底層存儲數(shù)據(jù)的管理、調度、多用戶訪問等功能,以實現(xiàn)云存儲的“按需使用”功能。
國外狀況
近年來,國際上啟動了一大批有代表性的數(shù)據(jù)中心建設計劃。例如,美國NSF于2007年9月開始實施的科學數(shù)據(jù)可持續(xù)保存與共享網絡伙伴計劃(DateNet),旨在創(chuàng)建面向科研信息化的科學數(shù)據(jù)保存與共享模式;英國多家科研機構聯(lián)合開展的DISC-UK數(shù)據(jù)共享項目,目標是在一個復雜和動態(tài)的信息環(huán)境中形成新的科學數(shù)據(jù)共享模式,利用各方專業(yè)知識,推進數(shù)據(jù)存儲服務,積極探索有助于科研人員在互聯(lián)網上分享科學數(shù)據(jù)的新途徑;英國的數(shù)字典藏中心DCC計劃、英國的合格晶體結構數(shù)據(jù)中心建設項目(CCDC);澳大利亞政府于2008年開始實施的國家科學數(shù)據(jù)服務網絡計劃(ARDC),以期全面整合澳全國的科學數(shù)據(jù)資源,實現(xiàn)科學數(shù)據(jù)的長期保存和共享利用;等等。
國內狀況
進入新世紀,我國著力加強科學數(shù)據(jù)庫建設。例如,2002年,科技部啟動了“科學數(shù)據(jù)共享工程”,先后有24個部門參加了共享平臺建設工作;自“十五”起,中科院著手建設科學數(shù)據(jù)庫,有60多個研究所參加了科學數(shù)據(jù)共享服務平臺的建設,現(xiàn)已建成含500多個專業(yè)數(shù)據(jù)庫、容量超6PB的數(shù)據(jù)資源中心,全面提供數(shù)據(jù)存儲、備份與長期保存服務;此外,結合國家重大課題和計劃,我國還構建了“中國自然資源數(shù)據(jù)庫”、“大氣科學與環(huán)境數(shù)據(jù)庫”、“空間環(huán)境數(shù)據(jù)庫”、“遙感衛(wèi)星圖像檢索數(shù)據(jù)庫”等,在科學研究、經濟建設、社會宏觀決策、西部大開發(fā)、防災抗災、國土勘探與資源調查、空間探索與載人航天工程等方面發(fā)揮了積極作用。各部門也根據(jù)自身專業(yè)特點,逐步建立了自己的信息中心,提供專業(yè)數(shù)據(jù)服務,如農業(yè)部信息中心、海洋信息中心、國家地理信息系統(tǒng)等。
隨著信息化進程的推進,近年來我國數(shù)字圖書館的建設發(fā)展快速,先后實施了國家數(shù)字圖書館工程(NDL)、全國文化信息資源共享工程、中國高等教育數(shù)字圖書館(CADLIS)、國家科學數(shù)字圖書館(CSDL)、國家科技圖書文獻中心(NSTL)等工程;其中的CSDL計劃,旨在構建為科學研究和國家創(chuàng)新體系服務的科技文獻信息支撐系統(tǒng),可提供網上聯(lián)合編目、跨庫檢索與瀏覽、館際互借與共享、學科信息門戶與咨詢等服務。
科學數(shù)據(jù)庫、數(shù)據(jù)中心、數(shù)字圖書館等對科研工作的基本服務方式和支撐方式主要包括數(shù)據(jù)檢索、數(shù)據(jù)目錄、數(shù)據(jù)下載、軟件下載等,還可包括一些個性化的服務。隨著數(shù)據(jù)服務工具和手段變得越來越先進,數(shù)據(jù)中心、數(shù)字圖書館的功能將越來越強大。
數(shù)據(jù)傳輸技術對科研信息化的支撐作用主要體現(xiàn)在高速、寬帶、安全網絡基礎設施的建設與應用上,已成為支撐科研信息化發(fā)展的最關鍵技術之一?;ヂ?lián)網前身ARPANET的建設初衷即是推動科研工作尤其是國防科研工作的協(xié)同合作、信息共享,目前在其基礎上發(fā)展而來的互聯(lián)網已成為全球最大的科研信息化技術支撐平臺與環(huán)境,為全世界科學家的大協(xié)同、大合作、技術交流、突破信息壁壘、聯(lián)結信息孤島、實現(xiàn)信息共享等提供了可能,它在極大推動人類科技進步的同時,極大地改變了人類的生產和生活方式,影響與意義深遠而廣大。
互聯(lián)網現(xiàn)已成為現(xiàn)代科研工作不可或缺的工作平臺與環(huán)境,它的支撐作用已從網頁瀏覽、電子郵件、文件傳輸?shù)然緫茫l(fā)展為包括視頻會議、多媒體點播、遠程教學、信息共享、科研協(xié)同等在內的綜合應用,特別是為科研活動提供了動態(tài)、實時、安全的海量數(shù)據(jù)傳輸支持。例如,在中國科技網支持下,我國科學家參與了歐洲核子研究中心(CERN)的高能物理研究網格計劃,與國際各大氣象科研機構實現(xiàn)了高速、可靠的大規(guī)模數(shù)據(jù)傳輸,為中、澳、日等國的科學家提供了實時、專用的天文觀測數(shù)據(jù)光傳輸通道與技術支持等。
國外狀況
目前,全球大規(guī)模的科研學術網主要包括:歐盟的GéANT、北美的Internet2、亞太地區(qū)的APAN,以及連接中美俄三國的GLORIAD、連接歐洲和拉丁美洲的ALICE、連接中國和歐洲的ORIENT等。
GéANT高度重視高容量網絡建設,努力為歐洲廣大科研教育機構提供最佳的GéANT網絡,為歐洲信息化基礎設施(e-Infrastructure)提供可靠的數(shù)據(jù)服務,其未來面臨的挑戰(zhàn)是要能支持exascale運算(即每秒1018次),并改善網絡的便利性,以增進全球合作。
20世紀90年代中葉起,美國陸續(xù)提出了有關下一代網絡建設的三大計劃,即下一代互聯(lián)網(NGI)計劃、超高帶寬網絡服務(VBNS)計劃和Internet2計劃,它們均與科研信息化密切相關,目標是建設高性能的下一代網絡,開發(fā)革命性的互聯(lián)網新技術、新應用,促進科研機構與科研活動的協(xié)同合作。Internet2的最新進展是通過光纖將網速提高到了100Gb/s。
近年來,APAN的各主要組成網絡,如澳大利亞的AARNet、日本的SINET3、中國的CERNET等,在傳輸速度、覆蓋范圍等方面均取得了長足進步。
國內狀況
在支撐科研信息化方面,除公共的互聯(lián)網外,國內最具代表性的兩大網絡是中國科技網(CSTNET)和中國教育科研網(CERNET)。
CSTNET由其前身“中關村教育與科研示范網絡”(NCFC)和中國科學院院網(CASNET)發(fā)展而來,以實現(xiàn)中科院科研活動信息化(e-Science)和科研管理信息化(ARP)為目標,現(xiàn)由十三個地區(qū)的分中心組成國內骨干網,擁有多條國際出口,為廣大科研院所和科研人員提供高效、快速、優(yōu)質的網絡服務,先后承擔了中科院“百所”聯(lián)網、863網絡與信息管理系統(tǒng)等項目的開發(fā)任務,現(xiàn)正著手建設基于IPv6技術的中國下一代互聯(lián)網(CNGI)。
CERNET利用先進網絡技術和開放網絡軟件,將全國高校的海量信息資源予以集成,實現(xiàn)有效共享,通過有序管理和協(xié)同計算,發(fā)揮綜合效能,很好地滿足了全國各大高校教學與科研的需要。CERNET現(xiàn)整合了18個大學數(shù)字博物館的資源,通過分布在17個城市的22臺服務器聯(lián)合提供網格環(huán)境下的技術支持服務。
高端、復雜的科研工作需要高性能的超級計算技術支持,超級計算機是科研信息化的重要支柱,是國家科技發(fā)展水平和綜合國力的重要標志??蒲行畔⒒呐畈l(fā)展對數(shù)據(jù)計算能力提出了越來越高的要求,隨著計算機技術與網絡技術的進步,先后產生了以分布式計算和并行計算為基礎的高性能計算、網格計算,并正向更新的云計算方向發(fā)展。
云計算是近年來興起的一種基于互聯(lián)網的最新科學計算技術,它通過互聯(lián)網上異構、自治的服務為用戶提供“按需即取”的計算服務。目前,Google、IBM、Amazon和Microsoft等大公司紛紛建立了自己的云計算平臺,為用戶提供廣泛的云計算服務。相比網格計算,云計算具有更強的通用性,可更好地支持Web應用,未來二者可能走向融合,出現(xiàn)“云格”技術,從而更好地聚合各類分布的資源,支持更加強勁、靈活的大型科學計算服務和應用。
國外狀況
近年來,以美國能源部的“先進科學計算研究”(ASCR)、美國NSF的Track1與Track2、美國國防部的“先進高性能計算”(UHPC)、歐盟的“歐洲先進計算合作伙伴”(PRACE)與DEISA等為代表的超算計劃極大地推進了全球超級計算技術的發(fā)展,云計算方興未艾。
ASCR計劃的主要任務是為新能源與核安全、環(huán)境與氣候、生物與基因等領域的科研與創(chuàng)新提供高性能的計算與網絡技術支撐,使之能對復雜現(xiàn)象進行分析、建模、驗證與預測,涉及基于先進計算的科學發(fā)現(xiàn)(SciDAC)、理論與實驗創(chuàng)新計算(INCITE)、多尺度數(shù)學行動(MMI)等跨學科研究項目。2010年,INCITE為69項尖端科研計劃分配了約160億CPU小時的超級計算時間,助其實現(xiàn)突破性進展。
2010年,歐盟聯(lián)合20多個國家,啟動了PRACE項目,聯(lián)接了多臺超級計算機,計劃在2019年將運算速度提升至每秒百億次。2012年,歐洲核子研究中心、歐洲分子生物學實驗室和歐洲航天局聯(lián)合推出了“螺旋星云”云計算系統(tǒng),用于支撐希格斯玻色子、基因和防災減災等領域科研所需的超級計算。
近年來,日本也提出了下一代超級計算機發(fā)展戰(zhàn)略,旨在為生命科學與醫(yī)藥、新物質與新能源、災害分析與預測、宇宙起源與構造等科研領域提供技術支撐。
國內狀況
進入新世紀,我國高性能計算機研究不斷取得重大突破,并在眾多大型科學與工程領域得到應用,在海量數(shù)據(jù)處理、數(shù)值模擬、科學計算等方面提供了強大支持。2008年,140萬億次/秒的“深騰7000”和230萬億次/秒的“曙光5000A”相繼在中科院網絡中心和上海超級計算中心投入使用;2009年,1千萬億次/秒的“天河一號”研制成功。
例如,依托超級計算機提供的高性能計算能力,我國科學家參與完成了國際人類基因組單體型圖計劃,并獨立完成了中國超級雜交水稻基因組計劃、家蠶基因組計劃、家雞基因多態(tài)性圖譜等,率先在國內完成SARS病毒的基因組測序與診斷試劑研制。
科技要創(chuàng)新,科研活動的組織形式也要創(chuàng)新。信息化與技術支撐條件建設在給技術工作帶來效益的同時,也為科研管理和協(xié)同工作帶來了“新動力”,使科研項目、流程、成果、數(shù)據(jù)、經費、人員等的管理更加科學、高效,極大地提高了管理水平,節(jié)約了人力、物力、財力。在先進技術支撐下,近年來,科研組織模式也產生了新的變革?;ヂ?lián)網實現(xiàn)了對各種科研信息化設施的連接,消除了地域、組織界限,使虛擬科研組織逐漸成為一種新的科研組織方式,并得到迅速發(fā)展。
國外狀況
在美國的DataNet計劃中,對創(chuàng)建面向科研信息化的科學數(shù)據(jù)、科研成果共享模式等做了規(guī)劃。2010~2012年英國聯(lián)合信息系統(tǒng)委員會(JISC)對科研項目規(guī)劃、實施和管理開展研究,以期更新或改變科研管理和業(yè)務系統(tǒng),確保所有解決方案的長期可持續(xù)性。英國在《2009英國科研信息化綜述》報告中強調,要成立更加科學的組織與管理體系,以創(chuàng)建更好、更系統(tǒng)的科研支撐機制。澳大利亞ARDC計劃全面整合全國科研資源,實現(xiàn)科學數(shù)據(jù)、科研成果的共享利用。歐盟的歐洲信息化基礎設施咨詢工作組(e-IRG)提出應促進跨不同科研基礎設施的通用、長期服務。歐美各大學率先建立面向公眾的各類公開課程,通過在線公開課程推進教育信息化的發(fā)展。美國哈佛、耶魯、英國牛津等著名大學,紛紛開設了面向全球的網絡公開課,在互聯(lián)網支撐下,推動全球科研與教育的發(fā)展。
在網絡化、信息化技術支撐下,歐美的虛擬科研組織和虛擬科研環(huán)境建設不斷加強。美國的社會技術系統(tǒng)虛擬組織計劃(VOSS)、英國的虛擬科研環(huán)境計劃(VRE)與GOLD計劃、歐盟的D4Science與D4Science-II項目等,使虛擬科研環(huán)境的建設不斷邁上新臺階。
國內狀況
近年來,國內在科研虛擬組織方面也取得了長足發(fā)展。2002年,中科院國家天文臺提出了建設中國虛擬天文臺(China-VO)的計劃,在國家863計劃、國家自然科學基金委重大項目支持下,中國虛擬天文臺在數(shù)據(jù)管理、數(shù)據(jù)訪問、數(shù)據(jù)挖掘等方面設計開發(fā)了多套網絡應用工具和服務,虛擬天文臺將為全國天文學研究者提供更多服務。2004年,在中科院網絡中心成立了“計算化學虛擬實驗室”(VLCC),這是一個集科研、軟件開發(fā)、學術交流、技術培訓、高性能計算應用培育、計算化學普及、實驗與計算為一體的虛擬科研組織。2007年,中科院與青海湖國家級自然保護區(qū)聯(lián)合成立了“中國科學院青海湖國家級自然保護區(qū)聯(lián)合科研基地”,這也是一個比較典型的虛擬科研組織,建立了基于多個學科數(shù)據(jù)庫的跨所、跨領域協(xié)同工作環(huán)境。
在先進技術的支撐下,近年來,我國科研管理的政策規(guī)劃、頂層設計、總體部署、組織協(xié)調、人才管理等能力不斷增強,推動著我國科研信息化的不斷發(fā)展。
科研信息化發(fā)展與技術支撐條件建設相輔相成、互為作用,科研信息化的進一步發(fā)展將對技術支撐條件建設提出更高要求,技術支撐條件的進一步建設將為科研信息化的發(fā)展提供更好服務。
我們分析認為,未來科研信息化技術支撐條件的發(fā)展將呈現(xiàn)以下基本趨勢:
1.隨著數(shù)據(jù)采集、傳感器技術與設備的發(fā)展,在未來的科研活動中,數(shù)據(jù)采集的實時性將更強、準確性將更高、根據(jù)科研需要可采集的數(shù)據(jù)粒度將更細、范圍將更寬,數(shù)據(jù)采集的無人化、自動化程度將得到進一步提高,尤其是野外或惡劣環(huán)境下的數(shù)據(jù)采集能力將得到進一步增強?!氨倍贰钡刃l(wèi)星系統(tǒng)的部署應用將為未來我國科研信息化的發(fā)展帶來新的希望。
2.隨著存儲介質、技術與設備的發(fā)展,在未來的科研活動中,數(shù)據(jù)存儲容量將更大、響應速度將更快,網絡存儲與云存儲系統(tǒng)的建設成本將大幅下降,數(shù)據(jù)中心、數(shù)據(jù)圖書館將得到進一步擴展,將聯(lián)合更多科研單位的參與,用戶將越來越多,科研數(shù)據(jù)、科研成果將得到更好共享,國際、國內的交流、合作與協(xié)同也將因此得到進一步增強。
3.隨著通信技術、尤其是下一代互聯(lián)網技術的發(fā)展,在未來的科研活動中,數(shù)據(jù)傳輸網絡帶寬將更寬、速度將更快,網絡安全技術的提高將使數(shù)據(jù)傳輸更安全、更可靠。衛(wèi)星通信、移動互聯(lián)網的發(fā)展將為未來科研活動提供更好的數(shù)據(jù)傳輸服務,數(shù)據(jù)服務的隨身性、移動性、泛在性將進一步增強,野外科學考察的技術條件將得以極大改善。
4.隨著微電子技術的發(fā)展、新材料的發(fā)明、新工藝的進步,人類有望繼續(xù)突破物理極限,CPU芯片的處理能力在未來較長一段時期內將繼續(xù)以莫爾定律所稱之速度不斷增長,網絡計算、云計算技術逐步走向成熟,高速、復雜科學計算的能力將得到進一步增強,并將推動可視化、智能化科學試驗、模擬仿真、樣機制造等的發(fā)展。
5.科研組織協(xié)同方面,在新的管理模式和理念推動下,未來將出現(xiàn)更好的組織協(xié)同工具和軟件,從而使信息化條件支撐下的科研管理更具人性、更富計劃、更加精細,實現(xiàn)科研管理經濟性與科學性的完美結合。
科學研究的終極目標是為人類更好地認識自然、改造自然服務,為實現(xiàn)人與自然的更和諧相處、更和諧發(fā)展服務。隨著技術支撐條件的建設與發(fā)展,我國科研信息化水平必將得到進一步提升,從而為我國經濟和社會的全面、協(xié)調、可持續(xù)發(fā)展提供更強大科技保障!
(作者單位為中國科學院計算機網絡信息中心)