国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于微服務(wù)架構(gòu)的Globus科研數(shù)據(jù)管理平臺分析*

2021-03-10 01:30:38袁曉明王美琴
數(shù)字圖書館論壇 2021年12期
關(guān)鍵詞:端點數(shù)據(jù)管理身份

袁曉明 王美琴

基于微服務(wù)架構(gòu)的Globus科研數(shù)據(jù)管理平臺分析*

袁曉明 王美琴

(蘇州大學(xué)圖書館,蘇州 215006)

科研數(shù)據(jù)的爆發(fā)式增長和遠程共享對數(shù)據(jù)管理提出需求,可實現(xiàn)彈性擴展、高性能傳輸、云托管的微服務(wù)架構(gòu)數(shù)據(jù)管理平臺為數(shù)據(jù)的高效管理提供可能。本文調(diào)研分析了芝加哥大學(xué)阿貢國家實驗室研究團隊研發(fā)的Globus科研數(shù)據(jù)管理平臺。該平臺采用分布式微服務(wù)架構(gòu),包括身份管理、組群服務(wù)、數(shù)據(jù)傳輸和數(shù)據(jù)共享4個微服務(wù)模塊,模塊之間相互獨立,通過可視化Web界面實現(xiàn)科研數(shù)據(jù)的傳輸和共享。該平臺已經(jīng)應(yīng)用于多個科研項目的數(shù)據(jù)管理,完成TB數(shù)量級的文件傳輸,其跨區(qū)域高效傳輸、靈活共享的數(shù)據(jù)管理模式可為我國科研數(shù)據(jù)管理提供借鑒。

科研數(shù)據(jù)管理;Globus;云服務(wù);SaaS;微服務(wù)

隨著科學(xué)技術(shù)的發(fā)展、科學(xué)儀器的更新和科學(xué)研究方法的改變,高性能探測設(shè)備和分析儀器應(yīng)用到科研過程中,隨之產(chǎn)生了大量高分辨率圖片、音視頻等科研數(shù)據(jù),一些學(xué)科領(lǐng)域的科研數(shù)據(jù)爆發(fā)式增長,科學(xué)研究已經(jīng)進入數(shù)據(jù)密集型階段[1]。同時,高質(zhì)量科研數(shù)據(jù)的共享、再現(xiàn)對大數(shù)據(jù)和人工智能跨領(lǐng)域數(shù)據(jù)分析日益重要,荷蘭萊頓數(shù)據(jù)科學(xué)中心Mons[2]指出,科研數(shù)據(jù)管理不僅是科研工作者的責(zé)任,也是科研項目的重要組成部分,其中數(shù)據(jù)的存儲、遷移和利用越來越受到國內(nèi)外研究機構(gòu)、高校及科研人員的重視。

數(shù)據(jù)密集型科研環(huán)境下,科研數(shù)據(jù)管理對科研數(shù)據(jù)價值的發(fā)揮產(chǎn)生了重要影響,國內(nèi)外機構(gòu)或圖書館圍繞科研數(shù)據(jù)管理平臺的開發(fā)和本地部署開展相關(guān)實踐,以幫助研究者管理科研數(shù)據(jù)。在美國,如麻省理工學(xué)院圖書館的數(shù)字存儲系統(tǒng)DSpace[3]、哈佛大學(xué)的Dataverse[4]、康奈爾大學(xué)的Datastar[5]、普渡大學(xué)的PURR[6]、賓夕法尼亞州立大學(xué)的倉儲服務(wù)系統(tǒng)Scholar Sphere[7]等。國內(nèi)機構(gòu)也嘗試采用開源數(shù)據(jù)管理軟件本地化搭建科研數(shù)據(jù)管理平臺,如復(fù)旦大學(xué)采用Dataverse構(gòu)建復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺,武漢大學(xué)圖書館基于開源軟件DSpace搭建的“大學(xué)科學(xué)數(shù)據(jù)共享平臺”等。當(dāng)前,科研數(shù)據(jù)管理平臺主要提供倉儲式數(shù)據(jù)管理服務(wù),只支持本機構(gòu)用戶并依賴機構(gòu)的管理,無法在機構(gòu)間或更廣范圍內(nèi)共享數(shù)據(jù)。隨著科研數(shù)據(jù)的急劇增長和跨區(qū)域的科研合作共享,倉儲式服務(wù)的科研數(shù)據(jù)管理平臺面臨以下挑戰(zhàn)。①數(shù)據(jù)訪問的限制。倉儲式科研數(shù)據(jù)管理平臺是一個復(fù)雜的Web服務(wù)應(yīng)用程序,通常包含用戶信息、數(shù)據(jù)信息,設(shè)置了較復(fù)雜的安全防護,限制了平臺的訪問和可伸縮性,無法滿足高性能獨立數(shù)據(jù)通道的高速訪問[8]。②高性能數(shù)據(jù)傳輸需求。研究數(shù)據(jù)量的激增,需要數(shù)千個文件或者TB級別數(shù)據(jù)量的高效傳輸,傳輸效率對此類科研數(shù)據(jù)管理平臺是一項挑戰(zhàn)。③平臺部署維護技術(shù)和資金支撐。倉儲式服務(wù)的科研數(shù)據(jù)管理平臺是筒倉式開發(fā)部署的,系統(tǒng)獨立運行本地的用戶管理、身份驗證、授權(quán)和數(shù)據(jù)傳輸,不僅部署需要強大技術(shù)支持,還需要管理人員的長期技術(shù)跟蹤。④數(shù)據(jù)共享范圍有限。各平臺數(shù)據(jù)以不同的分類體系進行組織和元數(shù)據(jù)主題標(biāo)引,不同數(shù)據(jù)組織方式使平臺之間技術(shù)不可擴展、數(shù)據(jù)無法遷移,共享范圍有限。

倉儲式服務(wù)的科研數(shù)據(jù)管理平臺雖然在機構(gòu)范圍內(nèi)的數(shù)據(jù)管理起到了一定的作用,但隨著網(wǎng)絡(luò)結(jié)構(gòu)性能提升和數(shù)據(jù)共享全球化的需求,其服務(wù)范圍受到了根本限制??蒲袛?shù)據(jù)管理平臺面臨應(yīng)用開發(fā)方式、數(shù)據(jù)存儲方式、系統(tǒng)部署和服務(wù)功能的挑戰(zhàn),基于微服務(wù)架構(gòu)的平臺應(yīng)用可滿足數(shù)據(jù)高效傳輸和共享、敏捷開發(fā)和動態(tài)擴展的需求。

為此,筆者調(diào)研分析了芝加哥大學(xué)研究開發(fā)的基于微服務(wù)架構(gòu)的SaaS模型Globus科研數(shù)據(jù)管理平臺的服務(wù)方式和架構(gòu),及其應(yīng)用于科研數(shù)據(jù)管理的案例,為國內(nèi)科研機構(gòu)和科研人員的科研數(shù)據(jù)管理提供借鑒。

1 Globus科研數(shù)據(jù)管理平臺簡介

微服務(wù)架構(gòu)是一種細粒度、自治、協(xié)同工作的服務(wù)體系[9],其將大型復(fù)雜系統(tǒng)從功能上分解成設(shè)計、開發(fā)和部署中相互獨立自治的小型服務(wù),并通過輕量級機制進行通信,采用標(biāo)準(zhǔn)的API和基于容器的平臺來強調(diào)松散耦合和高內(nèi)聚[10]。架構(gòu)模塊具有技術(shù)異質(zhì)性、可獨立部署、可彈性擴展等特點,便于系統(tǒng)的技術(shù)升級和功能更新,近年來迅速發(fā)展并被嘗試應(yīng)用于軟件平臺、面向服務(wù)架構(gòu)的開發(fā)。

Globus是2010年由芝加哥大學(xué)阿貢國家實驗室研究團隊研發(fā)的科研數(shù)據(jù)管理平臺,是一種基于微服務(wù)架構(gòu)的軟件即服務(wù)(SaaS),以Amazon云服務(wù)實現(xiàn)數(shù)據(jù)管理,提供身份認證與授權(quán)、數(shù)據(jù)遷移與復(fù)制、數(shù)據(jù)共享、數(shù)據(jù)發(fā)布與發(fā)現(xiàn)等功能[11-12],并以Web訪問服務(wù)形式為研究者提供了一套功能強大的科研數(shù)據(jù)管理功能。在技術(shù)方面,該體系結(jié)構(gòu)具有高度的容錯性、可彈性擴展、易于部署,且隨著負載的增加,服務(wù)可動態(tài)地分配虛擬機;在數(shù)據(jù)處理上,云服務(wù)具有高效的數(shù)據(jù)處理效率和彈性計算能力,保證了密集數(shù)據(jù)的高效、穩(wěn)定傳輸;在服務(wù)模式上,SaaS支持多租戶訪問,用戶不需要安裝或操作任何軟件,任何授權(quán)用戶都可以建立和管理自己的數(shù)據(jù)發(fā)布集合,易于廣泛使用[13]。

隨著存儲介質(zhì)的更新、存儲端點的增加,Globus平臺不斷更新服務(wù)功能、完善數(shù)據(jù)管理生態(tài)系統(tǒng),包括對安全HTTP數(shù)據(jù)訪問支持、新型存儲系統(tǒng)(Amazon S3、HDFS)的兼容、數(shù)據(jù)端點搜索和管理員管理功能的提升,有效解決了科研人員數(shù)據(jù)管理過程中的冗余事務(wù)。

Globus數(shù)據(jù)管理包含兩個核心組件,即托管服務(wù)和代理軟件。

Globus實現(xiàn)了第三方傳輸?shù)耐泄芊?wù)模型,所有微服務(wù)模塊托管于Amazon云服務(wù)器,通過Web應(yīng)用程序為所有的微服務(wù)提供統(tǒng)一接口的協(xié)同訪問頁面。用戶發(fā)出數(shù)據(jù)處理指令后,其數(shù)據(jù)數(shù)據(jù)處理流程(傳輸、共享、發(fā)布、發(fā)現(xiàn)以及身份和憑證管理)都在Amazon云上運行(見圖1),此過程中Globus以數(shù)據(jù)監(jiān)護方式參與其中,進行用戶管理、權(quán)限控制和數(shù)據(jù)流程控制,不傳輸數(shù)據(jù),不保存或記錄任何數(shù)據(jù)。

代理軟件(Globus Connect)實現(xiàn)了身份驗證和數(shù)據(jù)訪問的機制,包括服務(wù)器和個人2個安裝版本。Globus Connect Server是一個Linux軟件包,部署于存儲服務(wù)器;Globus Connect personal是一個輕量級的單用戶代理,可以部署在Windows、macos和Linux計算機上,使這些系統(tǒng)能夠參與Globus文件共享網(wǎng)絡(luò)。目前,Globus Connect服務(wù)器已更新至v5.4版本,可實現(xiàn)多端點共享、超大文件即時傳輸、兼容多形式存儲系統(tǒng)之間的文件轉(zhuǎn)移[14],且新的版本具有管理控臺和發(fā)現(xiàn)新端點功能,可監(jiān)控數(shù)據(jù)傳輸狀態(tài),支持對多形態(tài)存儲介質(zhì)終端的發(fā)現(xiàn)和連接。

2 Globus科研數(shù)據(jù)管理平臺的微服務(wù)模塊

Globus SaaS的微服務(wù)模塊包括3個關(guān)鍵組件:REST API、一個或多個后端任務(wù)工作程序和數(shù)據(jù)持久層[11]。Globus處理REST API服務(wù)模塊一般部署在Amazon EC2云服務(wù)器上,其處理REST API請求的所有邏輯單元都是同步執(zhí)行的,在持久存儲層中注冊所需的活動后即終止任務(wù),由后端任務(wù)工作程序進一步處理,所以模塊在磁盤和內(nèi)存中運行非常短暫,具有強大的數(shù)據(jù)處理能力。Globus管理團隊可根據(jù)系統(tǒng)負載添加或刪除API的服務(wù)能力,彈性擴展微服務(wù)模塊。數(shù)據(jù)持久層部署在Amazon云存儲服務(wù)器上,利用其可跨區(qū)域復(fù)制性能實現(xiàn)系統(tǒng)容錯,并定期創(chuàng)建遠程快照幫助實現(xiàn)故障恢復(fù)。Globus使用了S3和PostgreSQL關(guān)系型數(shù)據(jù)庫(RDS),各系統(tǒng)組件封裝在虛擬云(VPC)中并互相獨立,實現(xiàn)了Amazon云托管服務(wù)。

Globus數(shù)據(jù)管理由Globus Auth、Globus Groups、Globus Transfer、Globus Publication 4個分布式微服務(wù)模塊組成,可分別實現(xiàn)身份認證服務(wù)、群組管理服務(wù)、數(shù)據(jù)傳輸服務(wù)和數(shù)據(jù)出版服務(wù)。

2.1 身份認證服務(wù)

Globus Auth模塊是其他微服務(wù)的基礎(chǔ)和安全模型的核心,貫穿數(shù)據(jù)管理服務(wù)全過程。Globus Auth是一個Python Web應(yīng)用程序,Python應(yīng)用層管理身份、賬戶和客戶端,通過REST API接口注冊和配置客戶端、獲取用戶和令牌的信息以及檢索鏈接的標(biāo)識,符合標(biāo)準(zhǔn)Web協(xié)議OAuth 2和OpenID Connect規(guī)范,可與第三方應(yīng)用程序集成[15]。

Globus Auth代理了終端用戶、身份提供、資源服務(wù)器和客戶端(如Web界面、移動設(shè)備、桌面命令行等)之間的身份驗證與授權(quán)交互,支持用戶多重身份(如機構(gòu)身份、校園ID、Google賬戶)登錄,實現(xiàn)了身份聯(lián)合模型,將不同身份鏈接為用戶身份集合使用,消除了在使用分布式網(wǎng)絡(luò)基礎(chǔ)設(shè)施時經(jīng)常需要多個賬戶、身份、憑據(jù)的沖突。科研人員數(shù)據(jù)管理過程中可隨時切換身份,用一個憑證身份驗證登錄,使用另一個身份連接到特定的遠程存儲資源,以及基于其他身份與合作者共享數(shù)據(jù)等。此外,Globus Auth提供了臨時委托訪問令牌,增減客戶端的訪問權(quán)限。

2.2 群組管理服務(wù)

Globus Groups模塊是采用Web框架實現(xiàn)的一個層次化的組模型,是在Globus Auth基礎(chǔ)上實現(xiàn)的團隊管理功能。Globus Groups通過評估用戶的成員身份授權(quán)其可訪問粒度,應(yīng)用于科研團體(組)的授權(quán)、角色和共享。該模塊提供了一個面向團體用戶和團體成員管理的工作流集合,可以讓用戶自定義存儲數(shù)據(jù)對成員可見性、成員資格、工作流(邀請、接受、暫停等)、成員角色,適合機構(gòu)對科研人員的數(shù)據(jù)權(quán)限管理或團隊項目合作。Globus Groups還利用了其他AWS服務(wù),包括用于電子郵件的SES和用于內(nèi)部通知的SNS(見表1)。

2.3 數(shù)據(jù)傳輸服務(wù)

科研協(xié)作通常需要對跨區(qū)域分布式資源的復(fù)雜數(shù)據(jù)管理,用戶需要在采集、存儲、分析和歸檔之間移動大量數(shù)據(jù)。Globus Transfer模塊是Globus數(shù)據(jù)管理服務(wù)的核心模塊,為科研人員和機構(gòu)提供了高性能的文件傳輸和同步服務(wù),簡化了兩個存儲端點之間移動大數(shù)據(jù)的過程,實現(xiàn)了Globus用戶之間的數(shù)據(jù)安全共享。

Globus利用部署在存儲系統(tǒng)上的Globus Connect軟件來協(xié)調(diào)第三方數(shù)據(jù)的安全傳輸,數(shù)據(jù)傳輸基于虛擬的“共享端點”模型,用戶利用Globus Transfer Web、CLI和REST接口在現(xiàn)有端點上的任何文件系統(tǒng)位置創(chuàng)建虛擬的“共享端點”,使用GridFTP協(xié)議在端點之間傳輸數(shù)據(jù)[6]。GridFTP提供了一個模塊化的數(shù)據(jù)存儲接口(DSI),以支持現(xiàn)代網(wǎng)絡(luò)環(huán)境下的不同存儲介態(tài),如高性能存儲系統(tǒng)(HPSS)、云存儲對象及傳統(tǒng)存儲系統(tǒng)之間的數(shù)據(jù)傳輸[16]。

Globus使用兩個獨立的通信通道,在Globus和端點之間建立控制通道,以啟動和管理傳輸、檢索目錄列表和建立數(shù)據(jù)通道,在兩個端點(GridFTP服務(wù)器)之間直接建立數(shù)據(jù)通道,用于系統(tǒng)之間的數(shù)據(jù)傳輸,Globus服務(wù)無法訪問數(shù)據(jù)通道。Globus Transfer是同時使用S3和PostgreSQL RDS數(shù)據(jù)庫的多層存儲模型,存儲了大量數(shù)據(jù)傳輸狀態(tài)的信息,PostgreSQL RDS管理了安全隱私性信息(如用戶、端點等),S3用于存儲詳細的傳輸信息,如文件列表和性能標(biāo)記。Globus Transfer主要實現(xiàn)以下功能。

(1)高性能、可靠的數(shù)據(jù)傳輸:保障用戶數(shù)據(jù)傳輸可靠性和完整性,Globus可對傳輸控制協(xié)議(TCP)緩沖區(qū)大小、并發(fā)控制通道數(shù)量等參數(shù)靈活調(diào)控,并自行校驗傳輸文件完整性、故障恢復(fù)后自動重啟傳輸。

(2)實現(xiàn)跨區(qū)域的第三方傳輸:以第三方管理模式參與兩個遠程端點數(shù)據(jù)傳輸,保障用戶數(shù)據(jù)的隱私性和安全性。

(3)就地數(shù)據(jù)共享:允許用戶使用Globus Connect軟件將本地資源公開為Globus端點,并根據(jù)文件共享程度授權(quán)訪問權(quán)限。

2.4 數(shù)據(jù)出版服務(wù)

Globus Publication模塊支持用戶管理發(fā)布共享數(shù)據(jù)[17]。Globus數(shù)據(jù)發(fā)布是在DSpace機構(gòu)存儲庫系統(tǒng)的基礎(chǔ)上實現(xiàn)的,并采用Globus微服務(wù)替換了DSpace內(nèi)置功能:用戶和組管理分別替換為Globus Auth和Globus Groups,使用Globus Transfer處理數(shù)據(jù)管理和訪問策略。該模塊管理數(shù)據(jù)的存儲位置、應(yīng)收集的元數(shù)據(jù)、應(yīng)用的持久標(biāo)識符的形式、使用的管理工作流以及誰可以提交、管理和訪問數(shù)據(jù)的“集合”,通過數(shù)據(jù)發(fā)布服務(wù)進行發(fā)布,工作流完成后,元數(shù)據(jù)文件會復(fù)制到發(fā)布終端。

Globus數(shù)據(jù)管理平臺4個微服務(wù)模塊可互相調(diào)用完成數(shù)據(jù)管理流程,也可單一與其他應(yīng)用接口集成,為科研機構(gòu)和用戶提供身份管理、數(shù)據(jù)傳輸和共享以及組管理等服務(wù)模式。為進一步實現(xiàn)Globus數(shù)據(jù)管理的智能化,Globus從3個方面著力開發(fā)服務(wù)模塊以適應(yīng)數(shù)據(jù)管理的發(fā)展需求[18]:①高級數(shù)據(jù)搜索服務(wù),支持對文件系統(tǒng)元數(shù)據(jù)和內(nèi)部文件結(jié)構(gòu)及內(nèi)容的搜索,以更精細的數(shù)據(jù)索引粒度從文件中深度索引獲得高質(zhì)量的結(jié)果;②構(gòu)建新的數(shù)據(jù)收集模型,以靈活的數(shù)據(jù)共享模型來集成數(shù)據(jù)共享和數(shù)據(jù)發(fā)布服務(wù),實現(xiàn)用戶的數(shù)據(jù)集合管理;③主動數(shù)據(jù)管理模塊,開發(fā)一個模塊化的主動數(shù)據(jù)管理環(huán)境,允許用戶定義Globus生態(tài)系統(tǒng)中的行為規(guī)則。

3 Globus科研數(shù)據(jù)管理平臺的服務(wù)案例

截至2021年7月,Globus在全球80多個國家和地區(qū)擁有12萬余個注冊用戶和3萬多個活躍端點,完成了1?244?031TB科研數(shù)據(jù)的傳輸和管理,擁有機構(gòu)訂閱用戶100多個,其中包括60多所頂尖的研究型大學(xué)和DOE實驗室[19]。Globus為多個科研機構(gòu)及大型實驗室實現(xiàn)了科研數(shù)據(jù)管理、同行之間的合作共享、精密儀器與數(shù)據(jù)分析中心的數(shù)據(jù)傳輸,其服務(wù)模塊也可被集成到其他數(shù)據(jù)管理平臺。

Globus已被多個機構(gòu)或研究項目用于科研數(shù)據(jù)管理的實踐。例如,Globus為美國國家大氣研究中心(NCAR)的“研究數(shù)據(jù)檔案”(RDA)[20]數(shù)據(jù)服務(wù)提供了高效數(shù)據(jù)傳輸和用戶認證管理。RDA主要收集氣象和海洋觀測數(shù)據(jù),包含700多個數(shù)據(jù)集、800萬個文件[21],需要進行大量的數(shù)據(jù)分析輸出,并為用戶提供數(shù)據(jù)瀏覽和下載服務(wù)。RDA數(shù)據(jù)管理服務(wù)集成了Globus Transfer、Globus Auth微服務(wù),實現(xiàn)了高效數(shù)據(jù)傳輸和身份管理功能。Globus為用戶提供了簡單的Web界面,通過專門的軟件和GridFTP協(xié)議實現(xiàn)數(shù)據(jù)傳輸,數(shù)據(jù)傳輸過程自動完成,在發(fā)生系統(tǒng)故障后能恢復(fù)傳輸,確保數(shù)據(jù)傳輸?shù)耐暾裕脩敉ㄟ^Globus監(jiān)控數(shù)據(jù)傳輸量、時間戳、傳輸端點及傳輸文件狀態(tài)。目前RDA內(nèi)部端點數(shù)據(jù)傳輸速度達10GB/s,RDA與外部端點數(shù)據(jù)傳輸速度達2GB/s。同時,RDA采用了Globus身份管理和身份驗證功能,用戶可以使用GlobusID或Globus集成的其他身份鏈接登錄RDA數(shù)據(jù)庫,支持聯(lián)合身份認證,改善了用戶體驗,為用戶提供了易于使用、可靠、高性能的數(shù)據(jù)交付服務(wù)。

此外,Globus打破了不同機構(gòu)之間的數(shù)據(jù)合作和共享的壁壘、實現(xiàn)了精密儀器與服務(wù)器之間的傳輸。例如:芝加哥大學(xué)測序中心與生物醫(yī)學(xué)信息學(xué)中心(IBI)跨區(qū)域合作DNA測序項目,測序中心技術(shù)人員使用Globus移動到測序中心數(shù)據(jù)庫,并通過Globus傳輸至IBI數(shù)據(jù)中心,科研人員即可在IBI設(shè)施中獲取他們所需的DNA測序數(shù)據(jù),實現(xiàn)了機構(gòu)間的數(shù)據(jù)共享和項目合作;凱斯西儲大學(xué)(CWRU)采用Globus將高性能Titan Krios透射電子顯微鏡產(chǎn)生的數(shù)據(jù)迅速轉(zhuǎn)移到CWRU數(shù)據(jù)中心庫,便于科研人員的數(shù)據(jù)調(diào)用和分析。Globus數(shù)據(jù)管理服務(wù)也被機構(gòu)用于本地化數(shù)據(jù)管理平臺的開發(fā),加拿大計算機協(xié)會、Portagenetwork、加拿大研究圖書館協(xié)會合作利用Globus搭建了本地化科研數(shù)據(jù)管理平臺——聯(lián)邦研究數(shù)據(jù)存儲庫FRDR,構(gòu)建了加拿大科學(xué)研究數(shù)據(jù)的收集、保存、訪問和共享平臺。

4 結(jié)語

在協(xié)作共享的大數(shù)據(jù)環(huán)境下,微服務(wù)架構(gòu)和云存儲應(yīng)用于科研數(shù)據(jù)管理的便利性日益凸顯。以管理機構(gòu)聯(lián)合科研機構(gòu)、IT服務(wù)商、科研人員等利益相關(guān)者推動構(gòu)建我國微服務(wù)架構(gòu)云存儲的科研數(shù)據(jù)管理平臺,以解決目前多區(qū)域項目合作中數(shù)據(jù)傳輸?shù)托Ш涂蒲袛?shù)據(jù)孤島分布的現(xiàn)狀,實現(xiàn)跨區(qū)域、跨學(xué)科的數(shù)據(jù)傳輸、共享和利用,對提高國內(nèi)科研數(shù)據(jù)管理水平具有重要意義?;谖⒎?wù)架構(gòu)的Globus科研數(shù)據(jù)管理平臺的服務(wù)模式為我國科研數(shù)據(jù)管理提供了良好的借鑒。

[1] 吳金紅,陳勇躍. 面向科研第四范式的科學(xué)數(shù)據(jù)監(jiān)管體系研究[J]. 圖書情報工作,2015,59(16):11-17.

[2] MONS B. Invest 5% of research funds in ensuring data are reusable[J]. Nature,2020,578:491.

[3] 袁紅衛(wèi),黃松,劉嫣. 麻省理工學(xué)院科學(xué)數(shù)據(jù)管理與共享平臺調(diào)研及啟示[J]. 圖書館學(xué)研究,2019(13):82,95-101.

[4] HARVARD Dataverse[EB/OL].[2021-11-01]. https://dataverse.harvard.edu/.

[5] Datastar[EB/OL].[2021-11-01]. http://datastar.mannlib.cornell.edu/.

[6] Research Data Management for Purdue[EB/OL].[2021-10-22]. https://purr.purdue.edu/.

[7] Scholarsphere[EB/OL].[2021-10-22]. https://scholarsphere.psu.edu/.

[8] CHARD K,DART E,F(xiàn)OSTER I,et al. The modern research data portal:a design pattern for networked,data-intensive science[J]. Peerj Computer Science,2017,4(6):e144.

[9] NEWMAN S. Building Microservices[EB/OL].[2021-11-01]. https://www.oreilly.com/library/view/building-microservices/9781491950340/.

[10] 程秀峰,丁芬,夏立新. 基于微服務(wù)架構(gòu)的文獻信息資源保障平臺構(gòu)建研究[J]. 數(shù)字圖書館論壇,2021(4):2-10.

[11] ALLEN B,ANANTHAKRISHNAN R,CHARD K,et al. Globus:A Case Study in Software as a Service for Scientists[C]//ScienceCloud’ 17. Washington:2017.

[12] CHARD K,TUECKE S,F(xiàn)OSTER I. Efficient and secure transfer,synchronization,and sharing of big data[J]. IEEE Cloud Computing,2015,1(3):46-55.

[13] FOSTER I,VASILIADIS V,TUECKE S. Software as a Service as a path to software sustainability[EB/OL].[2021-11-17]. https://www.globus.org/sites/default/files/saas-as-a-path-to-sustainable-software-delivery.pdf.

[14] Globus. Globus Connect[EB/OL].[2021-11-12]. https://www.globus.org/globus-connect.

[15] TUECKE S,ANANTHAKRISHNAN R,CHARD K,et al. Globus auth:A research identity and access management platform[C]//2016 IEEE 12th International Conference on e-Science(e-Science). IEEE,2016.

[16] LIU Z,KETTIMUTHU R,CHUNG J,et al. Design and evaluation of a simple data interface for efficient data transfer across diverse storage[J]. ACM Transactions on Modeling and Performance Evaluation of Computing Systems,2021,6(1):1-25.

[17] CHARD K,PRUYNE J,BLAISZIK B,et al. Globus Data Publication as a Service:Lowering Barriers to Reproducible Science[C]//2015 IEEE 11th International Conference on eScience. IEEE,2015.

[18] CHARD K,TUECKE S,F(xiàn)OSTER I. Globus:Recent Enhancements and Future Plans[C]//the XSEDE16. ACM,2016.

[19] Globus. The Globus Research Data Management Universe[EB/OL].[2021-10-20]. https://www.globus.org/file/globus-research-data-management-universe.

[20] NCAR. Research Data Archive[EB/OL].[2021-10-20]. https://rda.ucar.edu/.

[21] CRAM T. Globus integration in the NCAR RDA data portal:Recent enhancements[C]//In Globusworld 2018. Western Digital. Chicago:2018.

Analysis of Scientific Research Data Management Platform Based on Microservice Architecture

YUAN XiaoMing WANG MeiQin

( Soochow University Library, Suzhou 215006, P. R. China )

The explosive growth of scientific research data and remote collaboration and sharing put forward the demand for data management. The microservice architecture data management platform with easy elastic expansion, high-performance transmission and cloud hosting makes it possible for efficient data management. This paper investigates the Globus data management platform based on cloud storage developed by the Argonne National Laboratory research team of the University of Chicago. Globus scientific research data management platform adopts distributed micro service architecture, including four micro service modules: identity management, group service, data transmission and data sharing. The services are independent of each other, and scientific research data transmission and sharing are realized through visual Web interface. The platform has been applied to data management of multiple scientific research projects, and has completed terabyte file transmission. The data management mode and flexible data sharing of Globus can provide reference for scientific research data management in China.

Research Data Management; Globus; Cloud service; SaaS; Microservice

(2021-11-01)

G250

10.3772/j.issn.1673-2286.2021.12.004

袁曉明,王美琴. 基于微服務(wù)架構(gòu)的Globus科研數(shù)據(jù)管理平臺分析[J]. 數(shù)字圖書館論壇,2021(12):22-27.

袁曉明,女,1985年生,碩士,館員,研究方向:信息咨詢、學(xué)科服務(wù)、數(shù)據(jù)保存,E-mail:yuanxiaoming@suda.edu.cn。

王美琴,女,1975年生,碩士,副研究館員,研究方向:圖書情報、信息服務(wù)。

*本研究得到2020年度江蘇省JALIS數(shù)字圖書館專題研究項目“基于社會化精準(zhǔn)服務(wù)提升館員專業(yè)能力的研究”(編號:2020KT08)資助。

猜你喜歡
端點數(shù)據(jù)管理身份
企業(yè)級BOM數(shù)據(jù)管理概要
非特征端點條件下PM函數(shù)的迭代根
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
不等式求解過程中端點的確定
跟蹤導(dǎo)練(三)(5)
參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點估計
他們的另一個身份,你知道嗎
基丁能雖匹配延拓法LMD端點效應(yīng)處理
鹿邑县| 金山区| 高州市| 定结县| 乐陵市| 岫岩| 吉隆县| 宿松县| 阳西县| 娄烦县| 渑池县| 潼关县| 裕民县| 和田县| 河东区| 内丘县| 土默特左旗| 龙川县| 兰州市| 柞水县| 红原县| 新兴县| 密山市| 化隆| 中卫市| 合川市| 镇江市| 马边| 安康市| 石狮市| 河北省| 太仓市| 个旧市| 高淳县| 南阳市| 武威市| 内乡县| 钦州市| 淅川县| 卫辉市| 偏关县|