薛玉強(qiáng) 陳平雁
南方醫(yī)科大學(xué)生物統(tǒng)計(jì)學(xué)系(510515)
·計(jì)算機(jī)應(yīng)用·
基于開源數(shù)據(jù)庫(kù)PostgreSQL與云平臺(tái)構(gòu)建高可靠性臨床研究數(shù)據(jù)管理系統(tǒng)
薛玉強(qiáng) 陳平雁△
南方醫(yī)科大學(xué)生物統(tǒng)計(jì)學(xué)系(510515)
目的 使用開源數(shù)據(jù)庫(kù)PostgreSQL在云服務(wù)器上構(gòu)建低成本、高可靠性的臨床研究數(shù)據(jù)管理系統(tǒng)。方法 基于阿里云服務(wù)器,在開源操作系統(tǒng)CentOS上,采用PostgreSQL數(shù)據(jù)庫(kù),按照臨床研究數(shù)據(jù)管理的完整業(yè)務(wù)流程構(gòu)建數(shù)據(jù)管理系統(tǒng)。結(jié)果 本系統(tǒng)實(shí)現(xiàn)了用戶權(quán)限管理系統(tǒng)、eCRF可視化設(shè)計(jì)器、數(shù)據(jù)管理過程的全部業(yè)務(wù)流程,包括留痕功能。結(jié)論 依靠云服務(wù)器平臺(tái)所具有的高服務(wù)可用性及數(shù)據(jù)可靠性、PostgreSQL數(shù)據(jù)庫(kù)的熱備份能力以及完善的標(biāo)準(zhǔn)操作規(guī)程,該數(shù)據(jù)管理系統(tǒng)的可靠性可以得到有效保證。
臨床研究 數(shù)據(jù)管理系統(tǒng) EDC 開源數(shù)據(jù)庫(kù) PostgreSQL
在臨床試驗(yàn)中使用基于網(wǎng)絡(luò)的電子化數(shù)據(jù)采集(electronic data capture,EDC)系統(tǒng),擁有紙質(zhì)病例報(bào)告表(case report form,CRF)無法比擬的眾多優(yōu)點(diǎn)[1],諸如Oracle公司的Oracle Clinical及Inform系統(tǒng),Medidata公司的Rave系統(tǒng)等等,已經(jīng)作為成熟EDC在跨國(guó)醫(yī)藥企業(yè)的臨床研究項(xiàng)目中使用[2]。但因昂貴的價(jià)格及后期維護(hù)費(fèi)用[3],其在國(guó)內(nèi)醫(yī)藥企業(yè)及研究機(jī)構(gòu)的臨床研究中并沒有得到普及?;诖?,選擇免費(fèi)的開放源碼軟件[4],為我國(guó)醫(yī)藥企業(yè)及臨床研究機(jī)構(gòu)開發(fā)經(jīng)濟(jì)適用的企業(yè)級(jí)EDC系統(tǒng)有其實(shí)際意義。
1.云平臺(tái)提供高服務(wù)可用性的Web界面訪問
在線EDC系統(tǒng),需要穩(wěn)定的網(wǎng)絡(luò)響應(yīng)速度和高可用性,而云計(jì)算平臺(tái)的出現(xiàn)較好地解決了這個(gè)問題[5]。目前國(guó)內(nèi)公眾云平臺(tái)提供云服務(wù)器功能的有騰訊云、阿里云、盛大云、天翼云等,這些云平臺(tái)標(biāo)稱性能基本一致,如服務(wù)可用性為99.95%,數(shù)據(jù)安全性為99.999%等,除天翼云外,其他云平臺(tái)均提供邊界網(wǎng)關(guān)協(xié)議(border gateway protocol,BGP)線路,可同時(shí)為國(guó)內(nèi)南、北方不同網(wǎng)絡(luò)用戶提供良好的訪問速度。本系統(tǒng)選擇阿里云作為Web服務(wù)平臺(tái)進(jìn)行部署與測(cè)試,選擇的操作系統(tǒng)為開源操作系統(tǒng)CentOS 6.5(64位)。
2.PostgreSQL提供先進(jìn)的數(shù)據(jù)庫(kù)引摯,用于臨床數(shù)據(jù)的存儲(chǔ)
EDC系統(tǒng)最核心的功能是研究數(shù)據(jù)的存儲(chǔ),因而對(duì)數(shù)據(jù)庫(kù)系統(tǒng)的性能要求較高,目前流行的關(guān)系型開源數(shù)據(jù)庫(kù)系統(tǒng)包括MySQL、PostgreSQL、Firebird等,本系統(tǒng)將采用PostgreSQL作為數(shù)據(jù)存儲(chǔ)引摯。
PostgreSQL起源于1985年加州伯克利大學(xué)的Ingress項(xiàng)目,開源至今經(jīng)歷了15年以上的發(fā)展,已經(jīng)成為一個(gè)功能強(qiáng)大的對(duì)象關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),是一個(gè)數(shù)據(jù)的完整性和正確性經(jīng)過驗(yàn)證的數(shù)據(jù)庫(kù)架構(gòu),因其高可靠性在用戶中贏得了良好的聲譽(yù),PostgreSQL被譽(yù)為“最先進(jìn)的開源數(shù)據(jù)庫(kù)”[6-8]。
PostgreSQL支持大部分SQL2011標(biāo)準(zhǔn)特性及其定義的數(shù)據(jù)類型,如:整數(shù)、浮點(diǎn)數(shù)、布爾值、固定及可變長(zhǎng)度字符串、時(shí)間、時(shí)間差和時(shí)間戳。PostgreSQL也支持存儲(chǔ)二進(jìn)制大對(duì)象,包括圖片、聲音和視頻。編程接口支持C/C ++、Java、NET、Perl、Python和Ruby等常見語(yǔ)言。PostgreSQL可以運(yùn)行在所有主要的操作系統(tǒng)上,包括Linux,UNIX(包括AIX、BSD、HP-UX、SGI IRIX、Mac OS X、Solaris、Tru64)和Windows[6]。
在數(shù)據(jù)可靠性和完整性方面,PostgreSQL 8之后的所有版本(當(dāng)前正式版本為9.3.4),均提供了支持時(shí)間點(diǎn)的數(shù)據(jù)庫(kù)恢復(fù)功能:在線備份與即時(shí)恢復(fù)(on-line backup and point-in-time recovery,PITR)功能,當(dāng)主數(shù)據(jù)庫(kù)或其操作系統(tǒng)出現(xiàn)異常,甚至是服務(wù)器因故宕機(jī),負(fù)責(zé)備份的數(shù)據(jù)庫(kù)服務(wù)器可將數(shù)據(jù)恢復(fù)至異常之前,特別是從9.0版本之后,提供了名為“hot standby”的功能[9],在利用日志恢復(fù)數(shù)據(jù)的同時(shí),可以用只讀的方式打開數(shù)據(jù)庫(kù),進(jìn)行查詢操作。從而保證了數(shù)據(jù)庫(kù)的高可用性及數(shù)據(jù)存儲(chǔ)的完整性。
3.軟件即服務(wù)(Software-as-a-service,SaaS)的使用模式
本EDC系統(tǒng)將采用SaaS模式[10],用戶只需接入互聯(lián)網(wǎng),登錄后即可使用本系統(tǒng),無需另外購(gòu)置軟硬件,只需支付一定的服務(wù)費(fèi)用;而系統(tǒng)本身的構(gòu)建均基于免費(fèi)的開源軟件,因而使用本系統(tǒng)的成本可大大降低。
1.用戶權(quán)限管理系統(tǒng)
用戶權(quán)限管理系統(tǒng)涉及權(quán)限設(shè)計(jì)、角色管理、組織管理、用戶管理等,在本系統(tǒng)中,主要的角色包括管理員、數(shù)據(jù)管理員、監(jiān)查員、研究助理、主要研究者、稽查員,并可根據(jù)需要擴(kuò)展其他角色;按照我國(guó)臨床試驗(yàn)質(zhì)量管理規(guī)范[11](good clinical practice,GCP)并參照美國(guó)聯(lián)邦法規(guī)21章第11款中涉及電子記錄的要求[12],分配數(shù)據(jù)錄入、修改、核查、批準(zhǔn)、鎖定等權(quán)限給相應(yīng)角色,并在系統(tǒng)中記錄用戶的所有操作日志。
2.eCRF可視化設(shè)計(jì)器
設(shè)計(jì)器以單個(gè)字段為最小單位,可定義的字段類型包括單行的文本或數(shù)字、單選、多選等,涵蓋了CRF中所有需錄入的字段類型;同時(shí),通過定義該字段對(duì)應(yīng)的CRF頁(yè)面上的定位、單位及注釋等信息,可實(shí)現(xiàn)eCRF頁(yè)面的精細(xì)化設(shè)計(jì),使eCRF具有與紙質(zhì)CRF基本相同的頁(yè)面布局。通過此設(shè)計(jì)器,普通的數(shù)據(jù)管理人員或研究者,經(jīng)過簡(jiǎn)單的培訓(xùn)后,即可設(shè)計(jì)eCRF頁(yè)面。
3.業(yè)務(wù)流程實(shí)現(xiàn)
按照臨床研究的數(shù)據(jù)管理過程,本系統(tǒng)實(shí)現(xiàn)了數(shù)據(jù)錄入、程序核查、數(shù)據(jù)疑問、原始數(shù)據(jù)核查(source data validation,SDV)、CRF審批、數(shù)據(jù)鎖定六個(gè)業(yè)務(wù)流程,并將納入的受試者劃分為數(shù)據(jù)待錄入→錄入中→完成錄入→完成SDV→完成審批→已鎖定六種狀態(tài),并且限定了嚴(yán)格的邏輯判定標(biāo)準(zhǔn),使每一受試者的數(shù)據(jù)均需按此順序進(jìn)行操作,同時(shí)按照角色權(quán)限和數(shù)據(jù)管理實(shí)際情況,實(shí)現(xiàn)了完成錄入狀態(tài)到錄入中狀態(tài)的有條件回退。
1.建庫(kù)測(cè)試
采用eCRF可視化設(shè)計(jì)器設(shè)計(jì)入選排除標(biāo)準(zhǔn)、人口學(xué)特征、既往病史、用藥史、基線時(shí)的實(shí)驗(yàn)室檢查等幾個(gè)基本CRF頁(yè)面,構(gòu)成本研究項(xiàng)目的錄入頁(yè)面。
2.測(cè)試錄入與痕跡記錄
共測(cè)試錄入5份數(shù)據(jù),所有的痕跡記錄可在線瀏覽;對(duì)于已錄入數(shù)據(jù)的修改,還需提供修改原因;系統(tǒng)還將記錄修改時(shí)間、修改人ID及其IP地址。
3.測(cè)試SDV與審批
SDV及審批針對(duì)每一個(gè)受試者的eCRF,且只有經(jīng)過SDV的eCRF才可進(jìn)行審批操作,這是系統(tǒng)固化的業(yè)務(wù)流程,未進(jìn)行SDV的eCRF進(jìn)行批準(zhǔn)操作時(shí),系統(tǒng)會(huì)給予警示并禁止該操作。
4.測(cè)試鎖定
使用數(shù)據(jù)管理員身份登錄系統(tǒng),選擇已經(jīng)由研究者審批的eCRF進(jìn)行鎖定操作,eCRF頁(yè)面中的錄入表單全部轉(zhuǎn)換為只讀狀態(tài),除數(shù)據(jù)管理員外,其他任何人均無法再對(duì)該份eCRF進(jìn)行數(shù)據(jù)的錄入或修改操作。
5.可用性及數(shù)據(jù)安全性
系統(tǒng)在云平臺(tái)部署至今已超過半年時(shí)間,期間未遇到服務(wù)中斷情況;系統(tǒng)內(nèi)數(shù)據(jù)執(zhí)行每天增量備份,經(jīng)不完全測(cè)試,增量備份文件內(nèi)的數(shù)據(jù)均可完整恢復(fù)到系統(tǒng)中。
本系統(tǒng)采用開源數(shù)據(jù)庫(kù)PostgreSQL,代碼強(qiáng)健,穩(wěn)定性和安全性都有保證;云平臺(tái)與PostgreSQL數(shù)據(jù)庫(kù)的熱備份能力及完善的標(biāo)準(zhǔn)操作規(guī)程相結(jié)合,該數(shù)據(jù)管理系統(tǒng)的可靠性可以得到有效保證;同時(shí),系統(tǒng)開發(fā)遵循了GCP及FDA相關(guān)要求,并將規(guī)范化的數(shù)據(jù)管理流程固化到系統(tǒng)中,有助于提高數(shù)據(jù)管理過程的質(zhì)量;再者,系統(tǒng)本身部署快,而eCRF采用可視化設(shè)計(jì)器進(jìn)行設(shè)計(jì),eCRF與數(shù)據(jù)庫(kù)同時(shí)設(shè)計(jì)生成,方便易用效率高。
另外,作為一個(gè)完全基于開源軟件構(gòu)建、使用SaaS模式提供服務(wù)的EDC系統(tǒng),該系統(tǒng)的使用及后期維護(hù)費(fèi)用將大大降低,有利于EDC系統(tǒng)在我國(guó)的普及應(yīng)用。
本系統(tǒng)存在不足之處,目前系統(tǒng)功能尚在完善中,電子簽名功能尚未實(shí)現(xiàn);另外,由于開發(fā)時(shí)間短、測(cè)試少,仍需開發(fā)者與使用者密切溝通,從而使系統(tǒng)不斷完善。作為一個(gè)新系統(tǒng),合規(guī)性的驗(yàn)證需要由軟件及計(jì)算機(jī)系統(tǒng)的驗(yàn)證來完成,涉及內(nèi)容多、需多方配合。
[1]Brigitte Walther,Safayet Hossin,John Townend,et al.Comparison of Electronic Data Capture (EDC) with the Standard Data Capture Method for Clinical Trial Data.PLoS One,2011,6(9):e25348.
[2]Leroux Hugo,Mcbride Simon,Gibson Simon.On Selecting a Clinical Trial Management System for Large Scale,Multi-Centre,Multi-Modal Clinical Research Study.Health Informatics:The Transformative Power of Innovation.IOS Press,2011,168:89-95.
[3]Jatin Shah BAMS,PDCR,Dimple Rajgor MSc,et al.Electronic Data Capture for Registries and Clinical Trials in Orthopaedic Surgery:Open Source versus Commercial Systems.Clinical Orthopaedics and Related Research,2010,468(10):2664-2671.
[4]Bruce P.The Open Source Definition.Open Sources:Voices from the Open Source Revolution.O′Reilly Media,1999:171-188.
[5]Michael Armbrust,Armando Fox,Rean Griffith,et al.Above the Clouds:A Berkeley View of Cloud Computing.Technical Report No.UCB/EECS-2009-28.
[6]Wikipedia.PostgreSQL.http://en.wikipedia.org/wiki/PostgreSQL[2014-06-20].
[7]Troels Arvins minimalistiske web-base.Comparison of different SQL implementations.http://troels.arvin.dk/db/rdbms/[2014-06-20].
[8]Wikipedia.Comparison of relational database management systems.http://en.wikipedia.org/wiki/Comparison_of_relational_database_management_systems[2014-06-20].
[9]Simon R,Hannu K.PostgreSQL 9 Administration Cookbook.Birmingham:Packt Publishing Ltd,2010,316-320.
[10]袁志俊,夏紅霞.基于SaaS模式在線軟件系統(tǒng)開發(fā)方案的研究.計(jì)算機(jī)工程與設(shè)計(jì),2009,30(11):2714-2717.
[11]國(guó)家食品藥品監(jiān)督管理總局.藥物臨床試驗(yàn)質(zhì)量管理規(guī)范(局令第3號(hào)).http://www.sda.gov.cn/WS01/CL0053/24473.html.[2014-06-21].
[12]U.S.Food and Drug Administration.CFR-Code of Federal Regulations Title 21.Available:http://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfcfr/CFRSearch.cfm?CFRPart=11&showFR=1&subpartNode=21:1.0.1.1.8.2.[2014-06-21].
(責(zé)任編輯:郭海強(qiáng))
△通信作者:陳平雁,E-mail:chenpy99@126.com
中國(guó)衛(wèi)生統(tǒng)計(jì)2015年3期