付 磊 李金斌 王 戎 尚小溥 尹 嶺
(1.中國(guó)人民解放軍總醫(yī)院,北京 100853;2.國(guó)家人口計(jì)生委科學(xué)技術(shù)研究所,北京 100081;3.北京交通大學(xué),北京 100044)
國(guó)外人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)特點(diǎn)及啟示
付 磊1李金斌1王 戎2尚小溥3尹 嶺1
(1.中國(guó)人民解放軍總醫(yī)院,北京 100853;2.國(guó)家人口計(jì)生委科學(xué)技術(shù)研究所,北京 100081;3.北京交通大學(xué),北京 100044)
以承載生物信息、臨床試驗(yàn)、循證醫(yī)學(xué)三類數(shù)據(jù)并實(shí)施共享的典型數(shù)據(jù)平臺(tái)NCBI、CT、UptoDate為對(duì)象,從外部政策環(huán)境、數(shù)據(jù)組織管理、數(shù)據(jù)采集更新機(jī)制、數(shù)據(jù)共享利用等方面,總結(jié)國(guó)外人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)的建設(shè)特點(diǎn),并在分析國(guó)內(nèi)現(xiàn)狀和不足的基礎(chǔ)上,對(duì)我國(guó)人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)的建設(shè)提出建議。
人口健康;醫(yī)藥衛(wèi)生;科學(xué)數(shù)據(jù);數(shù)據(jù)共享;平臺(tái)建設(shè)
科學(xué)數(shù)據(jù)指在調(diào)查、實(shí)驗(yàn)、探測(cè)等科技活動(dòng)中或通過(guò)其他方式所獲取的反映客觀世界的本質(zhì)、特征、變化規(guī)律等原始數(shù)據(jù),以及根據(jù)不同科技活動(dòng)需要進(jìn)行系統(tǒng)加工整理的各類數(shù)據(jù)集[1]??茖W(xué)已步入了“大數(shù)據(jù)”時(shí)代,科學(xué)數(shù)據(jù)是大數(shù)據(jù)時(shí)代最基本、最活躍、影響最廣泛的科技創(chuàng)新資源,具有重要的科學(xué)、經(jīng)濟(jì)和社會(huì)價(jià)值,通過(guò)海量科學(xué)數(shù)據(jù)的交換、整合、分析,新的知識(shí)和規(guī)律被不斷發(fā)現(xiàn),新的意義和價(jià)值被不斷產(chǎn)生和創(chuàng)造。作為最活躍的科學(xué)研究領(lǐng)域之一,人口健康領(lǐng)域的科學(xué)數(shù)據(jù)被廣泛應(yīng)用于藥物研發(fā)、疫情監(jiān)測(cè)、公共健康監(jiān)控、臨床實(shí)驗(yàn)數(shù)據(jù)分析、藥械安全性與有效性以及衛(wèi)生經(jīng)濟(jì)學(xué)評(píng)價(jià)等多方面。作為科學(xué)數(shù)據(jù)收集、組織、存儲(chǔ)、加工、傳播和利用的關(guān)鍵基礎(chǔ)設(shè)施,科學(xué)數(shù)據(jù)共享平臺(tái)的建設(shè)受到越來(lái)越多的重視。追蹤并研究世界范圍內(nèi)人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)情況和新進(jìn)展,學(xué)習(xí)引進(jìn)新思路、新技術(shù)、新方法,有利于大幅提高我國(guó)在該領(lǐng)域的建設(shè)水平,從而少走彎路,實(shí)現(xiàn)跨越式發(fā)展。
人口健康領(lǐng)域科學(xué)數(shù)據(jù)類型復(fù)雜,形式多樣。隨著人類對(duì)自身研究的不斷深入,以及現(xiàn)代計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、信息技術(shù)的不斷發(fā)展,各種機(jī)構(gòu)和組織建立的用于收集、存儲(chǔ)、管理人口健康數(shù)據(jù)的各類型平臺(tái)日漸增多。然而,很多平臺(tái)僅局限于各自機(jī)構(gòu)內(nèi)部使用,外部交流與共享的范圍和內(nèi)容都十分有限。目前,人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享實(shí)現(xiàn)較好的主要包括生物信息類數(shù)據(jù)、臨床試驗(yàn)類數(shù)據(jù)和循證醫(yī)學(xué)類數(shù)據(jù)。本文以承載這三類數(shù)據(jù)的典型共享平臺(tái)NCBI(National Center of Biotechnology Information)、CT(Clinical Trial)和UptoDate為主要調(diào)查對(duì)象。在調(diào)查方法上,以網(wǎng)絡(luò)調(diào)查法訪問(wèn)各平臺(tái)為主,輔以文獻(xiàn)調(diào)研。由于關(guān)注的學(xué)科領(lǐng)域不同,各平臺(tái)的數(shù)據(jù)內(nèi)容、數(shù)據(jù)規(guī)模差異較大,相關(guān)內(nèi)容并不作為調(diào)查重點(diǎn),而主要從外部政策環(huán)境、數(shù)據(jù)組織管理、數(shù)據(jù)采集更新機(jī)制、數(shù)據(jù)共享利用等方面,分析總結(jié)相關(guān)特點(diǎn),為我國(guó)人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)的建設(shè)提供借鑒。
資源共享的概念早在公元前1世紀(jì)就被西方學(xué)者提出。近現(xiàn)代,發(fā)達(dá)國(guó)家的科技資源共享從圖書、科技文獻(xiàn)的館際互借開始,后擴(kuò)展到中大型科學(xué)儀器設(shè)備共享,進(jìn)而到自然科技資源和科學(xué)數(shù)據(jù)的共享。發(fā)達(dá)國(guó)家通過(guò)制定法律來(lái)保障科技信息的公開和共享,如美國(guó)的《信息自由法》、《美國(guó)聯(lián)邦信息資源管理法》,德國(guó)的《信息和通訊服務(wù)規(guī)范法》,俄羅斯的《聯(lián)邦信息、信息化和信息保護(hù)法》,法國(guó)的《信息社會(huì)法》[2]等。1990 年,美國(guó)頒布了《全球變化研究法案》,進(jìn)一步規(guī)范了實(shí)施科學(xué)數(shù)據(jù)共享的研究項(xiàng)目類別,完善了相關(guān)數(shù)據(jù)整合的規(guī)范。90年代后期,美國(guó)政府建立了以“完全與開放”的共享國(guó)策為核心的法律和制度保障體系,標(biāo)志著美國(guó)科學(xué)數(shù)據(jù)共享進(jìn)入較為成熟的階段[3]。通過(guò)法律形式建立起科學(xué)數(shù)據(jù)的共享制度,并逐步形成規(guī)范、系統(tǒng)的制度體系,使得圍繞科學(xué)數(shù)據(jù)收集、存儲(chǔ)、管理、利用而建立的共享平臺(tái)擁有了制度保障,有效地促進(jìn)了發(fā)達(dá)國(guó)家科學(xué)數(shù)據(jù)共享平臺(tái)的發(fā)展建設(shè)。
隨著科技發(fā)展和理念提升,發(fā)達(dá)國(guó)家建設(shè)的眾多科學(xué)數(shù)據(jù)共享平臺(tái)集成度不斷提高,從最初實(shí)現(xiàn)數(shù)據(jù)的收集、存儲(chǔ),逐步完善、提升為集收集、存儲(chǔ)、管理、整合、處理、分析、展現(xiàn)、應(yīng)用于一體的綜合性數(shù)據(jù)共享平臺(tái)。
NCBI是美國(guó)國(guó)立生物技術(shù)信息中心建立的同名數(shù)據(jù)共享平臺(tái),建立之初主要是負(fù)責(zé)保管GenBank的基因測(cè)序數(shù)據(jù)和Medline的生物醫(yī)學(xué)研究論文索引數(shù)據(jù)。經(jīng)過(guò)多年發(fā)展,NCBI不僅建立了高效管理基因組、蛋白組、化合物等多種類數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng),而且建立了與科技文獻(xiàn)資源(如Medline)、臨床數(shù)據(jù)資源(如Clinical Trials.gov)、公共衛(wèi)生數(shù)據(jù)資源(如Pathogen Detection Project)等的緊密關(guān)聯(lián)。NCBI還開發(fā)集成了在線數(shù)據(jù)綜合檢索系統(tǒng) Entrez,其在多個(gè)數(shù)據(jù)庫(kù)間建立起可靠、完善的關(guān)聯(lián),可根據(jù)要求檢索不同類型的相關(guān)數(shù)據(jù)和信息,如從查詢一個(gè)DNA序列開始,檢索到對(duì)應(yīng)蛋白產(chǎn)物及3D結(jié)構(gòu)圖,再到相關(guān)文獻(xiàn),每個(gè)條目還給出與查詢條目接近的信息,檢索結(jié)果可以多種格式輸出,也可打包或逐個(gè)下載。為便于數(shù)據(jù)深度挖掘和分析,NCBI針對(duì)不同數(shù)據(jù)特點(diǎn)和應(yīng)用場(chǎng)景開發(fā)了一系列工具軟件,如基因序列比對(duì)分析工具BLAST、蛋白序列進(jìn)化樹分析繪圖工具CDTree、用于DNA位點(diǎn)識(shí)別的電子克隆工具e-PCR、自動(dòng)檢測(cè)基金剪切位點(diǎn)工具Splign等,系列工具軟件的開發(fā)及應(yīng)用使研究人員通過(guò)平臺(tái)得到了從數(shù)據(jù)獲取到數(shù)據(jù)解讀的一站式解決方案。當(dāng)前,NCBI已綜合集成了數(shù)據(jù)的上傳、下載、檢索、在線處理、整合分析等功能,同時(shí)還承擔(dān)了新聞發(fā)布、在線培訓(xùn)、科研合作等職能。高度集成的共享平臺(tái)使從數(shù)據(jù)到知識(shí)的過(guò)程進(jìn)一步縮短,數(shù)據(jù)的科學(xué)價(jià)值、社會(huì)價(jià)值和經(jīng)濟(jì)價(jià)值更容易被挖掘。
平臺(tái)的開放共享程度體現(xiàn)了對(duì)數(shù)據(jù)的利用水平,也影響著平臺(tái)自身發(fā)展的核心競(jìng)爭(zhēng)力。國(guó)外人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)十分注重平臺(tái)資源的開放共享。為實(shí)現(xiàn)在世界范圍內(nèi)合作收集生物技術(shù)信息,共同開展生物信息研究,NCBI采取了科學(xué)數(shù)據(jù)完全開放共享的發(fā)展策略。如其最主要的數(shù)據(jù)庫(kù)GenBank,任何個(gè)人或組織都可以在不需要注冊(cè)的情況下通過(guò)平臺(tái)查詢并下載自己感興趣的核酸序列數(shù)據(jù)。完全開放共享的發(fā)展理念和策略產(chǎn)生了數(shù)據(jù)資源的“虹吸效應(yīng)”,使得NCBI的數(shù)據(jù)來(lái)源和用戶群體遍布世界。NCBI的GenBank還與歐洲EMBL-EBI數(shù)據(jù)庫(kù)、日本DDBJ數(shù)據(jù)庫(kù)組成國(guó)際核酸序列數(shù)據(jù)庫(kù)合作聯(lián)盟,幾乎收錄了世界上所報(bào)道的所有核酸序列數(shù)據(jù),并且每天實(shí)時(shí)更新交換各自的序列信息[4]。
同樣的情況在CT和UptoDate中也有體現(xiàn)。CT是目前國(guó)際上最重要的臨床試驗(yàn)數(shù)據(jù)共享平臺(tái)之一,由美國(guó)國(guó)立衛(wèi)生研究院和美國(guó)食品藥品管理局共同開發(fā),主要向醫(yī)學(xué)科研機(jī)構(gòu)和人員提供臨床試驗(yàn)的注冊(cè)服務(wù)[5]。通過(guò)注冊(cè),有效增加臨床試驗(yàn)信息的透明度,增強(qiáng)了試驗(yàn)過(guò)程的規(guī)范性和結(jié)果的可信度。CT 面向全球開放,截止到2017年8月5日,平臺(tái)已擁有在全美50個(gè)州及全球其他200個(gè)國(guó)家開展的251021項(xiàng)臨床試驗(yàn)研究及其結(jié)果的數(shù)據(jù),而且這一數(shù)字隨試驗(yàn)注冊(cè)情況在隨時(shí)更新變化,任何機(jī)構(gòu)和個(gè)人都可以在CT免費(fèi)注冊(cè)和查詢這些數(shù)據(jù)。UptoDate是荷蘭威科集團(tuán)開發(fā)的一個(gè)全球領(lǐng)先的基于循證醫(yī)學(xué)原則的臨床知識(shí)共享平臺(tái),為臨床醫(yī)師、藥師提供即時(shí)、循證的臨床醫(yī)藥信息。UptoDate由上萬(wàn)個(gè)臨床診療專題構(gòu)成,每個(gè)專題由領(lǐng)域內(nèi)經(jīng)驗(yàn)豐富的醫(yī)師綜合已發(fā)表的一系列權(quán)威研究證據(jù)進(jìn)行撰寫和編輯,給出疾病診療的醫(yī)學(xué)知識(shí)和能夠運(yùn)用于臨床實(shí)踐的分級(jí)推薦意見(jiàn)。目前,UptoDate每日更新,其數(shù)據(jù)已覆蓋24個(gè)???,有1.05萬(wàn)多個(gè)專題,9700多條分級(jí)推薦意見(jiàn),3萬(wàn)多張圖表,160多個(gè)醫(yī)學(xué)計(jì)算器,5600多篇藥物專論以及42.5萬(wàn)多條Medline參考文獻(xiàn),被廣泛應(yīng)用于180多個(gè)國(guó)家的3.2萬(wàn)多家醫(yī)療機(jī)構(gòu)[6]。
平臺(tái)的高度開放共享,帶來(lái)的是數(shù)據(jù)來(lái)源廣度的增加和更新速度的提高,并進(jìn)一步助推平臺(tái)的建設(shè)發(fā)展和數(shù)據(jù)的深度發(fā)掘利用。
數(shù)據(jù)質(zhì)量決定了數(shù)據(jù)價(jià)值,國(guó)外人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)十分注重平臺(tái)數(shù)據(jù)的質(zhì)量控制,根據(jù)自身?yè)碛袛?shù)據(jù)資源的特點(diǎn)建立了相對(duì)規(guī)范的數(shù)據(jù)處理流程和較完善的質(zhì)控體系。
在CT平臺(tái),用戶提交一份合格的臨床試驗(yàn)注冊(cè)方案,需要按要求填寫已被格式化為12部分的幾乎涵蓋了臨床試驗(yàn)各方面內(nèi)容的電子表單[7],具體包括:(1)研究方案名稱和背景資料,如各類標(biāo)識(shí)號(hào)(ID、次級(jí)ID)、研究名稱(精簡(jiǎn)名、縮寫名、官方名)、研究類型(干預(yù)性研究、觀察性研究、拓展性應(yīng)用);(2)美國(guó)FDA相關(guān)信息,如IND(Investigational New Drug Application,臨床試用新藥申請(qǐng))、IDE(Investigational Device Exemption,臨床器械研究豁免)序列號(hào);(3)受試者評(píng)審信息(評(píng)審委員會(huì)、數(shù)據(jù)督查委員會(huì)和監(jiān)督當(dāng)局信息);(4)組織者信息(試驗(yàn)責(zé)任方、主辦方、合作方信息);(5)研究方案說(shuō)明;(6)試驗(yàn)狀況說(shuō)明(核查日期、招募狀況、拓展性應(yīng)用狀況);(7)研究方案設(shè)計(jì);(8)分組和干預(yù);(9)研究對(duì)象和關(guān)鍵詞;(10)受試者選擇(目標(biāo)人群來(lái)源、抽樣方法、納入排除標(biāo)準(zhǔn)、性別、年齡限制、是否接受健康志愿者等);(11)研究方案分中心及研究者信息;(12)其他相關(guān)信息(參考文獻(xiàn)、相關(guān)網(wǎng)絡(luò)鏈接等)。提交的信息將由其內(nèi)在質(zhì)控系統(tǒng)進(jìn)行審核,以確保數(shù)據(jù)準(zhǔn)確、真實(shí)。UptoDate提供的是基于循證的臨床醫(yī)藥信息,為了給醫(yī)務(wù)工作者的臨床實(shí)踐提供科學(xué)、有效的指導(dǎo)和參考,其相關(guān)信息要經(jīng)過(guò)7步嚴(yán)格的處理流程[8]:(1)收集循證證據(jù)和用戶反饋意見(jiàn);(2)對(duì)證據(jù)開展評(píng)價(jià)與分級(jí);(3)進(jìn)一步分析分級(jí)后的證據(jù);(4)如有循證證據(jù)被推薦,對(duì)推薦建議進(jìn)行分級(jí);(5)增加證據(jù)分級(jí)及推薦分級(jí)信息;(6)專家審核;(7)信息更新。在NCBI平臺(tái),因生物信息數(shù)據(jù)體量往往達(dá)到GB、TB量級(jí),為避免數(shù)據(jù)的重復(fù)或不準(zhǔn)確,NCBI還專門推出RefSeq數(shù)據(jù)庫(kù),每個(gè)位點(diǎn)挑出一個(gè)代表序列來(lái)減少重復(fù),經(jīng)過(guò)校正和冗余數(shù)據(jù)篩選后,進(jìn)一步提高了數(shù)據(jù)的可信度。
國(guó)外知名數(shù)據(jù)共享平臺(tái)在數(shù)據(jù)質(zhì)量控制方面還有不少方法值得借鑒。如將同行評(píng)審作為數(shù)據(jù)共享利用的前提步驟;再如科學(xué)數(shù)據(jù)的分層管理[9](研究型數(shù)據(jù)、資源型數(shù)據(jù)、參考型數(shù)據(jù))。通過(guò)制定一系列引用規(guī)范、標(biāo)準(zhǔn)和原則,實(shí)現(xiàn)對(duì)科學(xué)數(shù)據(jù)全生命周期的質(zhì)量控制。這些數(shù)據(jù)平臺(tái)使用或推出的標(biāo)準(zhǔn)往往還是國(guó)家或行業(yè)標(biāo)準(zhǔn),如NCBI的GenBank、歐洲EMBL-EBI、日本的DDBJ為便于每日數(shù)據(jù)的交互,有著較為統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),這樣極大地增強(qiáng)了數(shù)據(jù)的可信度,也進(jìn)一步激發(fā)了平臺(tái)活力。
服務(wù)能力是數(shù)據(jù)共享平臺(tái)的重要評(píng)價(jià)指標(biāo),國(guó)外人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)不斷豐富服務(wù)模式,以滿足不同用戶的個(gè)性化需求。
NCBI平臺(tái)不斷豐富的功能使其服務(wù)能力得到持續(xù)提升。除了一般的瀏覽、檢索服務(wù)以及為用戶存儲(chǔ)、管理生物信息數(shù)據(jù)的基礎(chǔ)服務(wù)以外,平臺(tái)提供的一系列工具軟件可以為用戶在處理諸如序列數(shù)據(jù)檢索、序列同源性和相似性對(duì)比、序列多重排比、進(jìn)化樹分析、蛋白功能分析、大分子結(jié)構(gòu)分析與多維顯示等復(fù)雜生物信息數(shù)據(jù)分析時(shí),提供輕松、便捷的解決方案。在個(gè)性化服務(wù)方面,NCBI推出了“My Ncbi”。用戶通過(guò)設(shè)置,可定制符合自我偏好的檢索過(guò)濾器,實(shí)現(xiàn)快速準(zhǔn)確檢索,并根據(jù)需要保存檢索歷史;利用RSS(Really Simple Syndication,簡(jiǎn)易信息聚合)技術(shù),NCBI還會(huì)根據(jù)用戶特性,向其實(shí)時(shí)推送研究相關(guān)的、最新的科學(xué)數(shù)據(jù)、文獻(xiàn)、臨床試驗(yàn)、臨床治療指南及其他相關(guān)數(shù)據(jù)庫(kù)中數(shù)據(jù)的更新情況,使用戶能夠及時(shí)掌握自身感興趣的相關(guān)研究的最新動(dòng)態(tài)。此外,生物信息方法學(xué)相關(guān)的培訓(xùn)課程也是其重要的服務(wù)內(nèi)容之一。UptoDate也十分注重用戶的個(gè)性化需求,其給出的分級(jí)意見(jiàn)可以滿足不同層次醫(yī)務(wù)工作者的知識(shí)獲取需求,還提供繼續(xù)教育的服務(wù);平臺(tái)內(nèi)置的臨床醫(yī)學(xué)計(jì)算器可以幫助醫(yī)務(wù)工作者在實(shí)施臨床診療、疾病風(fēng)險(xiǎn)評(píng)估過(guò)程中方便、快捷地計(jì)算出關(guān)鍵指標(biāo)數(shù)值。同時(shí),UptoDate的醫(yī)學(xué)主題內(nèi)容還有患者專用版本,可以為患者或普通大眾提供個(gè)性化的、免費(fèi)的醫(yī)療咨詢和健康教育服務(wù)。
多樣化和個(gè)性化的數(shù)據(jù)服務(wù)增強(qiáng)了平臺(tái)的粘度,服務(wù)的過(guò)程使數(shù)據(jù)價(jià)值得以體現(xiàn),數(shù)據(jù)的價(jià)值也在服務(wù)過(guò)程中得到了進(jìn)一步提升。
國(guó)內(nèi)的平臺(tái)建設(shè)起步相對(duì)較晚,近些年,隨著人口健康領(lǐng)域信息化基礎(chǔ)設(shè)施建設(shè)水平的提高,各類數(shù)據(jù)平臺(tái)相繼建立且發(fā)展迅速。當(dāng)前,在國(guó)內(nèi)人口健康領(lǐng)域較具代表性、建設(shè)相對(duì)成熟、共享程度較高的數(shù)據(jù)平臺(tái)是國(guó)家人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)(NCMI),也是國(guó)家科技基礎(chǔ)條件平臺(tái)下科學(xué)數(shù)據(jù)共享平臺(tái)的重要組成部分。NCMI的前身是醫(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)共享網(wǎng),于2003年作為科技部科學(xué)數(shù)據(jù)共享工程重大項(xiàng)目立項(xiàng),主要完成對(duì)國(guó)家科技計(jì)劃項(xiàng)目中人口健康領(lǐng)域科學(xué)數(shù)據(jù)的匯交、處理、存儲(chǔ)、管理和共享等任務(wù)。2010年,項(xiàng)目通過(guò)科技部和財(cái)政部組織的平臺(tái)認(rèn)定轉(zhuǎn)為長(zhǎng)期運(yùn)行。2016年,首次向社會(huì)公眾發(fā)布了平臺(tái)擁有的49.1TB、2.8億條人口與健康大數(shù)據(jù)資源,涉及生物醫(yī)學(xué)、基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、公共衛(wèi)生、中醫(yī)藥學(xué)、藥學(xué)、人口與生殖健康七大類237個(gè)數(shù)據(jù)集[10]。經(jīng)過(guò)10余年的建設(shè)發(fā)展,NCMI的資源種類不斷豐富、資源數(shù)量不斷增多,并且在衛(wèi)生決策、重大工程、科技項(xiàng)目、突發(fā)應(yīng)急事件和服務(wù)民生方面取得了顯著成效,但仍有不少需要改進(jìn)、完善的地方,也較明顯地反映出國(guó)內(nèi)人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)的建設(shè)現(xiàn)狀及存在的一些問(wèn)題。
目前,國(guó)內(nèi)尚無(wú)科學(xué)數(shù)據(jù)共享方面的法律,僅在公共信息領(lǐng)域有一些行政法規(guī)、政策文件和部門規(guī)章,如《中華人民共和國(guó)科學(xué)數(shù)據(jù)共享?xiàng)l例(建議稿)》、《國(guó)家科技計(jì)劃項(xiàng)目科學(xué)數(shù)據(jù)匯交暫行辦法》。與國(guó)外科學(xué)數(shù)據(jù)共享規(guī)范、成熟的法律法規(guī)體系相比,我國(guó)相關(guān)法律法規(guī)的制定整體相對(duì)滯后[11]?,F(xiàn)有的一些行政法規(guī)和部門章程,在實(shí)際使用中原則性規(guī)定較多,缺乏可操作性。在對(duì)參與數(shù)據(jù)共享的機(jī)構(gòu)和個(gè)人應(yīng)用何種機(jī)制、如何向數(shù)據(jù)共享者返還公平的惠益方面,仍有明顯缺失;更多的是從注重?cái)?shù)據(jù)保護(hù)角度出發(fā),對(duì)于共享利用方面仍舊欠缺。特別是隨著人口健康領(lǐng)域的科學(xué)數(shù)據(jù)與公眾個(gè)體的關(guān)系愈加緊密,制度保障體系的不完善,對(duì)數(shù)據(jù)共享平臺(tái)的長(zhǎng)期穩(wěn)定建設(shè)和高效運(yùn)行有較大影響。
受制度保障體系、建設(shè)理念先進(jìn)性、技術(shù)開發(fā)水平或其他方面的影響,國(guó)內(nèi)人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)的集成度十分有限。很多數(shù)據(jù)平臺(tái)的建設(shè)仍停留在對(duì)數(shù)據(jù)庫(kù)的基礎(chǔ)操作水平上,如對(duì)平臺(tái)數(shù)據(jù)的查詢、下載,極少有平臺(tái)能夠像NCBI那樣,將高相關(guān)度的科學(xué)數(shù)據(jù)、文獻(xiàn)、臨床試驗(yàn)、臨床治療指南等信息進(jìn)行深度整合并及時(shí)推送,“支離破碎”的數(shù)據(jù)嚴(yán)重影響了數(shù)據(jù)挖掘和知識(shí)形成的效率。另外,人口健康領(lǐng)域的科學(xué)數(shù)據(jù)種類繁多、形式各異,對(duì)于一些特殊格式的數(shù)據(jù),很多平臺(tái)選擇為其提供專用工具,卻使數(shù)據(jù)的讀取和后續(xù)處理分析工作變得復(fù)雜,降低了用戶的使用體驗(yàn)。國(guó)內(nèi)數(shù)據(jù)平臺(tái)亟需加強(qiáng)數(shù)據(jù)的整合集成,進(jìn)一步拓展平臺(tái)功能。
國(guó)內(nèi)的數(shù)據(jù)共享平臺(tái)還普遍存在數(shù)據(jù)來(lái)源單一,更新較慢的問(wèn)題。如 “十二五”之前,NCMI的數(shù)據(jù)來(lái)源主要是“973”“863”、科技支撐計(jì)劃等國(guó)家科技計(jì)劃課題中產(chǎn)生的科學(xué)數(shù)據(jù)。雖然數(shù)據(jù)種類涉及到人口健康領(lǐng)域的各個(gè)方面,但因其他來(lái)源途徑有限,數(shù)據(jù)的深度和廣度較易受國(guó)家科技計(jì)劃調(diào)整的影響,數(shù)據(jù)的補(bǔ)充、更新在課題結(jié)束后也變得十分困難。同時(shí),因無(wú)相對(duì)統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)的質(zhì)量也參差不齊。如NCMI雖然制定并發(fā)布了元數(shù)據(jù)方案,但總平臺(tái)和各分中心的元數(shù)據(jù)描述并不一致[9]。此外,平臺(tái)發(fā)布的數(shù)據(jù)中很多缺失了科學(xué)數(shù)據(jù)的獲取途徑、方法標(biāo)準(zhǔn)、儀器標(biāo)準(zhǔn)、實(shí)驗(yàn)對(duì)象納入排除標(biāo)準(zhǔn)等關(guān)鍵信息,使得數(shù)據(jù)的可用性和科學(xué)性大打折扣。
在數(shù)據(jù)共享利用方面,國(guó)內(nèi)數(shù)據(jù)平臺(tái)差距巨大。雖然對(duì)數(shù)據(jù)共享必要性和意義的理解越發(fā)深刻,也倡導(dǎo)數(shù)據(jù)的開放獲取,但在實(shí)際操作中,從平臺(tái)獲取數(shù)據(jù)的過(guò)程十分繁瑣。如在NCMI中,展示的多為元數(shù)據(jù),數(shù)據(jù)實(shí)體很難通過(guò)在線檢索、下載的方式被獲取,也存在個(gè)別數(shù)據(jù)集鏈接無(wú)法訪問(wèn)的情況,數(shù)據(jù)的可見(jiàn)性、可得性較差,降低了用戶體驗(yàn)。在數(shù)據(jù)服務(wù)方面,國(guó)內(nèi)平臺(tái)更加注重?cái)?shù)據(jù)存儲(chǔ)和數(shù)據(jù)保護(hù),數(shù)據(jù)服務(wù)內(nèi)容和能力有限,個(gè)性化服務(wù)方面更顯不足。
通過(guò)法律制度保障科學(xué)數(shù)據(jù)的共享利用是發(fā)達(dá)國(guó)家科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)的成功經(jīng)驗(yàn)之一。為保證我國(guó)人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)的長(zhǎng)期健康、穩(wěn)定發(fā)展,必須加快科學(xué)數(shù)據(jù)共享法律法規(guī)體系的建立與健全,使科學(xué)數(shù)據(jù)共享有法可依,不斷完善科學(xué)數(shù)據(jù)共享的管理機(jī)制,明確數(shù)據(jù)共享參與主體的責(zé)權(quán)利,規(guī)范科學(xué)數(shù)據(jù)的管理、存儲(chǔ)、開發(fā)、共享與利用。進(jìn)而建立國(guó)家人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享的網(wǎng)絡(luò)體系,擴(kuò)大數(shù)據(jù)來(lái)源,拓展用戶群體,加強(qiáng)平臺(tái)間的合作交流,提高數(shù)據(jù)共享利用程度,使人口健康領(lǐng)域的科學(xué)數(shù)據(jù)形成從采集、處理到共享利用的良性循環(huán)。
數(shù)據(jù)標(biāo)準(zhǔn)的完善程度體現(xiàn)了數(shù)據(jù)共享利用的水平。針對(duì)人口健康領(lǐng)域科學(xué)數(shù)據(jù)種類多、類型復(fù)雜的特點(diǎn),應(yīng)在參考國(guó)際主流和自身現(xiàn)有標(biāo)準(zhǔn)的基礎(chǔ)上,從國(guó)家或行業(yè)層面進(jìn)一步細(xì)化標(biāo)準(zhǔn)種類和適用范圍,建立既能高度協(xié)調(diào)統(tǒng)一,又能顧及人口健康各專業(yè)領(lǐng)域科學(xué)數(shù)據(jù)特點(diǎn)的數(shù)據(jù)標(biāo)準(zhǔn)體系。平臺(tái)應(yīng)加強(qiáng)對(duì)數(shù)據(jù)的全生命周期質(zhì)量控制,聘請(qǐng)或建立獨(dú)立團(tuán)隊(duì),廣泛開展對(duì)數(shù)據(jù)平臺(tái)建設(shè),特別是數(shù)據(jù)質(zhì)量的評(píng)價(jià)監(jiān)督,推動(dòng)國(guó)內(nèi)人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)的規(guī)范化、標(biāo)準(zhǔn)化和國(guó)際化建設(shè),擴(kuò)大和提高我國(guó)人口健康領(lǐng)域科學(xué)數(shù)據(jù)的影響力與科研價(jià)值。
人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)應(yīng)加強(qiáng)數(shù)據(jù)的分類、整序,降低分散數(shù)據(jù)之間的鏈接壁壘,對(duì)關(guān)聯(lián)數(shù)據(jù)進(jìn)行表征和組織,如將分子層面、細(xì)胞層面、組織器官層面、個(gè)體層面的信息加以整合集成,再如將傳統(tǒng)醫(yī)學(xué)和現(xiàn)代醫(yī)學(xué)的觀點(diǎn)加以重構(gòu),從而構(gòu)建更加科學(xué)、高效的知識(shí)發(fā)現(xiàn)和獲取途徑。在此基礎(chǔ)上,不斷豐富服務(wù)模式,如針對(duì)臨床醫(yī)務(wù)人員數(shù)據(jù)管理技能不高的情況,開發(fā)簡(jiǎn)便、快捷的數(shù)據(jù)處理工具,或開展科學(xué)數(shù)據(jù)管理技能培訓(xùn);為規(guī)范和提高數(shù)據(jù)利用,開展數(shù)據(jù)規(guī)范使用培訓(xùn),或制定發(fā)布引用標(biāo)準(zhǔn);針對(duì)科學(xué)數(shù)據(jù)實(shí)驗(yàn)中可能涉及的醫(yī)學(xué)倫理問(wèn)題進(jìn)行科學(xué)講座;提供數(shù)據(jù)提交與保存服務(wù)、相關(guān)信息推送的個(gè)性化服務(wù)等。通過(guò)提供良好服務(wù),與用戶建立更加緊密互信的關(guān)系,不斷擴(kuò)大平臺(tái)的知名度和影響力。
實(shí)施人口健康科學(xué)數(shù)據(jù)共享, 整合離散的海量醫(yī)學(xué)科學(xué)數(shù)據(jù)資源,是信息時(shí)代科技發(fā)展的必然選擇, 是增強(qiáng)醫(yī)學(xué)科技競(jìng)爭(zhēng)能力的有效途徑。當(dāng)前我國(guó)人口健康領(lǐng)域科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)已取得了一定的成就,但也有很多的不足和較大的提升空間,不斷完善科學(xué)數(shù)據(jù)資源共享利用的體制機(jī)制,把握好數(shù)據(jù)共享在個(gè)人、機(jī)構(gòu)、國(guó)家及社會(huì)公眾利益之間的平衡點(diǎn),不斷豐富數(shù)據(jù)資源,持續(xù)拓展平臺(tái)功能,堅(jiān)持標(biāo)準(zhǔn)規(guī)范建設(shè),以服務(wù)為導(dǎo)向,建設(shè)更加安全、可靠的人口健康科學(xué)數(shù)據(jù)資源,使其更好地為人民群眾的身心健康和經(jīng)濟(jì)社會(huì)的全面發(fā)展提供有力保障。
[1]司莉, 邢文明.國(guó)外科學(xué)數(shù)據(jù)管理與共享政策調(diào)查及對(duì)我國(guó)的啟示[J].情報(bào)資料工作, 2013(1): 61-66.
[2]完顏鄧鄧, 高峰.英美澳科學(xué)數(shù)據(jù)存儲(chǔ)與共享平臺(tái)建設(shè)現(xiàn)狀調(diào)查及啟示[J].圖書館建設(shè), 2016(3): 29-34.
[3]吳松強(qiáng), 沈馨怡, 劉曉宇, 等.發(fā)達(dá)國(guó)家科技資源共享的經(jīng)驗(yàn)與借鑒[J].實(shí)驗(yàn)室研究與探索, 2014, 33(6):139-143.
[4]田耕, 劉炯輝, 蘭翎.NCBI網(wǎng)站及Genbank數(shù)據(jù)庫(kù)介紹[J].國(guó)外醫(yī)學(xué)分子生物學(xué)分冊(cè), 2000, 22(5): 317-320.
[5]CLINICAL TRIALS.What is ClinicalTrials.gov[EB/OL].(2017-02)[2017-08-05].https: //clinicaltrials.gov/ct2/about-site/background#WhatInformationCanIFind.
[6]UPTODATE.全球No.1的臨床診療知識(shí)庫(kù)[EB/OL].[2017-08-05].http: //www.uptodatechina.com/.
[7]王洋, 雷艷.美國(guó)臨床試驗(yàn)數(shù)據(jù)庫(kù)注冊(cè)流程與填寫要求[J].中國(guó)中醫(yī)藥信息雜志, 2012, 19(7): 2-4.
[8]司富強(qiáng), 丁武國(guó), 韋當(dāng), 等.四鐘循證醫(yī)學(xué)數(shù)據(jù)庫(kù)比較分析[J].中國(guó)循證醫(yī)學(xué)雜志, 2013, 13(5): 612-615.
[9]汪俊.美國(guó)科學(xué)數(shù)據(jù)共享的經(jīng)驗(yàn)借鑒及其對(duì)我國(guó)科學(xué)基金啟示: 以NSF和NIH為例[J].中國(guó)科學(xué)基金,2016(1): 69-75.
[10]孟祥艷.國(guó)家人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)數(shù)據(jù)資源在京發(fā)布[J].中國(guó)科技資源導(dǎo)刊, 2017(1): 封底.
[11]劉潤(rùn)達(dá), 彭潔.我國(guó)科學(xué)數(shù)據(jù)共享政策法規(guī)建設(shè)現(xiàn)狀與展望[J].科技管理研究, 2010(13): 41-43.
Constructing Characteristics About scientific Data Sharing Platform in the Field of Population Health in Foreign Countries and Its Inspiration to Us
FU Lei1, LI Jinbin1, WANG Rong2, SHANG Xiaopu3, YIN Ling1
(1. Chinese PLA general hospital, Beijing 100853; 2. National Research Institute for Family Planning, Beijing 100081; 3. Beijing Jiaotong University, Beijing 100044)
Theis paper takes NCBI, CT and UptoDate which implements the sharing of biological information,clinical trials and evidence-based medical data as the typical objects, summarized the characteristics of scientific data sharing platform in the field of population health abroad from external policy environment,data reorganization and management, data collection and update, data sharing and utilization, and Then,based on the analysis of the current situation and shortcomings in China, put forward some suggestions to the construction of the scientific data sharing platform in the fi eld of population health in China.
population health, medical and health, scientific data, data sharing, platform construction
R589
A
10.3772/j.issn.1674-1544.2017.05.012
付磊(1982—),男,博士,中國(guó)人民解放軍總醫(yī)院博士后,主要研究方向:醫(yī)學(xué)信息學(xué);李金斌(1989—),男,碩士,中國(guó)人民解放軍總醫(yī)院工程師,主要研究方向:醫(yī)學(xué)信息學(xué);王戎(1978—),女,博士,國(guó)家人口計(jì)生委科技學(xué)術(shù)研究所助理研究員,主要研究方向:醫(yī)學(xué)信息學(xué);尚小溥(1984—),男,博士,北京交通大學(xué)經(jīng)濟(jì)管理學(xué)院講師,主要研究方向:管理科學(xué)與工程;尹嶺(1955—),男,博士,中國(guó)人民解放軍總醫(yī)院主任醫(yī)師,教授,主要研究方向:醫(yī)學(xué)信息學(xué)、神經(jīng)內(nèi)科學(xué)(通訊作者)。
科技基礎(chǔ)性工作專項(xiàng)重點(diǎn)項(xiàng)目“科技基礎(chǔ)性工作數(shù)據(jù)資料集成與規(guī)范化整編”(2013FY110900);國(guó)家人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)專項(xiàng)課題“人口健康平臺(tái)臨床數(shù)據(jù)資源建設(shè)發(fā)展策略研究”(2016NCMIZX07)。
2017年7月14日。