□ 席韓旭 XI Han-xu 孫邦凱 SUN Bang-kai 張晨 ZHANG Chen 李維 LI Wei 計虹 JI Hong
隨著信息技術(shù)和數(shù)據(jù)科學(xué)的快速發(fā)展,基于多樣化的真實世界數(shù)據(jù)(real-world data,RWD)形成的真實世界證據(jù)(real-world evidence,RWE),已成為醫(yī)療衛(wèi)生決策的重要來源(如藥械監(jiān)管、目錄制定、指南制定、疾病管理等)[1]。2021 年4 月15 日,國家藥品監(jiān)督管理局藥品審評中心發(fā)布了《用于產(chǎn)生真實世界證據(jù)的真實世界數(shù)據(jù)指導(dǎo)原則(試行)》[2],該指導(dǎo)原則指出,真實世界數(shù)據(jù)是指來源于日常所收集的各種與患者健康狀況和/或診療及保健有關(guān)的數(shù)據(jù)。根據(jù)源數(shù)據(jù)的產(chǎn)生是否基于預(yù)先設(shè)定的研究目的,真實世界數(shù)據(jù)主要分為常規(guī)收集的健康醫(yī)療數(shù)據(jù)(routinely collected health data,RCD)和主動收集的健康醫(yī)療數(shù)據(jù)[3]。隨著真實世界研究的廣泛開展和不斷深入,如何利用信息技術(shù)提高真實世界數(shù)據(jù)獲取效率是目前面臨的重要挑戰(zhàn)。本文從RWD到構(gòu)建研究型數(shù)據(jù)庫的需求進(jìn)行分析并提出解決方案,為從信息技術(shù)角度支持真實世界研究提供借鑒與參考。
1.從RCD 到構(gòu)建研究型數(shù)據(jù)庫。RCD 從本質(zhì)上講,更多是用于醫(yī)療衛(wèi)生管理目的,存在數(shù)據(jù)片段化、未標(biāo)化、未鏈接、大量非結(jié)構(gòu)化數(shù)據(jù)難以利用等問題[1,4],因此建立研究型數(shù)據(jù)庫的需求主要包括:(1)基于患者主索引,將患者歷次就診的門急診和住院信息進(jìn)行整合;(2)利用自然語言處理技術(shù)對自由文本病歷、檢查報告等數(shù)據(jù)進(jìn)行后結(jié)構(gòu)化處理;(3)搭建平臺實現(xiàn)海量數(shù)據(jù)的高效檢索和應(yīng)用。
2.構(gòu)建包含主動收集數(shù)據(jù)的研究型數(shù)據(jù)庫。主動收集的醫(yī)療數(shù)據(jù)是指基于預(yù)先設(shè)定的研究目的,額外主動收集研究者或決策者所需的關(guān)鍵信息(如腫瘤患者生活質(zhì)量)和其他無法通過既有健康醫(yī)療數(shù)據(jù)獲取的信息[1]。構(gòu)建包含這類數(shù)據(jù)的研究型數(shù)據(jù)庫的需求主要包括:(1)實現(xiàn)院內(nèi)電子病歷、醫(yī)囑、檢查、檢驗等數(shù)據(jù)智能回填到病例報告表(Case Report Form,CRF)中;(2)對主動收集的患者數(shù)據(jù)實現(xiàn)高效獲取。
針對以上問題并結(jié)合《真實世界數(shù)據(jù)與研究技術(shù)規(guī)范》[1,5-6]要求,我院在實時全量數(shù)據(jù)中心(Hospital Data Repository,HDR)基礎(chǔ)上[7],打造了臨床智能研究平臺以全面支持真實世界研究。
整個臨床智能研究平臺利用人工智能及大數(shù)據(jù)相關(guān)技術(shù),從醫(yī)院數(shù)據(jù)中心、外部公開數(shù)據(jù)庫采集相關(guān)數(shù)據(jù),以應(yīng)用場景為驅(qū)動建立數(shù)據(jù)深度治理體系,搭建數(shù)據(jù)應(yīng)用模型。在數(shù)據(jù)模型和數(shù)據(jù)應(yīng)用層面之間通過敏感數(shù)據(jù)脫敏、資源監(jiān)控管理、多層級賬號權(quán)限和安全體系保障數(shù)據(jù)安全,以支持科研、臨床、管理方面的應(yīng)用,整體架構(gòu)見圖1。
圖1 臨床智能研究技術(shù)架構(gòu)圖
根據(jù)原始數(shù)據(jù)是否基于特定研究目的收集,我院打造了臨床數(shù)據(jù)分析平臺和專病隊列管理平臺以支持真實世界研究,下文將詳細(xì)介紹每種平臺功能并對兩者特點進(jìn)行對比分析。
1.臨床數(shù)據(jù)分析平臺。臨床數(shù)據(jù)分析平臺是一種面向全院、通用的科研工具,是一種回顧性數(shù)據(jù)庫,是在研究開始前已經(jīng)存在的,并非針對特定研究問題收集數(shù)據(jù)而形成,因此如何從海量醫(yī)療數(shù)據(jù)中高效地提取出研究所需要的人群和變量則是臨床數(shù)據(jù)分析平臺建設(shè)的核心內(nèi)容,主要包括:
(1)人群檢索。運用多層級語義分析模型,通過大數(shù)據(jù)、機器學(xué)習(xí)、自然語言處理技術(shù)將病歷文書中大段的文本后結(jié)構(gòu)化成可以直接利用的變量,并支持對處理后的變量進(jìn)行多重語義篩選以高效建立研究人群。
(2)特征分析。對建立的研究人群特征利用數(shù)據(jù)可視化引擎進(jìn)行多維度分析,包含人群特征、疾病特征以及癥狀表現(xiàn)等,為研究人員的探索性研究提供思路。
(3)實時數(shù)據(jù)質(zhì)控和溯源。對研究人群全部變量的完整度、異常值等情況進(jìn)行分析,并實時溯源到原始數(shù)據(jù),以幫助研究人員從整體上快速了解數(shù)據(jù)質(zhì)量。
(4)數(shù)據(jù)沙箱輔助進(jìn)一步數(shù)據(jù)清洗。通過數(shù)據(jù)沙箱實現(xiàn)對數(shù)據(jù)極端值、異常值、缺失值的處理,以幫助研究人員根據(jù)具體的研究問題進(jìn)一步進(jìn)行數(shù)據(jù)清理,最終建立一個能夠直接進(jìn)行統(tǒng)計分析的數(shù)據(jù)集。
通過搭建臨床數(shù)據(jù)分析平臺,改變了傳統(tǒng)的數(shù)據(jù)獲取模式,基于分布式計算、搜索引擎、語音分析等技術(shù),實現(xiàn)研究者自助式地進(jìn)行數(shù)據(jù)檢索、清洗和分析,從而提高數(shù)據(jù)獲取效率。目前臨床數(shù)據(jù)分析平臺已支持18 個科室105 名醫(yī)生使用,基于平臺已開展16 項科研課題研究(其中國家自然科學(xué)基金2 項,院臨床重點項目1 項[8])。
2.專病隊列管理平臺。專病隊列管理平臺是一種面向院內(nèi)大型研究團(tuán)隊,針對??萍膊〉年犃泄芾砥脚_。是一種根據(jù)明確的研究目的和計劃,至少部分?jǐn)?shù)據(jù)需要前瞻性主動收集而形成的數(shù)據(jù)庫。專病隊列管理平臺的建設(shè)主要包括兩方面內(nèi)容:
(1)數(shù)據(jù)的收集與管理。專病隊列管理平臺中的數(shù)據(jù)既包括RCD,也包括前瞻性主動收集的數(shù)據(jù)。對于RCD,專病隊列管理平臺通過直接映射、自然語言處理及歸一、邏輯判斷等數(shù)據(jù)加工策略,實現(xiàn)對既有數(shù)據(jù)的智能化提??;對于需要主動收集的數(shù)據(jù)(如患者生活質(zhì)量等數(shù)據(jù)),專病隊列管理平臺支持多種數(shù)據(jù)錄入方式,包括手動錄入、移動端(如微信、APP)錄入、智能語音錄入、物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)對接等,以提高CRF 回填率,減少手工錄入工作量。
以胃癌專病隊列建設(shè)為例,方法學(xué)團(tuán)隊、臨床醫(yī)生與信息團(tuán)隊共同確定了10 大類(基本信息、病史特點、術(shù)前檢驗檢查等)168 個數(shù)據(jù)項,通過對每個數(shù)據(jù)項來源及提取規(guī)則的分析驗證,最終確定可以直接映射的變量31 個,需要自然語言處理后再進(jìn)行歸一處理的變量48 個,需要進(jìn)行邏輯加工的變量47 個,手工錄入的變量42 個,數(shù)據(jù)回填率達(dá)75%。
(2)研究對象的隨訪與維持。專病隊列管理平臺支持對專病隊列中的全部或部分研究對象進(jìn)行隨訪??梢愿鶕?jù)訪視計劃自動展示每天應(yīng)隨訪的研究對象,形成隨訪日歷,并通過移動端(如微信、APP)的用藥提醒、用藥指導(dǎo)、留言咨詢、宣教推送等方式,輔助提高患者依從性。
臨床數(shù)據(jù)分析平臺與專病隊列管理平臺作為支持真實世界研究的兩個重要工具,兩者在數(shù)據(jù)類型、采集方式、治理程度等方面均不同(見表1),在實際工作中研究者應(yīng)根據(jù)基于研究目的,選擇在現(xiàn)有資源條件下最適合的工具。
表1 臨床數(shù)據(jù)分析平臺與專病隊列管理平臺的對比分析
信息技術(shù)的快速發(fā)展,為開展真實世界研究提供了更高質(zhì)量的數(shù)據(jù)基礎(chǔ)和更高效的數(shù)據(jù)獲取效率。利用不同科研平臺構(gòu)建的數(shù)據(jù)庫并不代表數(shù)據(jù)質(zhì)量的絕對高低,科學(xué)的設(shè)計、嚴(yán)格的實施和分析才是高質(zhì)量研究數(shù)據(jù)的關(guān)鍵[5]。隨著信息技術(shù)和人工智能的快速發(fā)展,真實世界證據(jù)生產(chǎn)涉及的多個專業(yè)領(lǐng)域(包括臨床醫(yī)學(xué)、流行病學(xué)、統(tǒng)計學(xué)、信息學(xué)等)之間的交叉融合將更為明顯,對醫(yī)院信息技術(shù)專業(yè)人員也提出了更高的要求,一方面應(yīng)該掌握和應(yīng)用前沿信息技術(shù),如Hadoopd 大型集群技術(shù)、Hbase 非關(guān)系型數(shù)據(jù)庫技術(shù)、Map-Reduce、Spark Streaming 高效并行計算框架等技術(shù)[9];另一方面應(yīng)熟悉臨床業(yè)務(wù)流程,熟知數(shù)據(jù)來源,數(shù)據(jù)之間交互情況;除此以外還應(yīng)對流行病學(xué)、統(tǒng)計學(xué)以及人工智能等方面深入了解,這樣才能更好地支持醫(yī)院科研發(fā)展。