国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于既有醫(yī)療數(shù)據(jù)構(gòu)建研究型數(shù)據(jù)庫的方法學(xué)探討及實(shí)例解讀(一):變量清單和數(shù)據(jù)庫架構(gòu)的確定

2023-08-23 10:39:10趙國楨閆世艷郭玉紅宋爽胡雅慧郭詩琪徐霄龍葉浩然朱泠霏杜元任志穎盧海天胡晶李博劉清泉
中國中醫(yī)藥信息雜志 2023年8期
關(guān)鍵詞:數(shù)據(jù)結(jié)構(gòu)研究型解構(gòu)

趙國楨 ,閆世艷 ,郭玉紅 宋爽 ,胡雅慧 ,郭詩琪 ,徐霄龍 葉浩然 朱泠霏 杜元 任志穎 ,盧海天 胡晶 李博 劉清泉

1.首都醫(yī)科大學(xué)附屬北京中醫(yī)醫(yī)院,北京市中醫(yī)藥研究所,北京 100010;2.北京中醫(yī)藥循證醫(yī)學(xué)中心,北京 100010;3.北京中醫(yī)藥大學(xué),北京 100029;4.天津中醫(yī)藥大學(xué),天津 301617

既有醫(yī)療數(shù)據(jù)是真實(shí)世界數(shù)據(jù)(real-world data,RWD)的重要組成部分,而基于RWD開展的真實(shí)世界研究(real-world study,RWS)所產(chǎn)生的真實(shí)世界證據(jù)(real-world evidence,RWE),對醫(yī)療衛(wèi)生決策產(chǎn)生重要影響[1]。與西藥新藥開發(fā)模式不同,中藥新藥在開發(fā)前往往已經(jīng)具有大量臨床人用經(jīng)驗(yàn),積累了較豐富的醫(yī)療數(shù)據(jù),為RWE的產(chǎn)生提供了有力保障[2]。國家藥品監(jiān)督管理局發(fā)布的《真實(shí)世界證據(jù)支持藥物研發(fā)與審評的指導(dǎo)原則(試行)》指出,RWE可以支持藥物監(jiān)管決策,包括為新藥注冊上市提供有效性和安全性證據(jù)、為已上市藥物的說明書變更提供證據(jù)、為人用經(jīng)驗(yàn)總結(jié)和臨床研發(fā)提供證據(jù)支持等[3]。此外,國務(wù)院辦公廳發(fā)布的《關(guān)于加快中醫(yī)藥特色發(fā)展的若干政策措施》,要求充分利用數(shù)據(jù)科學(xué)等現(xiàn)代技術(shù)手段,建立中醫(yī)藥理論、人用經(jīng)驗(yàn)、臨床試驗(yàn)“三結(jié)合”的中藥注冊審評證據(jù)體系,積極探索建立中藥真實(shí)世界研究證據(jù)體系[4]。目前,國內(nèi)已發(fā)表多篇相關(guān)技術(shù)規(guī)范,指導(dǎo)從既有醫(yī)療數(shù)據(jù)到RWE,其關(guān)鍵點(diǎn)之一在于研究型數(shù)據(jù)庫的建設(shè)[5-6]。然而,因RWD來源廣、容量大、中醫(yī)藥數(shù)據(jù)復(fù)雜等特點(diǎn),數(shù)據(jù)庫建設(shè)的具體實(shí)施過程仍面臨挑戰(zhàn)。

本文以“中西醫(yī)結(jié)合治療新型冠狀病毒感染研究型數(shù)據(jù)庫”為例,對基于既有醫(yī)療數(shù)據(jù)構(gòu)建研究型數(shù)據(jù)庫中變量清單及數(shù)據(jù)庫架構(gòu)的確定方法進(jìn)行介紹。本研究已獲得首都醫(yī)科大學(xué)附屬北京中醫(yī)醫(yī)院醫(yī)學(xué)倫理委員會批準(zhǔn)(2022-BL02-033-01),并且在中國臨床研究注冊中心注冊(ChiCTR2200062917)[7]。

1 相關(guān)概念和總體設(shè)計(jì)

既有醫(yī)療數(shù)據(jù)屬于回顧性資料,其特點(diǎn)是未針對特定的研究目的而收集[8]。因此,從既有醫(yī)療數(shù)據(jù),到可直接用于統(tǒng)計(jì)分析的分析數(shù)據(jù)庫,仍需要一定的數(shù)據(jù)處理過程。不同的RWS對數(shù)據(jù)的處理方法存在一定差異,但其中共有的且必要的一步是建立研究型數(shù)據(jù)庫。研究型數(shù)據(jù)庫可基于既有醫(yī)療數(shù)據(jù)形成,但又不同于既有醫(yī)療數(shù)據(jù),兩者的主要區(qū)別見表1。本課題中研究型數(shù)據(jù)庫的構(gòu)建可分為2個(gè)階段:①確定變量清單及數(shù)據(jù)庫架構(gòu);②數(shù)據(jù)治理。本文重點(diǎn)對變量清單及數(shù)據(jù)庫架構(gòu)的確定方法進(jìn)行論述及實(shí)例解讀。

表1 研究型數(shù)據(jù)庫與既有醫(yī)療數(shù)據(jù)的主要區(qū)別

2 確定變量清單

2.1 明確臨床問題及研究目的

研究目的來源于臨床問題。明確研究目的,是開展各類型研究的首要步驟。本研究主要待解決的臨床問題有2 個(gè):①中醫(yī)藥治療新型冠狀病毒感染(Coronavirus Disease 2019,COVID-19)的有效性和安全性如何?②哪些具體的中醫(yī)治療措施可以有效且安全地用于COVID-19的治療?

基于以上2 個(gè)臨床問題,確定研究目的如下:①對中醫(yī)藥治療COVID-19的總體療效及安全性進(jìn)行評價(jià);②對清肺排毒湯、化濕敗毒方、連花清瘟膠囊等中醫(yī)治療COVID-19 具體措施的療效及安全性進(jìn)行評價(jià)。

2.2 臨床問題解構(gòu)

為更好地確定研究所需變量,需基于研究目的,按照循證醫(yī)學(xué)的“PICO原則”對臨床問題進(jìn)行解構(gòu)。臨床問題解構(gòu)是確定變量清單的核心步驟。本研究以對中醫(yī)藥總體的療效評價(jià)為例,對臨床問題解構(gòu)示例見表2。

表2 對中醫(yī)藥總體療效評價(jià)的臨床問題及解構(gòu)示例

2.3 變量分類及確定

完成研究所需要的變量,稱為關(guān)鍵變量[5]。根據(jù)臨床問題解構(gòu)結(jié)果,可確定本研究的關(guān)鍵變量。關(guān)鍵變量主要分為四類:①與研究對象(納排標(biāo)準(zhǔn))相關(guān)的變量;②與研究治療措施/暴露因素相關(guān)的變量;③與結(jié)局指標(biāo)相關(guān)的變量;④與混雜因素[9]相關(guān)的變量。不同類別的變量需存儲在不同的數(shù)據(jù)集或數(shù)據(jù)模塊中,各數(shù)據(jù)集或數(shù)據(jù)模塊需通過鏈接變量[6]相連。關(guān)鍵變量需要根據(jù)循證醫(yī)學(xué)證據(jù)、專家臨床經(jīng)驗(yàn)和既有數(shù)據(jù)情況共同確定。

以上述臨床問題解構(gòu)中的“西醫(yī)常規(guī)治療”為例。為存儲患者住院期間接受西醫(yī)治療情況的相關(guān)數(shù)據(jù),設(shè)立西醫(yī)治療數(shù)據(jù)集,該數(shù)據(jù)集中的變量在本研究中屬于與混雜因素相關(guān)的變量。根據(jù)COVID-19指南及診療方案推薦[10],西醫(yī)治療包括:阿比多爾、α-干擾素、利巴韋林等抗病毒治療;人免疫球蛋白、康復(fù)者恢復(fù)期血漿等免疫治療;糖皮質(zhì)激素治療;呼吸支持及其他治療。根據(jù)專家討論,補(bǔ)充奧司他韋、洛匹那韋利托那韋2種抗病毒藥物;根據(jù)既有數(shù)據(jù)情況,去除恢復(fù)期血漿治療。確定本研究所需的西醫(yī)治療措施后,將各項(xiàng)措施的天數(shù)及有無作為變量,列入西醫(yī)治療變量集的變量清單。同時(shí),該變量集還包含鏈接變量及其他相關(guān)變量。

2.4 衍生變量計(jì)算

研究所需要的部分變量,不能從既有數(shù)據(jù)中直接提取,而是需要通過數(shù)據(jù)轉(zhuǎn)換計(jì)算而得,這類變量稱為衍生變量[11]。衍生變量的計(jì)算需要基于一定規(guī)則。例如在上述西醫(yī)治療數(shù)據(jù)集中,課題組僅可從既有數(shù)據(jù)中提取各患者各藥物的使用天數(shù),但是否可以認(rèn)為該患者使用了該藥物,則需要基于天數(shù)來計(jì)算。若阿比多爾使用天數(shù)≥3 d,可認(rèn)為患者使用了該藥物,以“1”表示,否則以“0”表示。其中,“阿比多爾使用天數(shù)”就是原變量,而“是否使用阿比多爾”則是衍生變量。

3 評估既有數(shù)據(jù)

在使用既有醫(yī)療數(shù)據(jù)前,需先評估既有數(shù)據(jù)能否為待建數(shù)據(jù)庫提供可靠的數(shù)據(jù),包括數(shù)據(jù)的準(zhǔn)確性、完整性、數(shù)據(jù)覆蓋日期跨度、研究人群代表性、樣本量等。若存在數(shù)據(jù)質(zhì)量問題,最好是對數(shù)據(jù)進(jìn)行溯源。在評估期間,還需了解既有數(shù)據(jù)的數(shù)據(jù)庫結(jié)構(gòu)及變量清單,并與待建數(shù)據(jù)庫所需的變量清單比對,重點(diǎn)關(guān)注以下問題:①既有數(shù)據(jù)能否為待建數(shù)據(jù)庫各變量提供可靠數(shù)據(jù)支持;②待建數(shù)據(jù)庫的變量在既有數(shù)據(jù)中的來源是否單一;③若數(shù)據(jù)多源,還需對比不同來源數(shù)據(jù)的質(zhì)量,建立重復(fù)/矛盾數(shù)據(jù)優(yōu)先級。

以本研究中基本信息數(shù)據(jù)集的“入院日期”變量為例。在評估既有數(shù)據(jù)中與入院日期有關(guān)的變量時(shí),發(fā)現(xiàn)共有4個(gè)數(shù)據(jù)來源:入院記錄、出院記錄、死亡記錄、病案首頁中的入院日期變量。此外,還有2個(gè)衍生變量可為入院日期的確定提供參考:首次病程記錄日期、首次醫(yī)囑日期。經(jīng)數(shù)據(jù)質(zhì)量評價(jià),以上6個(gè)變量均有較好的可靠性。因此,“入院日期”會根據(jù)4個(gè)不同來源的變量進(jìn)行數(shù)據(jù)提取,并根據(jù)2個(gè)衍生變量進(jìn)行數(shù)據(jù)核查。

4 明確數(shù)據(jù)集結(jié)構(gòu)

4.1 數(shù)據(jù)庫及數(shù)據(jù)集的概念

數(shù)據(jù)集是各數(shù)據(jù)的集合,通常以表格形式出現(xiàn),每列代表一個(gè)特定變量,每行對應(yīng)某一患者的具體數(shù)據(jù)內(nèi)容[12]。由于一個(gè)研究型數(shù)據(jù)庫涉及的變量數(shù)極多,通常會根據(jù)數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)內(nèi)容將其拆分成不同的數(shù)據(jù)模塊,存儲進(jìn)不同的數(shù)據(jù)集中。根據(jù)數(shù)據(jù)結(jié)構(gòu)類型,數(shù)據(jù)集可分為橫斷面數(shù)據(jù)、時(shí)間序列數(shù)據(jù)和縱向數(shù)據(jù)3種結(jié)構(gòu)。各數(shù)據(jù)集間通過鏈接變量相互連接。在研究型數(shù)據(jù)庫建立完成后,若需要進(jìn)行統(tǒng)計(jì)分析,則可從各數(shù)據(jù)集中提取相關(guān)的變量數(shù)據(jù),建立分析數(shù)據(jù)庫,開展統(tǒng)計(jì)分析工作。

本研究根據(jù)數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)內(nèi)容,將變量清單中的變量分別存儲于15個(gè)數(shù)據(jù)集。各數(shù)據(jù)集名稱、數(shù)據(jù)結(jié)構(gòu)類型及介紹見表3。

表3 中西醫(yī)結(jié)合治療COVID-19研究型數(shù)據(jù)庫數(shù)據(jù)集

4.2 橫斷面數(shù)據(jù)結(jié)構(gòu)

橫斷面數(shù)據(jù)(cross-sectional data)是指在同一時(shí)間收集的不同對象的數(shù)據(jù)[13]。雖然在定義上要求同一時(shí)間,但實(shí)際上不同的數(shù)據(jù)采集時(shí)間會存在一定的時(shí)間差異,但這種差異可以忽略,具體判斷標(biāo)準(zhǔn)是時(shí)間上的差異不足以改變所獲取變量的性質(zhì)。橫斷面數(shù)據(jù)結(jié)構(gòu)是研究型數(shù)據(jù)庫的常見結(jié)構(gòu)之一。

本研究中,基本信息數(shù)據(jù)集就是橫斷面數(shù)據(jù)結(jié)構(gòu)。其每行代表1名患者,不同行代表不同患者,且患者間無重復(fù);其每列代表1個(gè)變量,如性別、年齡、民族、身高、體質(zhì)量等。橫斷面數(shù)據(jù)結(jié)構(gòu)示例見表4。

表4 橫斷面數(shù)據(jù)結(jié)構(gòu)示例

4.3 時(shí)間序列數(shù)據(jù)結(jié)構(gòu)

時(shí)間序列數(shù)據(jù)(time-series data)是指對同一對象在不同時(shí)間連續(xù)觀察所取得的數(shù)據(jù),重點(diǎn)反映該對象在時(shí)間順序上的不同變化[13]。但研究型數(shù)據(jù)庫通常涉及多個(gè)研究對象,很少會使用時(shí)間序列數(shù)據(jù)結(jié)構(gòu)。

4.4 縱向數(shù)據(jù)結(jié)構(gòu)

縱向數(shù)據(jù)(longitudinal data)也稱作面板數(shù)據(jù)(panel data)或合并數(shù)據(jù)(pooled data),指不同對象在不同時(shí)間連續(xù)觀察所得到的數(shù)據(jù)[14]。縱向數(shù)據(jù)既可以體現(xiàn)不同研究對象間的差異情況,又可描述同一研究對象的動(dòng)態(tài)變化特征。縱向數(shù)據(jù)結(jié)構(gòu)是橫斷面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)相結(jié)合的一種數(shù)據(jù)結(jié)構(gòu),是研究型數(shù)據(jù)庫的另一種常見結(jié)構(gòu),其與橫斷面數(shù)據(jù)結(jié)構(gòu)相比,特點(diǎn)在于引入時(shí)間維度。本研究中,生命體征數(shù)據(jù)集是縱向數(shù)據(jù)結(jié)構(gòu)?;颊叩纳w征始終處于動(dòng)態(tài)變化中,因此需動(dòng)態(tài)記錄每名患者每日的生命體征數(shù)據(jù)。該數(shù)據(jù)集中,每名患者每日的數(shù)據(jù)占一行,不同行代表的患者存在重復(fù);每列仍代表對應(yīng)的變量,如體溫、呼吸頻率、心率、收縮壓、舒張壓、血氧飽和度等??v向數(shù)據(jù)結(jié)構(gòu)示例見表5。

表5 縱向數(shù)據(jù)結(jié)構(gòu)示例

5 制定變量字典

研究型數(shù)據(jù)庫通常包含眾多變量,不同變量有不同的名稱和含義,以及不同的變量類型、變量來源等,因此需要一種數(shù)據(jù)模型以實(shí)現(xiàn)對眾多變量的管理。變量字典即是滿足這一需求的數(shù)據(jù)模型[6]。數(shù)據(jù)庫中每個(gè)變量的信息都須記錄在變量字典中。一個(gè)制定良好的變量字典,不僅可供數(shù)據(jù)庫建立者回顧,更可為其他研究者快速熟悉數(shù)據(jù)庫提供幫助。變量字典應(yīng)包含但不限于:變量名稱、變量含義、變量類型、變量編碼、數(shù)據(jù)來源、衍生規(guī)則和數(shù)據(jù)采集方式。變量字典的制定將伴隨數(shù)據(jù)庫建庫的整個(gè)階段,期間對數(shù)據(jù)庫格式結(jié)構(gòu)、變量的任何調(diào)整,均應(yīng)及時(shí)更新在變量字典中。中醫(yī)治療數(shù)據(jù)集的變量字典部分示例見表6,其中方名分類方法[15]、各衍生變量的衍生規(guī)則,需根據(jù)循證醫(yī)學(xué)證據(jù)、專家臨床經(jīng)驗(yàn)和既有數(shù)據(jù)情況綜合確定。

表6 中醫(yī)治療數(shù)據(jù)集變量字典示例

6 討論

根據(jù)臨床問題及研究目的確定變量清單及數(shù)據(jù)庫架構(gòu),是建立研究型數(shù)據(jù)庫和開展數(shù)據(jù)治理的前提基礎(chǔ)[16]。其關(guān)鍵點(diǎn)可概括如下:①準(zhǔn)確提出并解構(gòu)臨床問題,根據(jù)解構(gòu)結(jié)果確定關(guān)鍵變量;②對既有數(shù)據(jù)的可靠性及關(guān)鍵變量的數(shù)據(jù)來源進(jìn)行評估;③根據(jù)各數(shù)據(jù)集特點(diǎn),選擇恰當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu);④制定變量字典,實(shí)現(xiàn)對各變量的良好管理。

RWS為中醫(yī)藥療效及安全性、預(yù)后、衛(wèi)生經(jīng)濟(jì)學(xué)、病因、診斷和臨床預(yù)測等臨床問題的研究提供了思路和方法[17]。中醫(yī)藥整體觀念、辨證論治的特點(diǎn),使中醫(yī)藥RWS面臨挑戰(zhàn)。例如,在中醫(yī)藥療效評價(jià)研究中,混雜因素的選擇和測量更為復(fù)雜。除西醫(yī)RWS中通常考慮的混雜因素外,患者的中醫(yī)體質(zhì)、舌脈都可能是影響治療和結(jié)局的混雜因素。但這些混雜因素?cái)?shù)據(jù)存在稀疏性,即全部患者可能出現(xiàn)的中醫(yī)表型種類極多[18],而單個(gè)患者出現(xiàn)的表型種類較少;并且這些混雜因素通常缺少公認(rèn)的、客觀的測量方法。盡管已有數(shù)據(jù)挖掘技術(shù)及統(tǒng)計(jì)分析技術(shù)可對數(shù)據(jù)進(jìn)行降維處理,或使用舌診儀、脈診儀等智能設(shè)備對患者舌脈進(jìn)行客觀化測量,但相關(guān)處理方法和測量方法仍存在局限性,且未得到公認(rèn)。這些問題需要研究人員在今后的RWS及方法學(xué)研究中進(jìn)一步探索。

本文以“中西醫(yī)結(jié)合治療新型冠狀病毒感染研究型數(shù)據(jù)庫”為例,對基于既有醫(yī)療數(shù)據(jù)建立研究型數(shù)據(jù)庫中變量清單及數(shù)據(jù)庫架構(gòu)的確定方法及關(guān)鍵點(diǎn)進(jìn)行介紹,可供基于既有數(shù)據(jù)建立研究型數(shù)據(jù)庫的研究人員參考。其中數(shù)據(jù)庫及數(shù)據(jù)集的基本結(jié)構(gòu)、變量字典的制定方法,也可供開展前瞻性RWS的研究人員借鑒。

猜你喜歡
數(shù)據(jù)結(jié)構(gòu)研究型解構(gòu)
還原
解構(gòu)“劇本殺”
金橋(2021年6期)2021-07-23 01:27:14
國有企業(yè)研究型審計(jì)思考與探索
于強(qiáng) 保持真實(shí),從生活中解構(gòu)設(shè)計(jì)之美
彭濤形而上的現(xiàn)世解構(gòu)
中國周刊(2018年4期)2018-05-15 02:57:58
時(shí)軍:定錨現(xiàn)代化研究型醫(yī)院
定錨研究型人文醫(yī)院
“翻轉(zhuǎn)課堂”教學(xué)模式的探討——以《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)為例
高職高專數(shù)據(jù)結(jié)構(gòu)教學(xué)改革探討
中國市場(2016年45期)2016-05-17 05:15:48
TRIZ理論在“數(shù)據(jù)結(jié)構(gòu)”多媒體教學(xué)中的應(yīng)用
思茅市| 漳浦县| 崇明县| 天台县| 星座| 永州市| 龙江县| 龙里县| 普陀区| 冷水江市| 星座| 如东县| 沐川县| 宜君县| 特克斯县| 饶阳县| 高碑店市| 永泰县| 安义县| 晋江市| 东丰县| 南汇区| 临江市| 阳城县| 灵石县| 天峻县| 宁德市| 五峰| 兴安县| 金寨县| 察隅县| 穆棱市| 泸西县| 奉贤区| 会理县| 凤城市| 新邵县| 赫章县| 桂林市| 婺源县| 广丰县|