武珊珊,田金徽,楊智榮,劉鳳琪,董圣杰,張?zhí)灬?,孫鳳
網(wǎng)絡(luò)Meta分析(NMA)擴展了傳統(tǒng)Meta分析的方法,可在一個證據(jù)體中同時評估針對同一疾病的多個干預(yù)措施,在證據(jù)一致性的假設(shè)下,將直接證據(jù)和間接證據(jù)合并得到干預(yù)措施效果的綜合估計,并可獲得干預(yù)措施間的優(yōu)劣排序,篩選出最佳干預(yù)措施,為醫(yī)療保健決策提供信息[1,2]。相對傳統(tǒng)Meta分析,NMA在臨床實踐中更有參考價值。如未對NMA結(jié)果進行證據(jù)質(zhì)量分級,可能會對讀者在理解NMA結(jié)論的真實性和可靠性方面造成偏頗,甚至誤導(dǎo)。因而,對NMA的證據(jù)結(jié)果進行質(zhì)量分級,有助于臨床醫(yī)生及決策者了解NMA效應(yīng)估計值接近真實值的把握度,從而更好地指導(dǎo)臨床實踐。
隨著NMA的制定流程以及方法學(xué)的日趨成熟,國際藥物經(jīng)濟學(xué)和結(jié)果研究協(xié)會(ISPOR)先后制定了3部專門論述如何制定、解讀和評價NMA的手冊[3-5],但大多僅通過評價納入研究的偏倚風險來推測總體的證據(jù)質(zhì)量,由于該方法未考慮到其他偏倚因素,因而存在很大局限性。2014年,推薦分級的評價、制定與評估(GRADE)工作組在British Medical Journal(BMJ)發(fā)表了將GRADE方法用于NMA證據(jù)質(zhì)量分級的相關(guān)指南[6],為NMA制作者基于GRADE方法對相應(yīng)結(jié)果進行證據(jù)分級提供了借鑒和指導(dǎo)。隨后,希臘大學(xué)的Salanti等學(xué)者基于NMA自身的特點對上述GRADE分級的主要原則和定義進行了一定的修改和補充,充分考慮到直接比較和間接比較對最終結(jié)果的貢獻程度,該方法于2014年發(fā)表在PLOS ONE雜志[7]。2019年,瑞士伯爾尼大學(xué)社會與預(yù)防醫(yī)學(xué)機構(gòu)基于上述Salanti等學(xué)者的理論開發(fā)出一款在線的證據(jù)質(zhì)量評價工具——CINeMA(Confidence in Network Meta-Analysis),專門用于評價NMA的證據(jù)質(zhì)量[8]。該軟件的開發(fā),大大提升了NMA證據(jù)質(zhì)量評價的效率。近年來,隨著NMA方法學(xué)的不斷完善,GRADE工作組又連續(xù)發(fā)表了3篇系列文章,對GRADE方法在NMA中的應(yīng)用進行了進一步完善和補充[9-11]。此外,由于NMA綜合了多種干預(yù)措施直接比較和間接比較的證據(jù),產(chǎn)生的研究結(jié)果較多,關(guān)于如何報告NMA結(jié)果更有助于決策者和臨床醫(yī)生高效做出決策,GRADE工作組也啟動了GRADE NMA-SoF(Summary of Findings)表格制訂工作,歷時7年于2019年正式發(fā)布[12]。2020年,GRADE工作又提出了2種NMA結(jié)論形成的方法,即部分背景化框架與最小背景化框架[13,14]。本文結(jié)合GRADE工作組及Salanti等學(xué)者的相關(guān)系列文章,對NMA證據(jù)分級的方法學(xué)進展進行介紹,以期為NMA制定者提供一定的參考。
GRADE工作組開發(fā)了一整套科學(xué)的證據(jù)分級體系用于評價不同干預(yù)措施對重要臨床結(jié)局產(chǎn)生影響的可信程度,即證據(jù)質(zhì)量[15-21]。其評價的主要原則包括5個降級因素和3個升級因素。其中,5個降級因素分別為:①納入研究的方法學(xué)質(zhì)量(risk of bias,偏倚風險),②研究關(guān)注的人群、干預(yù)措施及結(jié)局指標的外推性(indirectness,間接性),③不同研究間結(jié)果的一致程度(inconsistency,不一致性),④不同研究合并結(jié)果的精確程度(imprecision,不精確性),⑤對符合標準研究納入的全面程度(publication bias,發(fā)表偏倚);3個升級因素分別為:①大效應(yīng)量(large effect),②劑量效應(yīng)關(guān)系(dose-response gradient),③相關(guān)混雜的控制(plausible confounding)。
對于隨機對照試驗或只納入隨機對照試驗的系統(tǒng)評價,證據(jù)質(zhì)量的初始等級即為高級別,若存在5個降級因素中的某一個或多個,則可降級為中級別、低級別或極低級別。對于觀察性研究或只納入觀察性研究的系統(tǒng)評價而言,證據(jù)質(zhì)量的初始等級為低級別,若存在5個降級因素中的一個或多個,則可進一步降級至極低級別;反之,若存在任何一個或多個升級因素,則可考慮證據(jù)質(zhì)量的升級。需要注意的是,GRADE證據(jù)質(zhì)量分級不是對單個臨床研究或系統(tǒng)評價的質(zhì)量分級,是針對報告了某個結(jié)局指標的證據(jù)體的質(zhì)量分級。
由于目前NMA主要基于隨機對照試驗這一臨床研究類型,因此無論是GRADE工作組或Salanti等提出的方法學(xué)體系,GRADE在NMA證據(jù)質(zhì)量分級中的應(yīng)用均主要考慮上述5個降級因素。
2.1 第一種方法:GRADE工作組方法學(xué)體系與其他類型系統(tǒng)綜述和傳統(tǒng)Meta分析相比,NMA有其特殊性,即同時納入直接比較和間接比較的證據(jù),因此其證據(jù)分級過程更為復(fù)雜。除要考慮GRADE中5個降級因素之外,還需考慮間接比較中不同組別在人群基線特征、共同對照和結(jié)果測量方面的不可傳遞性,以及直接和間接比較結(jié)果的不一致性。2014年GRADE工作組提出了對NMA進行證據(jù)質(zhì)量分級的四步法[6],即首先呈現(xiàn)兩個干預(yù)措施之間直接和間接比較的效應(yīng)量與可信區(qū)間,其次分別對每一組直接比較和間接比較進行證據(jù)質(zhì)量分級,然后呈現(xiàn)NMA的結(jié)果,最后評估NMA結(jié)果的證據(jù)質(zhì)量。直接比較證據(jù)的分級方法與傳統(tǒng)Meta分析GRADE證據(jù)分級類似。間接比較證據(jù)分級按照就低原則依據(jù)其直接比較中證據(jù)質(zhì)量低的組別進行判定?;诨旌媳容^的NMA結(jié)果證據(jù)質(zhì)量則依據(jù)就高原則將直接和間接比較中證據(jù)質(zhì)量高的組別作為最終等級。
該方法在NMA納入的干預(yù)措施或結(jié)局指標數(shù)量較少時較為快捷可行,但當NMA中納入的干預(yù)措施或結(jié)局指標數(shù)目較多時,需逐一針對每個結(jié)局指標中的每一個直接比較和間接比較進行證據(jù)分級,分級任務(wù)繁重耗時。此外,該方法在最終NMA結(jié)果證據(jù)等級判定時僅考慮了就高原則,未充分考慮直接比較和間接比較的貢獻大小,可能導(dǎo)致結(jié)果偏頗。近年來GRADE工作組對GRADE方法在NMA中的應(yīng)用進行了修訂和完善[9-11]。圍繞2018年Brignardello-Petersen等學(xué)者制定的分級流程[9],王琪等[22]對更新后的證據(jù)分級步驟進行了解讀,具體如下(圖1):第1步,將直接比較、間接比較和NMA混合比較的效應(yīng)量和可信區(qū)間分開呈現(xiàn);第2步,不考慮不精確性因素,對每個比較組的直接比較證據(jù)進行質(zhì)量分級;若直接比較的證據(jù)質(zhì)量等級為高,且對NMA結(jié)果的貢獻大于等于間接比較,則無需對間接比較證據(jù)進行質(zhì)量分級,最終NMA結(jié)果的證據(jù)質(zhì)量依據(jù)直接比較的證據(jù)質(zhì)量判定即可,這樣既科學(xué)地考慮了直接比較和間接比較對最終結(jié)果的貢獻程度,又提高了NMA結(jié)果證據(jù)分級的效率;反之,則需進行間接比較的證據(jù)質(zhì)量分級;第3步,基于形成間接證據(jù)一階環(huán)路的直接證據(jù)質(zhì)量(不考慮不精確性因素),采取就低原則確定間接證據(jù)質(zhì)量,此外尚需考慮相似性;第4步,基于直接證據(jù)和/或間接證據(jù)質(zhì)量等級,考慮連貫性和精確性,最終確定和呈現(xiàn)NMA結(jié)果的證據(jù)質(zhì)量。
圖1 更新后的NMA-GRADE分級流程
在更新后的證據(jù)分級過程中,需注意以下幾點:①在對直接比較進行證據(jù)質(zhì)量分級時,對間接性的降級需謹慎,理論上研究關(guān)注的人群、干預(yù)措施及結(jié)局指標的外推性始終存在,只有存在重大間接性時才會考慮降級,同時給予降級理由的詳細說明;②由于NMA合并了直接比較和間接比較的結(jié)果,因此在對直接比較和間接比較分別進行證據(jù)質(zhì)量分級時無需考慮不精確性,NMA結(jié)果的精確性均高于直接和間接證據(jù);③當直接比較的證據(jù)等級為高,但直接比較對NMA的貢獻較間接比較更小時,需考慮間接比較的證據(jù)質(zhì)量等級;④在進行間接比較的證據(jù)質(zhì)量分級時應(yīng)考慮不可傳遞性,即不同組別間在人群基線特征、共同對照及結(jié)果測量等方面是否存在差異,若存在較大差異,需依據(jù)不可傳遞性將該間接證據(jù)質(zhì)量再降低一級;⑤在對NMA結(jié)果進行證據(jù)分級時對不一致性的降級需謹慎,還應(yīng)考慮直接比較和間接比較對NMA效應(yīng)量的貢獻度;若NMA效應(yīng)量主要來自于直接比較或間接比較,則可認為不一致性對NMA結(jié)果影響較小不進行降級;反之,若直接和間接比較對NMA的貢獻度相當,則需因不一致性對NMA結(jié)果進行降級。
2.2 第二種方法:Salanti等方法學(xué)體系與上述GRADE工作組提出的方法學(xué)體系不同,Salanti等學(xué)者[7]基于NMA自身的特點,將NMA作為一個整體,結(jié)合證據(jù)貢獻圖,充分考慮了直接比較和間接比較對最終NMA結(jié)果的貢獻程度,從6個維度(研究的局限性即偏倚風險、間接性、不精確性、異質(zhì)性、不一致性和發(fā)表偏倚)分別對每個比較的NMA結(jié)果及最終排序進行證據(jù)質(zhì)量的分級。每個維度均可根據(jù)其嚴重程度分為不嚴重(no concern,不降級)、嚴重(some concern,降一級)和非常嚴重(major concern,降兩級),最終每個比較的NMA結(jié)果及最終排序的證據(jù)質(zhì)量等級與GRADE體系一致,即高、中、低和極低四個等級。值得注意的是,當NMA中納入的干預(yù)措施或結(jié)局指標數(shù)量較多時,基于該方法進行證據(jù)質(zhì)量分級同樣繁重耗時。
采用該方法進行證據(jù)等級評價時需注意:①在評估每個比較NMA結(jié)果是否根據(jù)研究局限性進行降級時,需結(jié)合每個研究的偏倚風險評價結(jié)果來判斷NMA中每個直接比較的偏倚風險,進一步分別為低、中和高偏倚風險的直接比較賦以不同的權(quán)重(如分別為低、中和高偏倚風險的直接比較賦以0、-1和-2的權(quán)重),結(jié)合證據(jù)貢獻圖,來判斷是否進行降級以及降1級或降2級;②在從間接性維度進行評估時,需注意間接性不僅考慮研究人群、干預(yù)措施和結(jié)果指標的間接性,還應(yīng)考慮NMA中間接比較的假設(shè)(即相似性)是否成立;③不精確性的判斷可直接通過NMA的可信區(qū)間是否跨越無效線和包含最小臨床重要差值來判定。若可信區(qū)間不包含最小臨床重要差值,則認為不存在不精確性,無需降級;若可信區(qū)間包含部分最小臨床重要差值,則認為存在一定程度的不精確性,降一級;若可信區(qū)間完全包含最小臨床重要差值,則認為存在不精確性,可降兩級;④異質(zhì)性的評估需結(jié)合每個比較的NMA可信區(qū)間及預(yù)測區(qū)間結(jié)果。若NMA可信區(qū)間與預(yù)測區(qū)間結(jié)論一致,則可認為不存在明顯的異質(zhì)性,無需降級;反之,則認為存在較大的異質(zhì)性,可對該比較降一級;⑤不一致性是指直接比較和間接比較結(jié)果之間是否存在顯著的統(tǒng)計學(xué)差異,目前有多種統(tǒng)計學(xué)方法來評估局部不一致性,如節(jié)點拆分法、基于環(huán)的不一致性檢驗等;⑥可采用校正比較漏斗圖或選擇模型等進行發(fā)表偏倚的評估,但需注意當納入研究數(shù)目較少時,無論校正比較漏斗圖還是各種模型檢驗方法的統(tǒng)計學(xué)把握度均較低,因而更應(yīng)注意NMA檢索策略的制定是否足夠全面和完善;若檢索策略制定的足夠全面,則即使納入的研究數(shù)目較少,也可不降級。
基于上述Salanti等學(xué)者提出的NMA證據(jù)分級方法學(xué)體系,瑞士伯爾尼大學(xué)社會與預(yù)防醫(yī)學(xué)機構(gòu)2019年開發(fā)出一款在線的證據(jù)質(zhì)量評價工具—CINeMA,專門用于評價NMA的證據(jù)質(zhì)量等級,可通過其官方網(wǎng)站直接訪問(https://cinema.ispm.unibe.ch/)[8]。該軟件可供用戶免費使用,且無需登錄,半自動化過程大大提升了NMA證據(jù)質(zhì)量評價的效率。
CINeMA通過調(diào)用R軟件的netmeta程序包,可繪制網(wǎng)狀證據(jù)圖,并計算NMA的貢獻矩陣,包括每個研究和每個直接比較對每個比較組NMA結(jié)果的貢獻度,從而評價每個比較的NMA結(jié)果是否根據(jù)研究局限性和間接性兩個維度進行降級。此外,CINeMA還可基于頻率學(xué)框架進行NMA的統(tǒng)計學(xué)分析,使用者可選擇數(shù)據(jù)分析模型(固定效應(yīng)模型或隨機效應(yīng)模型)和擬分析的干預(yù)措施,可選擇的效應(yīng)指標包括針對二分類結(jié)局指標的比值比(OR)、相對風險比(RR)和率差(RD),以及針對連續(xù)型結(jié)局指標的均數(shù)差(MD)和標準化均數(shù)差(SMD)。運行結(jié)果中包含NMA中任意兩種干預(yù)措施相互比較的效應(yīng)值及95%置信區(qū)間、異質(zhì)性檢驗結(jié)果(每種比較的預(yù)測區(qū)間)及不一致性檢驗結(jié)果(節(jié)點拆分法),從而幫助使用者從不精確性、異質(zhì)性及不一致性三個維度來對每個比較的NMA結(jié)果進行證據(jù)質(zhì)量的分級,具體結(jié)果示例請見圖2。關(guān)于CINeMA在線應(yīng)用程序的使用流程可參見Nikolakopoulou等[23]于2020年發(fā)表在PLOS MEDICINE的相關(guān)文章,國內(nèi)的王琪等[24]也對CINeMA在線應(yīng)用程序的使用以“高血壓病患者服用降壓藥物后糖尿病發(fā)生風險的網(wǎng)狀Meta分析”為案例進行了具體的詳細介紹,該案例的具體數(shù)據(jù)可見Elliott于2007年發(fā)表在Lancet的文章[25]。
圖2 CINeMA在線應(yīng)用程序分析部分結(jié)果示例
雖然使用CINeMA在線應(yīng)用程序大大優(yōu)化了NMA證據(jù)質(zhì)量分級的效率,但該工具也存在一定局限性,目前只能實現(xiàn)對單一結(jié)局指標的證據(jù)分級,若一個NMA中存在多個結(jié)局指標,則需重復(fù)進行證據(jù)分級的過程。此外,在證據(jù)分級過程中,諸如間接性、發(fā)表偏倚等維度的評價難免存在一定的主觀性。
臨床醫(yī)生或決策者在使用證據(jù)時,根據(jù)不同用途對研究結(jié)果的呈現(xiàn)形式有不同的需求。GRADE工作組所提出的結(jié)果總結(jié)表SoF在傳統(tǒng)系統(tǒng)評價中的實用性已經(jīng)得到了證明,其對證據(jù)的總結(jié)非常有幫助。NMA綜合了直接比較和間接比較的證據(jù),如何報告總結(jié)NMA結(jié)果更有助于臨床決策,GRADE工作組基于質(zhì)性研究的方法,通過成立專家指導(dǎo)小組、召開頭腦風暴會議、使用者測試等對NMA-SoF表格涵蓋的內(nèi)容和呈現(xiàn)形式進行了全面考量和取舍,經(jīng)過4輪溝通產(chǎn)生了6個候選的NMA-SoF表格并達成一致,建議最終的NMA-SoF表格[12]應(yīng)包含以下6方面內(nèi)容:①臨床問題的具體信息(PICO);②網(wǎng)絡(luò)關(guān)系圖的構(gòu)建,包括研究數(shù)量、樣本量、干預(yù)措施數(shù)量及表現(xiàn)形式;③相對效應(yīng)和絕對效應(yīng)的估計,包括直接比較效應(yīng)估計及置信區(qū)間和間接比較效應(yīng)估計及置信區(qū)間;④證據(jù)的確定性(GRADE證據(jù)質(zhì)量分級結(jié)果);⑤干預(yù)措施效應(yīng)大小的排序(基于累積排序曲線下面積的排序及置信區(qū)間);⑥結(jié)果的解釋。王巍巍等[26]也對NMA-SoF表格的主要內(nèi)容進行了詳細介紹,并舉例說明SoF表的使用方法和注意事項。
NMA-SoF表于2019年11月發(fā)表后迅速成為“高被引論文”,目前Cochrane協(xié)作組已推薦使用NMA-SoF表格,其推廣和應(yīng)用不僅可以提高NMA結(jié)果報告的規(guī)范性,也在一定程度上幫助研究者開展科學(xué)規(guī)范的研究設(shè)計,提升研究質(zhì)量。對于指南制訂者而言,NMA-SoF不僅提供證據(jù)質(zhì)量分級的信息,也提供了絕對效應(yīng)值,方便指南制訂參考臨床決策閾值[13,14,27,28]進行判斷是否給出推薦。對于衛(wèi)生保健專業(yè)人員而言,NMA-SoF可以高效地展示NMA的研究結(jié)果,提高證據(jù)的實用性,幫助其做出更加明智的決策。
為從NMA的大量結(jié)果(包括相對效應(yīng)量、排序及證據(jù)可信度等)中正確篩選出最佳干預(yù)措施以指導(dǎo)臨床實踐,2020年GRADE工作組提出了分別基于最小背景化框架[13]和部分背景化框架[14]呈現(xiàn)NMA結(jié)論的兩種方法。背景化指根據(jù)特定的閾值或范圍對證據(jù)可信度進行分級。在政策制定與指南應(yīng)用的背景下,背景化需考慮當?shù)丨h(huán)境、資源可及性、法律法規(guī)、文化、可及性和公平性等因素。GRADE工作組通過對結(jié)局呈現(xiàn)的選擇、不一致性的考慮和受眾群體價值觀的重視等方面的考量,將背景化程度分為“完全背景化”、“部分背景化”與“最小背景化”三類。若在結(jié)果的分析中不考慮患者的價值觀和偏好,則為部分背景化框架;最小背景化則是將所需考慮的背景因素降至最低,最大限度減少價值判斷。
部分背景化框架是指在對干預(yù)措施進行分類時,盡可能綜合考慮效應(yīng)的大小、證據(jù)可信度及排序。作者首先依據(jù)具有結(jié)局指標確定好效應(yīng)閾值和參考組,基于比較每種干預(yù)措施與參考組比較的點估計值將干預(yù)措施分為無效、較小、中等與較大效應(yīng),干預(yù)措施可歸類為有利或不利兩種情況;然后基于GRADE分級將干預(yù)措施分為高或中等、低或極低證據(jù)等級兩類,并保證與排序結(jié)果一致,從而找到NMA中的最佳干預(yù)措施。最小背景化框架是指針對NMA的某一特定結(jié)局,作者首先選擇決策閾值和參考組,對每個干預(yù)措施與參考組相比效應(yīng)量的可信區(qū)間是否與決策閾值相交做出判斷,然后將干預(yù)措施進行分類(可分為比參考組更好、更差和無差異)。隨后基于GRADE分級在此前分類的基礎(chǔ)上將干預(yù)措施分為2大類證據(jù)等級,并保證SUCRA排序結(jié)果同分組結(jié)果一致,以找到NMA中最佳的干預(yù)措施。朱鴻飛、栗夢婷等[27,28]分別對部分背景化框架及最小背景化框架的原理進行了解讀,并結(jié)合實例進行了闡述。
部分背景化及最小背景化框架均綜合考慮了效應(yīng)大小、證據(jù)可信度及排序,以尋找NMA中的最佳干預(yù)措施,但部分背景化框架評估時不過度強調(diào)研究結(jié)果的精確性,側(cè)重于通過點估計值和排序?qū)⒏深A(yù)措施分為無效、微小、中等和重大效應(yīng)四個類別,同一個類別間的干預(yù)措施效應(yīng)值通常有差異;而最小背景化框架強調(diào)研究結(jié)果的精確性及證據(jù)的可信度,側(cè)重于通過可信區(qū)間與決策閾值的比較將干預(yù)措施進行分類,同一類別間的干預(yù)措施效果不存在差異。
本文主要介紹了基于GRADE原則進行NMA證據(jù)質(zhì)量分級兩種方法的基本理論,并闡述了GRADE方法在NMA證據(jù)質(zhì)量方面的最新進展,包括在線應(yīng)用程序CINeMA和NMA結(jié)果總結(jié)表的使用,應(yīng)用這些新進展、新工具時應(yīng)該注意,盡管最大限度地提高研究效率是正確的,但使用這些策略需要仔細衡量。雖然應(yīng)用GRADE進行NMA的證據(jù)質(zhì)量分級具有一定主觀性,但GRADE仍是當前對NMA進行證據(jù)分級最客觀、最有價值的工具,且可以結(jié)合臨床決策閾值[13,14,27,28]給出最終推薦。隨著NMA方法學(xué)的日益成熟及研究質(zhì)量的不斷提高,GRADE在NMA中的應(yīng)用將會更加廣泛。