彭曉霞 劉雅莉
從不一致性、不精確性和發(fā)表偏倚等維度,對(duì)診斷準(zhǔn)確性評(píng)價(jià)證據(jù)的確定性進(jìn)行評(píng)級(jí),與干預(yù)、預(yù)測(cè)或其他研究的證據(jù)評(píng)級(jí)遵循相同的基本邏輯,但在操作層面上存在不同。
除了證據(jù)之間的不一致性、不精確性和發(fā)表偏倚對(duì)證據(jù)確定性評(píng)級(jí)的影響外,診斷準(zhǔn)確性評(píng)價(jià)證據(jù)的確定性是否可以升級(jí),還取決于診斷試驗(yàn)結(jié)果是否與其對(duì)應(yīng)的臨床結(jié)局(如:患病可能性或疾病的嚴(yán)重程度)存在較強(qiáng)的相關(guān)性。例如,隨著肌鈣蛋白T水平升高,急性心肌梗死的可能性顯著增加,而不僅僅是因?yàn)檫x擇不同診斷截?cái)嘀?cut-off point)所導(dǎo)致的敏感度或特異度在數(shù)字上的增加,這樣的證據(jù)將增強(qiáng)對(duì)該診斷試驗(yàn)的信心。然而,與針對(duì)干預(yù)性研究證據(jù)確定性評(píng)級(jí)方法不同,診斷準(zhǔn)確性評(píng)價(jià)證據(jù)確定性升級(jí)還需要進(jìn)一步的理論和實(shí)踐研究,因?yàn)?,針?duì)是否以及如何將劑量效應(yīng)關(guān)系納入診斷準(zhǔn)確性評(píng)價(jià)的證據(jù)確定性分級(jí),至今尚未達(dá)成共識(shí)。
需要特別注意的是,診斷準(zhǔn)確性評(píng)價(jià)的確定性評(píng)級(jí)與診斷準(zhǔn)確性高低(即敏感度與特異度)常常并不一致。有時(shí),系統(tǒng)綜述納入的診斷準(zhǔn)確性評(píng)價(jià)研究都是設(shè)計(jì)周密、實(shí)施嚴(yán)謹(jǐn)?shù)难芯?;而且系統(tǒng)綜述作者進(jìn)行了調(diào)查研究,可以解釋納入獨(dú)立研究之間的不一致性;此外,幾乎沒有理由懷疑發(fā)表偏倚的存在。但是,系統(tǒng)綜述的作者仍然認(rèn)為敏感度的95%CI過寬而將敏感度評(píng)為中等確定性,將特異度評(píng)為高度確定性。
診斷準(zhǔn)確性評(píng)價(jià)的證據(jù)概要展示形式不同于治療或干預(yù)效果評(píng)價(jià)等研究。GRADE建議采用3級(jí)分層形式來描述證據(jù)概要,并可以在GRADE的官方APP(GRADEpro)中進(jìn)行開發(fā):①采用簡單的總結(jié)表和證據(jù)摘要來描述研究發(fā)現(xiàn),僅提供診斷準(zhǔn)確性相關(guān)信息(如:患病率、敏感度、特異度、假陽性率與假陰性率等);②用表格呈現(xiàn)有助于制定決策的其他特征信息,如在診斷準(zhǔn)確性評(píng)價(jià)過程中獲得與診斷試驗(yàn)直接相關(guān)的并發(fā)癥(如:造影劑導(dǎo)致的急性腎功能損傷或靜脈炎等);③在提出決策建議的過程中,提供患者相關(guān)的重要結(jié)果信息,同時(shí)對(duì)與診斷試驗(yàn)相關(guān)的有益和無益的健康影響做出的明確判斷對(duì)決策制定也是非常有用的。在證據(jù)概要中清晰展示以上信息將有助于確保決策的透明性。
診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)是指以當(dāng)前公認(rèn)的疾病診斷標(biāo)準(zhǔn)(如疾病診斷的金標(biāo)準(zhǔn))為參考,來評(píng)價(jià)新的診斷測(cè)試的診斷準(zhǔn)確性,主要指標(biāo)為敏感度(真陽性率)與特異度(真陰性率),但在實(shí)際決策過程中,還要關(guān)注假陽性率與假陰性率對(duì)后續(xù)治療決策的影響以及對(duì)疾病最終預(yù)后的影響,以及在特定醫(yī)療環(huán)境下某種疾病在就診患者中所占的比例[1]。與治療或干預(yù)效果評(píng)價(jià)一樣,診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)的系統(tǒng)綜述也是進(jìn)行臨床決策的最高級(jí)別證據(jù),因?yàn)樵谕瓿上到y(tǒng)綜述過程中,作者會(huì)分析每項(xiàng)獨(dú)立研究的偏倚風(fēng)險(xiǎn),篩選低偏倚風(fēng)險(xiǎn)的研究納入系統(tǒng)綜述,從而確保系統(tǒng)綜述結(jié)果的真實(shí)性。但是,基于診斷準(zhǔn)確性評(píng)價(jià)的系統(tǒng)綜述證據(jù)體進(jìn)行臨床決策時(shí),還需要進(jìn)一步評(píng)價(jià)證據(jù)是否具有不確定性,以及針對(duì)不確定性是否能找到合理的解釋,從而做出相應(yīng)的證據(jù)升級(jí)或降級(jí)處理,提高決策的透明性。
相對(duì)于原始診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)研究的偏倚風(fēng)險(xiǎn),人們對(duì)診斷準(zhǔn)確性證據(jù)體的確定性評(píng)價(jià)并不熟悉,本文將重點(diǎn)解讀如何基于研究證據(jù)之間的不一致性、不精確性及發(fā)表偏倚做出證據(jù)確定性升級(jí)或降級(jí)的判斷。
2.1證據(jù)確定性評(píng)價(jià)的主要維度
2.1.1 不一致性 診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)證據(jù)之間是否存在不一致性,以及針對(duì)不一致性是否能找到合理解釋是影響該證據(jù)確定性是否被降級(jí)的重要依據(jù)。診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)證據(jù)的不一致性評(píng)價(jià)與干預(yù)效果評(píng)價(jià)不同,后者可以通過效應(yīng)指標(biāo)點(diǎn)估計(jì)的相似程度,點(diǎn)估計(jì)值95%CI重疊的程度,各獨(dú)立研究效應(yīng)值大小的異質(zhì)性檢驗(yàn)結(jié)果,以及在Meta分析時(shí)隨機(jī)效應(yīng)估計(jì)的方差估計(jì)等對(duì)已有研究證據(jù)之間的一致性進(jìn)行評(píng)價(jià);但是,診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)則需分別評(píng)價(jià)各獨(dú)立研究獲得的敏感度與特異度估計(jì)值之間是否不一致。以2014年發(fā)表的心臟MR診斷肺動(dòng)脈高壓準(zhǔn)確性評(píng)價(jià)的Meta分析為例[2],圖1顯示不同研究的敏感度點(diǎn)估計(jì)值0.81~0.98,特異度點(diǎn)估計(jì)值0.69~0.89,特異度異質(zhì)性檢驗(yàn)I2=0,敏感度異質(zhì)性檢驗(yàn)I2=47.2%,雖然<50%,但仍需對(duì)Hagger等的研究[3]進(jìn)行分析,發(fā)現(xiàn)該研究在MR與右心導(dǎo)管(金標(biāo)準(zhǔn)診斷)檢查之間的間隔時(shí)間為30 d,明顯長于其他4項(xiàng)研究。在診斷試驗(yàn)中,診斷測(cè)試與金標(biāo)準(zhǔn)檢查之間的時(shí)間間隔原則上應(yīng)盡可能短,但考慮到肺動(dòng)脈高壓患者的心室質(zhì)量指數(shù)在30 d之內(nèi)不會(huì)發(fā)生太大變化,因此決定不對(duì)該研究“不一致性”進(jìn)行降級(jí)處理。相反,如果各獨(dú)立研究之間的敏感度或特異度的95%CI出現(xiàn)互不重疊的現(xiàn)象,又無法找到可以解釋的導(dǎo)致不一致性的原因時(shí),可能要考慮對(duì)該證據(jù)的“不一致性”進(jìn)行降級(jí)處理。
圖1 心臟MR心室質(zhì)量指數(shù)預(yù)測(cè)肺動(dòng)脈高壓的敏感度與特異度[3]
2.1.2 不精確性 診斷準(zhǔn)確性評(píng)價(jià)指標(biāo)除敏感度(真陽性率)、特異度(真陰性率)外,還有假陽性率、假陰性率、診斷比值比(DOR)等,以上參數(shù)的95%CI較寬時(shí),均會(huì)降低證據(jù)的確定性評(píng)級(jí)。然而,95%CI多寬時(shí)應(yīng)降級(jí),則需要根據(jù)具體研究信息加以判斷。眾所周知,CI的寬窄取決于樣本量及結(jié)局事件數(shù)的大小。因此,當(dāng)臨床決策在特定情境下,需要權(quán)衡敏感度、特異度、假陽性率與假陰性率之間的相互影響,以及決策導(dǎo)致的結(jié)果時(shí),應(yīng)預(yù)先設(shè)定可以反映臨床意義的CI閾值。當(dāng)CI的上下限值包含了可以導(dǎo)致不同決策的值時(shí),應(yīng)考慮將證據(jù)的確定性給予降級(jí)。例如,當(dāng)系統(tǒng)綜述作者或指南開發(fā)團(tuán)隊(duì)將0.8作為某一特定情境下可接受的最低敏感度時(shí),那么,敏感度95%CI為0.72~0.88時(shí),對(duì)于該決策需求都可能太寬了,從而無法判斷采用該診斷結(jié)果是否能帶來更多的臨床獲益。相反,如果敏感度的95%CI在0.82~0.92,下限>0.8,因此,可以支持綜述作者或指南開發(fā)團(tuán)隊(duì)做出決策,這時(shí),可以認(rèn)為該95%CI足夠窄。對(duì)于決策制定者而言,應(yīng)該將敏感度和特異度估計(jì)值及其95%CI轉(zhuǎn)化為在設(shè)定患病率下的真陽性、假陽性、真陰性及假陰性的絕對(duì)值及其95%CI。接下來,根據(jù)臨床決策需求,判斷哪一個(gè)指標(biāo)是臨床決策最關(guān)注的指標(biāo),如果這個(gè)指標(biāo)的95%CI較窄,及時(shí)其他指標(biāo)95%CI較寬,也沒有必要對(duì)該證據(jù)進(jìn)行降級(jí)處理。
2.1.3 發(fā)表偏倚 總的來說,診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)證據(jù)的確定性評(píng)級(jí)與治療性研究一樣,對(duì)發(fā)表偏倚進(jìn)行評(píng)估,包括:存在利益風(fēng)險(xiǎn)的研究,樣本量較小但準(zhǔn)確性高且估計(jì)精確度也高的研究,以及已完成但未發(fā)表的研究。盡管對(duì)發(fā)表偏倚的高度質(zhì)疑會(huì)導(dǎo)致人們對(duì)診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)證據(jù)的確定性給予降級(jí),但事實(shí)上,對(duì)于是否存在發(fā)表偏倚,知之甚少。廣泛用于檢測(cè)發(fā)表偏倚的方法是繪制漏斗圖及其不對(duì)稱性檢驗(yàn),如Egger's 或 Begg's 檢驗(yàn),但這種方法會(huì)不恰當(dāng)?shù)卦黾咏导?jí)的可能,因?yàn)闃颖玖看笮〕3Ec診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)研究的患者結(jié)局或特征有關(guān),而不是與發(fā)表偏倚相關(guān)。
事實(shí)上,Deeks'檢驗(yàn)或剪補(bǔ)法(the trim and fill method)更適用于檢驗(yàn)診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)的發(fā)表偏倚。尤其是剪補(bǔ)法,其優(yōu)點(diǎn)在于提供無偏的診斷準(zhǔn)確性估計(jì)值和直觀的視圖顯示,基于觀察研究和模擬研究,允許作者通過納入模擬研究,目測(cè)診斷準(zhǔn)確性的變化程度。如果這一變化微不足道,那么就沒有必要因發(fā)表偏倚對(duì)證據(jù)確定性進(jìn)行降級(jí)。但無論哪種統(tǒng)計(jì)方法,都存在局限性。其實(shí),確認(rèn)發(fā)表偏倚最好的方法是了解哪些已經(jīng)完成的研究沒有發(fā)表。但是,在尚無實(shí)現(xiàn)診斷準(zhǔn)確性評(píng)價(jià)研究注冊(cè)的標(biāo)準(zhǔn)方法時(shí),這些信息并不容易獲取。
2.2 決定證據(jù)確定性升級(jí)或降級(jí)的其他因素
2.2.1 診斷準(zhǔn)確性評(píng)價(jià)的劑量效應(yīng)關(guān)系 在因果判斷中有一條非常重要的標(biāo)準(zhǔn),即暴露因素(或干預(yù)因素)與研究效應(yīng)之間是否存在劑量效應(yīng)關(guān)系,如果存在,則會(huì)增強(qiáng)因果判斷的強(qiáng)度。如,在吸煙與肺癌發(fā)生風(fēng)險(xiǎn)之間的相對(duì)危險(xiǎn)度(RR)>1的前提下,如果隨著吸煙暴露水平的升級(jí),RR值也相應(yīng)升高,那么,這種劑量反應(yīng)關(guān)系會(huì)進(jìn)一步增強(qiáng)人們對(duì)吸煙導(dǎo)致肺癌這一因果判斷的信心。對(duì)于診斷準(zhǔn)確性評(píng)價(jià)而言,大家對(duì)是否以及如何根據(jù)劑量反應(yīng)關(guān)系來支持證據(jù)確定性的升級(jí)或降級(jí)尚未達(dá)成共識(shí),因?yàn)樵\斷準(zhǔn)確性評(píng)價(jià)的“劑量水平”體現(xiàn)在診斷截點(diǎn)值上,對(duì)于測(cè)量值高于診斷截點(diǎn)值即為診斷陽性的案例來說,診斷截點(diǎn)值的升高,一定會(huì)表現(xiàn)為敏感度的降低與特異度的升高,但這些數(shù)字上的改變并沒有真正的臨床意義,真正的臨床意義最終要取決于敏感度或特異度的改變是否切實(shí)影響了疾病結(jié)局。但針對(duì)診斷試驗(yàn)對(duì)疾病轉(zhuǎn)歸應(yīng)用的RCT并不像干預(yù)效果評(píng)價(jià)那般常見。
2.2.2 其他考慮 是否對(duì)診斷準(zhǔn)確性評(píng)價(jià)證據(jù)進(jìn)行降級(jí),在很多時(shí)候需要根據(jù)具體問題做出特殊考量。例如:敏感度高意味著假陽性(漏診)低,特異度高意味著假陰性(誤診)低,首先根據(jù)診斷對(duì)目標(biāo)疾病的影響大小,即誤診產(chǎn)生的影響更大,還是漏診產(chǎn)生的影響更大,來判斷證據(jù)分級(jí)時(shí)更側(cè)重于哪個(gè)指標(biāo);另一方面,在同一項(xiàng)診斷準(zhǔn)確性評(píng)價(jià)證據(jù)中,敏感度與特異度的估計(jì)精確度并不完全一致,如果敏感度更重要,而敏感度的95%CI卻相對(duì)較寬時(shí),作者可能會(huì)考慮降級(jí)處理。
2.3 證據(jù)概要和GRADE分級(jí)結(jié)果匯總表 雖然證據(jù)概要和調(diào)查結(jié)果匯總表的展示對(duì)決策透明性至關(guān)重要,但是,學(xué)習(xí)診斷準(zhǔn)確性評(píng)價(jià)證據(jù)體的證據(jù)概要和調(diào)查結(jié)果匯總其實(shí)是一種挑戰(zhàn)。
GRADE在GRADEpro中提供了研究結(jié)果匯總(Summary of findings, SOF)模板,在該模板中,除了可以展示診斷準(zhǔn)確性評(píng)價(jià)的系統(tǒng)綜述基本特征(包括納入研究個(gè)數(shù)、樣本例數(shù)、研究設(shè)計(jì)類型)和證據(jù)確定性影響因素(包括偏倚風(fēng)險(xiǎn)、間接性、不一致性、不精確性及發(fā)表偏倚等)外,還可以呈現(xiàn)目標(biāo)疾病患病率,診斷試驗(yàn)的敏感度、特異度、假陽性率與假陰性率及其95%CI,并展示每1 000名疑似患者在使用該診斷試驗(yàn)后,在不同先驗(yàn)患病率條件下,獲得的真陽性、假陽性、真陰性及假陰性病例數(shù)及其95%CI。以上信息的展示雖然看起來有點(diǎn)復(fù)雜,但GRADEpro的用戶測(cè)試表明,當(dāng)前的格式有助于總結(jié)系統(tǒng)綜述的研究結(jié)果,給指南小組提供透明性較好的展示。
從研究者發(fā)現(xiàn)一項(xiàng)有潛在診斷價(jià)值的診斷試驗(yàn)(diagnostic test),到采用目標(biāo)疾病金標(biāo)準(zhǔn)對(duì)該診斷試驗(yàn)進(jìn)行準(zhǔn)確性評(píng)價(jià),并不是診斷試驗(yàn)可以直接向臨床轉(zhuǎn)化應(yīng)用的最直接證據(jù),還需要對(duì)該診斷試驗(yàn)在臨床應(yīng)用后是否會(huì)改善臨床結(jié)局進(jìn)行評(píng)價(jià),但這一認(rèn)識(shí)并未在我國臨床研究中達(dá)成共識(shí)。GRADE證據(jù)評(píng)價(jià)不僅重視原始研究的真實(shí)性,更重視該證據(jù)臨床轉(zhuǎn)化的意義與直接性。因此,GRADE證據(jù)評(píng)價(jià)首先可以推動(dòng)我國臨床研究者對(duì)診斷試驗(yàn)研究有更全面、更系統(tǒng)的認(rèn)識(shí),提高我國診斷試驗(yàn)研究的質(zhì)量。
在診斷準(zhǔn)確性評(píng)價(jià)的系統(tǒng)綜述基礎(chǔ)上,評(píng)價(jià)證據(jù)的間接性、不一致性、不精確性與發(fā)表偏倚對(duì)證據(jù)確定性的影響并不容易理解,雖然在本次解讀過程中,盡量采用了簡單的案例加以說明,但在實(shí)際應(yīng)用中,還需要有專業(yè)團(tuán)隊(duì)的指導(dǎo)與幫助。
推薦大家采用GRADEpro提供的研究結(jié)果匯總模板呈現(xiàn)診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)的GRADE證據(jù)分級(jí)結(jié)果,這對(duì)指南開發(fā)小組準(zhǔn)確把握GRADE指南的診斷準(zhǔn)確性證據(jù)評(píng)級(jí)方法、提高循證決策的透明性是至關(guān)重要的。