程 諾 王瑞婷 崔靈珺 曹卉娟
(1 北京中醫(yī)藥大學(xué),北京,100029;2 北京中醫(yī)藥大學(xué)東直門醫(yī)院,北京,100029;3 北京中醫(yī)藥大學(xué)中醫(yī)學(xué)院,北京,100029)
臨床研究在評(píng)估干預(yù)措施的有效性時(shí)會(huì)采用相應(yīng)的結(jié)局指標(biāo)評(píng)估終點(diǎn)變量。結(jié)局指標(biāo)包括連續(xù)型變量和分類變量,分類變量一般需要報(bào)告事件發(fā)生的例數(shù)和觀察的總例數(shù),一旦發(fā)生數(shù)據(jù)的缺失則應(yīng)采取有效的處理方法以避免對(duì)結(jié)果分析的影響[1]。對(duì)于連續(xù)性結(jié)局指標(biāo)來說,研究者對(duì)平均偏差(Mean Deviation,MD)、標(biāo)準(zhǔn)差(Standard Deviation,SD)、95%置信區(qū)間(Confidence Interval,CI),以及P值報(bào)告的完整性,都會(huì)影響到對(duì)數(shù)據(jù)的解讀,而正確地解讀結(jié)果數(shù)據(jù)的統(tǒng)計(jì)學(xué)意義及臨床意義,直接關(guān)系到到研究的結(jié)論及其結(jié)果的推廣應(yīng)用[2]。
MD是表示樣本均數(shù)之間差異程度的數(shù)值。在假設(shè)檢驗(yàn)里它是2個(gè)總體中抽樣得到的樣本平均水平的差別,它的95%CI——即按95%概率或可信度的一個(gè)區(qū)間來估計(jì)2個(gè)總體均數(shù)差異所在的范圍,是否包含0就是我們推斷2個(gè)總體均數(shù)是否相等的一個(gè)依據(jù)。SD反映組內(nèi)個(gè)體間的離散程度,標(biāo)準(zhǔn)差越大則代表數(shù)據(jù)的離散程度越大。樣本均數(shù)的標(biāo)準(zhǔn)差即標(biāo)準(zhǔn)誤(Standard Error,SE),是用來計(jì)算95%CI的指標(biāo)。P值是反映某一事件發(fā)生可能性大小的概率值。統(tǒng)計(jì)學(xué)根據(jù)顯著性檢驗(yàn)方法所得到的P值,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義[3]。
一般來說臨床研究的意義大抵可以分為2個(gè)水平,臨床意義水平和統(tǒng)計(jì)學(xué)意義水平。統(tǒng)計(jì)學(xué)顯著性主要關(guān)注的是所檢驗(yàn)的差值是否達(dá)到了預(yù)先設(shè)定的檢驗(yàn)水準(zhǔn),而臨床意義顯著性主要關(guān)注的是這個(gè)差異是否有臨床價(jià)值。真正有臨床意義的研究,不僅需要證明統(tǒng)計(jì)學(xué)角度有意義,更應(yīng)該明確臨床角度的獲益程度。臨床研究結(jié)果用于指導(dǎo)實(shí)踐,不能僅僅依靠P值是否小于0.05來下結(jié)論,而是需要綜合考慮試驗(yàn)設(shè)計(jì)、數(shù)據(jù)質(zhì)量、實(shí)際臨床獲益、外部證據(jù)等因素來判斷[4]。
既往的文獻(xiàn)中有指標(biāo)報(bào)告不完整的情況,如只報(bào)告MD和P值不報(bào)告SD或95%CI,這種情況下讀者無法通過數(shù)據(jù)進(jìn)一步判斷其臨床意義。也有研究者誤認(rèn)為結(jié)局指標(biāo)有統(tǒng)計(jì)學(xué)意義就有臨床意義,如某項(xiàng)研究中報(bào)道,采用某干預(yù)措施治療抑郁患者治療4周后,觀察組的抑郁量表評(píng)分為(13.04±5.03)分,對(duì)照組的評(píng)分為(15.26±5.07)分,因統(tǒng)計(jì)學(xué)檢驗(yàn)得到P<0.05,作者得出觀察組優(yōu)于對(duì)照組的結(jié)論[5]。然而,實(shí)際上2組評(píng)分差異較小(MD=2.22分)、且95%CI下限值很接近0(0.01~4.43),很難由此認(rèn)為抑郁程度的減輕有臨床意義。臨床研究的結(jié)果在解讀時(shí)應(yīng)該綜合考慮統(tǒng)計(jì)學(xué)意義和臨床意義,從而得出可靠的結(jié)論。
為了解近3年發(fā)表的隨機(jī)對(duì)照試驗(yàn)中連續(xù)變量結(jié)局指標(biāo)報(bào)告情況現(xiàn)狀,尤其是研究者對(duì)研究結(jié)果解釋中臨床意義的重視程度,我們選擇“針刺治療抑郁癥”這一發(fā)表數(shù)量較多的研究主題,對(duì)研究中漢密爾頓抑郁量表(Hamilton Depression Scale,HAMD)這一使用最多的評(píng)價(jià)抑郁程度的連續(xù)變量結(jié)局指標(biāo)的報(bào)告情況進(jìn)行描述性分析,對(duì)未來的文獻(xiàn)報(bào)道提出建議。
1.1 文獻(xiàn)檢索策略 檢索文獻(xiàn)來源于國家知識(shí)基礎(chǔ)設(shè)施數(shù)據(jù)庫(China National Knowledge Infrastructure,CNKI)、中文科技期刊數(shù)據(jù)庫(Chinese Citation Database,CCD)、中國學(xué)術(shù)期刊數(shù)據(jù)庫(China Science Periodical Database,CSPD)、臨床試驗(yàn)注冊(cè)系統(tǒng)中國臨床試驗(yàn)注冊(cè)中心(Chinese Clinical Trial Registry,ChiCTR)、PUBMED、Cochrane、EMBASE、Web of Science、PROQUEST共9個(gè)數(shù)據(jù)庫。檢索時(shí)限為2020年10月至2022年10月。檢索標(biāo)題或摘要內(nèi)包含“針灸”/“針刺”和“抑郁”,同時(shí)全文中包含“隨機(jī)”的文獻(xiàn)。
1.2 納入標(biāo)準(zhǔn) 納入以針刺或針刺合并其他療法為干預(yù)措施治療原發(fā)或繼發(fā)抑郁癥的隨機(jī)對(duì)照試驗(yàn)。針刺操作方法及穴位不限,包括電針、耳針等;對(duì)照措施不限。結(jié)局指標(biāo)必須包含HAMD量表。
1.3 排除標(biāo)準(zhǔn) 無法獲取有效分析數(shù)據(jù)的文獻(xiàn)、抄襲或剽竊的文獻(xiàn)。
1.4 數(shù)據(jù)庫的建立與資料提取
1.4.1 數(shù)據(jù)庫的建立 篩選文獻(xiàn)并進(jìn)行資料提取,提取的信息包括:1)一般信息,包括文件編號(hào)、標(biāo)題、第一作者、研究年份等;2)結(jié)果報(bào)道,包括HAMD量表類型、HAMD的總分、HAMD值所代表的意義及具體的評(píng)價(jià)方法及其在文章中常見的報(bào)道位置,MD、95%CI、P值及統(tǒng)計(jì)學(xué)意義、臨床意義等。
1.4.2 資料提取 2位研究者(程諾,王瑞婷)獨(dú)立篩選文獻(xiàn)并進(jìn)行資料提取,以確定可能符合上述納入標(biāo)準(zhǔn)的試驗(yàn)。任何分歧都通過與第三方(曹卉娟)的討論解決。使用預(yù)先設(shè)計(jì)的資料提取表從包含的試驗(yàn)中提取數(shù)據(jù)。
1.5 數(shù)據(jù)分析 描述分析納入文獻(xiàn)中HAMD量表的類型(包括HAMD-17量表和HAMD-24量表)、HAMD的總分(即HAMD量表的滿分)、HAMD值所代表的意義(即評(píng)分高低與抑郁程度的關(guān)系)及研究者對(duì)HAMD具體的評(píng)價(jià)方法(包括評(píng)分時(shí)間、具體操作的人員及評(píng)價(jià)方式等),統(tǒng)計(jì)納入文獻(xiàn)對(duì)MD值、SD值、95%CI、P值的報(bào)道情況,研究者是否報(bào)道和解讀了結(jié)果的統(tǒng)計(jì)學(xué)意義和臨床意義,并判斷其報(bào)道的完整性和準(zhǔn)確性。數(shù)據(jù)的收集形式是頻數(shù)資料,按文獻(xiàn)語種、發(fā)表與否分亞組,采用卡方檢驗(yàn)比較組間HAMD量表使用情況的差異,當(dāng)任意一個(gè)最小理論頻數(shù)(T)1≤T<5時(shí)用連續(xù)校正卡方檢驗(yàn),當(dāng)2個(gè)及以上最小理論頻數(shù)1≤T<5或存在任意T<1時(shí)用Fisher精確概率檢驗(yàn),顯著性水準(zhǔn)為0.05。
2.1 文獻(xiàn)檢索結(jié)果 初步共檢索到1 087項(xiàng)臨床試驗(yàn),其中996項(xiàng)試驗(yàn)不符合納入標(biāo)準(zhǔn)。最終納入91項(xiàng)隨機(jī)對(duì)照試驗(yàn)[6-96],其中6篇為英文發(fā)表(6.59%),27篇為學(xué)位論文(29.67%)。
2.2 納入文獻(xiàn)HAMD評(píng)分的報(bào)告情況 納入的文獻(xiàn)中,共有67(73.6%)項(xiàng)研究報(bào)道了HAMD的種類,采用HAMD-17量表的30項(xiàng)、采用HAMD-24量表的37項(xiàng)。其中56項(xiàng)在方法中報(bào)道,11項(xiàng)在附表中報(bào)道。英文論文中,4(66.7%)篇報(bào)道了HAMD的種類。學(xué)位論文中,26(96.3%)篇報(bào)道了HAMD的種類。亞組分析結(jié)果顯示,學(xué)位論文此項(xiàng)報(bào)告的完整性優(yōu)于期刊論文。僅18(19.8%)項(xiàng)報(bào)道了HAMD的總分,即HAMD量表的滿分。其中6項(xiàng)在方法中報(bào)道,12項(xiàng)在附表中報(bào)道。英文論文中,1(16.7%)篇報(bào)道了HAMD的總分。學(xué)位論文中,12(44.4%)篇報(bào)道了HAMD的總分。亞組分析結(jié)果顯示,學(xué)位論文此項(xiàng)的報(bào)告率高于期刊論文。39(42.9%)篇文獻(xiàn)直接報(bào)道了HAMD值所代表的意義,即評(píng)分高低與抑郁程度的關(guān)系。46(50.5%)篇通過以HAMD減分率評(píng)定痊愈有效等標(biāo)準(zhǔn)間接報(bào)道HAMD值所代表的意義,73篇報(bào)道于方法部分,9篇報(bào)道于附表部分,3篇報(bào)道于結(jié)果部分。英文論文中,5(83.3%)篇直接報(bào)道了HAMD值所代表的意義。學(xué)位論文中,13(48.1%)篇直接報(bào)道了HAMD值所代表的意義,14(51.9%)篇間接報(bào)道HAMD值所代表的意義。亞組分析結(jié)果顯示,英文文獻(xiàn)與中文文獻(xiàn)、學(xué)位論文與期刊論文的結(jié)果差異無統(tǒng)計(jì)學(xué)意義。31(34.1%)篇報(bào)道了HAMD的具體評(píng)價(jià)方法,24篇報(bào)道于方法部分,7篇報(bào)道于附表部分。英文論文中,4(66.7%)篇報(bào)道了HAMD的具體評(píng)價(jià)方法。學(xué)位論文中,19(70.4%)篇報(bào)道了HAMD的具體評(píng)價(jià)方法。具體的評(píng)價(jià)方法包括評(píng)分時(shí)間、具體操作的人員及評(píng)價(jià)方式等。亞組分析結(jié)果顯示,學(xué)位論文此項(xiàng)的報(bào)告率高于期刊論文。見表1。
2.3 結(jié)局指標(biāo)統(tǒng)計(jì)分析結(jié)果的報(bào)道情況 納入的文獻(xiàn)中,90(98.9%)篇報(bào)道了MD值,89(97.8%)篇報(bào)道了SD值,全部的文獻(xiàn)均報(bào)道了P值,3(3.3%)篇報(bào)道了95%CI,均在試驗(yàn)的結(jié)果部分報(bào)道。其中有89篇同時(shí)報(bào)告了MD、SD和P值。有1篇報(bào)道了P值及MD值,未報(bào)道SD值。有1篇只報(bào)道了P值,未報(bào)道MD值及SD值。見圖1。
圖1 納入文獻(xiàn)結(jié)局指標(biāo)報(bào)告情況圓圖
6篇英文論文中,全部報(bào)道了MD值及P值,5(83.3%)篇報(bào)道了SD值,2(33.3%)篇報(bào)道了95%CI。27篇學(xué)位論文全部報(bào)道了MD值、SD值及P值,1(3.7%)篇報(bào)道了95%CI。在MD及SD值的報(bào)告上,英文文獻(xiàn)與中文文獻(xiàn)、學(xué)位論文與期刊論文的結(jié)果差異無統(tǒng)計(jì)學(xué)意義,而英文文獻(xiàn)對(duì)95%CI的報(bào)告率高于中文文獻(xiàn)。見表1。
表1 納入文獻(xiàn)對(duì)HAMD評(píng)分各項(xiàng)報(bào)道情況及亞組分析結(jié)果[篇(%)]
69(75.8%)篇文獻(xiàn)報(bào)道了統(tǒng)計(jì)學(xué)意義,其中68篇報(bào)道在結(jié)果部分,1篇報(bào)道在討論部分。英文論文全部報(bào)道了統(tǒng)計(jì)學(xué)意義。學(xué)位論文中,25(92.6%)篇報(bào)道了統(tǒng)計(jì)學(xué)意義。上述研究的統(tǒng)計(jì)學(xué)意義通常由P值是否小于0.05或0.01得出,并無95%CI的報(bào)道及檢驗(yàn)水準(zhǔn)的預(yù)先設(shè)定,可以認(rèn)為對(duì)統(tǒng)計(jì)學(xué)意義的報(bào)道不夠準(zhǔn)確。見圖2。
圖2 納入文獻(xiàn)統(tǒng)計(jì)學(xué)意義報(bào)告情況圓圖
2.4 連續(xù)變量臨床意義的報(bào)道情況 在抑郁癥試驗(yàn)中,我們尚未找到統(tǒng)一的對(duì)HAMD評(píng)分變化的臨床有效值的定義,但不少文章將臨床緩解定義為HAMD從基線到終點(diǎn)的總分降低50%[98]。納入的文獻(xiàn)中,91(100%)篇報(bào)道了臨床意義。然而,納入研究對(duì)臨床意義的判定多是由統(tǒng)計(jì)學(xué)意義得出,未根據(jù)實(shí)際臨床效益制定標(biāo)準(zhǔn),我們認(rèn)為納入研究對(duì)臨床意義的解讀均不準(zhǔn)確。
在這項(xiàng)研究中,我們發(fā)現(xiàn)針刺治療抑郁癥隨機(jī)對(duì)照試驗(yàn)的HAMD評(píng)分報(bào)告不完整。雖然超過95%的文獻(xiàn)報(bào)道了MD值、SD值及P值,統(tǒng)計(jì)學(xué)意義在75%以上,所有的文獻(xiàn)均報(bào)道了臨床意義,但所有研究者對(duì)臨床意義解讀僅基于研究數(shù)據(jù)的統(tǒng)計(jì)學(xué)意義,并未結(jié)合臨床實(shí)際有效值來判定。
超過90%的文獻(xiàn)直接或間接地報(bào)道了HAMD值所代表的意義,報(bào)道HAMD量表類型的文獻(xiàn)超過七成,但僅19.8%文獻(xiàn)報(bào)道HAMD的總分,34.1%的文獻(xiàn)報(bào)道了HAMD具體的評(píng)價(jià)方法,3.3%文獻(xiàn)報(bào)道95%CI。
學(xué)位論文各項(xiàng)報(bào)道的百分比均高于普通文獻(xiàn),在報(bào)道HAMD量表類型、HAMD量表總分及具體評(píng)價(jià)方法方面差異有統(tǒng)計(jì)學(xué)意義,與大多數(shù)學(xué)位論文在文末附上了所用的HAMD量表有很大關(guān)系。這提示學(xué)位論文報(bào)道更完整,即便如此,在絕大多數(shù)學(xué)位論文中也未報(bào)告95%CI,對(duì)數(shù)據(jù)臨床意義的解讀仍然不夠嚴(yán)謹(jǐn)。英文文獻(xiàn)對(duì)于HAMD量表類型、具體評(píng)價(jià)方法、95%CI及統(tǒng)計(jì)學(xué)意義的百分比均高于中文文獻(xiàn),在報(bào)道95%CI方面尤為明顯(P<0.05)。所有納入文獻(xiàn)中僅1篇學(xué)位論文和2篇英文文獻(xiàn)報(bào)道95%CI,這提示英文文獻(xiàn)對(duì)于針刺治療抑郁癥隨機(jī)對(duì)照試驗(yàn)的HAMD評(píng)分報(bào)告普遍更為全面,得出的結(jié)論也更可靠。
CONSORT[99]和STRICTA[100]中認(rèn)為規(guī)范的報(bào)告應(yīng)當(dāng)包含治療措施的細(xì)節(jié),結(jié)局指標(biāo)的名稱、測(cè)量方法、時(shí)段,對(duì)結(jié)局的原始數(shù)據(jù)和分析結(jié)果,以及結(jié)果對(duì)實(shí)際應(yīng)用的價(jià)值等內(nèi)容。
關(guān)于針刺治療抑郁癥隨機(jī)對(duì)照試驗(yàn)的HAMD報(bào)道,我們建議參考一些已發(fā)表的英文文獻(xiàn)[6],對(duì)HAMD量表類型、HAMD的總分、HAMD值所代表的意義、HAMD具體的評(píng)價(jià)方法、MD值、SD值、95%CI、P值均進(jìn)行報(bào)道,以及預(yù)先設(shè)定統(tǒng)計(jì)學(xué)意義水平和從臨床角度判斷受益程度,以報(bào)道統(tǒng)計(jì)學(xué)意義和臨床意義。從而提高結(jié)局指標(biāo)報(bào)道的質(zhì)量,并使得出的結(jié)論更具臨床價(jià)值和可靠性。
綜上所述,針刺治療抑郁癥隨機(jī)對(duì)照試驗(yàn)的HAMD評(píng)分報(bào)道不夠完整。試驗(yàn)的作者應(yīng)確保在試驗(yàn)報(bào)告中足夠詳細(xì)地描述度量及其評(píng)分細(xì)節(jié),以利于結(jié)果的解釋。在報(bào)道結(jié)果的臨床意義時(shí),應(yīng)考慮臨床情況,以使臨床醫(yī)生獲得可靠信息。