蔡立英/編譯
●一個(gè)尋常的分析錯(cuò)誤會(huì)阻礙生物醫(yī)學(xué)研究并誤導(dǎo)公眾。
2012年,《新英格蘭醫(yī)學(xué)雜志》刊登了一篇論文,聲稱吃巧克力可以提高認(rèn)知功能。得出這一結(jié)論的根據(jù)是每個(gè)國家的諾貝爾獎(jiǎng)得主數(shù)量與該國巧克力人均消費(fèi)量具有強(qiáng)相關(guān)性。當(dāng)我讀到這篇論文時(shí),我詫異于它竟然通過了同行評審,因?yàn)閷ξ叶院茱@然作者犯了兩個(gè)常見錯(cuò)誤,這是我在生物醫(yī)學(xué)文獻(xiàn)中看到研究者進(jìn)行相關(guān)分析時(shí)經(jīng)常犯的錯(cuò)誤。
相關(guān)性描述了兩個(gè)觀察現(xiàn)象之間的線性關(guān)系強(qiáng)度(為了簡化說明,這里我著重闡述最常用的線性關(guān)系——皮爾森相關(guān))。例如,一個(gè)變量值的增加,比如巧克力消費(fèi)量,可能會(huì)跟隨著另一個(gè)變量值的增加而增加,比如諾貝爾獎(jiǎng)得主?;蛘呖赡苁秦?fù)相關(guān):一個(gè)變量的增加會(huì)伴隨另一個(gè)變量的減少。因?yàn)橛锌赡軆蓚€(gè)數(shù)值不能用相同單位表示的變量關(guān)聯(lián)起來——例如,人均收入和霍亂發(fā)病率——它們的關(guān)系是用一個(gè)無單位的數(shù)值來計(jì)算的,那就是相關(guān)系數(shù)。相關(guān)系數(shù)的數(shù)值范圍是從-1到+1,絕對值越接近1,則表示相關(guān)性越強(qiáng)。
相關(guān)系數(shù)鮮明的簡潔性隱藏了解釋其意義時(shí)面臨的相當(dāng)大的復(fù)雜性。《新英格蘭醫(yī)學(xué)雜志》那篇論文的一個(gè)錯(cuò)誤是,作者在群體數(shù)據(jù)的基礎(chǔ)上得出關(guān)于個(gè)體的結(jié)論時(shí),陷入了生態(tài)學(xué)謬誤中。這個(gè)案例中,作者計(jì)算了集合層面(國家)的相關(guān)系數(shù),然后錯(cuò)誤地把這個(gè)數(shù)值用于得出關(guān)于個(gè)體層面的結(jié)論(吃巧克力提高認(rèn)知功能)。實(shí)際上,個(gè)體層面的準(zhǔn)確數(shù)據(jù)完全是未知的:沒有人收集過諾貝爾獎(jiǎng)得主吃過多少巧克力的數(shù)據(jù),甚至于他們到底是否吃過。我并不是唯一一個(gè)注意到這個(gè)錯(cuò)誤的人?;瘜W(xué)家阿舒托什·喬伽萊卡(Ashutosh Jogalekar)在他的《科學(xué)美國人》博客《好奇的波函數(shù)》中寫了一篇徹底的批判文章。加利福尼亞大學(xué)圣迭戈分校的比阿特麗斯·戈隆布(Beatrice A.Golomb)甚至與一個(gè)團(tuán)隊(duì)的合作者一起檢驗(yàn)了這個(gè)假設(shè),指出兩個(gè)變量之間不存在相關(guān)性。
許多新聞機(jī)構(gòu)不顧科學(xué)界的批評,報(bào)道了這篇論文的研究結(jié)果。論文從未被撤回,至今已經(jīng)被引用23次。即使當(dāng)錯(cuò)誤的論文被撤回時(shí),相關(guān)的新聞報(bào)道還保留在互聯(lián)網(wǎng)上,還能繼續(xù)傳播錯(cuò)誤信息。如果這些反映出對統(tǒng)計(jì)有所誤解的錯(cuò)誤結(jié)論甚至能出現(xiàn)在《新英格蘭醫(yī)學(xué)雜志》這樣的著名期刊,那么我很好奇,這樣的錯(cuò)誤出現(xiàn)在生物醫(yī)學(xué)文獻(xiàn)中的總體頻率有多大?
巧克力消費(fèi)量和諾貝爾獎(jiǎng)得主的例子把我引到了另一個(gè)更常見的曲解相關(guān)性分析的例子:即認(rèn)為相關(guān)性就意味著因果關(guān)系的想法。計(jì)算出一個(gè)相關(guān)系數(shù)并不能解釋一個(gè)數(shù)量一致性關(guān)系的性質(zhì),而只能評估這種一致性的強(qiáng)度。兩個(gè)因素之間表現(xiàn)出一種關(guān)系,可能不是意味著它們之間相互影響,而是意味它們都被同一個(gè)隱藏的因素影響——在這個(gè)例子中,可能是一個(gè)國家的富裕程度影響了巧克力的消費(fèi)量和高等教育的可獲取性。相關(guān)性可以很肯定地指出一個(gè)可能存在的因果關(guān)系,但是并不足以證明存在這樣的因果關(guān)系。
杰出的統(tǒng)計(jì)學(xué)家喬治·博克斯(George E.P.Box),在他的著作《實(shí)證模型的建立與響應(yīng)面》中寫道:“本質(zhì)上而言,所有統(tǒng)計(jì)模型都是錯(cuò)誤的,但是其中有一些是有用的。”所有統(tǒng)計(jì)模型都是使用數(shù)學(xué)概念對一個(gè)真實(shí)世界中的現(xiàn)象的描述,所以只是現(xiàn)實(shí)的一種簡化。如果統(tǒng)計(jì)分析是精心設(shè)計(jì)的,與目前好的實(shí)踐方針相一致,并且對所用方法的局限性有徹底的理解,那么,它們會(huì)非常有用。但是如果模型并不是按照上述兩條原則設(shè)計(jì)的,那么它們不僅會(huì)不準(zhǔn)確、毫無用處,而且還具有潛在的危險(xiǎn)性——誤導(dǎo)醫(yī)生和公眾。
我經(jīng)常使用和設(shè)計(jì)數(shù)學(xué)模型來探究公共健康問題,尤其在健康技術(shù)評估中使用數(shù)學(xué)模型。為了這一目的,我使用已經(jīng)發(fā)表的研究成果中的數(shù)據(jù)。不加批判地使用發(fā)表的數(shù)據(jù)來設(shè)計(jì)這些數(shù)學(xué)模型,可能會(huì)導(dǎo)致得出關(guān)于公共健康的不準(zhǔn)確、完全無用,甚至更糟的是不安全的結(jié)論。
在精心設(shè)計(jì)的實(shí)驗(yàn)中,相關(guān)性可以證實(shí)因果關(guān)系的存在。但是,在從非實(shí)驗(yàn)數(shù)據(jù)中得出因果推斷之前,必須小心謹(jǐn)慎地使用統(tǒng)計(jì)模型。例如,加利福尼亞大學(xué)舊金山分校流行病學(xué)家史蒂芬·赫利(Stephen Hulley)及其同事發(fā)表的一個(gè)隨機(jī)控制實(shí)驗(yàn)確定,激素替代療法會(huì)導(dǎo)致心臟冠狀動(dòng)脈疾病的風(fēng)險(xiǎn)增加,盡管以前發(fā)表的非實(shí)驗(yàn)研究的結(jié)論是,激素替代療法會(huì)降低心臟冠狀動(dòng)脈疾病的風(fēng)險(xiǎn)。這個(gè)精心設(shè)計(jì)的實(shí)驗(yàn)表明,非實(shí)驗(yàn)研究中低于心臟冠狀動(dòng)脈疾病平均概率的結(jié)果,是由那些使用激素治療的人具有更高的平均社會(huì)經(jīng)濟(jì)地位帶來的好處導(dǎo)致的,而不是由療法本身導(dǎo)致。對非實(shí)驗(yàn)研究的重新分析,包括社會(huì)經(jīng)濟(jì)地位對收入的影響分析,得出了與隨機(jī)控制實(shí)驗(yàn)相同的結(jié)果。但是損害已經(jīng)造成:美國食品藥品管理局顧問委員會(huì)已經(jīng)批準(zhǔn)激素替代療法更換標(biāo)簽,允許把預(yù)防心臟疾病列為一個(gè)指示,這幾乎是在上述實(shí)驗(yàn)十年之前。
即使科學(xué)家很清楚“相關(guān)性不等于因果關(guān)系”的真言,但是把相關(guān)性和因果關(guān)系混為一談的研究在頂級期刊中還是太普遍。一篇被廣泛討論的1999年發(fā)表在《自然》雜志上的論文發(fā)現(xiàn),兩歲以下兒童的近視和睡眠期間夜間環(huán)境光曝光度這兩者之間存在強(qiáng)相關(guān)。但是,2000年同樣是發(fā)表在《自然》雜志上的另一項(xiàng)研究結(jié)果駁斥了上述發(fā)現(xiàn),報(bào)告說兒童近視的原因是遺傳性的,而不是環(huán)境因素造成的。這個(gè)新的研究發(fā)現(xiàn)父母近視與兒童近視之間存在強(qiáng)相關(guān),指出近視的父母為孩子的臥室夜間開燈的可能性會(huì)更大。在這個(gè)例子中,作者基于假想的關(guān)聯(lián)得出了一個(gè)結(jié)論,而沒有檢查其他可能的解釋。但是正如下面的數(shù)據(jù)所顯示的,完全無關(guān)的現(xiàn)象也可能會(huì)可笑地呈現(xiàn)出相關(guān)性。
除了相關(guān)性意味著因果關(guān)系這個(gè)錯(cuò)誤的觀念之外,我還看到了第三種相反類型的相關(guān)錯(cuò)誤:認(rèn)為相關(guān)性為零就意味著兩個(gè)變量相互獨(dú)立的想法。如果兩個(gè)變量之間相互獨(dú)立,例如,過去一個(gè)月我從早飯中攝入的熱量與相同時(shí)期月亮表面的溫度,那么我會(huì)預(yù)期這兩個(gè)變量之間的線性相關(guān)系數(shù)為零。然而,反之則不一定總是如此。線性相關(guān)系數(shù)為零不一定意味著這兩個(gè)變量之間是相互獨(dú)立的。
盡管這個(gè)原則可以應(yīng)用在很多例子中,仍然還是存在非單調(diào)的關(guān)系(想想一個(gè)上下波動(dòng)的折線圖),在這個(gè)例子中,相關(guān)系數(shù)的值為零并不意味著兩個(gè)變量是相互獨(dú)立的。為了更好地想象這個(gè)抽象概念,請想象一下按照下面的規(guī)則拋一枚不做假的硬幣以確定投注金額:若第一次是正面朝上、第二次是反面朝上,則你輸?shù)?0美元;如果第一次是反面朝上、第二次是正面朝上,則你贏得20美元。如果我們定義X為投注金額、Y為凈獲勝金額,那么X和Y可能會(huì)是零相關(guān),但是它們不是相互獨(dú)立的——實(shí)際上,如果你知道X的值,那么你就知道Y的值。然而,這兩個(gè)變量之間的關(guān)系可能是非線性的,因此無法通過一個(gè)線性相關(guān)檢驗(yàn)來發(fā)現(xiàn)。
理想的情況是,科學(xué)家首先把數(shù)據(jù)繪制成圖表以確定它是單調(diào)的(單調(diào)地上升或下降),但是從我在生物醫(yī)學(xué)文獻(xiàn)中看到的例子來判斷,一些人正在偷工減料,并沒有這么做。兩個(gè)變量之間U型曲線的關(guān)系可能會(huì)有一個(gè)數(shù)值為零的線性相關(guān)系數(shù),但是在這個(gè)例子中,并不意味著這兩個(gè)變量是相互獨(dú)立的。
1973年,英國統(tǒng)計(jì)學(xué)家弗蘭克·安斯庫姆(Frank Anscombe)發(fā)現(xiàn)了用圖形展示這種誤解的理想化的數(shù)據(jù)集,稱為安斯庫姆四重奏(Anscombe’squartet),這個(gè)演示展示了統(tǒng)計(jì)特性非常相似的四組數(shù)據(jù),每組數(shù)據(jù)的相關(guān)系數(shù)都是0.816。乍一看,每個(gè)例子中的變量看起來好像都是強(qiáng)相關(guān)。但是,只要觀察一下這四組數(shù)據(jù)的圖表,就足以意識到這個(gè)結(jié)論是錯(cuò)誤的(參見上圖)。只有第一個(gè)圖表明顯地顯示出線性關(guān)系,對此做出強(qiáng)相關(guān)的闡釋是合適的。第二個(gè)和第四個(gè)圖表顯示出兩個(gè)變量之間的關(guān)系是非線性的,所以即使相關(guān)系數(shù)為0.816,這兩個(gè)變量之間也不是相關(guān)的。第三個(gè)圖表描述了幾乎完美的線性關(guān)系,相關(guān)系數(shù)幾乎為1,但是一個(gè)離群值把線性相關(guān)系數(shù)的值降低到了0.816。
安斯庫姆四重奏是4幅一組的數(shù)據(jù)圖表,顯示了相關(guān)系數(shù)為0.816的具有強(qiáng)相關(guān)性的數(shù)據(jù)。盡管統(tǒng)計(jì)上貌似顯示出很強(qiáng)的線性相關(guān)關(guān)系,這樣的結(jié)論卻只適用于左上圖,另外三幅圖表都違反了統(tǒng)計(jì)分析的假設(shè),由此強(qiáng)調(diào)了選擇一個(gè)合適的數(shù)據(jù)分析之前首先繪制數(shù)據(jù)圖表的重要性
所有類型的不相關(guān)現(xiàn)象都可能具有相關(guān)性,包括莫扎里拉奶酪人均消費(fèi)量與美國土木工程博士學(xué)位授予數(shù)量這兩個(gè)風(fēng)馬牛不相及的現(xiàn)象之間。對偽相關(guān)性的錯(cuò)誤闡釋使得這種論文頻繁地通過同行評審。
這種誤解會(huì)對人類健康和政策產(chǎn)生重大影響。在對一種新物質(zhì)進(jìn)行安全性測試的時(shí)候,毒理學(xué)家通常以為高劑量的測試會(huì)比長周期、低劑量的測試更快、更不含糊地揭示低劑量效應(yīng)。但是柏林夏洛特大學(xué)醫(yī)學(xué)院的安德森·安德拉德(Anderson Andrade)及其同事的研究表明并非如此。他們在兩種曝光程度相差很遠(yuǎn)的情況下,測試了一種名為鄰苯二甲酸二辛酯(DEHP)的塑料成分和內(nèi)分泌干擾物對老鼠的影響。在這個(gè)實(shí)驗(yàn)中,研究者監(jiān)測了一種叫做芳香酶的關(guān)鍵的酶,它會(huì)誘導(dǎo)大腦的雄性化。他們表明低劑量的DEHP抑制了芳香酶,但是高劑量的DEHP確實(shí)增強(qiáng)了芳香酶的活性。
在安德拉德的研究中,這個(gè)劑量反應(yīng)曲線遵循了非單調(diào)的模式,通常的高劑量測試預(yù)測不出這些低劑量效應(yīng)。2010年,美國消費(fèi)品安全委員會(huì)宣布可以認(rèn)為含有DEHP的產(chǎn)品是有毒和危險(xiǎn)的。像安德拉德這樣的研究導(dǎo)致公眾對用來設(shè)計(jì)激素活性化合物的毒理試驗(yàn)的基本假設(shè)產(chǎn)生了質(zhì)疑,這個(gè)例子再一次證明了對數(shù)據(jù)的草率分析或是粗劣膚淺的闡釋,一定不是一個(gè)良性現(xiàn)象。
對相關(guān)性的所有三類錯(cuò)誤闡釋都可以避免。流行病學(xué)家和統(tǒng)計(jì)學(xué)家奧斯汀·布拉德福德·希爾(Austin Bradford Hill)在1965年表明,要得出因果關(guān)系的結(jié)論,就必須滿足一定的判定標(biāo)準(zhǔn)。那些判定標(biāo)準(zhǔn)依然有效,但是科學(xué)家還研究出了從觀察到的數(shù)據(jù)得出因果推論的更新的方法。還有一些方法正在研究中——例如,朱迪亞·珀?duì)枺↗udea Pearl)和詹姆斯·羅賓斯(James Robins)各自獨(dú)立地介紹了一種從非實(shí)驗(yàn)研究中得出因果推論的新框架。羅賓斯研究出了一種統(tǒng)計(jì)解決方法,能把非實(shí)驗(yàn)數(shù)據(jù)轉(zhuǎn)化為如同從一個(gè)隨機(jī)控制實(shí)驗(yàn)中得出的數(shù)據(jù)。
為了避免生態(tài)學(xué)推論謬誤,希爾建議那些缺乏個(gè)體層面的數(shù)據(jù)的研究者應(yīng)該進(jìn)行認(rèn)真的多層面的數(shù)據(jù)建模。這種謬誤通常會(huì)在流行病學(xué)研究中發(fā)生,當(dāng)研究者只能獲得集合數(shù)據(jù)時(shí)。在其1997年的著作《生態(tài)學(xué)推理問題的一種解決方法》中,哈佛大學(xué)的加里·金(Gary King)描述了導(dǎo)致這種錯(cuò)誤的統(tǒng)計(jì)困難。正如金所解釋的,用于生態(tài)學(xué)推論的數(shù)據(jù)往往具有龐大級別的異方差,這意味著一個(gè)數(shù)據(jù)集內(nèi)部不同部分的差異性在很大的數(shù)值范圍內(nèi)波動(dòng)。
集合數(shù)據(jù)通常比個(gè)體數(shù)據(jù)更容易得到,而且正確分析的話,會(huì)提供關(guān)于個(gè)體特性的寶貴線索,但是這還需要個(gè)體層面的數(shù)據(jù)。那么,就必須進(jìn)行個(gè)體層面的建模,才有可能確定個(gè)體層面和集體層面數(shù)據(jù)之間的關(guān)聯(lián)。只有到那時(shí),才有可能得出集體層面的相關(guān)性是否適用于個(gè)體層面的結(jié)論。僅憑生態(tài)學(xué)數(shù)據(jù),科學(xué)家是無法確定這類數(shù)據(jù)中是否可能存在生態(tài)學(xué)偏見;唯一的解決辦法就是在生態(tài)學(xué)數(shù)據(jù)的基礎(chǔ)上補(bǔ)充個(gè)體層面的數(shù)據(jù)。這種類型的建模通常涉及混合或多層次的統(tǒng)計(jì)模型,允許把個(gè)體數(shù)據(jù)嵌套到集合數(shù)據(jù)中。
為了避免因?yàn)橄嚓P(guān)系數(shù)為零就假定這兩個(gè)變量是相互獨(dú)立的,必須對數(shù)據(jù)進(jìn)行繪圖以確定數(shù)據(jù)是單調(diào)的。如果數(shù)據(jù)不單調(diào),可以把其中一個(gè)變量或者兩個(gè)變量都轉(zhuǎn)換成單調(diào)的變量。在數(shù)據(jù)變換中,每一個(gè)變量的所有數(shù)值都使用同一個(gè)等式重新計(jì)算,這樣能保持兩個(gè)變量之間的關(guān)系,但是它們的分布改變了。不同的數(shù)據(jù)分布使用不同類型的數(shù)據(jù)變換。例如,對數(shù)變換壓縮了大數(shù)值的間隔,擴(kuò)大了小數(shù)值的間隔,當(dāng)數(shù)組的平均值更大、變動(dòng)也更大的情況下,這種數(shù)據(jù)變換是合適的。不獲得原始數(shù)據(jù),是不可能知道有沒有犯這種錯(cuò)誤的。
相關(guān)性錯(cuò)誤和統(tǒng)計(jì)學(xué)本身一樣古老,但是隨著發(fā)表的論文和新期刊的數(shù)量不斷增長,這樣的錯(cuò)誤也在倍增。盡管期望所有研究人員都對統(tǒng)計(jì)學(xué)方法有深入理解是不現(xiàn)實(shí)的,但是研究人員必須持續(xù)關(guān)注并不斷擴(kuò)展基本的統(tǒng)計(jì)學(xué)方法知識。不知道或是不加批判地評估所使用的統(tǒng)計(jì)學(xué)方法的充分性和局限性,通常是學(xué)術(shù)論文中所犯錯(cuò)誤的根源。在一個(gè)研究團(tuán)隊(duì)中有生物統(tǒng)計(jì)學(xué)家和數(shù)學(xué)家的參與不再是一個(gè)優(yōu)勢而是必需。一些大學(xué)為研究者提供了選擇,在把論文提交給出版機(jī)構(gòu)評審之前,先讓學(xué)校的統(tǒng)計(jì)學(xué)系檢查他們的數(shù)據(jù)分析結(jié)果。盡管這個(gè)解決辦法會(huì)對一些研究者起作用,但是讓研究人員花費(fèi)額外的時(shí)間這樣做的激勵(lì)幾乎沒有。
科學(xué)研究的過程要求足夠的生物統(tǒng)計(jì)學(xué)知識,而這是一個(gè)不斷變化的領(lǐng)域。為了達(dá)到這個(gè)目的,生物統(tǒng)計(jì)學(xué)家應(yīng)該在一開始就參與課題研究,而不是等到測量、觀察或是實(shí)驗(yàn)完成以后。另一方面,在批判性地評價(jià)發(fā)表的科學(xué)論文時(shí),生物統(tǒng)計(jì)學(xué)的基本知識也是必需的。一個(gè)批判性的方法必須存在,不管論文發(fā)表在什么期刊上。在生物學(xué)研究中更謹(jǐn)慎地使用統(tǒng)計(jì)學(xué),也有助于在其他領(lǐng)域設(shè)定更嚴(yán)格的標(biāo)準(zhǔn)。
為了避免這些問題,科學(xué)家必須清楚地表明他們理解了一個(gè)統(tǒng)計(jì)學(xué)分析背后的假設(shè),并且用他們的方法解釋:為了確定他們的數(shù)據(jù)集滿足那些假設(shè),他們做了哪些工作。如果一篇論文沒有遵循這些最好的實(shí)踐,那么就不應(yīng)該讓它通過評審。為了讓論文評審者檢驗(yàn)和重復(fù)論文中的數(shù)據(jù)分析,下面三個(gè)原則必須成為所有打算發(fā)表研究結(jié)果的作者的強(qiáng)制性規(guī)定:和論文一起附上原始數(shù)據(jù)作為補(bǔ)充信息,讓評審者能充分獲取用來分析數(shù)據(jù)的軟件代碼,并且在公開的在線數(shù)據(jù)庫上登記研究結(jié)果、清晰地陳述開始研究之前設(shè)定的目標(biāo),強(qiáng)制提交總結(jié)結(jié)果以避免偏向于發(fā)表正面結(jié)果。即使當(dāng)評審者有所疏漏的情況下,采取這些步驟也能加快發(fā)現(xiàn)錯(cuò)誤的過程,增加了透明度,支撐了公眾對科學(xué)的信心,最重要的是,避免了由于無心的錯(cuò)誤而對公眾健康造成損害的情況。