科學(xué)研究中的統(tǒng)計危機

2015-04-12 12:04:08方陵生編譯

世界科學(xué) 2015年2期

方陵生/編譯

依賴于數(shù)據(jù)的統(tǒng)計分析，一個“小徑分岔花園”的問題解釋了為何許多具有統(tǒng)計學(xué)意義的比較并不是那么地靠譜。

現(xiàn)今，人們越來越多的意識到，一些科技出版物中的所謂“具有統(tǒng)計學(xué)意義”的宣稱，往往可能是不太靠譜的。研究人員通常對p值數(shù)據(jù)很有信心，p值（概率）是一種隨機變化的觀察結(jié)果，即對數(shù)據(jù)集提供的證據(jù)與零假設(shè)進行比較的一種統(tǒng)計測量方法。按照慣例，p值低于0.05被認為是對零假設(shè)的一個有意義的否定，然而，這樣的結(jié)論可能并不如表面上看起來的那么可靠。

p值概念最初是由英國統(tǒng)計學(xué)家羅納德·費舍爾（Ronald Fisher）于上世紀20年提出的，其本意是保護研究人員不受嘈雜數(shù)據(jù)，即無意義數(shù)據(jù)信息模式的影響。具有諷刺意味的是，p值如今常被用來作為基于小量樣本嘈雜數(shù)據(jù)信息得出某個結(jié)論的佐證。

舉例來說，假設(shè)對美國民主黨和共和黨在醫(yī)療保健和軍隊建設(shè)方面進行測試，測試題可能不涉及具體調(diào)查內(nèi)容，如派系與數(shù)學(xué)解題之間的聯(lián)系。而零假設(shè)是，具體背景條件與測試任務(wù)無關(guān)或相關(guān)，即雙方測試成績差異與其在軍事或醫(yī)療領(lǐng)域的具體背景條件相關(guān)。

此時可進行大量符合研究人員推論的比較。例如，男性群體的零假設(shè)可以否決（指具有統(tǒng)計學(xué)意義的零假設(shè)），其依據(jù)是，男人比女人的意識形態(tài)更強。還有一種模式在女性群體中比男性群體更為明顯，即女性對于背景條件比男性更為敏感，或者說這種模式在男女群體中都具有統(tǒng)計學(xué)意義。

與軍事問題相比，我們還會看到在醫(yī)療背景條件下而非軍事背景條件下的性別差異——目前醫(yī)療保健是一個高度政治化的問題。獨立人士和無黨派人士如何處理這些問題，取決于他們在數(shù)據(jù)樣本中所占數(shù)量的比例，有可能完全被排除在外。于是，一個首要的假設(shè)就是，問題的背景條件與黨派之間的交互是否會對問題的解決產(chǎn)生影響，即對決策變量存在多重選擇的可能。

而多重比較問題是一個眾所周知的概念，在統(tǒng)計學(xué)中被稱為“p值黑客”，是由心理學(xué)家約瑟夫·西蒙斯（Joseph Simmons）等人在2011年提出的。

本文的主要觀點是，如果數(shù)據(jù)分析人員沒有有意識地對數(shù)據(jù)進行篩選排查，或明確進行多種數(shù)據(jù)比較的話，可能會存有潛在的多種比較。也就是說，數(shù)據(jù)分析的具體細節(jié)與數(shù)據(jù)高度相關(guān)，并往往有可能導(dǎo)致p值無效。

如何對某個假設(shè)測試

一般來說，我們對假設(shè)的測試可以分成四類：（1）基于單一統(tǒng)計數(shù)據(jù)T值的簡單的經(jīng)典測試，產(chǎn)生的數(shù)據(jù)結(jié)果為T（y），y代表數(shù)據(jù)；（2）從可能的幾種測試方法中預(yù)選某個統(tǒng)計值的經(jīng)典測試，產(chǎn)生的數(shù)據(jù)結(jié)果為T（y，φ），式中φ為預(yù)定值（例如，φ可能對應(yīng)于一些起主要作用或相關(guān)作用的控制變量）；（3）研究人員單純對數(shù)據(jù)信息進行統(tǒng)計分析，對不同的數(shù)據(jù)集進行不同的測試，產(chǎn)生的數(shù)據(jù)結(jié)果為T（y，φ（y）），式中φ為觀察數(shù)據(jù)；（4）直接對數(shù)據(jù)進行“釣魚”，即指非法數(shù)據(jù)調(diào)查，在j=1，……J時，計算T（y；φj），在進行J測試時得出最佳結(jié)果數(shù)據(jù)T（y，φbest（y））。

考慮到以上所述的各種選擇，以及實際研究中的各種可能性，要尋找統(tǒng)計學(xué)上有意義的結(jié)果（幾乎可以肯定在0.05甚至0.01之間尋找），其難度是難以想象的。在這種情況下，研究人員只需進行基于這些數(shù)據(jù)的一種測試，得出結(jié)果為T（y,φ（y）），這種方法似乎是有意為之的“釣魚”，為的就是要得出這樣的結(jié)果。正如政治科學(xué)家瑪卡爾坦·漢弗萊斯（Macartan Humphreys）等人于2013年所寫的那樣，一位研究人員在面對多個合理結(jié)果時可能會想，其中較少嘈雜數(shù)據(jù)的測量結(jié)果很可能是對的，并據(jù)此得出推論，這時他很可能就是錯的。在之前提出的一些假設(shè)例子中，醫(yī)療背景條件的不同，可能會導(dǎo)致不同的結(jié)果，就是一個例證。

在小尺度效應(yīng)背景下，這樣的錯誤有特別的風(fēng)險，樣本規(guī)模越小，測量誤差越大，變量差異也越高。而樣本規(guī)模較大，測量誤差較小，變量差異也較低。用貝葉斯計算理論來解釋（即p值是指給定數(shù)據(jù)的假設(shè)合理性，而不是相反），任何基于數(shù)據(jù)的結(jié)論，如果在先驗上更有可能，那就更為可信，如果估計有更多錯誤，那就不太可信。

要想獲得具有統(tǒng)計學(xué)意義的結(jié)果，如果在數(shù)據(jù)收集時不抱偏見，即使從相當(dāng)嘈雜的數(shù)據(jù)中，也可以通過反復(fù)比較、數(shù)據(jù)排除、分析不同相關(guān)關(guān)系和控制不同預(yù)測因子等方法，得到具有統(tǒng)計學(xué)意義的結(jié)果。但在現(xiàn)實中，研究人員會帶著很強的實質(zhì)性假設(shè)進入某項研究，在某種程度上對于任何給定的數(shù)據(jù)集，合適的分析似乎是顯而易見的。即使選擇的數(shù)據(jù)是用于分析其的一個確定性函數(shù)，也無益于消除多重比較帶來的問題。

手臂力量與經(jīng)濟地位

2013年，丹麥奧爾胡斯大學(xué)的邁克爾·彼得森（Michael Petersen）團隊發(fā)表了一項研究報告，聲稱發(fā)現(xiàn)男性上身力量與其社會經(jīng)濟地位之間，以及他們對經(jīng)濟再分配態(tài)度之間的聯(lián)系。文章以手臂力量為代表，認為社會經(jīng)濟地位（SES）較高的男性反對財富的再分配，而社會經(jīng)濟地位較低的男性則支持財富的重新分配。

值得注意的是，作者報告了有統(tǒng)計學(xué)意義的交互關(guān)系，但沒有統(tǒng)計學(xué)意義上的主效應(yīng)，即他們沒有發(fā)現(xiàn)較大臂圍男性對經(jīng)濟再分配持更保守的立場，只是發(fā)現(xiàn)較高社會經(jīng)濟地位的男性其臂圍與反對再分配財富之間的關(guān)系。如果發(fā)現(xiàn)了主效應(yīng)（兩個方向的效應(yīng)），理論上他們可以得出一個合理的解釋。如果沒有主效應(yīng)，也就沒有交互影響，他們或會去尋找其他的交互影響。例如，學(xué)生有或沒有年長兄姐進行比較的交互影響關(guān)系。

我們在2013年的一份報告中表明，“p值黑客”可能意味著對統(tǒng)計學(xué)意義的積極追求。當(dāng)然，對于統(tǒng)計學(xué)家來說，在數(shù)據(jù)的基礎(chǔ)上完善他們的假設(shè)是合理的。當(dāng)所需模式?jīng)]有作為主效應(yīng)出現(xiàn)時，再觀察其交互關(guān)系也是有道理的。例如年長兄姐的交互關(guān)系，這種家庭關(guān)系在進化心理學(xué)上的解釋通常被認為是很關(guān)鍵的。

當(dāng)然，在一些統(tǒng)計調(diào)查中也存有一定的自由度，例如在不同國家進行的調(diào)查問卷，研究人員會發(fā)現(xiàn)，丹麥的一些問卷內(nèi)容如果由美國人來回答，答案會是完全不同的。之后進一步的解釋是，“當(dāng)這些不可靠的問卷項目被刪除之后……交互效應(yīng)就有意義了……。”

2013年，心理學(xué)家布雷恩·諾塞克（Brian Nosek）等人公布了他們復(fù)制的實驗案例——一個認知判斷和政治態(tài)度的實驗。在這項他們稱為50灰度的研究中，諾塞克等人發(fā)現(xiàn)了政治極端主義與黑色或白色圖像而非灰度中間色感知能力之間的一個具有統(tǒng)計學(xué)意義的交互關(guān)系。最初估計分析，復(fù)制實驗有99%的機會達到統(tǒng)計學(xué)的意義，p值＜0.05。但事實上，復(fù)制嘗試是不成功的，p值為0.59。

雖然沒有達到預(yù)期結(jié)果，但重要的是這項實驗所表明的具有統(tǒng)計學(xué)意義的p值不能從表面值取得，即使某種比較與現(xiàn)有的理論一致。

超感知覺（ESP）研究

2011年，一個可能是虛假統(tǒng)計學(xué)意義的案例引起了爭議。康奈爾大學(xué)社會心理學(xué)教授達里爾·貝姆（Daryl Bem）聲稱找到了超感知覺（ESP）的證據(jù)。在他的第一次實驗中，100名學(xué)生參加了可視化圖像的測試，在情色圖片測試中他發(fā)現(xiàn)了具有統(tǒng)計學(xué)意義的結(jié)果，而在非情色圖片中則沒有什么發(fā)現(xiàn)。隨后在一些失敗的復(fù)制實驗嘗試后，由此引起的爭議逐漸消退。但是，它作為一個案例仍然為人們感興趣，它表明在任何領(lǐng)域內(nèi)，調(diào)查人員可以利用普遍接受的研究實踐去發(fā)現(xiàn)統(tǒng)計學(xué)上的意義。

貝姆在論文中提出了九種不同的實驗方法和許多具有統(tǒng)計學(xué)意義的結(jié)果，即多樣化的自由度讓他可以繼續(xù)尋找，直到他找到自己想要的東西。但考慮到與他能獲得的其他許多比較，如果受試者能夠識別的所有圖片高于統(tǒng)計學(xué)意義上的概率，那么肯定會被作為ESP的證據(jù)。但如果非情色圖片測試成績更高呢？人們可以很容易地辯駁，情色圖片容易分散注意力，只有非情色圖片才是ESP現(xiàn)象的一個好的測試對象。如果受試者在統(tǒng)計學(xué)意義上的表現(xiàn)明顯好于前半段，顯然是通過學(xué)習(xí)獲得提高的證據(jù)，但如果上半段成績更好，那顯然是因為后半段注意力疲勞的緣故。

貝姆等人在論文中反駁了這些批評意見，稱他的假設(shè)是一種試探性研究?！斑@個假設(shè)的特異性源于早期的幾個‘預(yù)感’實驗，如1997年或之前的研究表明，參與者顯示異常的‘預(yù)知’能力，在看到情色圖片幾秒鐘之前便產(chǎn)生了生理沖動，但在看到讓人心情平靜或非情色圖片之前則未出現(xiàn)這種情況?！彼麄円矊⑶樯珗D片與非情色圖片混雜展示，以觀察參與者是否能夠預(yù)測這些圖片出現(xiàn)的左右位置，結(jié)果發(fā)現(xiàn)他們不能。貝姆等人認為，這一發(fā)現(xiàn)“與預(yù)感實驗的結(jié)果一致。”

我們沒有理由懷疑上述對動機的描述，但似乎很清楚的是，每一個科學(xué)假設(shè)都對應(yīng)于多個統(tǒng)計學(xué)上的假設(shè)。例如，關(guān)于“生理沖動的異常預(yù)知能力”的描述，假設(shè)實驗受試者對于情色圖片在統(tǒng)計學(xué)意義上的表現(xiàn)較差，這個結(jié)果同樣也符合這一理論。理由是，異常沖動可能干擾有效的預(yù)知過程。

貝姆堅稱他的假設(shè)“不是通過事后數(shù)據(jù)探查形成的”，而是以數(shù)據(jù)為依據(jù)的分析結(jié)果。例如，如果男性在情色圖片測試中或女性在浪漫圖片測試中表現(xiàn)更好，那么就沒有理由認為這樣的模式看起來會像是“釣魚”或“p值黑客”，相反，它將很自然地被視為與研究假設(shè)相符。因為有大量文獻表明男女對視覺性刺激反應(yīng)的性別差異。

月經(jīng)周期與選舉投票

2013年，心理學(xué)家克麗絲蒂娜·杜蘭特（Kristina Durante）等人在《心理科學(xué)》雜志上發(fā)現(xiàn)了一篇基于調(diào)查數(shù)據(jù)的論文，該論文聲稱“排卵讓單身女性產(chǎn)生更多自由傾向，更少宗教信仰，且更可能投票給奧巴馬。論文還稱，在已婚和排卵期的女性中，有40%的人支持羅姆尼，而非排卵期的女性中，支持者只占23%。相比之下，排卵讓已婚婦女更保守，更多宗教信仰，更可能投票支持羅姆尼?？傊?，排卵周期會影響女性的政治傾向。

對于報道中的具有統(tǒng)計學(xué)上的意義，是否意味著我們要義不容辭的相信，或者至少考慮數(shù)據(jù)是支持他們假設(shè)的有力證據(jù)呢？非也，理由還是那個“小徑分岔花園”的比喻，即使杜蘭特等人只對看到的某個特定的數(shù)據(jù)集進行分析，他們也可以進行其他分析，從中得到與他們理論一致的結(jié)果。

事實上，論文中關(guān)于交互作用的描述（已婚女性和單身女性的不同模式）與作者的理論視角（排卵引導(dǎo)婦女優(yōu)先保護擁有遺傳適應(yīng)性指標(biāo)的基因利益)相符。正如作者所指出的那樣，他們的假設(shè)“符合這一想法，即女性應(yīng)該會支持更具自由傾向的候選人。”或者假設(shè)數(shù)據(jù)遵循相反的模式，隨著排卵期的到來，持保守或自由態(tài)度的女性的投票傾向性也隨之發(fā)生改變。其他需要考慮的自然交互影響，還包括年齡或社會經(jīng)濟地位等（如前文提到的臂圍因素）。

初一看，這些描述可能顯得微不足道，或者研究人員從中發(fā)現(xiàn)了與他們理論相一致的大的影響因素。那么為什么我們還要如此挑剔呢？我們認為，呼吁人們關(guān)注這些缺陷是出于兩個原因。首先，聲稱月經(jīng)周期導(dǎo)致20%的投票意向差異，實質(zhì)上是難以置信的。有證據(jù)表明，很少有人會在總統(tǒng)大選活動期間改變他們的投票意向；其二，所發(fā)表的統(tǒng)計學(xué)意義的比較結(jié)果是作者論文的中心部分（如果沒有p＜0.05的結(jié)果，是不會被發(fā)表在頂級期刊上的），所有潛在相關(guān)性的高度多樣性也與此有關(guān)。

除了主要效應(yīng)和交互作用的選擇之外，杜蘭特和她的合作者還有幾個政治相關(guān)問題需要處理（政治態(tài)度及投票意向)，其他人口統(tǒng)計學(xué)變量（年齡、種族、生育狀況）以及婚姻關(guān)系的彈性（例如，曾經(jīng)的“單身”與“已婚”選擇欄，后來就變成了,“單身”與“一段戀情”選擇欄）。

數(shù)據(jù)處理與數(shù)據(jù)分析

2013年，心理學(xué)家亞歷克·比埃爾（Alec Beall）和杰西卡·特蕾西（Jessica Tracy）在《心理科學(xué)》雜志上刊文說，生育高峰期的女性在月經(jīng)周期愛穿紅色或粉紅色襯衫的比例是其他女性的三倍。他們的理論認為，這可能基于這樣一種理念，紅色或粉紅色對異性更有吸引力，臉色看上去也更健康。

特蕾西和比埃爾在網(wǎng)站上稱，他們進行研究的“唯一目的是對一個特定的假設(shè)進行測試：懷孕風(fēng)險會增加女性對紅色或粉紅色穿著的傾向性?！彼麄兪且昧舜罅垦芯砍晒贸鲞@一假設(shè)的。

似乎很明顯的是，他們的分析是依數(shù)據(jù)而定。在他們特定理論的框架內(nèi)對于數(shù)據(jù)的篩選和分析可以有許多的選擇。最重要的是，他們的實驗報告和分析是沒有預(yù)定的。盡管比埃爾和特蕾西所作的分析符合他們的整體研究假設(shè)。我們也相信他們所說的，他們沒有進行“釣魚”（即指非法數(shù)據(jù)調(diào)查），他們的特定決策仍然有許多的自由度，包括如何嚴格設(shè)定被調(diào)查女性的年齡標(biāo)準、色調(diào)標(biāo)準，以及潛在交互作用的查驗和將不同比較結(jié)果進行綜合還是對比，等等。

在上述這個例子中，比埃爾和特蕾西是一方，杜蘭特和她的合作者是另一方，他們在類似事件的啟發(fā)下，同年在同一份雜志上發(fā)表了各自的論文。但在細節(jié)上他們則有所不同，都在自己選擇關(guān)注的比較數(shù)據(jù)分析中發(fā)現(xiàn)了具有統(tǒng)計學(xué)意義的結(jié)果。這兩項研究對女性的生育年齡進行了調(diào)查，但一項研究描述的是其主要影響，而另一項研究描述的則是單身女性和已婚女性之間的區(qū)別。但無論哪種情況，規(guī)則和數(shù)據(jù)分析選擇都不是事先預(yù)定好的。

在小徑分岔的花園里，無論你采取什么樣的路線，道路似乎都是預(yù)定好的。而在實際研究中，研究人員并不通過多個測試來確定哪個才能獲得最佳p值。相反，他們使用自己的科學(xué)常識，考慮所擁有的數(shù)據(jù)資料，以認為合理的方式來制定某個假設(shè)。但如果認為，是選定的特定路徑產(chǎn)生了具有統(tǒng)計學(xué)意義的結(jié)果，就是支持他們假設(shè)的強有力證據(jù)，這么想就錯了。

我們能夠做些什么？

任何看起來相對比較難的研究，總可能會找到缺陷的。我們有很多取決于數(shù)據(jù)的分析工作，我們一直在宣稱一些具有統(tǒng)計學(xué)意義的結(jié)果，而忽略了數(shù)據(jù)選擇的偏向性或多重比較引起的一些問題。所以我們也要談?wù)劮e極的方面，以避免只是扮演一個被責(zé)難的統(tǒng)計員的角色。

根據(jù)我們的經(jīng)驗，以數(shù)據(jù)為依據(jù)來完善自己的研究假設(shè)是一種良好的科學(xué)實踐，進行這類實踐的科學(xué)家也敏銳地意識到數(shù)據(jù)挖掘的風(fēng)險，他們使用置信區(qū)間（置信區(qū)間在廣義上即區(qū)間估計，在各式各樣的量化研究中有廣泛的應(yīng)用——譯注）和p值作為工具來避免被無用信息干擾。遺憾的是，這一切的努力還是產(chǎn)生了某種副產(chǎn)品，即當(dāng)統(tǒng)計學(xué)上有意義的模式出現(xiàn)時，人們自然會感到興奮，并相信它是真的。事實上，科學(xué)家一般不會作弊，也不會通過“釣魚”去尋求具有統(tǒng)計學(xué)意義的結(jié)果，于是，當(dāng)他們遇到某個能越過p＜0.05閾值而足夠強大的模式時，很容易會得出堅信不疑的結(jié)論。

對于使用p值來證明某個科學(xué)主張，或者指出某個多重比較令p值無效的宣稱，我們不是第一個對此表示擔(dān)憂的。我們的目的只在于提請注意，p值的有效性需要在多個數(shù)據(jù)集中得到檢驗。與此相關(guān)的考慮是，數(shù)據(jù)依賴的分析和解釋選擇，如果用了其他可能的數(shù)據(jù)庫是否就會不同？如果是這樣的話，即使對給定數(shù)據(jù)只進行一項分析，由于對變量組合、數(shù)據(jù)包含和數(shù)據(jù)排除、變量轉(zhuǎn)換等的選擇在缺少主效應(yīng)情況下的交互影響的測試，多重比較的問題也會出現(xiàn)。

在這一點上也許人們會有異議，因為任何研究都要涉及到與數(shù)據(jù)相關(guān)的決策，從某種意義上來說，是的。但是我們已經(jīng)討論了一些例子，從中發(fā)現(xiàn)了一種傾向，即過度依賴p值來支持某個強大的推理。例如ESP實驗，這是一個沒有真正理論基礎(chǔ)的現(xiàn)象，研究的目的只是揭示一系列小的影響而已。而對女性投票行為的研究、男性對財富分配的態(tài)度，以及女性排卵期傾向于穿紅色衣服，大致是符合進化理論的，通常會產(chǎn)生一些難以置信的影響。

統(tǒng)計學(xué)的未來之路

在政治領(lǐng)域內(nèi)，漢弗萊斯等人建議對整個數(shù)據(jù)收集和分析報告提前定義（預(yù)定義）。然而，這對于我們自己的大多數(shù)研究項目而言，這一做法幾乎是沒有意義的。最重要的是假設(shè)不可能提前制定。例如，較為成功的蓋爾曼模式，即富裕國家和貧窮國家中窮人選民和富人選民態(tài)度比較的研究項目，只是在對數(shù)據(jù)進行多角度研究后才開始變得明顯起來（其他選舉分析也證實了這一模式）。

而在心理學(xué)等領(lǐng)域，要獲得更多的數(shù)據(jù)通常并沒有這么困難，預(yù)定義是有意義的。與此同時，我們不希望對統(tǒng)計學(xué)的“純度”成為約束科學(xué)研究的“緊身衣”，無論是在心理、營養(yǎng)，還是在教育領(lǐng)域，最有價值的統(tǒng)計分析通常只出現(xiàn)在涉及數(shù)據(jù)的迭代過程之后。預(yù)定義在某些領(lǐng)域可能實用，但在政治領(lǐng)域，想以此作為通用的解決方案是不現(xiàn)實的。

我們想要強調(diào)的一點是，研究人員應(yīng)該對他們進行數(shù)據(jù)分析的選擇要有更清醒的認識，意識到p值公布可能會產(chǎn)生的問題。最終，他們可以參考已發(fā)表的開放式分析，以對自己的想法進行外部驗證，這種做法在統(tǒng)計科學(xué)和計算機科學(xué)領(lǐng)域很流行。具體可以進行兩個實驗，一是對仍然處于理論階段的想法進行探索，二是對預(yù)先的實驗?zāi)康倪M行確認。

在很大程度上，統(tǒng)計學(xué)的一些觀測領(lǐng)域，如政治科學(xué)、經(jīng)濟學(xué)、社會學(xué)，復(fù)制實驗是困難的或不可行的。我們無法輕易通過戰(zhàn)爭或金融危機等來收集數(shù)據(jù)，唯一的建議就是對現(xiàn)有數(shù)據(jù)進行更全面的分析，起點是對所有相關(guān)比較進行分析，而不僅僅關(guān)注于具有統(tǒng)計學(xué)意義的東西。我們曾說過，多層次建?？梢越鉀Q多重比較的問題，但這種方法的實際困難可能也不小。

我們必須意識到，沒有預(yù)先定義或沒有真實復(fù)制的機會，我們對數(shù)據(jù)分析的選擇將只能是數(shù)據(jù)依賴性的，即使研究動機是理論性的。當(dāng)預(yù)定義的復(fù)制很困難或者不可能時（如社會科學(xué)和公共衛(wèi)生研究領(lǐng)域），我們相信最好的策略是對所有數(shù)據(jù)進行的全面分析，而不只是集中于某項比較或較少的多重比較。

沒有一個統(tǒng)計質(zhì)量控制委員會來強制進行這種更大規(guī)模的分析，而且我們也不認為這樣的強制措施是恰當(dāng)?shù)?。隨著越來越多的科學(xué)家們效仿諾塞克，公開表示p值對自己研究的不良影響時，我們希望提升對全面數(shù)據(jù)分析的動機，以減少這些問題的困擾。必要時必須退后一步，到一個更能清晰區(qū)分探索性和驗證性數(shù)據(jù)分析的區(qū)間，以識別各自的優(yōu)點和局限性。

在一些數(shù)據(jù)容易收集的領(lǐng)域，也許諾塞克兩部走的方法，即在正式公布結(jié)果之前進行一次復(fù)制實驗，可為未來的研究設(shè)置一個標(biāo)準，以代替目前的通常做法，即每項研究都有自己取決于數(shù)據(jù)分析的統(tǒng)計學(xué)意義?？茖W(xué)家們必須意識到，p值不一定從表面值獲得，這并不意味著科學(xué)家們不能選擇有效的統(tǒng)計推斷。

我們強烈的意識到，越來越接近真相是科學(xué)家最感興趣的。用偉大的統(tǒng)計教育家弗雷德里克·穆斯特勒（Frederick Mosteller）的話來說，統(tǒng)計數(shù)據(jù)很容易讓我們受騙，但沒有統(tǒng)計數(shù)據(jù)我們更容易被騙。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡