深度挖掘
——新的統(tǒng)計(jì)方法幫助人們更有效地了解過(guò)程、建立模型
編者按
一種新的統(tǒng)計(jì)方法可用來(lái)研究過(guò)程,即觀察、檢查、分配、回歸和自然選擇法(5個(gè)單詞的首字母縮寫(xiě)為L(zhǎng)EARN);該方法結(jié)合了成熟的工具,在不需要高等數(shù)學(xué)的情況下,能夠打造強(qiáng)大而且簡(jiǎn)單的模型;LEARN方法可以通過(guò)查找和應(yīng)用增值信息將數(shù)據(jù)結(jié)構(gòu)化為線性擬合。這種新的統(tǒng)計(jì)方法幫助人們“深度挖掘”。
隨著對(duì)數(shù)據(jù)的日益重視以及數(shù)據(jù)實(shí)用性的提高,人們對(duì)有意義的且可用的分析充滿了更多期待。如今的決策者越來(lái)越需要從所有的數(shù)據(jù)中提取價(jià)值。單個(gè)系統(tǒng)及多個(gè)系統(tǒng)中的過(guò)程都應(yīng)被清晰地描述,并易于理解,從而實(shí)現(xiàn)回歸分析,并對(duì)來(lái)自穩(wěn)定過(guò)程的歷史行為進(jìn)行建模,從而最好地預(yù)測(cè)未來(lái)的績(jī)效表現(xiàn)。
有了如此多的現(xiàn)成數(shù)據(jù),我們可能會(huì)產(chǎn)生錯(cuò)覺(jué),認(rèn)為所有準(zhǔn)確的數(shù)據(jù)都唾手可得??梢坏╊A(yù)測(cè)變量和響應(yīng)變量之間幾乎沒(méi)有任何關(guān)系,或數(shù)據(jù)缺乏重要參數(shù)時(shí),都會(huì)使數(shù)據(jù)決策者對(duì)模型的預(yù)測(cè)能力包括主觀評(píng)價(jià)感到不滿意或不解。
這樣的情景聽(tīng)起來(lái)是不是感到很耳熟?你的老板有理由不接受這樣的分析。他期待一個(gè)簡(jiǎn)單有用的模型來(lái)提供對(duì)未來(lái)績(jī)效的洞察和分析,但得到的卻是一個(gè)輸入與輸出之間缺乏足夠相關(guān)性的回歸分析。這就意味著預(yù)測(cè)能力值得懷疑,因此他對(duì)未來(lái)的分析也就會(huì)更多地包含警告而不是聲明。
“你讓我拿這些數(shù)據(jù)怎么辦?這也不比使用平均值好多少啊?!崩习迦绱思饪痰呐u(píng)迫使分析師又加入了更多輸入,以此提高模型的可決系數(shù)。幾番來(lái)回,在一段緊張的日子后,模型最終演化成了復(fù)雜而繁瑣的東西,充滿了高階、非線性和多重共線性。
當(dāng)你解釋邏輯回歸時(shí),老板的眼睛只會(huì)呆滯地轉(zhuǎn)上兩分鐘。這并不是說(shuō)高階、非線性或邏輯回歸的方法不好,而是這些東西出現(xiàn)的時(shí)間和地點(diǎn)不對(duì)。它們會(huì)讓人備受打擊。雖然分析師制作了詳盡的、由現(xiàn)有數(shù)據(jù)支撐的統(tǒng)計(jì)評(píng)估,但老板要求的卻更多。分析師的內(nèi)心在暗暗尖叫,“如果我能做得更好,那我早就做了!”
圖1 LEARN方法
數(shù)據(jù)信息越好,分析成功的程度也會(huì)越高。即使高等統(tǒng)計(jì)的數(shù)據(jù)也是與表示過(guò)程的數(shù)據(jù)相關(guān)聯(lián)的。幸運(yùn)的是,穩(wěn)定的過(guò)程通常已包含有助于減少變異的特性。
如圖1所示,觀察、檢查、分配、回歸和自然選擇法(LEARN方法)與經(jīng)過(guò)驗(yàn)證的工具相結(jié)合,能夠產(chǎn)生出功能強(qiáng)大而簡(jiǎn)單的模型,而無(wú)需高等數(shù)學(xué)。通過(guò)制定更豐富的輸入產(chǎn)生分析輸出,LEARN方法可以幫助你滿足老板不斷增長(zhǎng)的期望。那些擁有大量數(shù)據(jù)、數(shù)據(jù)易于獲得、范圍較嚴(yán)格的項(xiàng)目(如優(yōu)化機(jī)器設(shè)置),最好運(yùn)用DMAIC方法(即定義、測(cè)量、分析、改進(jìn)和控制),以及可靠而直接的六西格瑪方法。
但不幸的是,通常只有當(dāng)領(lǐng)導(dǎo)們表示出對(duì)模型的不滿意且沒(méi)有其他可用數(shù)據(jù)能讓一切好起來(lái)時(shí),回歸分析才會(huì)暴露出數(shù)據(jù)的種種局限。LEARN方法可被當(dāng)作事后的補(bǔ)充方法,以充實(shí)現(xiàn)有的信息。
在過(guò)程中應(yīng)用LEARN方法。例如,某公司副總裁負(fù)責(zé)監(jiān)管11個(gè)部門(mén),而且要為一個(gè)新的項(xiàng)目估算人工小時(shí)數(shù)。員工雖有一些流失,但基本沒(méi)有太大損耗,所以她的組織在過(guò)去5年里相當(dāng)穩(wěn)定。根據(jù)圖2中的評(píng)估,她得出結(jié)論:她需要更好的預(yù)測(cè)性。
圖2 初始圖缺少期待的可預(yù)測(cè)性
圖3 將LEARN方法與傳統(tǒng)過(guò)程流融合
她認(rèn)為模型總的來(lái)說(shuō)和數(shù)據(jù)匹配,但她懷疑所在組織(也稱(chēng)為過(guò)程或系統(tǒng))不可預(yù)測(cè)。其實(shí),她所在組織可能并不是真的不可預(yù)測(cè),而是選出來(lái)代表組織的數(shù)據(jù)不可預(yù)測(cè)罷了。
雖然副總裁估算的必要精度已經(jīng)超出了圖2的能力范圍,但數(shù)據(jù)就是數(shù)據(jù)。圖3延伸了選擇數(shù)據(jù)、分析流程的傳統(tǒng),而將LEARN方法引入其中。圖3最終可能會(huì)倒退到初始評(píng)估。本文的其余部分將會(huì)通過(guò)圖3來(lái)假設(shè)數(shù)據(jù)的不足。
LEARN方法的目的是產(chǎn)生足夠多的數(shù)據(jù)(甚至可能比足夠還要多),以消除投機(jī)或編造的信息,并進(jìn)一步地剖析數(shù)據(jù),以揭示更深的過(guò)程特性。
圖4 一個(gè)可能實(shí)現(xiàn)的理想擬合圖
觀察階段始于定位合適的主題專(zhuān)家(SME),而不是單個(gè)分析者,以此來(lái)豐富擴(kuò)充信息、用于額外的分析。主題專(zhuān)家為初步的統(tǒng)計(jì)評(píng)估增加了系統(tǒng)工程要素。
最適合支持LEARN方法的主題專(zhuān)家通常是熟悉系統(tǒng)級(jí)交互的高層人員以及老練的流程負(fù)責(zé)人。專(zhuān)家團(tuán)隊(duì)通過(guò)系統(tǒng)地組合數(shù)據(jù),或更常見(jiàn)地分解現(xiàn)有數(shù)據(jù)來(lái)豐富信息。我們希望團(tuán)隊(duì)能夠順利走過(guò)團(tuán)隊(duì)融合及會(huì)議管理的各個(gè)階段,即形成期、震蕩期、規(guī)范期和執(zhí)行成長(zhǎng)期,還希望多學(xué)科的主題專(zhuān)家們能在過(guò)程中相互理解、互相幫助、成長(zhǎng)共生。
觀察階段的任務(wù)是全面了解與過(guò)程相關(guān)的過(guò)程和數(shù)據(jù)。這種了解使我們能夠?qū)?shù)據(jù)輸入的要素進(jìn)行后續(xù)討論,從而對(duì)過(guò)程產(chǎn)生更加深入的理解。而且比起當(dāng)前的輸入,這樣的做法會(huì)為模型帶來(lái)更多價(jià)值。
觀察階段首先是繪制流程圖,簡(jiǎn)單組織初始的數(shù)據(jù),如表1中的前兩列數(shù)據(jù),并以團(tuán)隊(duì)的形式對(duì)數(shù)據(jù)進(jìn)行討論。這些數(shù)據(jù)本身并不能提供回歸分析以外的潛力,這遠(yuǎn)遠(yuǎn)低于副總裁的既定目標(biāo)。這些數(shù)據(jù)所創(chuàng)造出的是以事實(shí)為基礎(chǔ)的分析,但卻不能用來(lái)進(jìn)行創(chuàng)造性的推測(cè)。
系統(tǒng)地討論現(xiàn)有數(shù)據(jù),如它如何反映過(guò)程、過(guò)程如何產(chǎn)生數(shù)據(jù)以及過(guò)程為什么會(huì)產(chǎn)生其所產(chǎn)生的數(shù)據(jù)。了解表格中的關(guān)系:行內(nèi)的信息表示系統(tǒng)內(nèi)的行為,而列內(nèi)的信息表示系統(tǒng)間的行為。通過(guò)查看散點(diǎn)圖、箱線圖和帕累托圖來(lái)繼續(xù)對(duì)數(shù)據(jù)進(jìn)行探索,還可以開(kāi)展更簡(jiǎn)單的線性回歸,以此涵蓋不同的變量并挑選出其中最好的變量。以上所有活動(dòng)都要以團(tuán)隊(duì)的形式進(jìn)行展開(kāi),團(tuán)隊(duì)?wèi)?yīng)該在觀察階段結(jié)束前做好充分準(zhǔn)備,以討論增強(qiáng)數(shù)據(jù)的各種方法。
表1 案例中的關(guān)鍵數(shù)據(jù)
檢查過(guò)程,而不僅僅是數(shù)據(jù)這個(gè)階段的任務(wù)是從混亂中創(chuàng)造秩序。現(xiàn)在團(tuán)隊(duì)已經(jīng)開(kāi)始熟悉起來(lái),并做好了進(jìn)一步描述過(guò)程特點(diǎn)的準(zhǔn)備,在此過(guò)程中他們很可能經(jīng)歷震蕩階段。
在初始數(shù)據(jù)集里,改進(jìn)模型所必需的特性很不明顯。如果明顯的話,它們會(huì)被用于原始分析。通過(guò)在觀察階段用心地應(yīng)用獲得的知識(shí),這些特征得以展示或被進(jìn)一步加工。檢查階段有兩個(gè)主要目標(biāo):
1.計(jì)算產(chǎn)生理想回歸線所需的每個(gè)初始數(shù)據(jù)點(diǎn)的倍增因子(即R2=1)。原始數(shù)據(jù)顯示在表2的第3和第4列中。圖4將R2=1作為改進(jìn)模型的起點(diǎn)。這個(gè)理想圖并不是最終目的。它既不是預(yù)定義的,也不是具體的,而僅僅是模型開(kāi)始演變的總體方向。
2.我們要確定使數(shù)據(jù)點(diǎn)指向理想線的過(guò)程特性,同時(shí)不損害對(duì)過(guò)程或模型的完整理解。這個(gè)過(guò)程并不是要對(duì)一些對(duì)過(guò)程毫無(wú)意義的數(shù)據(jù)產(chǎn)生幻覺(jué),誤以為模型良好而有活力,而是要揭開(kāi)合理的特性,特別是穩(wěn)定過(guò)程的特性,從而減少數(shù)據(jù)點(diǎn)與理想曲線之間的差距。
過(guò)程特性通常包括獨(dú)立變量。這意味著沿x軸的調(diào)整,如圖4所示,這種做法非常有意義。因?yàn)楸?中的人工小時(shí)數(shù)是具體的,而預(yù)測(cè)變量(即總數(shù)內(nèi)部的影響關(guān)系)是不確定的,需要更多細(xì)節(jié)來(lái)解釋范圍和水平上的細(xì)微差別。
通過(guò)進(jìn)一步找出x軸上獨(dú)立變量的特性來(lái)產(chǎn)出理想圖,還需要額外的數(shù)學(xué)步驟,因?yàn)樾甭适怯搔/ Δy來(lái)決定。從傳統(tǒng)的點(diǎn)斜率公式開(kāi)始入手:將截距排除不計(jì),由此產(chǎn)生理想模型的方程式為強(qiáng)制截距通過(guò)原點(diǎn),需要正當(dāng)?shù)睦碛?,?yīng)證明如下:
?截距項(xiàng)在理想圖的回歸分析中不顯著。
?理想圖對(duì)零刺激的響應(yīng)為零。
國(guó)有林場(chǎng)半專(zhuān)業(yè)化勞務(wù)派遣森林消防隊(duì)是國(guó)有林場(chǎng)撲救森林火災(zāi)的應(yīng)急補(bǔ)充力量,是縣、鄉(xiāng)專(zhuān)業(yè)森林消防隊(duì)伍的得力助手。在今后的工作中,要進(jìn)一步探索國(guó)有林場(chǎng)半專(zhuān)業(yè)化勞務(wù)派遣森林消防隊(duì)建設(shè)管理新路子,從人員管理、培訓(xùn)教育、制度建設(shè)、物資保障、實(shí)戰(zhàn)考核等方面入手,強(qiáng)化組織管理,建設(shè)一支素質(zhì)高效,作風(fēng)過(guò)硬,紀(jì)律嚴(yán)明,英勇善戰(zhàn),在撲救森林火災(zāi)中起到重要作用的新型國(guó)有林場(chǎng)半專(zhuān)業(yè)化森林消防隊(duì)伍。
?斜率在所有點(diǎn)都相同。
將表2里的總子系統(tǒng)設(shè)為y,人工小時(shí)數(shù)設(shè)為x,則Δx/Δy為0.06974。項(xiàng)目1的理想點(diǎn)為:
然后,計(jì)算每個(gè)項(xiàng)目理想的倍增因子:
其中分母中的常數(shù)10調(diào)節(jié)了改進(jìn)擬合所需的總倍增因子的值。
此信息為每個(gè)項(xiàng)目分配因子提供了指導(dǎo)。
表2 檢查階段識(shí)別的要素以及項(xiàng)目1的分類(lèi)水平
圖5 因子圖——簡(jiǎn)單可預(yù)測(cè)
分配階段的任務(wù)是按照檢查階段得來(lái)的指導(dǎo)原則,為過(guò)程添加結(jié)構(gòu),并產(chǎn)生更好的回歸分析。團(tuán)隊(duì)現(xiàn)在進(jìn)入到規(guī)范和執(zhí)行階段,并通過(guò)討論和數(shù)學(xué)計(jì)算,進(jìn)一步理解和完善了每個(gè)數(shù)據(jù)點(diǎn)。一些改進(jìn)得到了認(rèn)可,而另一些被否定,相關(guān)討論有助于進(jìn)一步理清過(guò)程、加深理解。
理想圖提供了一個(gè)框架,用于定義和量化數(shù)據(jù)中的區(qū)別。每個(gè)理想的倍增因子被分解為如表2第5至第8列中的要素。這些要素提供了靈活性,并為每一行數(shù)據(jù)提供了確定適當(dāng)范圍和粒度的單個(gè)總調(diào)整因子的方法。雖然主題專(zhuān)家在早期階段就熟悉了相關(guān)知識(shí),但定義要素時(shí)還是包含了一些試驗(yàn)和錯(cuò)誤。
每個(gè)要素的分類(lèi)水平、同等增量的水平都比較理想,如從0.25增至2的增量為0.25。不推薦不相等的增量,因?yàn)橛盟鼈儊?lái)定位初始模型的特定數(shù)據(jù)點(diǎn),效果雖然可能還行,但對(duì)于后續(xù)數(shù)據(jù),它們卻具有相反效果,或被認(rèn)為是強(qiáng)制產(chǎn)生解決方案或是操縱數(shù)據(jù)。
倍增水平——在0到2范圍內(nèi)的所有要素,實(shí)質(zhì)上都可以增加或減少數(shù)據(jù)點(diǎn)上的最終調(diào)整因子。調(diào)整回歸方程4中的理想倍增因子,可以給最終調(diào)整因子成為理想因子的機(jī)會(huì)。分類(lèi)水平的例證請(qǐng)參考圖5。
就項(xiàng)目1來(lái)說(shuō),表1第1行中的分類(lèi)水平產(chǎn)生了總調(diào)整因子,即1.75×1.50×1.25×1.25=4.1016。這個(gè)值接近理想的倍增因子:4.1612。與理想圖相比,這個(gè)初始數(shù)據(jù)點(diǎn)的位置相當(dāng)?shù)?,這就促使大家進(jìn)行深入討論,以解釋差異和不符。項(xiàng)目?jī)?nèi)和項(xiàng)目之間所定義的要素和分配的因子非常合理,在過(guò)程中也得到了有效體現(xiàn)。這些要素和因子還改進(jìn)了回歸擬合,同時(shí)為每個(gè)要素的分類(lèi)水平提供了定義。
回歸分析是一個(gè)強(qiáng)大的分析工具,也是迄今為止使用最廣泛的建模方法。該方法用于將過(guò)程輸出與一組輸入相關(guān)聯(lián)。
回歸分析階段的任務(wù)是當(dāng)標(biāo)準(zhǔn)回歸分析沒(méi)有對(duì)過(guò)程進(jìn)行充分建模時(shí),產(chǎn)出一個(gè)簡(jiǎn)單(易于理解和溝通)的線性模型。這個(gè)目標(biāo)并不是通過(guò)多重回歸(即包含多個(gè)輸入的回歸)來(lái)完成的,而是通過(guò)簡(jiǎn)單的線性回歸完成。為實(shí)現(xiàn)這一目標(biāo),檢查階段和分配階段完成了大量幕后工作。
當(dāng)LEARN方法能夠正確實(shí)施時(shí),運(yùn)用回歸分析其實(shí)就成為一種形式。即使不熟悉回歸分析的決策者也會(huì)很容易理解表現(xiàn)為基本方程和散點(diǎn)圖的輸出形式。
團(tuán)隊(duì)對(duì)表2中標(biāo)為“繪制數(shù)據(jù)”的最后兩列進(jìn)行了回歸分析。經(jīng)過(guò)有效的討論,團(tuán)隊(duì)改善了回歸擬合,以此證明了要素以其準(zhǔn)確性和完整性改進(jìn)了過(guò)程描述。圖5顯示了預(yù)測(cè)模型的巨大改進(jìn)以及繪圖的簡(jiǎn)單性。
要素不僅代表歷史數(shù)據(jù),而且有助于更好地描述和理解未來(lái)的項(xiàng)目。通過(guò)運(yùn)用本項(xiàng)目的過(guò)程知識(shí)來(lái)定制新項(xiàng)目,該模型就會(huì)對(duì)預(yù)期人工小時(shí)數(shù)產(chǎn)出更精準(zhǔn)的估算。
雖然數(shù)據(jù)報(bào)告的讀者可能不熟悉“置信區(qū)間”術(shù)語(yǔ),但通常我們還需要預(yù)測(cè)區(qū)間,也稱(chēng)為用于預(yù)測(cè)的置信區(qū)間。95%的置信區(qū)間包含了樣本95%的平均輸出范圍。
由于副總裁對(duì)下一個(gè)項(xiàng)目規(guī)劃感興趣(即下一個(gè)單次觀測(cè)),所以進(jìn)行區(qū)間預(yù)測(cè)是適當(dāng)?shù)?。根?jù)參數(shù)情況,可能會(huì)有多個(gè)預(yù)測(cè)區(qū)間方程。由于總體均值和總體方差未知,樣本量n=32支持假設(shè)的正態(tài)性,所以預(yù)測(cè)區(qū)間方程為:
置信區(qū)間公式考慮了用于預(yù)測(cè)平均值的樣本變異性:
預(yù)測(cè)區(qū)間也考慮了預(yù)測(cè)單個(gè)響應(yīng)相對(duì)于平均響應(yīng)的不確定性,因此區(qū)間更寬。
請(qǐng)注意,決策者可能會(huì)設(shè)定雙重標(biāo)準(zhǔn),又喜歡R2較高,但又不喜歡由此產(chǎn)生的緊密區(qū)間。
最后這個(gè)階段對(duì)于鞏固理解和展示交流至關(guān)重要,并不是畫(huà)蛇添足,這個(gè)階段是工作的可信性成敗的關(guān)鍵。大多數(shù)終端用戶都與過(guò)程相關(guān),而不是與數(shù)學(xué)相關(guān),因?yàn)橐胤从尺^(guò)程,所以要素必須具備吸引終端用戶的常識(shí)。
這與要素如何以數(shù)學(xué)方式影響輸入是有區(qū)別的。分配的分類(lèi)水平必須能夠滿足項(xiàng)目?jī)?nèi)部和項(xiàng)目之間進(jìn)行比較的問(wèn)題,識(shí)別適當(dāng)?shù)囊乜赡懿荒敲慈菀谆蛘卟幻黠@。許多要素也可以改善模型的擬合,但卻并不適用于最后這一階段,因?yàn)樗鼈冊(cè)谶^(guò)程方面沒(méi)有任何意義和作為。
通過(guò)扎實(shí)的工程及數(shù)學(xué)計(jì)算,團(tuán)隊(duì)確定了與過(guò)程相關(guān)及有影響力的方面。團(tuán)隊(duì)將這些特點(diǎn)(即要素)挑選出來(lái)代表該過(guò)程,而其他較不重要的則放棄。最終的模型可放心應(yīng)用。記錄每個(gè)項(xiàng)目的要素水平及選擇的理由,分享各自的理解,并增強(qiáng)工作的持久性和可信度。
在描繪了32個(gè)項(xiàng)目的特點(diǎn)之后,過(guò)程變得更好理解也更加穩(wěn)定。隨著時(shí)間的推移,LEARN方法更加關(guān)注于維系易于理解的要素,并對(duì)新的項(xiàng)目進(jìn)行回歸分析。而副總裁的期望僅僅是對(duì)未來(lái)計(jì)劃做出快速而準(zhǔn)確的估計(jì)。
最終,異常數(shù)據(jù)點(diǎn)不再對(duì)因子模型的輸出造成威脅,而是可以促進(jìn)指明原因的調(diào)查,例如團(tuán)隊(duì)在發(fā)現(xiàn)某項(xiàng)目數(shù)據(jù)點(diǎn)較低后,將4個(gè)部門(mén)的工作進(jìn)行了外包。
最后需要注意的是,初始數(shù)據(jù)集實(shí)際上是描述資源如何有效地為項(xiàng)目服務(wù)。分析中的主觀性——即初始模型中未能解釋的方差,是由于低效率(如不可預(yù)見(jiàn)的任務(wù)、學(xué)習(xí)曲線或倦?。┰斐傻摹S糜陬A(yù)測(cè)未來(lái)項(xiàng)目的實(shí)際人工小時(shí)數(shù)中也包含了這些低效行為。團(tuán)隊(duì)認(rèn)為,這些低效是過(guò)程中所固有的。
LEARN方法既無(wú)法鑒別也難以量化具體的低效來(lái)源,而是通過(guò)綜合人工小時(shí)數(shù),以及投入、要素和因子的自然選擇,在最終的回歸階段對(duì)其進(jìn)行解釋。
過(guò)去,因?yàn)楸匾臄?shù)據(jù)不容易拿到而終止分析是可以接受甚至是可以預(yù)見(jiàn)的,但這種日子一去不復(fù)返了。“失敗再加上一個(gè)好借口”式的以營(yíng)銷(xiāo)論英雄的日子也被取代了。如果問(wèn)題容易的話,其他人早就解決了,而高級(jí)管理人員也不必再給專(zhuān)家打電話。雖然傳統(tǒng)評(píng)估看起來(lái)?yè)碛袕V泛現(xiàn)成的數(shù)據(jù),但LEARN方法卻更深入探索了數(shù)據(jù)中的有效關(guān)系,同時(shí)還不影響分析的完整性。
持不同觀點(diǎn)的人會(huì)將本方法描述為一種強(qiáng)制形成解決方案,并使數(shù)據(jù)曲意迎合的方法。而事實(shí)上,LEARN方法并不強(qiáng)制形成解決方案,而是通過(guò)發(fā)現(xiàn)和應(yīng)用增值信息將數(shù)據(jù)結(jié)構(gòu)化為線性擬合。
是否可以通過(guò)這種方法來(lái)強(qiáng)制運(yùn)用數(shù)學(xué)關(guān)系,使模型更好地實(shí)現(xiàn)擬合數(shù)據(jù),并不反映過(guò)程實(shí)際,從而進(jìn)行作弊呢?這取決于實(shí)際操作者。多種形式的描述型數(shù)學(xué)都有可能用來(lái)作弊?!度绾芜\(yùn)用統(tǒng)計(jì)數(shù)據(jù)作弊》一書(shū)自1954年出版以來(lái),仍在銷(xiāo)售。
自然選擇過(guò)程中強(qiáng)加了制約和平衡,以確保基本因子富含信息,更重要的是使其適用于正在研究的過(guò)程。基本因子影響所有的數(shù)據(jù)點(diǎn),而不僅僅是任何單個(gè)數(shù)據(jù)點(diǎn),而且只有當(dāng)實(shí)際數(shù)據(jù)和模型之間的差異總和變小時(shí),模型才能得以改進(jìn)。
LEARN方法通過(guò)模型擬合變好或變壞來(lái)對(duì)因子的相關(guān)性、有效性及其水平做出直接反饋。從根本上說(shuō),該方法并不總是有意識(shí)地去記錄,而是通過(guò)發(fā)現(xiàn)正在研究的過(guò)程特征來(lái)定位模型和過(guò)程,以最好地解釋兩者之間的關(guān)系。