第二十九講關(guān)于留一法PRESS統(tǒng)計(jì)量的應(yīng)用討論

2018-09-29 02:44:44徐靜安浦靜雯許保云

上海化工 2018年9期

徐靜安浦靜雯吳芳許保云

應(yīng)國(guó)家獎(jiǎng)勵(lì)辦聘任，6月15日赴北京參加2016年科技進(jìn)步獎(jiǎng)化工組評(píng)審工作。因提前一天報(bào)到，帶了一本《六西格瑪管理統(tǒng)計(jì)指南——MINITAB使用指南》，再次閱讀有關(guān)統(tǒng)計(jì)量預(yù)測(cè)殘差平方和PRESS的相關(guān)內(nèi)容。這段時(shí)間借用化機(jī)所小會(huì)議室作辦公室，更接近科研一線，有了更多機(jī)會(huì)和吳芳、浦靜雯碩士一起學(xué)習(xí)、討論P(yáng)RESS的相關(guān)問題。

在實(shí)驗(yàn)研究中，擬合選定統(tǒng)計(jì)模型后需要分析評(píng)估回歸模型的總效果：回歸模型的P值，兩個(gè)確定系數(shù)R2及擬合標(biāo)準(zhǔn)差S值，回歸方程各個(gè)項(xiàng)的P值等?，F(xiàn)在殘差診斷引起重視，也關(guān)注DPS二次多項(xiàng)式逐步回歸計(jì)算后輸出的d值，MINITAB系統(tǒng)輸出的Cp值。

統(tǒng)計(jì)模型預(yù)測(cè)結(jié)果評(píng)估有效的方法是對(duì)預(yù)報(bào)進(jìn)行重復(fù)驗(yàn)證試驗(yàn)。數(shù)理統(tǒng)計(jì)中也采用“留一法”求取PRESS值對(duì)模型預(yù)報(bào)能力作出整體估計(jì)。

一 PRESS的概念

PRESS是留一法模型預(yù)測(cè)的誤差平方和。對(duì)實(shí)驗(yàn)數(shù)據(jù)樣本N留下一個(gè)——第i個(gè)實(shí)驗(yàn)觀察點(diǎn)，用N-1個(gè)數(shù)據(jù)擬合回歸方程，把留下的第i個(gè)觀察點(diǎn)作為預(yù)測(cè)驗(yàn)證值，求出殘差。以此類推，可得

（1）DPS數(shù)據(jù)處理系統(tǒng)對(duì)留一法預(yù)測(cè)標(biāo)準(zhǔn)差的定義

N為樣本量；

P為統(tǒng)計(jì)模型中因子的項(xiàng)數(shù)。

（2）在MINITAB系統(tǒng)中，根據(jù)將回歸方程擬合的殘差平方和SSE變換成PRESS，公式，定義為總的偏差平方和。

設(shè)想在樣本量為N的實(shí)驗(yàn)數(shù)據(jù)中，如果某個(gè)點(diǎn)的存在與否會(huì)強(qiáng)烈影響統(tǒng)計(jì)模型的結(jié)構(gòu)，則該點(diǎn)為有特殊地位的“杠桿點(diǎn)”“離群點(diǎn)”等。一般來說，樣本中更多的是普通點(diǎn)，是以樣本訓(xùn)練集的整體影響建立統(tǒng)計(jì)模型。普通點(diǎn)的個(gè)體、一個(gè)點(diǎn)對(duì)統(tǒng)計(jì)模型的結(jié)構(gòu)影響是不顯著的，對(duì)一定結(jié)構(gòu)模型的參數(shù)估計(jì)的影響也比較小。這樣輪番留一計(jì)算得到的殘差平方和PRESS用來對(duì)統(tǒng)計(jì)模型的預(yù)測(cè)作整體評(píng)估。PRESS（留一法預(yù)報(bào)的殘差平方和）通常要比擬合的殘差平方和）大些，“但如果大得不多，則表明數(shù)據(jù)點(diǎn)中有特殊地位的點(diǎn)不多……，用此回歸方程作預(yù)測(cè)結(jié)果也比較可信。”

查閱了幾本專著及一些留一法應(yīng)用案例，均無(wú)明確判據(jù)，PRESS比SSE大多少才是大得不多，才是可信、可接受的。

（3）討論

在PRESS工程應(yīng)用的討論中，涉及統(tǒng)計(jì)模型結(jié)構(gòu)型式、樣本量大小、樣本點(diǎn)在實(shí)驗(yàn)多維空間中分布的均勻性、樣本實(shí)驗(yàn)點(diǎn)的質(zhì)量（有否異常誤差）等，這些因素會(huì)影響PRESS值，影響預(yù)報(bào)質(zhì)量。

對(duì)于隨機(jī)安排的實(shí)驗(yàn)，如考察因子有M個(gè)，一般多項(xiàng)式統(tǒng)計(jì)建模要求樣本量N/M≥5。如果采用多項(xiàng)式逐步回歸及適合于小樣本的支持向量機(jī)回歸SVR，則樣本量可適當(dāng)小些，但過小的樣本量會(huì)影響模型的穩(wěn)定性。

樣本實(shí)驗(yàn)點(diǎn)中如有可疑點(diǎn)，應(yīng)在實(shí)驗(yàn)過程中用重復(fù)試驗(yàn)予以剔除，或以平均值來降低對(duì)統(tǒng)計(jì)模型的特殊影響。試驗(yàn)結(jié)束后，采用數(shù)理統(tǒng)計(jì)方法進(jìn)行“壞點(diǎn)”剔除時(shí)要慎重。

大多數(shù)試驗(yàn)設(shè)計(jì)（如全因子設(shè)計(jì)、正交設(shè)計(jì)等）因子水平都有重復(fù)，可以用留一法計(jì)算PRESS。均勻設(shè)計(jì)中因子水平只做一次試驗(yàn)，而且樣本量本就偏小，N/M≥2～2.5，且少一個(gè)點(diǎn)對(duì)實(shí)驗(yàn)點(diǎn)的均勻性產(chǎn)生較大負(fù)面影響。

統(tǒng)計(jì)模型的結(jié)構(gòu)選擇對(duì)預(yù)測(cè)質(zhì)量的影響更大，經(jīng)常出現(xiàn)模型擬合效果的統(tǒng)計(jì)檢驗(yàn)良好，但PRESS過大預(yù)測(cè)質(zhì)量不行的情況，為此要重視統(tǒng)計(jì)模型的優(yōu)化選擇。

現(xiàn)在面對(duì)的問題是：

①PRESS計(jì)算時(shí)的主體模型如何選擇？

②PRESS比SSE大多少，才是可信可接受的？

二應(yīng)用案例

高溫假后上班第一天（8月1日），吳芳碩士推薦我閱讀《MATLAB神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析》。讀后即網(wǎng)購(gòu)《MATLAB神經(jīng)網(wǎng)絡(luò)43個(gè)案例分析》，其中“神經(jīng)網(wǎng)絡(luò)遺傳算法函數(shù)極值尋優(yōu)——非線性函數(shù)極值尋優(yōu)”一文的實(shí)驗(yàn)數(shù)據(jù)，可作為本案例的基礎(chǔ)數(shù)據(jù)。

其實(shí)驗(yàn)考察因子X1為添加物1（kg），水平為0，10，30，50；X2為溫度（℃），水平為 0，5，10，15，20；X3為添加物 2（kg），水平為 1650，1700，1750；X4為反應(yīng)時(shí)間（s），水平為 40，60，80。

三二次多項(xiàng)式隨機(jī)模型求取PRESS

浦靜雯碩士采用“試錯(cuò)”學(xué)習(xí)，在DPS中用二次多項(xiàng)式逐步回歸求取預(yù)報(bào)值yi，-i，已知表1的實(shí)驗(yàn)值y可求得計(jì)算18個(gè)隨機(jī)模型的及PRESS=i見表2。

表1 實(shí)驗(yàn)數(shù)據(jù)

顯然，采用隨機(jī)模型出現(xiàn)了NO.5為“離群點(diǎn)”，可能的原因之一是該點(diǎn)在實(shí)驗(yàn)范圍內(nèi)為某個(gè)區(qū)域的“孤獨(dú)點(diǎn)”，影響特殊。如在實(shí)驗(yàn)過程中，對(duì)該工藝條件應(yīng)予以重復(fù)驗(yàn)證。經(jīng)計(jì)算檢查，該隨機(jī)模型由二次多項(xiàng)式逐步回歸求出，擬合統(tǒng)計(jì)量全部良好顯著，就是預(yù)報(bào)ymax值及留一預(yù)測(cè)驗(yàn)證的δi值完全不靠譜。可見用隨機(jī)模型求取PRESS放大了個(gè)別點(diǎn)的負(fù)面影響。

為此，根據(jù)DPS數(shù)據(jù)處理系統(tǒng)及MINITAB使用指導(dǎo)，求取PRESS需指定統(tǒng)計(jì)模型的主體結(jié)構(gòu)。

四（線性項(xiàng)+交互項(xiàng)）全回歸模型求取PRESS

在MINITAB系統(tǒng)中，本案例表1指定模型為：

從統(tǒng)計(jì)＞DOE＞因子＞分析因子設(shè)計(jì)窗口進(jìn)入計(jì)算界面，全回歸方法計(jì)算結(jié)果輸出如下：

表2 隨機(jī)模型計(jì)算匯總表

測(cè)試集序號(hào) 添加物1/kg 溫度/℃ 預(yù)報(bào)值/kg 實(shí)驗(yàn)值/kg 1 0 0?257.036 258 0.929752684 2 10 0 274.549 272 6.498421445 3 30 0 313.502 312 2.257140104 4 50 0 358.618 363 19.20362982 5 0 5-11887.493 360 150001090.3 6 10 557.149 493 4115.077543 7 0 15 614.613 605 92.41534093 1650 40 10 10 15 1700 60 621.695 627 28.13777168 11 10 20 1750 80 276.174 406 16854.72292 12 30 5 1750 40 259.631 390 16996.13102 13 30 10 1650 80 515.400 519 12.96292384 14 30 15 1700 60 637.981 662 576.8948036 15 50 5 1650 80 377.315 456 6191.382285 16 50 10 1750 60 951.392 523 183519.6317 17 50 15 1700 60 670.732 712 1703.07129 18 50 20 1700 40 704.125 555 22238.24853時(shí)間/s 60 60 60 60 80 40 60 60 9 0 8 0 20 464.149 400 4115.073822添加物2/kg 1700 1700 1700 1700 1650 1700 1700 1750 10 10 11.428 464 204821.1033∑150462384

模型擬合質(zhì)量尚可，留一法模型預(yù)報(bào)PRESS雖有大幅度改善，但趨于零，模型預(yù)報(bào)功能很差。此外，x1，x3，x1x2，x1x3，x2x4，x3x4等對(duì)響應(yīng) y 的貢獻(xiàn)均不顯著，進(jìn)入模型后過擬合造成統(tǒng)計(jì)模型不穩(wěn)定，提高了擬合效果，降低了預(yù)報(bào)質(zhì)量，模型尚需改進(jìn)。

五（線性項(xiàng)+交互項(xiàng)）剔除不顯著項(xiàng)模型求取PRESS

在MINITAB系統(tǒng)中，對(duì)公式（1）剔除不顯著項(xiàng)，按四計(jì)算結(jié)果P≤0.05的項(xiàng)保留，指定模型為：

公式中添加物2即x3在公式（1）中P=0.94＞0.05是不顯著的，在MINITAB系統(tǒng)中因子設(shè)計(jì)的計(jì)算，其x2x3交互項(xiàng)是顯著的，要求公式（2）中保留主成分x3，否則另行指定模型，x2x3需進(jìn)行線性變換。

MINITAB系統(tǒng)的計(jì)算輸出：

由于指定的模型結(jié)構(gòu)變化，擬合、預(yù)報(bào)功能有了變化，PRESS進(jìn)一步改善，但預(yù)報(bào)功能仍需改進(jìn)。

公式（1）并非完整的二次多項(xiàng)式，加以公式（2）采用簡(jiǎn)單剔除，可通過二次多項(xiàng)式逐步回歸求取優(yōu)化模型，存在改進(jìn)空間。

六、二次多項(xiàng)式優(yōu)化模型求取PRESS

本文三中是對(duì)N=18組數(shù)據(jù)分別留一組數(shù)據(jù)N-1=17進(jìn)行二次多項(xiàng)式逐步回歸，得到18個(gè)隨機(jī)模型及δi。此處是用N=18組數(shù)據(jù)進(jìn)行二次多項(xiàng)式逐步回歸獲得實(shí)驗(yàn)范圍內(nèi)二次多項(xiàng)式的最優(yōu)模型，以此優(yōu)化模型的主體結(jié)構(gòu)求取留一法的PRESS。

用DPS系統(tǒng)處理，輸出：

復(fù)相關(guān)系數(shù)R=0.982962；

決定系數(shù)R2=0.966214；

剩余標(biāo)準(zhǔn)差SSE=29.0229；

調(diào)整相關(guān)系數(shù)Ra=0.975775；

調(diào)整決定系數(shù)Ra2=0.952136。

分析評(píng)估回歸方程擬合的各項(xiàng)統(tǒng)計(jì)量均有顯著性意義。表1單因素考察因混雜而難以分析的數(shù)據(jù)，經(jīng)二次多項(xiàng)式逐步回歸處理，統(tǒng)計(jì)規(guī)律具有顯著意義。剩下的工作是對(duì)模型的預(yù)報(bào)進(jìn)行評(píng)估，把優(yōu)化模型線性變換，作為指定的主體模型結(jié)構(gòu)，計(jì)算求取留一法的PRESS。

方程引入的項(xiàng)分別有：X3，X2×X2，X3×X3，X1×X4，X2×X3。這5個(gè)引入項(xiàng)線性變換重新作為5個(gè)因子（分別記為進(jìn)行統(tǒng)計(jì)分析，見表 3。

在DPS系統(tǒng)中，輸入表3實(shí)驗(yàn)數(shù)據(jù)，從“多元分析＞回歸分析＞線性回歸”窗口進(jìn)入，計(jì)算輸出。方差分析表

回歸方程

剩余標(biāo)準(zhǔn)差SSE=29.0229

預(yù)測(cè)誤差標(biāo)準(zhǔn)差MSPE=44.0679

表3 線性化處理后的實(shí)驗(yàn)數(shù)據(jù)

本文用了大量計(jì)算解讀PRESS計(jì)算時(shí)的主體模型如何選擇。浦靜雯碩士同時(shí)使用DPS，MINITAB兩個(gè)軟件系統(tǒng)的不同模塊進(jìn)行計(jì)算校核，限于篇幅不能一一展開?，F(xiàn)把本文選擇主體模型計(jì)算PRESS的方法結(jié)果匯總于表4。

表4 方法結(jié)果匯總

從輸出PRESS=23303.7123可知，模型預(yù)報(bào)質(zhì)量大為改善，預(yù)測(cè)誤差的標(biāo)準(zhǔn)差MSPE=44.1相當(dāng)不錯(cuò)。

七 PRESS統(tǒng)計(jì)量可接受判據(jù)

本案例留一法預(yù)報(bào)的殘差平方和PRESS通常比擬合的殘差平方和要大，所以

分子分母自由度為N-P-1=18-5-1=12，常用顯著性水平α=0.05，查單邊檢驗(yàn)F分布表，臨界值F0.05（12，12）=2.69＞2.31，結(jié)論是 F 統(tǒng)計(jì)檢驗(yàn)相對(duì)于 SSE，PRESS沒有顯著性差異。用留一法PRESS值來對(duì)統(tǒng)計(jì)模型的預(yù)測(cè)作整體評(píng)估，在本案例中是可信、可接受的。

在神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)中，也有類似留一法PRESS的LOO-CV方法，把所有樣本N均作為訓(xùn)練集用于訓(xùn)練模型，得到的模型最接近原始樣本的分布，然后再逐次留一作預(yù)報(bào)，評(píng)估結(jié)果比較可靠。吳芳碩士用MATLAB軟件對(duì)此進(jìn)行了BP-LOO-CV、SVR-LOO-CV計(jì)算PRESS的工作，另作專題討論。

最近科技界有頗多的熱點(diǎn)。2016年3月Deep Mind團(tuán)隊(duì)開發(fā)的Alpha Go在人機(jī)大戰(zhàn)中以4∶1的成績(jī)擊敗圍棋世界冠軍李世石，具有里程碑意義。人們對(duì)人工智能（AI）具有的潛在顛覆性有了新的認(rèn)識(shí)。Alpha Go應(yīng)用了13層的深度神經(jīng)網(wǎng)絡(luò)、蒙特卡洛搜索樹計(jì)算技術(shù)以強(qiáng)化學(xué)習(xí)等。機(jī)器學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)技術(shù)值得我們學(xué)習(xí)、關(guān)注。

NgAgo基因編輯技術(shù)的可重復(fù)性、成功概率、細(xì)胞污染實(shí)驗(yàn)誤差的可控制性引起科技界的一片爭(zhēng)議之聲。對(duì)此結(jié)合上?；ぱ芯吭旱目蒲泄ぷ?，編寫了2016年第7講“統(tǒng)計(jì)模型優(yōu)化預(yù)報(bào)的驗(yàn)證”以及本文“關(guān)于留一法PRESS統(tǒng)計(jì)量的應(yīng)用討論。”

筆者在2012年曾和許保云博士對(duì)PRESS嘗試過計(jì)算解讀，本次學(xué)習(xí)研討有了進(jìn)一步認(rèn)識(shí)，也占用了年青朋友的一些業(yè)余時(shí)間。在此抄錄一段愛因斯坦語(yǔ)錄以作共勉：

人的差異產(chǎn)生于業(yè)余時(shí)間。業(yè)余時(shí)間能成就一個(gè)人，也能毀滅一個(gè)人。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

第二十九講 關(guān)于留一法PRESS統(tǒng)計(jì)量的應(yīng)用討論

一 PRESS的概念

二 應(yīng)用案例

三 二次多項(xiàng)式隨機(jī)模型求取PRESS

四 （線性項(xiàng)+交互項(xiàng)）全回歸模型求取PRESS