国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

適應(yīng)性回歸分析(Ⅰ)
——回歸模型的構(gòu)建與求解

2019-06-18 02:44:48羅艷虹胡良平
四川精神衛(wèi)生 2019年2期
關(guān)鍵詞:見式界值樣條

羅艷虹,胡良平

(1.山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室,山西 太原 030001;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029;3.軍事科學(xué)院研究生院,北京 100850

1 適應(yīng)性回歸模型

1.1 維數(shù)災(zāi)難

在回歸分析中,當(dāng)自變量的數(shù)目很多(往往問題本身帶有很多自變量,再加上派生變量)時,模型空間就非常大,此時,建模者傾向于選擇非參數(shù)模型取代參數(shù)模型。然而,當(dāng)自變量數(shù)目大到一定程度時,由于自變量水平組合所形成的“試驗點”在高維空間中會顯得非?!跋∈琛?,從而導(dǎo)致回歸模型的方差迅速增大,以至于回歸建模過程無法收斂或回歸分析的結(jié)果失去其應(yīng)有的價值,這種現(xiàn)象被稱為“維數(shù)災(zāi)難”。

1.2 何為適應(yīng)性回歸分析

解決“維數(shù)災(zāi)難”問題的常用方法有以下兩種:其一,將所研究的問題限于“低維空間”;其二,假定建模過程具有“可加性”,采用“加性模型”[1]。這兩種思維方法都存在一定的局限性,只是部分地或回避式地解決了“維數(shù)災(zāi)難”問題。Friedman[2]提出的“多元適應(yīng)性回歸樣條建模技術(shù)”在一定程度上較好地解決了前述提及的難題。多元適應(yīng)性回歸樣條建模技術(shù)被簡稱為“適應(yīng)性回歸分析方法”,此法由以下兩步組成:第一步,采用“快速更新算法”創(chuàng)建一個“過擬合模型”,以下將被稱為“向前選擇”;第二步,采用“后向選擇”修剪已經(jīng)創(chuàng)建的回歸模型。

1.3 適應(yīng)性回歸模型的形式[3]

由多元適應(yīng)性回歸樣條算法產(chǎn)生的回歸模型可用式(1)或式(2)表示:

(1)

(2)

式(1)或式(2)還可以用式(3)表示:

(3)

在式(3)中,第2、3、4項分別代表僅含單個自變量、含兩個自變量及其交互作用項和含三個自變量及其交互作用項所形成的基函數(shù)之和。由此可知,多元適應(yīng)性回歸樣條模型的結(jié)構(gòu)非常復(fù)雜,以擬合復(fù)雜程度不同的數(shù)據(jù)結(jié)構(gòu)并使之達到所期望的“擬合優(yōu)度界值”。

1.4 適應(yīng)性回歸模型的解說

式(1)到式(3)在本質(zhì)是一樣的,但式(2)和式(3)的形式非常復(fù)雜,而式(1)相對簡單。下面用通俗的語言解釋式(1)。

(4)

由此可知:構(gòu)建適應(yīng)性回歸模型的關(guān)鍵在于如何構(gòu)造各個“基函數(shù)”;模型求解的關(guān)鍵在于如何估計出式(1)或式(2)或式(3)中的回歸系數(shù)。這個計算過程比較繁瑣,通常需要借助統(tǒng)計軟件(如SAS/STAT 12.1中的“ADAPTIVEREG”過程,此模塊已嵌入SAS 9.3及以上版本)來完成。

2 變量變換方法

2.1 概述

在進行適應(yīng)性回歸建模過程中,需要對變量進行變換,而不是直接將原變量代入回歸模型。對變量進行怎樣的變換,取決于變量的類型。換言之,對連續(xù)型變量與分類變量將采取不同的變換方法。

2.2 連續(xù)型變量的變換

對于連續(xù)型變量,采用線性截斷冪樣條變換,分別見式(5)、式(6):

(5)

(6)

其中t為變量V的結(jié)點值(或稱為分割值),而v為其觀測值。為了不用測定變量V的每個值,通過假設(shè)底層函數(shù)的平滑度來使用一系列的最小跨度的結(jié)點值。Friedman[2]使用以下公式來確定結(jié)點之間的合理數(shù)目(跨度大小)。對于內(nèi)部結(jié)點,跨度大小由以下公式?jīng)Q定,見式(7):

(7)

對于邊界結(jié)點,跨度大小由以下公式?jīng)Q定,見式(8):

(8)

其中,α為決定結(jié)點密度的參數(shù),p為變量數(shù),nm為父基函數(shù)Bm>0的觀察數(shù)目。

2.3 分類型變量的變換

對于分類變量,變量通過指示函數(shù)進行轉(zhuǎn)換,分別見式(9)、式(10):

(9)

(10)

其中{c1,…,ct}為變量V類別的子集。這種平滑法適用于分類變量,它假設(shè)各個類別的子集具有相似的性質(zhì),類似于假設(shè)對連續(xù)變量進行局部區(qū)域的預(yù)測。

如果一個分類變量有k個不同的分類,那么共有(2k+1-1)種可能的子集。計算成本等于回歸中所有子集的選擇,對于大的k值來說代價較大。多元自適應(yīng)回歸樣條算法采用逐步選擇的方法選擇分類,從而形成子集為{c1,…ct}。該方法仍然是貪婪的,但它減少了計算,并產(chǎn)生合理的最終模型。

3 回歸模型中自變量的篩選

3.1 向前選擇

多元自適應(yīng)樣條算法的向前選擇過程如下:

(1)設(shè)定初值B0=1,M=1;

(2)重復(fù)以下步驟,直到基函數(shù)的值達到最大,最大值為Mmax;或者Bm、v和t三個參數(shù)的任意組合都不會使模型性能得到更好的提升。

1)設(shè)置“失擬(即模型不能表達資料變化的部分)”的界值LOF*=∞;

2)對于篩選出的基函數(shù)Bm,m∈{0,…,M-1}都對變量v做以下操作,對于v?{v(k,m)|1≤k≤Km}者除外。

①對于滿足v:t∈{v|Bm>0}的變量,每個結(jié)點值(或類別中子集)t建立一個由當(dāng)前所有選定基函數(shù)組成的模型及兩個新基函數(shù):BmT1(v,t)和BmT2(v,t);

②計算新模型LOF欠擬合的界值;

③如果LOF

3)通過在模型中增加Bm*T1(v*,t*)和Bm*T2(v*,t*),最大程度上更新模型。

4)設(shè)定M=M+2。

每個條目最重要的部分是發(fā)現(xiàn)Bm、v和t之間的關(guān)系,例如在模型中添加兩個相關(guān)基函數(shù)。向前選擇的目標(biāo)是建立一種過擬合數(shù)據(jù)的模型。線性模型的殘差準(zhǔn)則通常是殘差平方和(RSS)。

3.2 向后選擇

多元自適應(yīng)回歸樣條算法的向后選擇過程如下:

(1)通過設(shè)置整體的欠擬合標(biāo)準(zhǔn)來初始化:LOF*=∞;

(2)重復(fù)以下步驟,直到達到空模型為止。最后一個模型是在向后篩選過程中發(fā)現(xiàn)的最佳模型。

1)對于篩選的基函數(shù)Bm,m∈{0,…,M-1}:

①對于不包含Bm,計算欠擬合標(biāo)準(zhǔn)(LOF);

②如果LOF

③從當(dāng)前模型中減去Bm*。

2)設(shè)定M=M-1。

向后選擇的目的是“修剪”過擬合的模型,找出預(yù)測性能最好的模型。因此,使用過擬合界值來表示模型對原始數(shù)據(jù)表達的真實性是不合理的。相反,多元自適應(yīng)回歸樣條算法使用一個類似于廣義交叉驗證界值的數(shù)量。更多信息參見“擬合優(yōu)度界值”一節(jié)。

4 快速算法

原始的多變量自適應(yīng)回歸樣條算法計算代價較大。為了提高計算速度,F(xiàn)riedman提出了快速算法??焖偎惴ǖ幕舅枷胧菧p少在向前選擇的每個步驟中,檢驗B、V和t的組合的數(shù)量。

假設(shè)有在第k次迭代之后形成的(2K+1)個基,其中選擇父基Bm來構(gòu)造兩個新的基??紤]一個以基為元素的隊列,在隊列的頂部是B2k和B2k+1兩個新構(gòu)造的基。隊列的其余部分根據(jù)每個基的最小無匹配條件進行排序,排序方法見式(11):

(11)

式(11)中,求極小值函數(shù)“min”下部有兩個條件,其一,“for all eligible V”的含義是“對于所有合格的變量V”;其二,“for all knott”的含義是“對于所有的結(jié)點t”。

當(dāng)k不小時,模型中有相對較多的基,增加基的個數(shù)不太可能顯著提高擬合優(yōu)度。因此,在相鄰迭代期間,優(yōu)先隊列中基的排名變化太大。候選的父基可以被限制為第一次迭代隊列中的前K個基。第k次迭代之后,頂部基有新的J(Bi)值,而底基的值不變。隊列根據(jù)J(Bi)值重新排序。這對應(yīng)于MODEL語句中FAST選項的K=選項值。

為了避免排在最后的候選基被放棄使用,并允許它們重新上升到頂部,一個自然的“老化”因素被引入到每個基。通過定義每個基函數(shù)的優(yōu)先級來實現(xiàn),見式(12):

P(Bi)=R(Bi)+β(kc-kr)

(12)

其中R(Bi)為隊列中第i個基的秩,kc為當(dāng)前迭代次數(shù),kr為上次計算J(Bi)值的迭代次數(shù)。然后根據(jù)這個優(yōu)先級重新對前K個候選基進行排序。較大的β值會導(dǎo)致在以前的迭代中改進較小的基以更快的速度上升到列表頂部。這對應(yīng)于MODEL語句中FAST選項的“BETA=”值。

對于優(yōu)先級隊列頂部的候選基,將重新計算(k+1)次迭代的所有合格變量V的最小失擬界值J(Bi)。得出的最優(yōu)變量可能與前一次迭代中找到的變量相同。因此,快速多元自適應(yīng)回歸樣條算法引入另一個因子H以節(jié)省計算成本。該因子指定J(Bi)應(yīng)該為所有合格變量重新計算的頻率。如果H=1,在考慮父基時,每次迭代中對所有變量都進行優(yōu)化。如果H=5,經(jīng)過5次迭代完成視為最優(yōu)。如果小于指定H的迭代計數(shù),則優(yōu)化只在之前完全的優(yōu)化中找到的最優(yōu)變量進行。當(dāng)然,有前三個候選項例外,B2k+1(這是用于構(gòu)建兩個新基的父基Bm)和兩個新基:B2k和B2k+1。在每次迭代中執(zhí)行它們的完整優(yōu)化。這與MODEL語句中FAST選項的“H=”選項值有關(guān)。

5 擬合優(yōu)度界值

與其他非參數(shù)回歸過程一樣,多元自適應(yīng)回歸樣條算法可以產(chǎn)生復(fù)雜的模型,這些模型包含高階交互作用項并考慮許多結(jié)點值或子集。除了基函數(shù),向前選擇和向后選擇過程都是高度非線性的??紤]在偏倚與方差之間取其折中,包含多個參數(shù)的復(fù)雜模型傾向于較低偏倚而較高方差。為了選擇具有良好預(yù)測性能的模型,Craven等[4]提出了被廣泛使用的廣義交叉驗證(GCV)界值,見式(13):

(13)

(14)

其中d為每個非線性基函數(shù)所需要的自由度,M為模型中線性無關(guān)基函數(shù)的總數(shù)。因為在多變量自適應(yīng)回歸樣條算法的每個步驟中評估的任何候選模型都是一個線性模型,所以M實際上是冒子矩陣的跡。GCV界值和LOF界值的唯一區(qū)別是額外項d(M-1)。相應(yīng)的有效自由度被定義為M+d(M-1)/2。在形成新基函數(shù)時,需要考慮非線性,故引入了d這個數(shù)量,同時,它也作為一個平滑參數(shù)而存在。d值越大,函數(shù)估計越平滑。Friedman[2]認為d值一般為“2~4”。對于結(jié)構(gòu)復(fù)雜的數(shù)據(jù),d值可以更大。用戶也可以使用交叉驗證作為擬合優(yōu)度界值,或使用各自的驗證數(shù)據(jù)集來選擇模型和單獨的測試數(shù)據(jù)集來評估選定的模型。

猜你喜歡
見式界值樣條
高速公路下穿既有鐵路橋橋墩基底承載力驗算*
公路與汽運(2024年1期)2024-03-07 03:02:06
低溫下船用鋼材彈塑性曲線研究
河南科技(2023年1期)2023-02-11 12:17:04
一元五次B樣條擬插值研究
Effects of Landau damping and collision on stimulated Raman scattering with various phase-space distributions
《確認GRADE證據(jù)評級的目標(biāo)》文獻解讀
橋(門)式起重機起升機構(gòu)高速浮動軸設(shè)計
三次參數(shù)樣條在機床高速高精加工中的應(yīng)用
初中數(shù)學(xué)中絕對值性質(zhì)的應(yīng)用
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測
軟件(2017年6期)2017-09-23 20:56:27
基于樣條函數(shù)的高精度電子秤設(shè)計
平泉县| 左权县| 湄潭县| 昌黎县| 涿州市| 泸水县| 永州市| 土默特右旗| 开化县| 基隆市| 静安区| 通渭县| 盐山县| 汪清县| 长沙市| 水富县| 中卫市| 乌拉特前旗| 浦县| 姚安县| 综艺| 岫岩| 盐源县| 新乡县| 肇州县| 邢台市| 广安市| 高安市| 微山县| 桦川县| 楚雄市| 通河县| 呈贡县| 扬州市| 文昌市| 三江| 罗源县| 驻马店市| 洪江市| 岳阳县| 仙游县|