国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Lasso回歸及模型修正的雙重回歸缺失值插補方法研究

2022-10-14 06:10吳斌鑫周正南莫常春
機械與電子 2022年9期
關(guān)鍵詞:回歸系數(shù)雙重測試

吳斌鑫,劉 美,周正南,,莫常春,4,吳 猛,張 斐

(1.廣東石油化工學(xué)院,廣東 茂名 525000;2.吉林化工學(xué)院,吉林 吉林 132022;3.東莞理工學(xué)院,廣東 東莞 523419;4.大連交通大學(xué),遼寧 大連 116028)

0 引言

在多傳感網(wǎng)絡(luò)監(jiān)測的過程中,由于工作環(huán)境的復(fù)雜性、傳感設(shè)備失效等因素,監(jiān)測數(shù)據(jù)有可能存在缺失。插補法是利用現(xiàn)有數(shù)據(jù),通過統(tǒng)計學(xué)習(xí)方法挖掘數(shù)據(jù)信息并預(yù)測缺失值,避免了原始信息的丟失、保持樣本容量,具有高效的優(yōu)點[1-2]。其中,K近鄰(K-nearest neighbor,KNN)插補法,尋找數(shù)據(jù)集中識別空間相似或相近的K個樣本,并使用這K個樣本估計缺失數(shù)據(jù)點的值,簡單易行[3-4];單一線性回歸插補法,利用完整數(shù)據(jù)建立模型,依據(jù)此模型預(yù)測插補缺失值[5];神經(jīng)網(wǎng)絡(luò)依據(jù)網(wǎng)絡(luò)深度及反向傳播,優(yōu)化網(wǎng)絡(luò)輸出減小誤差,最終做出預(yù)測[6]。機器學(xué)習(xí)算法在處理缺失值時速度快、特征表征能力強,因此應(yīng)用廣泛。

然而,KNN插補法的插補效果因受數(shù)據(jù)集部分異常值影響,導(dǎo)致預(yù)測效果浮動較大[7];單一線性回歸插補法因信息表征能力有限而存在精確度不高的問題[8];神經(jīng)網(wǎng)絡(luò)預(yù)測插補法隨著網(wǎng)絡(luò)層數(shù)增加時間復(fù)雜度較高[9]。因而,本文提出了一種基于Lasso回歸及模型修正的雙重回歸缺失值插補方法。

1 相關(guān)理論分析

Lasso回歸、皮爾遜相關(guān)性分析及嶺回歸是本文方法的重要組成部分,對本文方法起支撐作用。

1.1 Lasso回歸

對于多元線性回歸模型[10],其模型表達式為

(1)

yi為第i個預(yù)測值;βk為第k個自變量對應(yīng)的回歸系數(shù);xi,k為第i行第k個自變量;ε為偏移量;n為自變量個數(shù)。

為保證回歸系數(shù)βk可求,在多元線性回歸目標函數(shù)加上L1范數(shù)懲罰項,則Lasso回歸目標函數(shù)[11]為

J(β)=∑(y-Xβ)2+∑λ|β|

(2)

y為觀測集;X為由x1,x2,…,xn構(gòu)成的集合;β為由β1,β2,…,βn構(gòu)成的回歸系數(shù)集;λ為正則化系數(shù),且值非負。

由Lasso回歸目標函數(shù)可知,其引入L1范數(shù)懲罰項,正則化系數(shù)λ的選取十分重要。因此,本文采用K折交叉驗證的方式對參數(shù)λ進行求取。

1.2 皮爾遜相關(guān)性分析

為彌補單層回歸存在的誤差,將挖掘數(shù)據(jù)之間存在的相關(guān)性,反映各變量與目標值之間的相關(guān)信息,并在此基礎(chǔ)上作為Lasso回歸的特征。此處采用皮爾遜相關(guān)系數(shù)尋找相關(guān)系數(shù)[12],2個變量之間的皮爾遜相關(guān)系數(shù)計算公式為

(3)

ρX,Y為2個變量之間的皮爾遜相關(guān)系數(shù);σX、σY分別為變量X、Y的標準差;μX、μY分別為變量X、Y的均值。

對獲得的相關(guān)系數(shù)重新進行計算(權(quán)重分配),計算公式為

(4)

γi為新獲得的系數(shù);ρXi,Y為原始系數(shù)。

1.3 嶺回歸

在多元線性回歸目標函數(shù)加上L2范數(shù)懲罰項,則嶺回歸目標函數(shù)[13]為

J(β)=∑(y-Xβ)2+∑λβ2

(5)

y為觀測集;X為由x1,x2,…,xn構(gòu)成的集合;β為由β1,β2,…,βn構(gòu)成的回歸系數(shù)集;λ為正則化系數(shù),且值非負。

與Lasso回歸相同的是,嶺回歸對于參數(shù)λ值的求取也非常重要,因此同樣采用K折交叉驗證的方式求取參數(shù)λ。

1.4 KNN插補法

K近鄰(KNN)插補法,通過距離測量來尋找數(shù)據(jù)集中識別空間相似或相近的K個樣本,并使用這K個樣本估計缺失數(shù)據(jù)點的值,或者可以直接使用相鄰觀測值的完整值來估計缺失值,簡單易行。其識別空間相似或相近使用歐氏距離度量,公式為

(6)

2 整體模型構(gòu)建

整體模型以Lasso回歸模型為基礎(chǔ),結(jié)合皮爾遜相關(guān)系數(shù)與嶺回歸模型并將兩者輸出作為Lasso回歸模型的輸入(特征),最終構(gòu)建雙重回歸模型,提高整體預(yù)測插補的精度。

對于任意m×n結(jié)構(gòu)的數(shù)據(jù)集,通過式(1)、式(3)和式(4)可得嶺回歸模型結(jié)構(gòu)及權(quán)重分配后的皮爾遜相關(guān)系數(shù)。假設(shè)求得嶺回歸(第1層回歸)系數(shù)β1,β2,…,βn、嶺回歸偏移量ε及權(quán)重分配后的相關(guān)系數(shù)γ1,γ2,…,γn。那么對于導(dǎo)入的數(shù)據(jù),將會生成集成嶺回歸及相關(guān)性的數(shù)據(jù)集,公式為:

(7)

(8)

將生成的集成嶺回歸及相關(guān)性的數(shù)據(jù)集導(dǎo)入Lasso回歸模型,最終確定回歸系數(shù)及偏移量,即可確定整體模型表達式,即

(9)

ε′為Lasso回歸的偏移量;α1、α2為Lasso回歸系數(shù)。

3 算法設(shè)計及評估

3.1 算法步驟

a.對原始數(shù)據(jù)進行滑動窗口處理以制作數(shù)據(jù)集,并針對數(shù)據(jù)集進行隨機剔除以模擬缺失值。將整個數(shù)據(jù)集分為完整數(shù)據(jù)集和殘缺數(shù)據(jù)集。因2層回歸的數(shù)據(jù)需要,因此再將完整數(shù)據(jù)集分為2組,即訓(xùn)練集1、測試集1、訓(xùn)練集2、測試集2。過程如圖1所示。

圖1 數(shù)據(jù)預(yù)處理

b.劃分后的數(shù)據(jù)集使用訓(xùn)練集1放入嶺回歸模型進行訓(xùn)練,并采用交叉驗證對嶺回歸重要參數(shù)調(diào)優(yōu)。進一步,使用測試集1對嶺回歸評估,與此同時,對訓(xùn)練集1進行皮爾遜相關(guān)性分析獲得應(yīng)變量與自變量之間的初步聯(lián)系。最終得到嶺回歸模型及皮爾遜相關(guān)性模型。過程如圖2所示。

圖2 嶺回歸與皮爾遜相關(guān)分析

c.對已獲得的嶺回歸系數(shù)、偏移量及相關(guān)系數(shù)結(jié)合訓(xùn)練集2進行計算,生成集成嶺回歸及相關(guān)性的訓(xùn)練集(雙列),并將此作為Lasso回歸的輸入用以訓(xùn)練模型,后續(xù)通過K折交叉對Lasso模型參數(shù)調(diào)優(yōu)。同理,測試集2通過嶺回歸模型及皮爾遜相關(guān)性模型生成集成嶺回歸及相關(guān)性的測試集,并對Lasso回歸模型評估。最終初步確定整體模型。過程如圖3所示。

圖3 初步整體模型確定

d.將殘缺數(shù)據(jù)集導(dǎo)入全局初步模型模擬插補,并根據(jù)計算而得的評估指標校正分塊模型的參數(shù),最終完成建模,為后續(xù)缺失值插補提供支撐。

3.2 評估指標

采用均方根誤差ERMS、模型訓(xùn)練時間及決定系數(shù)R2來評估各方法在各缺失率下的插補效果。均方根誤差的計算公式為

(10)

計算時間,即時間花費,該指標關(guān)注模型的時間復(fù)雜度,公式為模型訓(xùn)練結(jié)束時間減去模型訓(xùn)練開始時間,即te-ts。

決定系數(shù)反映了模型對數(shù)據(jù)的擬合能力。決定系數(shù)計算公式為

(11)

u為殘差平方和,v為總體平方差,計算公式分別為:

(12)

(13)

由上述可知,R2的取值范圍一般介于[0,1]。R2的值越高,說明自變量(特征)對因變量解釋程度越高,觀測點在回歸線附近越密集。

4 試驗及結(jié)果分析

本文采用西儲大學(xué)軸承數(shù)據(jù)中正常狀態(tài)下驅(qū)動端加速度數(shù)據(jù)。選擇其中前5 010個采樣點并使用滑動窗口法對數(shù)據(jù)進行處理,窗口長度為11,步長為1,即生成1個5 000×11的數(shù)據(jù)集。使用隨機剔除方法對數(shù)據(jù)集處理,并劃分為殘缺數(shù)據(jù)集和完整數(shù)據(jù)集。在此基礎(chǔ)上,將完整數(shù)據(jù)集分別按照0.35、0.15、0.35、0.15的比例隨機地劃分訓(xùn)練集1、測試集1、訓(xùn)練集2、測試集2。

經(jīng)過數(shù)據(jù)集劃分后,將數(shù)據(jù)集1導(dǎo)入嶺回歸、皮爾遜相關(guān)性分析訓(xùn)練模型并采用10折交叉驗證求得最優(yōu)嶺回歸參數(shù)λ。經(jīng)求得,最優(yōu)嶺回歸參數(shù)λ=1×10-6。獲得嶺回歸系數(shù)、偏移量及皮爾遜相關(guān)系數(shù)如表1所示。

表1 嶺回歸系數(shù)及皮爾遜相關(guān)系數(shù)

表1(續(xù))

將測試集1載入已訓(xùn)練模型,得到嶺回歸測試集分數(shù)(決定系數(shù)R2)為0.961,嶺回歸測試集均方根誤差為0.01。數(shù)據(jù)表明,測試集1在嶺回歸模型中擬合較好,證明了第1層回歸的可靠性。

隨后,對得到的各自變量對應(yīng)的皮爾遜相關(guān)系數(shù)進行權(quán)重分配,權(quán)重分配為式(4)。進一步,將訓(xùn)練集2導(dǎo)入已訓(xùn)練的嶺回歸模型和已權(quán)重分配的皮爾遜相關(guān)模型,對此將得到集成嶺回歸及相關(guān)性的訓(xùn)練集,如圖4所示。其表示第1層回歸(嶺回歸)的輸出,將相關(guān)系數(shù)預(yù)測值作為輔助預(yù)測特征(列),同時也是第2層回歸(Lasso回歸)的輸入。

圖4 集成嶺回歸與相關(guān)性的數(shù)據(jù)集

為確切地擬合真實值,將集成嶺回歸及相關(guān)性的訓(xùn)練集導(dǎo)入Lasso回歸模型并使用10折交叉驗證得到最優(yōu)Lasso回歸參數(shù)λ=1×10-5。在此基礎(chǔ)上,將測試集2導(dǎo)入已訓(xùn)練的嶺回歸模型和已權(quán)重分配的皮爾遜相關(guān)系數(shù)生成集成嶺回歸及相關(guān)性的測試集,后將其載入Lasso回歸模型,以評估Lasso回歸模型。經(jīng)過上述步驟,得到的Lasso回歸系數(shù)為[1.002 3,5.8×10-4],偏移量為0.000 41。Lasso回歸測試集分數(shù)、均方根誤差分別為0.972、0.01。數(shù)據(jù)表明,測試集2在Lasso回歸中擬合較好,證明了第2層回歸的可靠性。

建立可靠的模型后,為驗證整體模型預(yù)測插補效果,使用殘缺數(shù)據(jù)集用以比較不同缺失率、不同插補方法下各評估指標情況。

利用KNN插補法、Lasso回歸插補法及基于Lasso回歸及模型修正的雙重回歸缺失值插補方法(以下簡稱為雙重回歸插補法),對模擬缺失數(shù)據(jù)(殘缺數(shù)據(jù)集)進行預(yù)測,并針對不同缺失率(4%、10%和20%)比較各方法在評估指標下的插補效果,如表2所示。表2中的數(shù)據(jù)皆為經(jīng)過多次驗證后的平均數(shù),且各模型參數(shù)已由K折交叉驗證取得最優(yōu)參數(shù),其中Lasso回歸插補法參數(shù)λ=1×10-5,KNN插補法參數(shù)neighbors=5。

表2 各缺失率下研究方法及評估指標情況

由表2可知,雙重回歸插補法與單一Lasso回歸插補法在各評價指標中相對于KNN插補法均有著不錯的效果,可能由于數(shù)據(jù)的無規(guī)律性及空間距離的復(fù)雜性導(dǎo)致了KNN插補法效果較差。單一Lasso回歸插補法憑借其模型簡單,在時間復(fù)雜度上優(yōu)于雙重回歸插補法,但也由此存在著相比于雙重回歸插補法更大的均方根誤差、更小的決定系數(shù)。

以4%缺失率為例,3種方法預(yù)測插補如圖5~圖7所示。

由圖5~圖7可以知道,以4%缺失率為例,雙重回歸插補法略優(yōu)于Lasso回歸插補法,更勝于KNN插補法,但是依舊出現(xiàn)部分點略有偏離的情況。

圖5 4%缺失率下殘缺數(shù)據(jù)集雙重回歸預(yù)測插補圖

圖6 4%缺失率下殘缺數(shù)據(jù)集Lasso回歸預(yù)測插補圖

圖7 4%缺失率下殘缺數(shù)據(jù)集KNN插補圖

雙重回歸插補法可以更好地擬合真實值,其建立的模型泛化能力較強,預(yù)測插補值與真實值相等或者接近,能夠為后續(xù)的處理提供可靠保障。

5 結(jié)束語

本文提出了一種基于Lasso回歸及模型修正的雙重回歸缺失值插補方法,并使用KNN插補法、Lasso插補法以均方根誤差、決定系數(shù)、計算時間為評估指標進行橫向、縱向?qū)Ρ?。結(jié)果表明:基于Lasso回歸及模型修正的雙重回歸缺失值插補法略優(yōu)于Lasso回歸插補法,更勝于KNN插補法;在測試集、殘缺數(shù)據(jù)集方面,雙重回歸插補法有更好的表現(xiàn),但是依然存在部分預(yù)測插補值偏離正確值的情況,若需要完善,可能需要對數(shù)據(jù)及算法做更深層次的處理。

猜你喜歡
回歸系數(shù)雙重測試
基于雙重預(yù)防機制創(chuàng)新化工企業(yè)管理模式
“雙重沖擊”下的朝鮮半島新博弈
心理測試
分析師關(guān)注對財務(wù)重述的雙重作用
分析師關(guān)注對財務(wù)重述的雙重作用
基于生產(chǎn)函數(shù)模型的地區(qū)經(jīng)濟發(fā)展影響因素分析
電導(dǎo)法協(xié)同Logistic方程進行6種蘋果砧木抗寒性的比較
電導(dǎo)法協(xié)同Logistic方程進行6種蘋果砧木抗寒性的比較
心理小測試
測試