基于Lasso回歸及模型修正的雙重回歸缺失值插補方法研究

2022-10-14 06:10吳斌鑫周正南莫常春

機械與電子 2022年9期

吳斌鑫,劉美,周正南，,莫常春，4,吳猛,張斐

(1.廣東石油化工學(xué)院，廣東茂名 525000；2.吉林化工學(xué)院，吉林吉林 132022；3.東莞理工學(xué)院，廣東東莞 523419；4.大連交通大學(xué)，遼寧大連 116028)

0 引言

在多傳感網(wǎng)絡(luò)監(jiān)測的過程中，由于工作環(huán)境的復(fù)雜性、傳感設(shè)備失效等因素，監(jiān)測數(shù)據(jù)有可能存在缺失。插補法是利用現(xiàn)有數(shù)據(jù)，通過統(tǒng)計學(xué)習(xí)方法挖掘數(shù)據(jù)信息并預(yù)測缺失值，避免了原始信息的丟失、保持樣本容量，具有高效的優(yōu)點[1-2]。其中，K近鄰(K-nearest neighbor，KNN)插補法，尋找數(shù)據(jù)集中識別空間相似或相近的K個樣本，并使用這K個樣本估計缺失數(shù)據(jù)點的值，簡單易行[3-4]；單一線性回歸插補法，利用完整數(shù)據(jù)建立模型，依據(jù)此模型預(yù)測插補缺失值[5]；神經(jīng)網(wǎng)絡(luò)依據(jù)網(wǎng)絡(luò)深度及反向傳播，優(yōu)化網(wǎng)絡(luò)輸出減小誤差，最終做出預(yù)測[6]。機器學(xué)習(xí)算法在處理缺失值時速度快、特征表征能力強，因此應(yīng)用廣泛。

然而，KNN插補法的插補效果因受數(shù)據(jù)集部分異常值影響，導(dǎo)致預(yù)測效果浮動較大[7]；單一線性回歸插補法因信息表征能力有限而存在精確度不高的問題[8]；神經(jīng)網(wǎng)絡(luò)預(yù)測插補法隨著網(wǎng)絡(luò)層數(shù)增加時間復(fù)雜度較高[9]。因而，本文提出了一種基于Lasso回歸及模型修正的雙重回歸缺失值插補方法。

1 相關(guān)理論分析

Lasso回歸、皮爾遜相關(guān)性分析及嶺回歸是本文方法的重要組成部分，對本文方法起支撐作用。

1.1 Lasso回歸

對于多元線性回歸模型[10]，其模型表達式為

(1)

yi為第i個預(yù)測值；βk為第k個自變量對應(yīng)的回歸系數(shù)；xi,k為第i行第k個自變量；ε為偏移量；n為自變量個數(shù)。

為保證回歸系數(shù)βk可求，在多元線性回歸目標函數(shù)加上L1范數(shù)懲罰項，則Lasso回歸目標函數(shù)[11]為

J(β)=∑(y-Xβ)2+∑λ|β|

(2)

y為觀測集；X為由x1，x2,…,xn構(gòu)成的集合；β為由β1，β2,…,βn構(gòu)成的回歸系數(shù)集；λ為正則化系數(shù)，且值非負。

由Lasso回歸目標函數(shù)可知，其引入L1范數(shù)懲罰項，正則化系數(shù)λ的選取十分重要。因此，本文采用K折交叉驗證的方式對參數(shù)λ進行求取。

1.2 皮爾遜相關(guān)性分析

為彌補單層回歸存在的誤差，將挖掘數(shù)據(jù)之間存在的相關(guān)性，反映各變量與目標值之間的相關(guān)信息，并在此基礎(chǔ)上作為Lasso回歸的特征。此處采用皮爾遜相關(guān)系數(shù)尋找相關(guān)系數(shù)[12]，2個變量之間的皮爾遜相關(guān)系數(shù)計算公式為

(3)

ρX,Y為2個變量之間的皮爾遜相關(guān)系數(shù)；σX、σY分別為變量X、Y的標準差；μX、μY分別為變量X、Y的均值。

對獲得的相關(guān)系數(shù)重新進行計算(權(quán)重分配)，計算公式為

(4)

γi為新獲得的系數(shù)；ρXi,Y為原始系數(shù)。

1.3 嶺回歸

在多元線性回歸目標函數(shù)加上L2范數(shù)懲罰項，則嶺回歸目標函數(shù)[13]為

J(β)=∑(y-Xβ)2+∑λβ2

(5)

y為觀測集；X為由x1，x2,…,xn構(gòu)成的集合；β為由β1，β2,…,βn構(gòu)成的回歸系數(shù)集；λ為正則化系數(shù)，且值非負。

與Lasso回歸相同的是，嶺回歸對于參數(shù)λ值的求取也非常重要，因此同樣采用K折交叉驗證的方式求取參數(shù)λ。

1.4 KNN插補法

K近鄰(KNN)插補法，通過距離測量來尋找數(shù)據(jù)集中識別空間相似或相近的K個樣本，并使用這K個樣本估計缺失數(shù)據(jù)點的值，或者可以直接使用相鄰觀測值的完整值來估計缺失值，簡單易行。其識別空間相似或相近使用歐氏距離度量，公式為

(6)

2 整體模型構(gòu)建

整體模型以Lasso回歸模型為基礎(chǔ)，結(jié)合皮爾遜相關(guān)系數(shù)與嶺回歸模型并將兩者輸出作為Lasso回歸模型的輸入(特征)，最終構(gòu)建雙重回歸模型，提高整體預(yù)測插補的精度。

對于任意m×n結(jié)構(gòu)的數(shù)據(jù)集，通過式(1)、式(3)和式(4)可得嶺回歸模型結(jié)構(gòu)及權(quán)重分配后的皮爾遜相關(guān)系數(shù)。假設(shè)求得嶺回歸(第1層回歸)系數(shù)β1，β2,…,βn、嶺回歸偏移量ε及權(quán)重分配后的相關(guān)系數(shù)γ1，γ2,…,γn。那么對于導(dǎo)入的數(shù)據(jù)，將會生成集成嶺回歸及相關(guān)性的數(shù)據(jù)集，公式為：

(7)

(8)

將生成的集成嶺回歸及相關(guān)性的數(shù)據(jù)集導(dǎo)入Lasso回歸模型，最終確定回歸系數(shù)及偏移量，即可確定整體模型表達式，即

(9)

ε′為Lasso回歸的偏移量；α1、α2為Lasso回歸系數(shù)。

3 算法設(shè)計及評估

3.1 算法步驟

a.對原始數(shù)據(jù)進行滑動窗口處理以制作數(shù)據(jù)集，并針對數(shù)據(jù)集進行隨機剔除以模擬缺失值。將整個數(shù)據(jù)集分為完整數(shù)據(jù)集和殘缺數(shù)據(jù)集。因2層回歸的數(shù)據(jù)需要，因此再將完整數(shù)據(jù)集分為2組，即訓(xùn)練集1、測試集1、訓(xùn)練集2、測試集2。過程如圖1所示。

圖1 數(shù)據(jù)預(yù)處理

b.劃分后的數(shù)據(jù)集使用訓(xùn)練集1放入嶺回歸模型進行訓(xùn)練，并采用交叉驗證對嶺回歸重要參數(shù)調(diào)優(yōu)。進一步，使用測試集1對嶺回歸評估，與此同時，對訓(xùn)練集1進行皮爾遜相關(guān)性分析獲得應(yīng)變量與自變量之間的初步聯(lián)系。最終得到嶺回歸模型及皮爾遜相關(guān)性模型。過程如圖2所示。

圖2 嶺回歸與皮爾遜相關(guān)分析

c.對已獲得的嶺回歸系數(shù)、偏移量及相關(guān)系數(shù)結(jié)合訓(xùn)練集2進行計算，生成集成嶺回歸及相關(guān)性的訓(xùn)練集(雙列)，并將此作為Lasso回歸的輸入用以訓(xùn)練模型，后續(xù)通過K折交叉對Lasso模型參數(shù)調(diào)優(yōu)。同理，測試集2通過嶺回歸模型及皮爾遜相關(guān)性模型生成集成嶺回歸及相關(guān)性的測試集，并對Lasso回歸模型評估。最終初步確定整體模型。過程如圖3所示。

圖3 初步整體模型確定

d.將殘缺數(shù)據(jù)集導(dǎo)入全局初步模型模擬插補，并根據(jù)計算而得的評估指標校正分塊模型的參數(shù)，最終完成建模，為后續(xù)缺失值插補提供支撐。

3.2 評估指標

采用均方根誤差ERMS、模型訓(xùn)練時間及決定系數(shù)R2來評估各方法在各缺失率下的插補效果。均方根誤差的計算公式為

(10)

計算時間，即時間花費，該指標關(guān)注模型的時間復(fù)雜度，公式為模型訓(xùn)練結(jié)束時間減去模型訓(xùn)練開始時間，即te-ts。

決定系數(shù)反映了模型對數(shù)據(jù)的擬合能力。決定系數(shù)計算公式為

(11)

u為殘差平方和，v為總體平方差，計算公式分別為：

(12)

(13)

由上述可知，R2的取值范圍一般介于[0，1]。R2的值越高，說明自變量(特征)對因變量解釋程度越高，觀測點在回歸線附近越密集。

4 試驗及結(jié)果分析

本文采用西儲大學(xué)軸承數(shù)據(jù)中正常狀態(tài)下驅(qū)動端加速度數(shù)據(jù)。選擇其中前5 010個采樣點并使用滑動窗口法對數(shù)據(jù)進行處理，窗口長度為11，步長為1，即生成1個5 000×11的數(shù)據(jù)集。使用隨機剔除方法對數(shù)據(jù)集處理，并劃分為殘缺數(shù)據(jù)集和完整數(shù)據(jù)集。在此基礎(chǔ)上，將完整數(shù)據(jù)集分別按照0.35、0.15、0.35、0.15的比例隨機地劃分訓(xùn)練集1、測試集1、訓(xùn)練集2、測試集2。

經(jīng)過數(shù)據(jù)集劃分后，將數(shù)據(jù)集1導(dǎo)入嶺回歸、皮爾遜相關(guān)性分析訓(xùn)練模型并采用10折交叉驗證求得最優(yōu)嶺回歸參數(shù)λ。經(jīng)求得，最優(yōu)嶺回歸參數(shù)λ=1×10-6。獲得嶺回歸系數(shù)、偏移量及皮爾遜相關(guān)系數(shù)如表1所示。

表1 嶺回歸系數(shù)及皮爾遜相關(guān)系數(shù)

表1(續(xù))

將測試集1載入已訓(xùn)練模型，得到嶺回歸測試集分數(shù)(決定系數(shù)R2)為0.961，嶺回歸測試集均方根誤差為0.01。數(shù)據(jù)表明，測試集1在嶺回歸模型中擬合較好，證明了第1層回歸的可靠性。

隨后，對得到的各自變量對應(yīng)的皮爾遜相關(guān)系數(shù)進行權(quán)重分配，權(quán)重分配為式(4)。進一步，將訓(xùn)練集2導(dǎo)入已訓(xùn)練的嶺回歸模型和已權(quán)重分配的皮爾遜相關(guān)模型，對此將得到集成嶺回歸及相關(guān)性的訓(xùn)練集,如圖4所示。其表示第1層回歸(嶺回歸)的輸出，將相關(guān)系數(shù)預(yù)測值作為輔助預(yù)測特征(列)，同時也是第2層回歸(Lasso回歸)的輸入。

圖4 集成嶺回歸與相關(guān)性的數(shù)據(jù)集

為確切地擬合真實值，將集成嶺回歸及相關(guān)性的訓(xùn)練集導(dǎo)入Lasso回歸模型并使用10折交叉驗證得到最優(yōu)Lasso回歸參數(shù)λ=1×10-5。在此基礎(chǔ)上，將測試集2導(dǎo)入已訓(xùn)練的嶺回歸模型和已權(quán)重分配的皮爾遜相關(guān)系數(shù)生成集成嶺回歸及相關(guān)性的測試集，后將其載入Lasso回歸模型，以評估Lasso回歸模型。經(jīng)過上述步驟，得到的Lasso回歸系數(shù)為[1.002 3,5.8×10-4]，偏移量為0.000 41。Lasso回歸測試集分數(shù)、均方根誤差分別為0.972、0.01。數(shù)據(jù)表明，測試集2在Lasso回歸中擬合較好，證明了第2層回歸的可靠性。

建立可靠的模型后，為驗證整體模型預(yù)測插補效果，使用殘缺數(shù)據(jù)集用以比較不同缺失率、不同插補方法下各評估指標情況。

利用KNN插補法、Lasso回歸插補法及基于Lasso回歸及模型修正的雙重回歸缺失值插補方法(以下簡稱為雙重回歸插補法),對模擬缺失數(shù)據(jù)(殘缺數(shù)據(jù)集)進行預(yù)測，并針對不同缺失率(4%、10%和20%)比較各方法在評估指標下的插補效果，如表2所示。表2中的數(shù)據(jù)皆為經(jīng)過多次驗證后的平均數(shù),且各模型參數(shù)已由K折交叉驗證取得最優(yōu)參數(shù)，其中Lasso回歸插補法參數(shù)λ=1×10-5，KNN插補法參數(shù)neighbors=5。

表2 各缺失率下研究方法及評估指標情況

由表2可知，雙重回歸插補法與單一Lasso回歸插補法在各評價指標中相對于KNN插補法均有著不錯的效果，可能由于數(shù)據(jù)的無規(guī)律性及空間距離的復(fù)雜性導(dǎo)致了KNN插補法效果較差。單一Lasso回歸插補法憑借其模型簡單，在時間復(fù)雜度上優(yōu)于雙重回歸插補法，但也由此存在著相比于雙重回歸插補法更大的均方根誤差、更小的決定系數(shù)。

以4%缺失率為例，3種方法預(yù)測插補如圖5～圖7所示。

由圖5～圖7可以知道，以4%缺失率為例，雙重回歸插補法略優(yōu)于Lasso回歸插補法，更勝于KNN插補法，但是依舊出現(xiàn)部分點略有偏離的情況。

圖5 4%缺失率下殘缺數(shù)據(jù)集雙重回歸預(yù)測插補圖

圖6 4%缺失率下殘缺數(shù)據(jù)集Lasso回歸預(yù)測插補圖

圖7 4%缺失率下殘缺數(shù)據(jù)集KNN插補圖

雙重回歸插補法可以更好地擬合真實值，其建立的模型泛化能力較強，預(yù)測插補值與真實值相等或者接近，能夠為后續(xù)的處理提供可靠保障。

5 結(jié)束語

本文提出了一種基于Lasso回歸及模型修正的雙重回歸缺失值插補方法，并使用KNN插補法、Lasso插補法以均方根誤差、決定系數(shù)、計算時間為評估指標進行橫向、縱向?qū)Ρ?。結(jié)果表明：基于Lasso回歸及模型修正的雙重回歸缺失值插補法略優(yōu)于Lasso回歸插補法，更勝于KNN插補法；在測試集、殘缺數(shù)據(jù)集方面，雙重回歸插補法有更好的表現(xiàn)，但是依然存在部分預(yù)測插補值偏離正確值的情況，若需要完善，可能需要對數(shù)據(jù)及算法做更深層次的處理。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡