求解大規(guī)模矛盾方程組的最小二乘支持向量機(jī)算法

2022-07-25 13:52鄭素佩閆佳宋學(xué)力陳熒

浙江大學(xué)學(xué)報(bào)（理學(xué)版） 2022年4期

鄭素佩，閆佳，宋學(xué)力，陳熒

（長(zhǎng)安大學(xué)理學(xué)院，陜西西安 710064）

0 引言

在求解范圍內(nèi)無(wú)解（解為空集）的方程組稱為該范圍內(nèi)的矛盾方程組。矛盾方程組在實(shí)際生活中應(yīng)用廣泛，通常采用最小二乘法求解，其基本思想是尋找一組解，使得方程組兩端的偏差向量的2-范數(shù)平方最小。近年來(lái)，基于最小二乘法的新算法不斷涌現(xiàn)，如JIANG[1]系統(tǒng)闡述了最小二乘有限元法；李玉良等[2]依據(jù)圣維南原理，提出了基于最小二乘法的復(fù)雜局部邊界結(jié)構(gòu)載荷誤差消減算法。

隨著信息技術(shù)的發(fā)展，實(shí)際遇到的矛盾方程組規(guī)模都較大。當(dāng)方程組規(guī)模過(guò)大時(shí)，用傳統(tǒng)的最小二乘法求解，計(jì)算、存儲(chǔ)均較復(fù)雜，且誤差較大，需要尋找更好的算法。例如，將最小二乘與隨機(jī)算法相結(jié)合[3]，運(yùn)用機(jī)器學(xué)習(xí)改進(jìn)最小二乘法的計(jì)算精度[4]等。

機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科，以計(jì)算機(jī)為工具模擬人類的學(xué)習(xí)方式，適用于大規(guī)模數(shù)據(jù)處理，可很好地解決非線性問(wèn)題。其中支持向量機(jī)（support vector machine，SVM）[5-6]因具有出色的泛化能力和較強(qiáng)的樣本適應(yīng)能力應(yīng)用廣泛。SUYKENS等[7]從機(jī)器學(xué)習(xí)的損失函數(shù)入手提出的最小二乘支持向量機(jī)（least squares support vector machine，LS-SVM）算法，求解精度大幅提高，并不斷被用于解決實(shí)際問(wèn)題。例如徐鋒等[8]提出了基于LS-SVM積分型辨識(shí)樣本結(jié)構(gòu)的船舶操縱運(yùn)動(dòng)的在線建模。SHARMA等[9]為提高工程造價(jià)預(yù)測(cè)的準(zhǔn)確性，提出了基于LS-SVM的工程造價(jià)預(yù)測(cè)模型，該模型預(yù)測(cè)精度高，結(jié)果穩(wěn)定，相對(duì)誤差在7%內(nèi)。趙慶志等[10]應(yīng)用LS-SVM實(shí)現(xiàn)了對(duì)未來(lái)降雨的預(yù)測(cè)，可準(zhǔn)確預(yù)測(cè)99%的降雨事件。鮮有報(bào)道涉及基于LS-SVM算法求解具有實(shí)際背景的大規(guī)模矛盾方程組的研究。鑒于此，本文采用LS-SVM算法對(duì)大規(guī)模矛盾方程組進(jìn)行數(shù)值求解，給出求解過(guò)程，將其應(yīng)用于若干具體算例，并對(duì)結(jié)果進(jìn)行分析和比較。

1 矛盾方程組的最小二乘解

2 機(jī)器學(xué)習(xí)法求解矛盾方程組

將最小二乘法運(yùn)用于SVM，在優(yōu)化問(wèn)題的目標(biāo)函數(shù)中使用2-范數(shù)，用等式約束條件代替SVM標(biāo)準(zhǔn)算法中的不等式約束條件，得到LS-SVM[7]。SVM與LS-SVM的區(qū)別主要表現(xiàn)在：

（1）優(yōu)化問(wèn)題的構(gòu)造不同，SVM采用的目標(biāo)函數(shù)為誤差因子的一次項(xiàng)，約束條件為不等式約束；LS-SVM具有最小二乘的性質(zhì)，采用的目標(biāo)函數(shù)為平方項(xiàng)，約束條件為等式約束。

（2）在求解二次規(guī)劃（quadratic programming，QP）問(wèn)題時(shí)，SVM的變量維數(shù)與訓(xùn)練樣本的個(gè)數(shù)相同，求解過(guò)程中矩陣元素的個(gè)數(shù)是訓(xùn)練樣本個(gè)數(shù)的平方，當(dāng)數(shù)據(jù)規(guī)模較大時(shí)，SVM的求解規(guī)模也隨之增大；LS-SVM則通過(guò)求解線性方程組得到最終的決策函數(shù)，在一定程度上求解難度較SVM大大降低，求解速度更快，適用于求解大規(guī)模問(wèn)題。

（3）SVM可通過(guò)求解QP問(wèn)題獲得理論上的全局最優(yōu)解，因?yàn)榇蟛糠值腖agrange乘子為零，最終的決策函數(shù)只能依賴于少量數(shù)據(jù)，即支持向量，從而體現(xiàn)了SVM中解的稀疏性特點(diǎn)。LS-SVM采用誤差平方項(xiàng)以及等式約束條件來(lái)優(yōu)化問(wèn)題，將SVM中的QP問(wèn)題轉(zhuǎn)化為求解線性方程組，使得Lagrange乘子與誤差項(xiàng)相關(guān)，其最終決策函數(shù)與所有樣本相關(guān)。

因此，LS-SVM在計(jì)算時(shí)間、計(jì)算復(fù)雜度和精確度上均優(yōu)于SVM。鑒于此，本文運(yùn)用LS-SVM求解大規(guī)模矛盾方程組。

2.1 LS-SVM

2.2 算法步驟

第1步將矛盾方程組求解問(wèn)題轉(zhuǎn)化為凸優(yōu)化問(wèn)題，建立優(yōu)化目標(biāo)函數(shù)；

第2步構(gòu)建Lagrange函數(shù)，利用Lagrange乘子法將優(yōu)化問(wèn)題轉(zhuǎn)化為對(duì)單一參數(shù)α的求極值問(wèn)題；

第3步將求極值問(wèn)題轉(zhuǎn)化為求線性方程組；

第4步將解代入原始模型即為訓(xùn)練所得線性模型；用φ（x）表示將x映射后的特征向量，得到相應(yīng)的最終LS-SVM非線性回歸函數(shù)；

第5步將數(shù)據(jù)代入模型，得到實(shí)驗(yàn)結(jié)果，即最終預(yù)測(cè)值。

3 數(shù)值算例

實(shí)際問(wèn)題包括單變量問(wèn)題和多變量問(wèn)題，數(shù)據(jù)一般分為線性和非線性兩大類，運(yùn)用LS-SVM進(jìn)行算例分析，數(shù)據(jù)量為1000～7000，以驗(yàn)證算法性能。算例1～算例3中數(shù)據(jù)是通過(guò)隨機(jī)取樣方法產(chǎn)生10-3～10-2的振幅，將原函數(shù)值加上或減去該振幅得到的。算例4～算例8中數(shù)據(jù)集均來(lái)自加州大學(xué)歐文分校機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)（UCI Machine Learning Repository，http：//archive.ics.uci.edu/ml/index.pdf）。

為便于對(duì)比，所有數(shù)值算例結(jié)果均顯示部分?jǐn)?shù)據(jù)，且分為上、下兩圖，上圖為訓(xùn)練集預(yù)測(cè)結(jié)果，下圖為測(cè)試集預(yù)測(cè)結(jié)果，圖中縱坐標(biāo)Yt表示最終預(yù)測(cè)值。訓(xùn)練集主要用于訓(xùn)練模型，測(cè)試集主要用于測(cè)試模型的優(yōu)劣。

3.1 單變量線性矛盾方程組求解

算例1函數(shù)上下擾動(dòng)所得數(shù)據(jù)為y*。

該算例屬于一元線性問(wèn)題，共5000組數(shù)據(jù)，隨機(jī)選取3500組為訓(xùn)練集，剩余1500組為測(cè)試集，進(jìn)行兩組實(shí)驗(yàn)，實(shí)驗(yàn)1和實(shí)驗(yàn)2的測(cè)試集分別為，(xi，xi/5-600)，i=1，2，…，1500。如圖1所示，在實(shí)驗(yàn)1中，R2達(dá)0.962，在實(shí)驗(yàn)2中，R2達(dá)0.999，擬合效果非常好。結(jié)果表明，在大數(shù)據(jù)量的情況下，擬合度依然較高。

圖1 算例1數(shù)值結(jié)果Fig.1 Numerical results of example 1

3.2 多變量線性矛盾方程組求解

算例2函數(shù)y=3|x1|-2|x2|+3x3上下擾動(dòng)所得數(shù)據(jù)為y*。

該算例屬于三元線性問(wèn)題，共5000組數(shù)據(jù)，隨機(jī)選取4000組為訓(xùn)練集，剩余1000組為測(cè)試集。如圖2所示，兩次實(shí)驗(yàn)的R2均為0.990以上，擬合效果非常好。結(jié)果表明，大數(shù)據(jù)量并不影響多元線性問(wèn)題的擬合效果，可以很好地對(duì)原函數(shù)進(jìn)行近似。

圖2 算例2數(shù)值結(jié)果Fig.2 Numerical results of example 2

3.3 單變量非線性矛盾方程組求解

算例3函數(shù)y=10 sin(x)上下擾動(dòng)后所得數(shù)據(jù)為y*。

該算例屬于一元三角函數(shù)擬合問(wèn)題，共6000組數(shù)據(jù)，隨機(jī)選取4500組為訓(xùn)練集，剩余1500組為測(cè)試集，滿足LS-SVM對(duì)訓(xùn)練集和測(cè)試集的要求。實(shí)驗(yàn)1的測(cè)試集真實(shí)值為y*，實(shí)驗(yàn)2的測(cè)試集真實(shí)值為y，預(yù)測(cè)結(jié)果如圖3所示?？芍瑢?shí)驗(yàn)1的R2=0.837，表明三角函數(shù)具有較好的擬合效果。實(shí)驗(yàn)2的R2=0.845，表明y具有較好的擬合效果。

圖3 算例3數(shù)值結(jié)果Fig.3 Numerical results of example 3

3.4 多變量非線性矛盾方程組求解

算例4Airfoil_self_noise數(shù)據(jù)集預(yù)測(cè)。

該數(shù)據(jù)集來(lái)自美國(guó)航空航天局（NASA）在消聲風(fēng)洞中進(jìn)行的二維和三維翼型葉片剖面的一系列空氣動(dòng)力學(xué)和聲學(xué)試驗(yàn)。其中，機(jī)翼的跨度、觀察者的位置不變。共1503組數(shù)據(jù)，5個(gè)屬性值，隨機(jī)選取1150組為訓(xùn)練集，其余353組為測(cè)試集。預(yù)測(cè)結(jié)果如圖4所示，經(jīng)過(guò)多次實(shí)驗(yàn)，最佳R2=0.889，擬合效果較好，本算例數(shù)據(jù)量較小，實(shí)驗(yàn)結(jié)果較好，可以采用該模型進(jìn)行數(shù)據(jù)預(yù)測(cè)。

圖4 算例4數(shù)值結(jié)果Fig.4 Numerical results of example 4

算例5gt_2011數(shù)據(jù)集預(yù)測(cè)。

該數(shù)據(jù)集包含由11個(gè)傳感器測(cè)量的36733個(gè)實(shí)例，是土耳其西北部地區(qū)燃?xì)廨啓C(jī)1 h內(nèi)的數(shù)據(jù)匯總（平均值或總和），目的是研究煙氣排放，即一氧化碳和氮氧化物。本實(shí)驗(yàn)僅選取2011年的數(shù)據(jù)，共7411組，輸出值為一氧化碳排放量。隨機(jī)選取6000組為訓(xùn)練集，其余1411組為測(cè)試集。預(yù)測(cè)結(jié)果如圖5所示，R2=0.909，擬合效果較好，可以根據(jù)此模型預(yù)測(cè)氣體排放量。該算例的數(shù)據(jù)量較算例4大幅增加，有7000多組數(shù)據(jù)，但預(yù)測(cè)結(jié)果并未變差。

圖5 算例5數(shù)值結(jié)果Fig.5 Numerical results of example 5

算例6parkinsons_updrs數(shù)據(jù)集預(yù)測(cè)

該數(shù)據(jù)集為由Athanasios Tsanas創(chuàng)建、Max Little與美國(guó)10個(gè)醫(yī)療中心、英特爾公司合作開(kāi)發(fā)的遠(yuǎn)程監(jiān)控設(shè)備所記錄的語(yǔ)音信號(hào)。最初使用一系列線性和非線性回歸方法預(yù)測(cè)臨床醫(yī)生在UPDRS量表上的帕金森病癥狀評(píng)分。共5875組數(shù)據(jù)，26個(gè)屬性值，隨機(jī)選取4000組作為訓(xùn)練集，其余1875組作為測(cè)試集。預(yù)測(cè)結(jié)果如圖6所示，R2=0.983，非常接近于1，實(shí)驗(yàn)結(jié)果表明，屬性值的增多并不會(huì)改變擬合效果。

圖6 算例6數(shù)值結(jié)果Fig.6 Numerical results of example 6

算例7SeoulBikeData數(shù)據(jù)集預(yù)測(cè)

目前，許多城市引入了共享單車，以提高出行的便捷性。能在合適的時(shí)間租到自行車，可減少公眾的等待時(shí)間。此問(wèn)題的關(guān)鍵是預(yù)測(cè)每小時(shí)所需的共享單車數(shù)。

數(shù)據(jù)集包含天氣（溫度、濕度、風(fēng)速、能見(jiàn)度、露點(diǎn)、太陽(yáng)輻射、降雪量、降雨量）、每小時(shí)共享單車租用數(shù)和日期等信息。共8700組數(shù)據(jù)，包含14個(gè)屬性值。隨機(jī)選取6000組作為訓(xùn)練集，其余2700組作為測(cè)試集。預(yù)測(cè)結(jié)果如圖7所示，R2=0.860，擬合效果較好。結(jié)果表明，大規(guī)模數(shù)據(jù)具有較好擬合效果。

圖7 算例7數(shù)值結(jié)果Fig.7 Numerical results of example 7

算例8kc_train數(shù)據(jù)集預(yù)測(cè)

數(shù)據(jù)集主要包括2014年5月至2015年5月美國(guó)King County的房屋銷售價(jià)格以及房屋的基本信息。數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩部分，分別保存在kc_train.csv和kc_test.csv兩個(gè)文件中。其中訓(xùn)練數(shù)據(jù)主要包括10000條記錄，14個(gè)字段，隨機(jī)選取8000條作為訓(xùn)練集，其余2000條作為測(cè)試集。預(yù)測(cè)結(jié)果如圖8所示，R2=0.790，非常接近0.8，擬合效果良好，可用于預(yù)測(cè)房?jī)r(jià)，結(jié)果再次表明，當(dāng)數(shù)據(jù)量達(dá)到10000時(shí)擬合效果仍良好。

圖8 算例8數(shù)值結(jié)果Fig.8 Numerical results of example 8

4 結(jié) 論

研究了如何用LS-SVM求解大規(guī)模矛盾方程組，并將其用于預(yù)測(cè)實(shí)際問(wèn)題。在實(shí)驗(yàn)過(guò)程中不斷修正參數(shù)值，使得訓(xùn)練模型更符合實(shí)際情況。通過(guò)對(duì)線性單變量和多變量問(wèn)題、非線性單變量和多變量問(wèn)題的研究，得到以下結(jié)論：

（1）數(shù)據(jù)類型，如線性與非線性、一元與多元并不影響數(shù)據(jù)的擬合度，對(duì)于不同類型的數(shù)據(jù)，只要找到適當(dāng)?shù)膮?shù)值，就可以得到具有良好效果的擬合模型，進(jìn)行數(shù)據(jù)預(yù)測(cè)。

（2）從預(yù)測(cè)結(jié)果看，數(shù)據(jù)量的增多并不影響數(shù)據(jù)的擬合效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡