国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的高速?gòu)?fù)雜流場(chǎng)流動(dòng)控制效果預(yù)測(cè)分析

2022-07-14 02:16余柏楊呂宏強(qiáng)周巖羅振兵劉學(xué)軍
實(shí)驗(yàn)流體力學(xué) 2022年3期
關(guān)鍵詞:直徑樣本預(yù)測(cè)

余柏楊,呂宏強(qiáng),周巖,羅振兵,劉學(xué)軍

1.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院/人工智能學(xué)院模式分析與機(jī)器智能工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,南京 211106

2.空氣動(dòng)力學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,綿陽(yáng) 621000

3.氣動(dòng)噪聲控制重點(diǎn)實(shí)驗(yàn)室,綿陽(yáng) 621000

4.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,南京 210023

5.南京航空航天大學(xué) 航空學(xué)院,南京 210016

6.國(guó)防科技大學(xué) 空天科學(xué)學(xué)院,長(zhǎng)沙 410073

0 引 言

流動(dòng)控制技術(shù)是流體力學(xué)研究的前沿和熱點(diǎn)之一,高效的流動(dòng)控制系統(tǒng)能夠顯著提高飛行器動(dòng)力性能、節(jié)約大量燃料、降低碳排放。流動(dòng)控制技術(shù)主要分為被動(dòng)控制和主動(dòng)控制2 種方式。被動(dòng)控制[1]不需要額外的能量,具有控制簡(jiǎn)單、易于實(shí)現(xiàn)、設(shè)計(jì)制造成本低的特點(diǎn)。主動(dòng)控制[2]則是引入輔助能量的控制方式。主動(dòng)流動(dòng)控制技術(shù)發(fā)展的核心問(wèn)題是研制高性能的流動(dòng)控制激勵(lì)器[3],在不同的應(yīng)用條件和控制目的下,對(duì)激勵(lì)器的工作性能要求也有所不同,因此獲得激勵(lì)器工作性能參數(shù)變化規(guī)律,對(duì)激勵(lì)器優(yōu)化設(shè)計(jì)和實(shí)際應(yīng)用意義重大。

在激勵(lì)器工作性能參數(shù)研究實(shí)驗(yàn)中,傳統(tǒng)的方法需要對(duì)每個(gè)工況參數(shù)設(shè)置不同數(shù)值,通過(guò)大量的對(duì)比實(shí)驗(yàn)來(lái)研究各個(gè)不同參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響程度,需耗費(fèi)大量的時(shí)間和資源。機(jī)器學(xué)習(xí)[4]的快速發(fā)展為流動(dòng)控制技術(shù)提供了新的發(fā)展方向。Minelli 等[5]通過(guò)遺傳算法實(shí)現(xiàn)了高雷諾數(shù)鈍體繞流開環(huán)控制的最優(yōu)參數(shù)預(yù)測(cè)。Ren 等[6]采用格子Boltzmann 方法求解器第一次還原了層流條件下的控制效果,并對(duì)湍流條件下圓柱繞流減阻進(jìn)行了探究。Rabault 等[7]使用近端策略優(yōu)化方法完成了圓柱減阻的閉環(huán)主動(dòng)控制。侯宏等[8]在邊界層轉(zhuǎn)捩的主動(dòng)控制中使用了神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了抽吸速度和邊界層轉(zhuǎn)捩位置之間的映射關(guān)系。這些基于機(jī)器學(xué)習(xí)的主動(dòng)流動(dòng)控制技術(shù)都取得了比較理想的效果,但其中分析激勵(lì)器參數(shù)對(duì)控制效果參數(shù)影響的工作較少。因此,本文重點(diǎn)通過(guò)已有實(shí)驗(yàn)數(shù)據(jù)研究激勵(lì)器參數(shù)和控制效果參數(shù)之間的關(guān)系,分析影響控制效果參數(shù)的重要因素,指導(dǎo)實(shí)驗(yàn)中激勵(lì)器參數(shù)的設(shè)置。

本文從有限的實(shí)驗(yàn)數(shù)據(jù)(樣本容量小于30)中挖掘數(shù)據(jù)之間的關(guān)系,屬于小樣本機(jī)器學(xué)習(xí)問(wèn)題[9]。在機(jī)器學(xué)習(xí)中對(duì)小樣本問(wèn)題的處理一般有3 個(gè)步驟:1)使用不易過(guò)擬合的模型(如非參數(shù)化模型);2)簡(jiǎn)化問(wèn)題,采用特征重要性分析方法,若存在重要性較弱的特征,可將其刪除;3)交叉驗(yàn)證(適用于小樣本數(shù)據(jù)集的模型驗(yàn)證方法)。

高斯過(guò)程回歸(Gaussian Process Regression,GPR)是一種非參數(shù)化機(jī)器學(xué)習(xí)模型,已廣泛應(yīng)用于小樣本的非線性問(wèn)題。羅亦泳等[10]構(gòu)建了基于GPR的GPS 高程轉(zhuǎn)換模型,將GPR 與其他擬合模型進(jìn)行對(duì)比,通過(guò)將17 個(gè)GPS 點(diǎn)劃分為不同比例的訓(xùn)練和測(cè)試數(shù)據(jù)集,分析了不同比例的訓(xùn)練數(shù)據(jù)集對(duì)不同GPS 高程轉(zhuǎn)換模型精度的影響。羅亦泳[11]將64 期大壩變形觀測(cè)數(shù)據(jù)劃分為50 期訓(xùn)練數(shù)據(jù)和14 期測(cè)試數(shù)據(jù),通過(guò)GPR 構(gòu)建了大壩變形預(yù)測(cè)模型,并建立了預(yù)測(cè)結(jié)果的方差及置信區(qū)間的估計(jì)方法,對(duì)預(yù)測(cè)結(jié)果進(jìn)行了可靠性分析。孫斌等[12]為了提高風(fēng)速預(yù)測(cè)的精度,采用了一種基于GPR 的風(fēng)速預(yù)測(cè)模型,并將GPR 與支持向量機(jī)、最小二乘支持向量機(jī)和BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行了比較。這些工作均證明了GPR 模型能夠成功地對(duì)小樣本回歸問(wèn)題進(jìn)行建模,具有較好的推廣性。

特征重要性分析是分析監(jiān)督學(xué)習(xí)中不同輸入?yún)?shù)對(duì)輸出參數(shù)影響程度的方法,可獲得重要特征參數(shù),降低數(shù)據(jù)中冗余信息的干擾,改善模型的性能。常用的方法包括卷積神經(jīng)網(wǎng)絡(luò)、LASSO 回歸、自動(dòng)關(guān)聯(lián)確定(Automatic Relevance Determination,ARD)和隨機(jī)森林(Random Forest,RF)等。張韶輝等[13]利用LASSO 回歸分析篩選出了與冠心病密切相關(guān)的血脂指標(biāo)。黃梅等[14]在分類挖掘中采用了基于隨機(jī)森林的特征重要性分析方法。劉鑫童[15]基于深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)甲狀腺超聲圖像進(jìn)行了系統(tǒng)分析并提取了重要特征。Sun 等[16]使用spalart allmaras湍流模型生成的訓(xùn)練數(shù)據(jù)對(duì)ANN 湍流模型進(jìn)行訓(xùn)練,使用optimal brain surgeon 算法確定輸入特征的相關(guān)性。已有的這些工作表明:通過(guò)特征重要性分析,有效提高了研究者對(duì)有監(jiān)督學(xué)習(xí)問(wèn)題的理解;有針對(duì)性地利用好重要特征,可以提高模型預(yù)測(cè)精度。通過(guò)特征重要性分析,刪除重要性較弱的特征適用于小樣本問(wèn)題中樣本容量小于特征維度的情況,而本文數(shù)據(jù)的樣本容量大于特征維度,滿足高斯過(guò)程回歸模型對(duì)樣本數(shù)量的要求,因此本文保留所有特征,重點(diǎn)分析不同激勵(lì)器參數(shù)對(duì)控制效果參數(shù)的影響程度。

為了驗(yàn)證小樣本機(jī)器學(xué)習(xí)中模型的泛化性能,通常采用交叉驗(yàn)證方法將原始數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,避免為追求高準(zhǔn)確率而在訓(xùn)練集上產(chǎn)生過(guò)擬合,保證模型在樣本外數(shù)據(jù)上的預(yù)測(cè)準(zhǔn)確率。訓(xùn)練集和測(cè)試集數(shù)據(jù)的不同劃分,會(huì)使模型準(zhǔn)確率發(fā)生明顯的變化,為了消除這一變化因素,通常采用K 折交叉驗(yàn)證實(shí)現(xiàn)模型驗(yàn)證。胡偉杰等[17]通過(guò)GPR 對(duì)180 個(gè)樣本采用5 折交叉驗(yàn)證,預(yù)測(cè)了導(dǎo)彈氣動(dòng)性能,對(duì)比了不同數(shù)據(jù)劃分比例下GPR 模型的預(yù)測(cè)結(jié)果和穩(wěn)定性。高赫等[18]基于GPR 對(duì)2 578 個(gè)樣本采用了5 折交叉驗(yàn)證,控制了連續(xù)式風(fēng)洞馬赫數(shù),采用了隨機(jī)劃分?jǐn)?shù)據(jù)集與分組劃分?jǐn)?shù)據(jù)集2 種策略進(jìn)行建模。Nematzadeh 等[19]采用不同的機(jī)器學(xué)習(xí)算法作為分類器,對(duì)原始乳腺癌和預(yù)后性威斯康辛乳腺癌進(jìn)行分類,利用K 折交叉驗(yàn)證對(duì)不同機(jī)器學(xué)習(xí)算法進(jìn)行了乳腺癌分類比較分析。

在超聲速條件下,本文利用逆向等離子體合成射流流動(dòng)控制技術(shù)[20]進(jìn)行半球體激波控制實(shí)驗(yàn)[21]。實(shí)驗(yàn)數(shù)據(jù)包括15 個(gè)樣本,每個(gè)樣本的參數(shù)包括控制對(duì)象參數(shù)(頭錐直徑)、主動(dòng)激勵(lì)參數(shù)(腔體體積、電極間距、放電電容、出口直徑、擊穿電壓)和控制效果參數(shù)(最大脫體距離)。每個(gè)樣本的電極間距和擊穿電壓都是相同的,回歸模型無(wú)法學(xué)習(xí)這2 個(gè)參數(shù)與最大脫體距離的映射關(guān)系,故實(shí)驗(yàn)中不考慮該參數(shù)。采用GPR[22]學(xué)習(xí)得到激勵(lì)器參數(shù)(頭錐直徑、腔體體積、放電電容、出口直徑)到控制效果參數(shù)(最大脫體距離)的映射規(guī)律,利用K 折交叉驗(yàn)證中的留一交叉驗(yàn)證法評(píng)估GPR 模型的預(yù)測(cè)結(jié)果,采用特征重要性分析方法分析各激勵(lì)器參數(shù)對(duì)最大脫體距離的影響程度,分析激勵(lì)器參數(shù)影響程度與控制效果預(yù)測(cè)精度的關(guān)系。本文工作對(duì)激勵(lì)器控制對(duì)象參數(shù)和主動(dòng)激勵(lì)參數(shù)實(shí)驗(yàn)設(shè)計(jì)具有一定參考價(jià)值。

1 研究方案

本文研究方案(圖1)可分為4 部分:第1 部分是工程實(shí)驗(yàn)環(huán)節(jié),使用逆向等離子體合成射流流動(dòng)控制技術(shù),設(shè)置不同的激勵(lì)器參數(shù)進(jìn)行實(shí)驗(yàn),獲得不同參數(shù)組合對(duì)應(yīng)的控制效果,并對(duì)各個(gè)參數(shù)屬性值進(jìn)行標(biāo)準(zhǔn)化處理;第2 部分使用高斯過(guò)程回歸對(duì)數(shù)據(jù)進(jìn)行建模,得到重要的激勵(lì)器參數(shù)與控制效果參數(shù)之間的映射關(guān)系;第3 部分采用特征重要性分析對(duì)各個(gè)激勵(lì)器參數(shù)進(jìn)行特征重要性排序;第4 部分使用建立好的回歸模型對(duì)控制效果參數(shù)進(jìn)行預(yù)測(cè),并評(píng)估模型的預(yù)測(cè)性能,分析激勵(lì)器參數(shù)影響程度與控制效果預(yù)測(cè)精度的關(guān)系。若預(yù)測(cè)精度不足,則需要重新調(diào)整實(shí)驗(yàn)設(shè)置,根據(jù)激勵(lì)器參數(shù)影響程度和控制效果預(yù)測(cè)精度的關(guān)系增加實(shí)驗(yàn)樣本;若預(yù)測(cè)精度滿足要求,則可用于指導(dǎo)后續(xù)主動(dòng)流動(dòng)控制實(shí)驗(yàn)。

圖1 研究方案Fig.1 Research program

1.1 實(shí)驗(yàn)數(shù)據(jù)

如表1所示,實(shí)驗(yàn)采集的數(shù)據(jù)包含控制對(duì)象參數(shù)(頭錐直徑)、主動(dòng)激勵(lì)參數(shù)(腔體體積、電極間距、放電電容、出口直徑、擊穿電壓)和控制效果參數(shù)(最大脫體距離)。激勵(lì)器頭錐直徑會(huì)影響等離子體合成射流的速度和流場(chǎng)結(jié)構(gòu)。激勵(lì)器腔體體積[23]是影響射流流場(chǎng)特性的重要結(jié)構(gòu)參數(shù),反映激勵(lì)器工作氣體質(zhì)量,決定腔內(nèi)氣體溫度及壓力的變化,并最終影響流場(chǎng)發(fā)展及射流速度。電極間距[24]是造成不同等離子體分布的關(guān)鍵結(jié)構(gòu)參數(shù),不同電極間距下外電場(chǎng)分布形態(tài)和數(shù)值的差異是形成2 種典型分布(類彌散和離散通道)模式的直接原因。放電電容[25]與等離子體合成射流速度呈正相關(guān):大電容產(chǎn)生更多的能量沉積,實(shí)現(xiàn)腔體的充分加熱,可產(chǎn)生速度更大的等離子體射流和強(qiáng)度更大的前驅(qū)激波;小電容所產(chǎn)生的等離子體射流流場(chǎng)內(nèi)壓縮波數(shù)增加,前驅(qū)激波強(qiáng)度減弱。出口直徑[25]會(huì)影響等離子體合成射流的速度和耗散時(shí)間,且與前驅(qū)激波的強(qiáng)度呈正相關(guān)。激勵(lì)器工作擊穿電壓[23]與激勵(lì)器所處環(huán)境壓強(qiáng)呈正相關(guān),與放電頻率呈負(fù)相關(guān)。

表1 實(shí)驗(yàn)數(shù)據(jù)Table 1 Experimental data

在一個(gè)開有出口孔縫的小腔體內(nèi)放電產(chǎn)生等離子體,通過(guò)加熱腔內(nèi)氣體使等離子體增壓膨脹并高速噴出,產(chǎn)生速度高達(dá)數(shù)百米每秒的高能射流,即等離子體合成射流。射流鋒面前方有一道呈球?qū)ΨQ的結(jié)構(gòu),為前驅(qū)激波的強(qiáng)壓縮波。前驅(qū)激波與射流出口孔縫之間的距離即為脫體距離。當(dāng)高能射流達(dá)到最大長(zhǎng)度時(shí),前驅(qū)激波與射流出口孔縫之間達(dá)到最大脫體距離。拍攝等離子體合成射流流場(chǎng)的發(fā)展過(guò)程,截取高能射流達(dá)到最大長(zhǎng)度時(shí)的一幀圖像作為最大脫體距離圖像,如圖2所示。通過(guò)在圖像中測(cè)量前驅(qū)激波最遠(yuǎn)點(diǎn)與射流出口孔縫2 個(gè)像素點(diǎn)之間的距離得到本研究所需的最大脫體距離。

圖2 最大脫體距離圖像示例Fig.2 An example image of maximum out of body distance

將控制對(duì)象參數(shù)和主動(dòng)激勵(lì)參數(shù)作為高斯過(guò)程回歸模型的輸入、控制效果參數(shù)作為高斯過(guò)程回歸模型的輸出,其參數(shù)設(shè)置同表1。圖2即顯示了一組控制效果參數(shù)的實(shí)驗(yàn)結(jié)果。

在將數(shù)據(jù)輸入機(jī)器學(xué)習(xí)的模型之前,為避免參數(shù)數(shù)值范圍不同對(duì)建模效果產(chǎn)生影響,需要將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化公式為:

1.2 基于GPR 的控制效果參數(shù)預(yù)測(cè)模型

本文針對(duì)激勵(lì)器控制效果預(yù)測(cè)的小樣本回歸問(wèn)題,提出了基于高斯過(guò)程回歸的預(yù)測(cè)模型,模型框架如圖3所示。以逆向等離子體合成射流實(shí)驗(yàn)為例,輸入為4 維參數(shù)向量(頭錐直徑、放電電容、腔體體積和出口直徑)。首先將4 維參數(shù)向量作為輸入數(shù)據(jù)輸入到GPR 模型中訓(xùn)練模型,然后將GPR 模型輸出的預(yù)測(cè)值與實(shí)驗(yàn)獲得的最大脫體距離真實(shí)值進(jìn)行對(duì)比,使用誤差評(píng)估方法計(jì)算最大脫體距離的真實(shí)值與預(yù)測(cè)值之間的誤差,得到GPR 模型的預(yù)測(cè)精度。本文的樣本數(shù)為15,特征維度為4,滿足使用高斯過(guò)程回歸模型的最低樣本容量要求[26]。

圖3 基于GPR 的控制效果參數(shù)預(yù)測(cè)模型框架Fig.3 The framework of control effect parameter prediction model based on GPR

1.2.1 GPR 的模型假設(shè)

高斯過(guò)程可視為定義在函數(shù)f(x)上的一個(gè)分布,其性質(zhì)由均值函數(shù)和協(xié)方差函數(shù)決定:

式中:x、x′ ∈Rd,為d維輸入向量;m(x)為均值函數(shù);k(x,x′)為協(xié)方差函數(shù)。

假設(shè)訓(xùn)練集為{(xi,yi)|i=1,···,n},n 為訓(xùn)練集樣本數(shù)。對(duì)于回歸問(wèn)題,模型如下:

式中:ε~N(0,)為高斯噪聲;xi為第i個(gè)輸入向量,xi ∈Rd;yi為對(duì)應(yīng)的觀測(cè)值,yi∈R。為計(jì)算方便,將yi中心化,均值設(shè)置0,這時(shí)所有觀測(cè)值構(gòu)成的列向量y=[y1,y2,···,yn]T的先驗(yàn)概率分布為:

式中:X為特征矩陣,矩陣中每一行代表一個(gè)輸入向量;K(X,X)=Kn=(kij)n×n為n×n階對(duì)稱正定協(xié)方差矩陣,矩陣元素kij=k(xi,xj);In為n階單位矩陣。

1.2.2 GPR 的訓(xùn)練

假設(shè)一個(gè)協(xié)方差函數(shù)的超參數(shù)集合為θ=,m為超參數(shù)的數(shù)量,通常采用極大似然法確定θ的最優(yōu)值。觀測(cè)值y的邊緣概率分布為:

通過(guò)式(7)可以得到訓(xùn)練集的負(fù)對(duì)數(shù)邊際似然函數(shù)為:

式中,C=K(X,X)+,|C|為矩陣C的行列式。GPR 模型的優(yōu)化目標(biāo)為:

計(jì)算L(θ)關(guān)于各超參數(shù)θi的偏導(dǎo)數(shù),然后采用共軛梯度下降法等優(yōu)化算法迭代更新超參數(shù)來(lái)最小化L(θ)。

1.2.3 協(xié)方差函數(shù)的選擇

本文使用的協(xié)方差函數(shù)有Polynomial(Poly)核、Squared exponential isotropic(SEiso)核、Squared exponential automatic relevance determination(SEard)核、Stationary+Matern(SM)核和Additive(Add)核[27]。

Poly 是一種非標(biāo)準(zhǔn)核函數(shù),比較適用于正交歸一化后的數(shù)據(jù)。根據(jù)平方指數(shù)協(xié)方差函數(shù)的超參數(shù)取值,可以分為2 種核函數(shù):當(dāng)向量對(duì)應(yīng)的各個(gè)維度帶寬取值相同時(shí),得到的核函數(shù)就是各向同性的平方指數(shù)核,即SEiso 核;當(dāng)向量對(duì)應(yīng)的各個(gè)維度帶寬取值不同時(shí),得到的核函數(shù)就是各向異性的平方指數(shù)核,即SEard 核。SM 協(xié)方差函數(shù)是將多種單一的核函數(shù)相加構(gòu)成的復(fù)雜協(xié)方差函數(shù)。Add 作為加性協(xié)方差函數(shù),在輸入向量的各個(gè)維度定義基本的協(xié)方差函數(shù)。

1.2.4 GPR 的預(yù)測(cè)

對(duì)于測(cè)試集中的一個(gè)樣本x*,其對(duì)應(yīng)的預(yù)測(cè)值f*與觀測(cè)值y的聯(lián)合先驗(yàn)分布為:

通過(guò)式(10)和一些矩陣運(yùn)算,可以得到預(yù)測(cè)值f*的條件概率分布為:

式中:

式(12)為預(yù)測(cè)值,式(13)為預(yù)測(cè)的方差,可以評(píng)估預(yù)測(cè)的不確定度。

1.3 特征重要性分析

本文使用的特征重要性分析[28]方法有LASSO回歸、隨機(jī)森林和自動(dòng)關(guān)聯(lián)確定。不同的特征重要性分析方法的準(zhǔn)則不同,通過(guò)綜合比較多種特征重要性分析方法的結(jié)果,增加分析結(jié)果的置信程度。

1.3.1 LASSO 回歸

數(shù)據(jù)集D={(x1,y1),(x2,y2),···,(xN,yN)},其中N 為數(shù)據(jù)集樣本數(shù)??紤]最簡(jiǎn)單的線性回歸模型,以平方誤差作為損失函數(shù),則優(yōu)化目標(biāo)為:

式中,w 為權(quán)重向量。當(dāng)樣本特征很多而樣本數(shù)相對(duì)較少時(shí),式(14)很容易陷入過(guò)擬合。為了緩解過(guò)擬合問(wèn)題,對(duì)式(14)引入L1 正則:

式中,λ >0,為正則化參數(shù)。式(15)為L(zhǎng)ASSO 的優(yōu)化目標(biāo)[29]。LASSO 采用L1 正則,可以產(chǎn)生稀疏解(w 許多分量為0)。根據(jù)這一特性進(jìn)行特征選擇,權(quán)重絕對(duì)值大的分量對(duì)結(jié)果的影響大。

1.3.2 隨機(jī)森林

隨機(jī)森林[30]是以決策樹[31]為基學(xué)習(xí)器構(gòu)建的模型。RF 可以用于特征重要性分析,計(jì)算特征重要性的方法主要有2 種:

1)采用平均不純度減少準(zhǔn)則

通過(guò)不純度能夠確定節(jié)點(diǎn),即最優(yōu)條件。一個(gè)森林能夠計(jì)算每個(gè)特征平均減少的不純度,并把平均減少的不純度作為特征重要性分析的值。

2)采用平均準(zhǔn)確性減少準(zhǔn)則

RF 在構(gòu)建每一棵基決策樹時(shí),使用bootstrap的方式對(duì)樣本進(jìn)行有放回采樣,因此每次都會(huì)有一些樣本不參與決策樹的構(gòu)建,這些樣本即為袋外數(shù)據(jù)(out of bag data),可以利用這些數(shù)據(jù)進(jìn)行特征重要性評(píng)估。對(duì)于RF 中的每一棵基決策樹,先利用袋外數(shù)據(jù)進(jìn)行測(cè)試得到測(cè)試誤差,然后將這些測(cè)試數(shù)據(jù)[e1,e2,···,em]的某個(gè)特征順序打亂(改變測(cè)試樣本特征值)再得到m 個(gè)測(cè)試誤差,將其作為該特征的重要性。若一個(gè)特征發(fā)生改變對(duì)預(yù)測(cè)結(jié)果影響很大,則說(shuō)明該特征比較重要。

1.3.3 自動(dòng)關(guān)聯(lián)確定

假設(shè)輸入空間是二維,x=(x(1),x(2)) ,ARD 核的形式為:

可以看出,隨著特定ηi(對(duì)輸入空間距離的伸縮變換參數(shù))的減小,函數(shù)受輸入變量x(i)的影響變小。將x=(x(1),x(2))代入式(16)得到 :

假設(shè)η2很小,則即:

此時(shí)核函數(shù)的取值幾乎不受輸入變量x(2)的影響,說(shuō)明x(2)對(duì)最終輸出的影響不大。利用ARD 協(xié)方差函數(shù)的這個(gè)性質(zhì),可以判斷出不同特征對(duì)結(jié)果的影響大小,并且整個(gè)過(guò)程無(wú)需人為干預(yù),模型可自適應(yīng)地從數(shù)據(jù)中學(xué)得這種關(guān)系。

2 實(shí)驗(yàn)結(jié)果及分析

2.1 預(yù)測(cè)性能評(píng)估

采用均方根誤差(RMSE)作為訓(xùn)練和測(cè)試誤差:

模型驗(yàn)證采用K 折交叉驗(yàn)證,其本質(zhì)是創(chuàng)建一系列訓(xùn)練集和測(cè)試集,先計(jì)算模型在每個(gè)測(cè)試集上的準(zhǔn)確率,再計(jì)算平均值。具體步驟如下:1)將原始數(shù)據(jù)集劃分為相等的K 部分;2)將第1 部分作為測(cè)試集,其余作為訓(xùn)練集;3)訓(xùn)練模型,計(jì)算模型在測(cè)試集上的準(zhǔn)確率;4)每次用不同的部分作為測(cè)試集,重復(fù)步驟2)和3) K 次;5)將平均準(zhǔn)確率作為最終的模型準(zhǔn)確率。留一交叉驗(yàn)證法是K 折交叉驗(yàn)證的一個(gè)特例,將數(shù)據(jù)子集劃分的數(shù)量與樣本數(shù)相同(K=N),每次只留一個(gè)樣本用于測(cè)試,這種方法適用于小樣本的情況。由于本文屬于小樣本問(wèn)題,且樣本的參數(shù)取值跨度很大,參數(shù)的分布密度較低,因此采用原始數(shù)據(jù)的4 個(gè)激勵(lì)器參數(shù)特征、15 個(gè)樣本進(jìn)行留一交叉驗(yàn)證實(shí)驗(yàn),即每次選取14 個(gè)樣本作為訓(xùn)練數(shù)據(jù),留一個(gè)樣本來(lái)評(píng)估模型預(yù)測(cè)的結(jié)果,重復(fù)實(shí)驗(yàn)15 次,取15 次實(shí)驗(yàn)結(jié)果的平均RMSE 評(píng)價(jià)模型性能。

不同核函數(shù)的訓(xùn)練均方根誤差盒狀圖如圖4所示,測(cè)試誤差均值如表2所示。由圖4可知,SM 和Add 核訓(xùn)練誤差明顯比其他核函數(shù)低,表明其對(duì)訓(xùn)練數(shù)據(jù)的擬合程度更好。但由表2可知,這2 種核函數(shù)的測(cè)試誤差明顯高于其他核函數(shù),而二次多項(xiàng)式核函數(shù)Poly2 雖然在訓(xùn)練數(shù)據(jù)集上誤差高于SM 和Add 核,但在測(cè)試數(shù)據(jù)集上獲得了最高的預(yù)測(cè)精度。這是由于SM 和Add 核所含超參數(shù)較多,在樣本數(shù)較少的情況下容易產(chǎn)生過(guò)擬合。多項(xiàng)式核、SEiso核和SEard 核都只含有2 個(gè)超參數(shù),在小樣本訓(xùn)練的情況下具有較好的泛化性能。

圖4 訓(xùn)練數(shù)據(jù)集上GPR 不同核函數(shù)對(duì)應(yīng)的預(yù)測(cè)RMSE 盒狀圖Fig.4 Boxplot of RMSE for models with different kernel functions of GPR on training data set

表2 測(cè)試數(shù)據(jù)集上GPR 不同核函數(shù)對(duì)應(yīng)的預(yù)測(cè)RMSE 均值Table 2 Mean RMSE for models with different kernel functions of GPR on test data set

2.2 相關(guān)性分析

2.2.1 皮爾遜相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)[32]可以衡量2 個(gè)變量(x(1),x(2))的線性相關(guān)程度,其值介于-1 和1 之間,計(jì)算公式如下:

式中,μ為樣本均值,σ為標(biāo)準(zhǔn)差。通過(guò)計(jì)算逆向射流數(shù)據(jù)不同特征和最大脫體距離之間的皮爾遜相關(guān)系數(shù),得到如圖5所示的相關(guān)性熱圖??梢钥闯觯^錐直徑、放電電容與最大脫體距離相關(guān)性較強(qiáng),且呈正相關(guān);腔體體積、出口直徑與最大脫體距離呈負(fù)相關(guān),且出口直徑與最大脫體距離之間的線性相關(guān)性最弱。

圖5 皮爾遜相關(guān)系數(shù)Fig.5 Pearson correlation coefficients

2.2.2 特征重要性分析

通過(guò)皮爾遜相關(guān)系數(shù)可以初步得出各個(gè)特征與最大脫體距離之間的線性相關(guān)性,但復(fù)雜流場(chǎng)的頭錐直徑、腔體體積、放電電容、出口直徑與最大脫體距離之間并不是簡(jiǎn)單的線性關(guān)系。為了進(jìn)一步挖掘它們之間的關(guān)系,利用ARD、LASSO、RF 這3 種特征重要性分析方法得到各個(gè)特征的重要性,如圖6~8 所示。

ARD 核函數(shù)自適應(yīng)可以確定重要特征的特點(diǎn),通過(guò)高斯過(guò)程回歸得到各個(gè)維度的帶寬L(歸一化后),L 越大,則特征對(duì)結(jié)果的影響越小。定義特征重要性為L(zhǎng)–1。由圖6可知,頭錐直徑對(duì)結(jié)果的影響最大,出口直徑對(duì)結(jié)果的影響最小。這也從某種角度為后期實(shí)驗(yàn)指明了方向:對(duì)結(jié)果影響較小的特征,實(shí)驗(yàn)過(guò)程中的采樣數(shù)量可以盡量少;相反,對(duì)結(jié)果影響較大的特征,實(shí)驗(yàn)過(guò)程中的采樣數(shù)量可以盡量多。這樣可以最大限度地減少實(shí)驗(yàn)次數(shù),增加數(shù)據(jù)的多樣性,從有限的數(shù)據(jù)中挖掘盡可能多的有用信息。

圖6 ARD 特征重要性分析結(jié)果Fig.6 Results of feature importance analysis from ARD

由皮爾遜相關(guān)系數(shù)可知,頭錐直徑、腔體體積、放電電容和出口直徑之間無(wú)明顯的線性相關(guān)性,所以此時(shí)可以利用LASSO 來(lái)分析特征重要性。將LASSO 的正則化參數(shù)設(shè)為0.1,得到各個(gè)特征權(quán)重的絕對(duì)值。從圖7可以看出,利用LASSO 得到的特征重要性分析結(jié)果與ARD 方法的結(jié)果完全一致。

圖7 LASSO 特征重要性分析結(jié)果Fig.7 Results of feature importance analysis from LASSO

RF 有2 種計(jì)算特征重要性的方式,在本實(shí)驗(yàn)中采用平均準(zhǔn)確性減少準(zhǔn)則,因?yàn)槠骄患兌葴p少準(zhǔn)則對(duì)取值個(gè)數(shù)較多的特征存在一定的偏好,會(huì)使特征重要性估計(jì)不準(zhǔn)確。由于本文只有4 個(gè)特征,所以在訓(xùn)練RF 時(shí)并沒(méi)有引入屬性擾動(dòng),為了增加結(jié)果的穩(wěn)定性,將基決策樹的個(gè)數(shù)設(shè)為100。由圖8可知,與前述2 種方法一樣,RF 的結(jié)果也是頭錐直徑對(duì)最大脫體距離影響最大,而出口直徑對(duì)最大脫體距離影響最小。

圖8 RF 特征重要性分析結(jié)果Fig.8 Results of feature importance analysis from RF

上述特征重要性分析方法針對(duì)實(shí)驗(yàn)樣本的參數(shù)進(jìn)行,而樣本的數(shù)量有限,因此實(shí)驗(yàn)結(jié)果只適用于樣本的參數(shù)取值范圍(頭錐直徑30~70 mm,腔體體積250~3 000 mm3,放電電容80~640 nF,出口直徑1.5~9.0 mm)。 由特征重要性分析結(jié)果可知:相對(duì)而言,頭錐直徑對(duì)最大脫體距離影響最大;其次是腔體體積和放電電容,這2 個(gè)參數(shù)對(duì)最大脫體距離的影響相差不大;出口直徑影響最小。

2.3 特征與預(yù)測(cè)結(jié)果的關(guān)系分析

圖9和表3顯示了最大脫體距離的預(yù)測(cè)結(jié)果,其中紅框、綠框和藍(lán)框標(biāo)注出了預(yù)測(cè)不夠準(zhǔn)確的樣本。對(duì)應(yīng)表3中的實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),紅色方框中樣本的頭錐直徑分別為30 和70 mm,藍(lán)色方框中樣本的放電電容分別為80 和160 nF,綠色方框中樣本的腔體體積分別為3000、500 和250 mm3。頭錐直徑作為最大脫體距離最重要的影響特征,放電電容和腔體體積作為次重要的特征,實(shí)驗(yàn)數(shù)據(jù)在這3 個(gè)特征上分布密度較低,導(dǎo)致模型的預(yù)測(cè)不夠準(zhǔn)確。對(duì)比發(fā)現(xiàn)黃框中樣本的預(yù)測(cè)相對(duì)準(zhǔn)確(真實(shí)值與預(yù)測(cè)值誤差的均值最?。瑢?duì)應(yīng)于采樣密度較低的出口直徑。由于出口直徑是重要性最小的特征,因此對(duì)最大脫體距離預(yù)測(cè)精度的影響較小。除顏色框中的樣本外,其余樣本在各個(gè)特征維度上的分布密度較大,因此預(yù)測(cè)結(jié)果均較為準(zhǔn)確。根據(jù)以上分析,為提高模型預(yù)測(cè)精度,設(shè)計(jì)實(shí)驗(yàn)時(shí)應(yīng)加大對(duì)控制效果參數(shù)影響較大的激勵(lì)器參數(shù)的設(shè)置密度,減少對(duì)控制效果參數(shù)影響較小的激勵(lì)器參數(shù)的設(shè)置密度,以減少實(shí)驗(yàn)次數(shù),最大程度利用實(shí)驗(yàn)資源。

圖9 最大脫體距離真實(shí)值和預(yù)測(cè)值Fig.9 Real and predicted values of maximum out of body distance

表3 實(shí)驗(yàn)數(shù)據(jù)及預(yù)測(cè)結(jié)果Table 3 Experimental data and prediction results

3 結(jié) 論

1)使用逆向等離子體合成射流激波控制實(shí)驗(yàn)數(shù)據(jù)對(duì)激勵(lì)器參數(shù)和控制效果參數(shù)之間的映射關(guān)系進(jìn)行建模,建立了高斯過(guò)程回歸模型。對(duì)比多種核函數(shù)下高斯過(guò)程回歸的預(yù)測(cè)效果,采用二次多項(xiàng)式核函數(shù)Poly2 的高斯過(guò)程回歸預(yù)測(cè)效果最好,因此對(duì)于樣本量少的數(shù)據(jù)集,使用“簡(jiǎn)單”的核函數(shù)能夠得到更為準(zhǔn)確的預(yù)測(cè)結(jié)果。

2)采用3 種特征重要性分析方法(ARD、LASSO、RF)分析各個(gè)激勵(lì)器參數(shù)特征對(duì)最大脫體距離的影響程度,結(jié)果發(fā)現(xiàn)頭錐直徑對(duì)最大脫體距離的影響程度最大,放電電容和腔體體積的影響次之且相近,出口直徑的影響最小。

3)對(duì)結(jié)果影響比較大的特征(如頭錐直徑、放電電容和腔體體積)應(yīng)增加其采樣數(shù)量;反之,對(duì)結(jié)果影響較小的特征(如出口直徑)可以減少其采樣數(shù)量,以減少實(shí)驗(yàn)次數(shù)。

4)本文提出的應(yīng)用于逆向等離子體合成射流激波控制實(shí)驗(yàn)的控制效果分析方法,也適用于工程設(shè)計(jì)中其他類似控制問(wèn)題研究。通過(guò)對(duì)少量實(shí)驗(yàn)數(shù)據(jù)內(nèi)隱含的激勵(lì)器參數(shù)和控制效果參數(shù)之間的映射關(guān)系建模,并對(duì)激勵(lì)器參數(shù)進(jìn)行重要性分析,可以得到合理的實(shí)驗(yàn)參數(shù)設(shè)置方式,提高實(shí)驗(yàn)效率和控制效果預(yù)測(cè)精度。

猜你喜歡
直徑樣本預(yù)測(cè)
選修2—2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(A卷)
愛(ài)虛張聲勢(shì)的水
直徑不超過(guò)2的無(wú)爪圖的2—因子
直擊高考中的用樣本估計(jì)總體
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
基于支持向量機(jī)的測(cè)厚儀CS值電壓漂移故障判定及處理
七年級(jí)數(shù)學(xué)下冊(cè)期末檢測(cè)題(B)
《福彩3D中獎(jiǎng)公式》:提前一月預(yù)測(cè)號(hào)碼的驚人技巧!
預(yù)測(cè)高考