延會(huì)波,張 瑋,李立毅,翟 劍
(太原理工大學(xué) 化學(xué)化工學(xué)院,山西 太原 030024)
滴流床反應(yīng)器是一種氣液并流向下通過催化劑床層的固定床反應(yīng)器,廣泛應(yīng)用于石油和化工領(lǐng)域。 床層液體分布均勻性是影響其性能的主要因素。 液體分布不良會(huì)導(dǎo)致催化劑利用率低或過早失活,并引起局部熱點(diǎn)和溝流、壁流等現(xiàn)象[1]。 因此,準(zhǔn)確地預(yù)測和優(yōu)化床層液體分布成為滴流床反應(yīng)器設(shè)計(jì)和放大的重要問題。
針對滴流床床層液體分布問題,收集器法[2]和各種可視化成像技術(shù)[3-7]是主要的實(shí)驗(yàn)研究手段,但往往受到操作、幾何和物理?xiàng)l件的限制,且通常是耗時(shí)和昂貴的。 為此,國內(nèi)外研究人員開始探索使用計(jì)算流體力學(xué)(CFD)來模擬滴流床床層結(jié)構(gòu),并對床層液體分布進(jìn)行分析,常用的CFD模型如三相歐拉模型[8]、多孔介質(zhì)模型[9]。 滴流床床層多相流動(dòng)是復(fù)雜的,建立精確的數(shù)學(xué)模型對床層液體分布進(jìn)行分析是困難的,且CFD分析需要大量的計(jì)算,模擬結(jié)果容易受劃分網(wǎng)格的質(zhì)量和數(shù)量影響,模擬的計(jì)算成本很高。 因此,使用一種簡單、經(jīng)濟(jì)和高效的方法來研究滴流床床層液體分布具有現(xiàn)實(shí)意義。 隨著人工智能技術(shù)的發(fā)展, 數(shù)據(jù)驅(qū)動(dòng)建模開始興起,機(jī)器學(xué)習(xí)在滴流床反應(yīng)器的研究中取得了突破性應(yīng)用[10,11],Bazmi等[2]采用神經(jīng)網(wǎng)絡(luò)建立了滴流床床層液體分布模型。 然而由于神經(jīng)網(wǎng)絡(luò)基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原理,往往存在過學(xué)習(xí)和低泛化問題[12]。近年來興起的隨機(jī)森林回歸(RFR)模型從原始樣本中隨機(jī)選取訓(xùn)練樣本和特征來構(gòu)建不同的決策樹,大大降低了過擬合的風(fēng)險(xiǎn),在建模精度和泛化能力方面也都優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。
本研究的主要目的是基于RFR開發(fā)準(zhǔn)確可靠的滴流床床層液體分布模型,并用灰狼優(yōu)化(GWO)算法優(yōu)化了RFR的超參數(shù)。 此外,對影響床層液體分布的關(guān)鍵特征(床層特性參數(shù)和操作參數(shù))進(jìn)行了重要性排序。 最后,以該模型作為代理模型,采用粒子群算法優(yōu)化了滴流床的操作參數(shù),可為床層液體分布的優(yōu)化提供指導(dǎo)。
RFR模型是Breiman于2001年提出的一種集成學(xué)習(xí)算法[13],可以用于處理回歸、分類和特征選擇等問題。給定一個(gè)訓(xùn)練數(shù)據(jù)集S={xi,yi}N,(X,Y)∈RM*R,輸入矩陣X包含M個(gè)特征和N個(gè)樣本,Y為目標(biāo)向量。RFR模型在原始訓(xùn)練樣本中有放回抽取多個(gè)與原始樣本數(shù)量相等的訓(xùn)練子集Sk(k=1,2,...,ntree)。 每個(gè)訓(xùn)練子集構(gòu)建一個(gè)決策樹。 在建立單棵決策樹時(shí), 每個(gè)非葉子節(jié)點(diǎn)都從M個(gè)特征中隨機(jī)選擇mtry(mtry RFR生成訓(xùn)練子集時(shí),原始訓(xùn)練集中大約2/3的樣本被抽取,稱為袋內(nèi)數(shù)據(jù),其余1/3未被抽取的樣本稱為袋外數(shù)據(jù)(OOB)[15]。 在建立RFR的過程中,根據(jù)OOB特征加入噪聲前后模型預(yù)測精度的降低程度[16]來對特征的重要性排序。 模型的預(yù)測精度變化用OOB均方誤差(MSE)平均遞減值來衡量,MSE的定義如下: 式中,n為袋外數(shù)據(jù)的個(gè)數(shù);yi為袋外數(shù)據(jù)的實(shí)際值;f(xi)為袋外數(shù)據(jù)的預(yù)測值。 本研究中將各個(gè)特征xi的MSE平均遞減值定義為hi,將hi的絕對值進(jìn)行歸一化,得到特征xi的影響權(quán)重為: 式中,wi為每個(gè)特征的影響權(quán)重。 RFR超參數(shù)的選取對于提高模型性能至關(guān)重要。 目前普遍采用先驗(yàn)知識或人工調(diào)整確定,往往無法獲得滿意的效果。GWO算法是一種模擬灰狼狩獵行為的新型群智能優(yōu)化算法。 該算法具有簡單、收斂速度快、參數(shù)設(shè)置少等優(yōu)勢。因此,采用GWO算法對RFR的超參數(shù)尋優(yōu)。 在該算法中,根據(jù)灰狼的領(lǐng)導(dǎo)等級制度, 將灰狼劃分為α、 β、 δ和ω 4個(gè)等級[17],如圖1所示。 α是狼群的領(lǐng)導(dǎo)者,主要負(fù)責(zé)決定狩獵、 作息時(shí)間等; β和δ負(fù)責(zé)協(xié)助和傳達(dá)α的決策;其余的灰狼ω被用來平衡狼的內(nèi)部關(guān)系, 服從上級狼的管理和決策。 此外,灰狼狩獵的三個(gè)主要階段包括獵物搜索,獵物包圍和攻擊。 圖1 灰狼的領(lǐng)導(dǎo)等級 在優(yōu)化過程中,假設(shè)灰狼數(shù)量為N,搜索空間為d維,灰狼的位置表示為Xwi= [xi1,xi2,…,xid],α被認(rèn)為是最優(yōu)解,其位置由Xα表示。 然后,β和δ分別為次優(yōu)解和第三優(yōu)解,它們的位置分別由Xβ和Xδ表示。其余的ω代表待選解。 灰狼狩獵過程的包圍策略如公式(3)和(4)所示: 式中,t為當(dāng)前迭代次數(shù);和為系數(shù)向量;和分別代表獵物和狼的位置。 和系數(shù)向量按公式(5)、(6)計(jì)算: 式中,隨著迭代次數(shù)的增加,從2線性減少到0;r1和r2為[0,1]之間的隨機(jī)數(shù)。 灰狼α、 β、 δ具有有關(guān)獵物的最佳信息,其余的灰狼ω根據(jù)三者的位置來更新各自的位置, 如公式(7)~(9)所示: 式中,i為1、2、3;j為分別為灰狼α、β、 δ與灰狼ω之間的距離。 針對RFR模型超參數(shù)確定困難的問題,本文采用GWO算法優(yōu)化模型的超參數(shù), 提出一種GWORFR模型,其算法流程如圖2所示。 圖2 GWO-RFR算法流程 GWO-RFR模型的基本步驟如下: (1)根據(jù)隨機(jī)抽樣技術(shù),隨機(jī)選取80%的數(shù)據(jù)為RFR的訓(xùn)練集,剩余20%的數(shù)據(jù)為測試集; (2)參數(shù)設(shè)置和初始化灰狼種群,參數(shù)包括灰狼數(shù)量N、最大迭代次數(shù)lmax; (3)灰狼的適應(yīng)度值計(jì)算和排名。 公式(10)中,訓(xùn)練集的均方根誤差(RMSE)用來評估每個(gè)灰狼的適應(yīng)度值。根據(jù)適應(yīng)度大小,對灰狼進(jìn)行排名。排名前三的灰狼分別是α、β和δ; 式中,n為預(yù)測點(diǎn)的個(gè)數(shù);yi為實(shí)際值;f(xi)為預(yù)測值。 (4)采用公式(5)和公式(6)更新參數(shù)a、和; (5)根據(jù)公式(8)和公式(9)更新灰狼α、β和δ其余灰狼的位置; (6)如果算法未達(dá)到最大迭代次數(shù),則返回步驟(3),否則,算法結(jié)束,輸出優(yōu)化結(jié)果; (7)采用上述步驟獲得的最優(yōu)解訓(xùn)練RFR模型,并對該模型進(jìn)行評估。 影響滴流床床層液體分布的因素主要包括物性參數(shù)、床層特性參數(shù)和操作參數(shù)等。 從公開發(fā)表的文獻(xiàn)[2,18-20]中提取了328組冷態(tài)實(shí)驗(yàn)數(shù)據(jù),具體數(shù)據(jù)來源與實(shí)驗(yàn)條件如表1所示。 表1中,氣相為氮?dú)饣蚩諝?,密度和黏度相近,液相均采用水,所以忽略物性參?shù)的影響。 在建模過程中,選取了2個(gè)操作參數(shù)和3個(gè)床層特性參數(shù)為輸入特征, 分別為氣液表觀速度ug和ul、床層高度H、反應(yīng)器直徑與顆粒直徑比D/dp和床層平均孔隙率ε,各特征取值范圍:ug為0~0.16 m/s,ul為0.0017~0.0430 m/s,H為100~1300 mm,D/dp為100~150,ε為0.41~0.46。 表1 滴流床液體分布的實(shí)驗(yàn)數(shù)據(jù)與條件 選擇液體分布不均勻度Mf為目標(biāo)輸出。Mf是為定量表征床層的液體分布而引入的評價(jià)指標(biāo)。 根據(jù)文獻(xiàn)[18]定義如公式(11)所示: 式中,QLi為第i個(gè)區(qū)域的液體流量;N為收集器劃分區(qū)域的個(gè)數(shù);Qmean為各個(gè)區(qū)域的平均流量;Mf處于0和1之間,0表示各區(qū)域液體流量相同, 為最理想液體分布,1表示液體全部流入某一個(gè)區(qū)域,為最差液體分布。 在本研究中, 建立GWO-RFR模型的目的是找到滿足輸入特征和目標(biāo)輸出映射關(guān)系的函數(shù)關(guān)系式,具體如公式(12)所示。 建模時(shí)將328組實(shí)驗(yàn)數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測試集。 其中,263組數(shù)據(jù)用于RFR模型訓(xùn)練,65組數(shù)據(jù)用于評估模型的性能。 RFR模型建模時(shí),其中需要控制的超參數(shù)主要是決策樹棵數(shù)ntree和隨機(jī)選擇特征個(gè)數(shù)mtry, 默認(rèn)值分別為ntree= 500和mtry=M/ 3,M為特征數(shù)。在GWO算法中,設(shè)置灰狼數(shù)量N為30,最大迭代次數(shù)lmax為50,超參數(shù)范圍分別為ntree[1,500],mtry[1,5]。圖3為適應(yīng)度值隨迭代次數(shù)的變化曲線。 由圖3可以看出,適應(yīng)度值隨迭代次數(shù)的增加而降低,在第10代左右收斂,50次迭代后達(dá)到最小,為0.01314,此時(shí)對應(yīng)的(ntree,mtry)為(32,5)。 圖3 適應(yīng)度值隨迭代次數(shù)的變化 為了評估GWO-RFR模型的性能,考慮了三個(gè)評價(jià)指標(biāo),分別為平均絕對百分比誤差(MAPE),均方誤差(MSE),相關(guān)系數(shù)(R2)。其中,R2代表模型的可解釋性, 值在0到1之間;MSE和MAPE反映樣本數(shù)據(jù)的離散程度,值越低說明精度越高。按照如下公式定義: 式中,n為預(yù)測點(diǎn)的個(gè)數(shù);yi為實(shí)際值;f(xi)為模型的預(yù)測值;為實(shí)際值的平均值;為預(yù)測值的平均值。 為了驗(yàn)證該模型的準(zhǔn)確性, 將GWO-RFR模型預(yù)測結(jié)果和實(shí)驗(yàn)結(jié)果對比,結(jié)果如圖4所示。 圖4中,紅球表示GWO-RFR模型對訓(xùn)練樣本的預(yù)測結(jié)果,黑球是模型對測試樣本的預(yù)測結(jié)果。 可以看出,訓(xùn)練集和測試集數(shù)據(jù)都在對角線y = x附近均勻分布,意味著GWO-RFR模型預(yù)測值和實(shí)驗(yàn)值取得了良好的一致性。測試樣本的R2為0.969,MSE和MPAE分別為0.00048和7.10%,與訓(xùn)練樣本預(yù)測效果相近,表明該模型具有良好的泛化能力,可以作為一種新方法來處理滴流床床層液體分布不均勻度Mf與操作參數(shù)、床層特性參數(shù)之間的復(fù)雜非線性關(guān)系。 圖4 GWO-RFR模型預(yù)測結(jié)果與實(shí)驗(yàn)結(jié)果對比 在滴流床床層液體分布模型中,對輸入特征重要性程度的量化可以為床層液體分布的精準(zhǔn)預(yù)測和優(yōu)化提供指導(dǎo)。 在這項(xiàng)研究中,使用GWO-RFR模型的OOB均方誤差的平均遞減值對5個(gè)特征的重要性進(jìn)行評估。模型特征重要性排序如表2所示。由表2可知,氣體表觀速度是與滴流床床層液體分布高度相關(guān)的特征,對床層液體分布影響最大,影響權(quán)重為48.12%;反應(yīng)器直徑與顆粒直徑比對床層液體分布影響最小,影響權(quán)重僅為2.23%;液體表觀速度和床層平均空隙率是相對重要的。 另外也可以看出,相對于床層特性參數(shù),操作參數(shù)對床層液體分布的影響更大。 當(dāng)?shù)瘟鞔泊矊映霈F(xiàn)液體分布不均時(shí),首先考慮調(diào)節(jié)操作參數(shù)來改善液體分布。 表2 特征重要性排序 在實(shí)際工程運(yùn)用中,床層特性參數(shù)一般固定不變,通常調(diào)節(jié)兩個(gè)操作參數(shù)使床層液體分布狀態(tài)達(dá)到最優(yōu)。 基于GWO-RFR模型, 采用粒子群優(yōu)化(PSO)算法建立了滴流床床層液體分布操作參數(shù)優(yōu)化模型,優(yōu)化流程如圖5所示。 圖5 基于GWO-RFR模型的PSO優(yōu)化流程 PSO算法是一種模仿鳥群覓食行為的群智能尋優(yōu)算法。PSO首先在可行解空間隨機(jī)生成一群粒子,然后根據(jù)適應(yīng)度值迭代尋找最優(yōu)解。 該算法以實(shí)現(xiàn)容易、精度高、收斂快等優(yōu)點(diǎn)被廣泛應(yīng)用于各個(gè)工業(yè)領(lǐng)域的參數(shù)優(yōu)化當(dāng)中[21]。 采用PSO對滴流床床層液體分布的操作參數(shù)優(yōu)化時(shí),設(shè)置初始種群大小為50,最大代數(shù)為50,學(xué)習(xí)因子c1和c2分別為1.5和1.7,GWO-RFR模型作為PSO的適應(yīng)度函數(shù)。 表3為三種床層特性參數(shù)條件下,GWO-RFRPSO優(yōu)化模型獲得的最小Mf與文獻(xiàn)[2,19]最小Mf的對比結(jié)果。 由表3可知,不同的床層特性參數(shù)下,采用GWO-RFR-PSO優(yōu)化模型獲得的Mf比文獻(xiàn)[2,19]最優(yōu)結(jié)果對應(yīng)的Mf更小,表明該模型是有效的,可用來優(yōu)化滴流床的床層液體分布。 表3 優(yōu)化結(jié)果和文獻(xiàn)最優(yōu)結(jié)果對比 (1)提出了一種GWO-RFR滴流床床層液體分布模型。 測試樣本的R2、MSE和MAPE分別為0.969、0.00048和7.10%,該模型預(yù)測精度高,泛化能力強(qiáng)。 (2)影響滴流床床層液體分布的特征重要性排序?yàn)椋簹怏w表觀速度、液體表觀速度、床層平均空隙率、床層高度、反應(yīng)器直徑與顆粒直徑比。 (3)基于GWO-RFR代理模型,采用PSO優(yōu)化了滴流床的操作參數(shù),有效地降低了床層液體分布不均,為滴流床床層液體分布的優(yōu)化提供了一種新的思路。1.2 GWO算法
1.3 GWO-RFR模型
2 基于GWO-RFR的滴流床床層液體分布預(yù)測模型
2.1 建模數(shù)據(jù)來源
2.2 模型參數(shù)優(yōu)化
2.3 模型評估
3 結(jié)果與討論
3.1 GWO-RFR模型預(yù)測結(jié)果與實(shí)驗(yàn)結(jié)果比較
3.2 模型特征重要性分析
3.3 模型操作參數(shù)的PSO優(yōu)化
4 結(jié)論