周達(dá)左 陶洪峰
基金項(xiàng)目:常州紡織服裝職業(yè)技術(shù)學(xué)院(批準(zhǔn)號(hào):51800222107)資助的課題。
作者簡(jiǎn)介:周達(dá)左(1982-),實(shí)驗(yàn)師,從事自動(dòng)控制方面的研究,94186619@qq.com。
引用本文:周達(dá)左,陶洪峰.基于改進(jìn)FCM聚類算法的混合建模方法在苯酚濃度預(yù)測(cè)中的應(yīng)用[J].化工自動(dòng)化及儀表,2023,50(6):000-000.
DOI:10.20030/j.cnki.1000-3932.202306000
摘? 要? 為了解決單一模型無(wú)法滿足復(fù)雜化工生產(chǎn)過(guò)程預(yù)測(cè)精度要求的問(wèn)題,引入混合建模方法。首先,考慮到模糊C均值聚類(FCM)算法在初始聚類中心選擇上存在的缺陷,采用SA算法和GA算法對(duì)其進(jìn)行優(yōu)化,以選擇最合適的初始聚類中心,提高聚類精度;然后,基于支持向量機(jī)建立各子類預(yù)測(cè)模型;最后,將測(cè)試樣本劃分到各子類中,采用各子類模型仿真得到預(yù)測(cè)值。采用混合建模方法和單模型方法預(yù)測(cè)苯酚濃度并與真實(shí)值對(duì)比,結(jié)果表明:筆者所提混合模型得到的平均相對(duì)誤差(MRE)和最大相對(duì)誤差(MXRE)均小于單模型的。
關(guān)鍵詞? 混合建模? 改進(jìn)FCM聚類算法? 支持向量機(jī)? 相對(duì)誤差? 苯酚濃度
中圖分類號(hào)? TP18? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼? B? ? ? ? ? ? ? ? 文章編號(hào)? 1000-3932(2023)06-0000-00
在復(fù)雜化工生產(chǎn)過(guò)程中,由于受到工藝和技術(shù)的限制,一些化學(xué)成分的質(zhì)量指標(biāo)很難直接在線檢測(cè),因此,以經(jīng)驗(yàn)數(shù)據(jù)為基礎(chǔ)的軟測(cè)量建模方法[1]得到了廣泛應(yīng)用。此外,由于化工生產(chǎn)過(guò)程具有非線性、可控性低、工況范圍廣等特點(diǎn),單一模型根本無(wú)法滿足建模要求。而混合建模方法可從原理上解決這一問(wèn)題,它先將復(fù)雜經(jīng)驗(yàn)數(shù)據(jù)劃分為若干個(gè)子區(qū)間,再分別對(duì)每個(gè)子區(qū)間建立模型,最后根據(jù)特定準(zhǔn)則獲取該化工生產(chǎn)過(guò)程的全局模型。
在混合建模領(lǐng)域中,模糊C均值(Fuzzy C-means,F(xiàn)CM)聚類方法一直是學(xué)者們研究的熱點(diǎn)[2]。雖然FCM聚類方法具有較高的搜索速度,但是其作為一種局部搜索算法,聚類中心的初值一旦選擇不當(dāng),將導(dǎo)致聚類結(jié)果很不理想。為此,筆者將模擬退火算法(Simulated Annealing,SA)與遺傳算法(Genetic Algorithm,GA)相結(jié)合用于改進(jìn)FCM聚類算法,通過(guò)改善其聚類效果,從而更好地應(yīng)用于復(fù)雜化工生產(chǎn)過(guò)程中關(guān)鍵變量的測(cè)量。
1? 改進(jìn)FCM聚類算法的基本原理
1.1? FCM聚類算法
FCM聚類算法是對(duì)K均值聚類算法的一種改進(jìn)[3,4],它采用柔性的模糊劃分法將數(shù)據(jù)樣本進(jìn)行分類,最終實(shí)現(xiàn)相同類樣本數(shù)據(jù)之間的相似度最大、不同類數(shù)據(jù)樣本之間的相似度最小的目標(biāo)[5]。
設(shè)數(shù)據(jù)樣本的容量為,將其劃分為個(gè)類別,每個(gè)類別各自的數(shù)據(jù)樣本為,是模糊劃分矩陣,每個(gè)類別相應(yīng)的聚類中心為,對(duì)于的隸屬度為,則FCM聚類算法的目標(biāo)函數(shù)可定義為:
(1)
其中,是加權(quán)參數(shù);dik表示第個(gè)樣本與第類中心之間的距離;表示數(shù)據(jù)樣本的特征數(shù)。
FCM聚類算法是為了尋找到一種最佳分類,使得式(1)的值最小。因此它要求隸屬度的總和為1,具體表示為:
(2)
個(gè)類別的聚類中心表示為:
(3)
則對(duì)于的隸屬度表示為:
(4)
通過(guò)式(3)、(4)反復(fù)修改聚類中心和隸屬度,最終在算法收斂時(shí),可得到該數(shù)據(jù)樣本的最佳分類。
通過(guò)上述對(duì)FCM聚類算法的推導(dǎo)可以看出,每個(gè)類別相應(yīng)的聚類中心的初始選擇值在整個(gè)推導(dǎo)過(guò)程中有很大影響,一旦選擇不當(dāng),將導(dǎo)致最終的聚類結(jié)果很不理想。
1.2? 算法的改進(jìn)
針對(duì)FCM聚類算法初始聚類中心難選擇的問(wèn)題,采用SA算法和GA算法[6~8]優(yōu)化初始聚類中心,從而避免最終算法收斂到局部最小的問(wèn)題,改進(jìn)后的聚類算法步驟如下:
a. 將SA算法、GA算法中用到的控制參數(shù)先進(jìn)行初始化操作,其中包括初始溫度、終止溫度、冷卻系數(shù)、最大進(jìn)化次數(shù)、變異概率和交叉概率。
b. 隨機(jī)生成c個(gè)初始聚類中心和初始種群,使用式(4)為每個(gè)聚類中心計(jì)算每個(gè)數(shù)據(jù)的隸屬度和每個(gè)個(gè)體的適應(yīng)度函數(shù)值。
c. 定義初始循環(huán)次數(shù)變量。
d. 采用GA算法對(duì)種群進(jìn)行選擇、交叉和變異操作產(chǎn)生新個(gè)體,對(duì)新個(gè)體采用式(4)計(jì)算隸屬度,采用式(3)計(jì)算聚類中心,并計(jì)算新個(gè)體的適應(yīng)度函數(shù)值。若,則用新個(gè)體代替舊個(gè)體;否則,以概率接受新個(gè)體,去除舊個(gè)體。
e. 若,則,轉(zhuǎn)步驟d;否則轉(zhuǎn)步驟f。
f. 若,則程序結(jié)束,返回全局最優(yōu)解;否則,轉(zhuǎn)至步驟c。
為驗(yàn)證算法的有效性,分別采用改進(jìn)前后的FCM聚類算法對(duì)二維平面上隨機(jī)生成的500個(gè)點(diǎn)(共分成4個(gè)類別)進(jìn)行聚類,結(jié)果如圖1所示??梢钥闯?,算法改進(jìn)后,目標(biāo)函數(shù)值Jb從4.278 4變成了4.033 6,而且改進(jìn)后的算法每次計(jì)算所得的目標(biāo)函數(shù)值都是最優(yōu)的。
2? 混合模型建模方法
2.1? 支持向量機(jī)
作為統(tǒng)計(jì)理論在機(jī)器學(xué)習(xí)中的延伸,支持向量機(jī)(Support Vector Machine,SVM)可以在少量樣本的情況下,統(tǒng)計(jì)出樣本數(shù)據(jù)的特征,提高模型回歸分析的準(zhǔn)確性[9~11]。
給定數(shù)據(jù)樣本集,其中。在SVM模型中引入松弛因子和從輸入空間到Hilbert空間的變換,將,其中b為映射參數(shù),則原始的回歸問(wèn)題轉(zhuǎn)化為優(yōu)化函數(shù):
(5)
其中,為權(quán)重向量;為懲罰因子,且;為兩個(gè)約束條件下的松弛變量。優(yōu)化函數(shù)的約束條件為:
(6)
其中,為損失函數(shù),且。
若對(duì)應(yīng)的變換為,則最終得到的優(yōu)化后的回歸函數(shù)為:
(7)
其中,為兩個(gè)約束條件下的拉格朗日乘子。
考慮到徑向基核函數(shù)(Radial Basis Function,RBF)[12,13]的非線性映射能力較強(qiáng),筆者采用RBF作為核函數(shù)。
2.2? 混合模型的構(gòu)成
混合模型[6]的構(gòu)成過(guò)程為:首先通過(guò)聚類算法,將樣本數(shù)據(jù)分成若干個(gè)子空間,然后對(duì)每個(gè)子空間建立模型(筆者采用SVM建立子模型),最后獲取全局模型。子模型的連接一般采用“開(kāi)關(guān)切換”方式或者“加權(quán)組合”方式[14,15]:前者操作簡(jiǎn)單,混合模型的輸出僅取決于測(cè)試數(shù)據(jù)對(duì)應(yīng)的子模型輸出,且獨(dú)立于其他子模型;后者操作復(fù)雜,混合模型的輸出是將每個(gè)子模型的輸出結(jié)果加權(quán)求和,而加權(quán)組合的前提是要默認(rèn)建立的子模型之間必須是線性關(guān)系,但是在實(shí)際應(yīng)用中很難滿足這一要求。因此,筆者采用開(kāi)關(guān)切換方式(圖2)實(shí)現(xiàn)混合模型子模型之間的連接。
3? 應(yīng)用實(shí)例
3.1? 工況介紹與數(shù)據(jù)描述
將筆者提出的混合建模方法應(yīng)用于雙酚A生產(chǎn)裝置中對(duì)精餾塔C303塔底的苯酚濃度實(shí)現(xiàn)在線估計(jì)。通過(guò)對(duì)C303精餾塔的工藝流程和現(xiàn)場(chǎng)情況進(jìn)行分析,選擇塔中6個(gè)變量(塔內(nèi)溫度、塔底部的排放溫度、塔內(nèi)液位、來(lái)自前一單元V304估算出的3個(gè)變量(苯酚、BPA、BPA-24)的濃度)作為輸入變量,輸入變量的樣本數(shù)據(jù)通過(guò)現(xiàn)場(chǎng)DCS獲得;選擇C303精餾塔底部的苯酚濃度作為輸出變量,輸出變量的樣本數(shù)據(jù)通過(guò)每天人工分析獲得。
在現(xiàn)場(chǎng)采集的數(shù)據(jù)樣本集中隨機(jī)選擇200組數(shù)據(jù)作為訓(xùn)練樣本,100組數(shù)據(jù)作為測(cè)試樣本。采用平均相對(duì)誤差(MRE)和最大相對(duì)誤差(MXRE)兩個(gè)指標(biāo)用于評(píng)估混合建模方法的性能,具體定義如下:
(8)
(9)
其中,和分別為模型的預(yù)測(cè)值和真實(shí)值。
3.2? 模型參數(shù)設(shè)置
設(shè)置為120 ℃,為0.8,為10 ℃,為10,為100,為0.5,為0.01。
3.3? 結(jié)果分析
基于訓(xùn)練樣本建立混合模型后,采用測(cè)試樣本對(duì)該混合模型進(jìn)行測(cè)試,得到預(yù)測(cè)值和真實(shí)值的對(duì)比曲線如圖3所示。可以看出,采用筆者所提混合模型得到的預(yù)測(cè)值與真實(shí)值接近,跟蹤效果較好。
表1給出了混合模型與支持向量機(jī)(單模型)預(yù)測(cè)結(jié)果的MRE與MXRE??梢钥闯觯P者所提混合模型的MRE和MXRE均小于支持向量機(jī)(單模型),證明了筆者所提模型的有效性,可以實(shí)現(xiàn)變量的準(zhǔn)確預(yù)測(cè)。
4? 結(jié)束語(yǔ)
針對(duì)高維度、多工況的復(fù)雜化工生產(chǎn)過(guò)程,從聚類方法優(yōu)化的角度,提出一種改進(jìn)FCM聚類方法的混合模型軟測(cè)量方法。利用SA算法和GA算法對(duì)傳統(tǒng)的模糊聚類算法進(jìn)行改進(jìn),有效解決了模糊聚類方法初始聚類中心難選擇的問(wèn)題。實(shí)際應(yīng)用結(jié)果表明,筆者所提的混合模型建模方法在苯酚濃度預(yù)測(cè)中具有良好的預(yù)測(cè)效果,相對(duì)誤差較小,可以實(shí)現(xiàn)難測(cè)量變量的較準(zhǔn)確預(yù)測(cè),具有一定的工程實(shí)際應(yīng)用價(jià)值。
參? 考? 文? 獻(xiàn)
[1]劉鴻斌,吳啟悅,宋留.變量選擇在廢水處理過(guò)程軟測(cè)量建模中的應(yīng)用[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2020,50(3):133-142.
[2]張和平,李俊武.基于模糊c均值聚類算法的控制圖模式識(shí)別[J].工業(yè)工程,2021,24(5):108-116.
[3]李江,楊潤(rùn)冰,于文雙,等.基于模糊C均值聚類及學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)的負(fù)荷同時(shí)系數(shù)預(yù)測(cè)模型[J].南京理工大學(xué)學(xué)報(bào),2020,44(5):567-574.
[4]張林平,李風(fēng)軍.基于主成分分析和優(yōu)化聚類算法的行駛工況研究[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,53(2):121-128.
[5]肖連杰,郜夢(mèng)蕊,蘇新寧.一種基于模糊C-均值聚類的欠采樣集成不平衡數(shù)據(jù)分類算法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(4):90-96.
[6]李元香,項(xiàng)正龍,張偉艷.模擬退火算法的弛豫模型與時(shí)間復(fù)雜性分析[J].計(jì)算機(jī)學(xué)報(bào),2020,43(5):796-811.
[7]李建國(guó),賀云鵬,常立丹.基于改進(jìn)模擬退火算法的立體車庫(kù)車位分配優(yōu)化[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2020,34(4):183-191.
[8]趙明琳,吳嘉瑤,童榮景,等.基于模擬退火-蟻群變步長(zhǎng)優(yōu)化算法的橢偏數(shù)據(jù)反演分析[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,35(3):108-113.
[9]林浩,李雷孝,王慧.支持向量機(jī)在智能交通系統(tǒng)中的研究應(yīng)用綜述[J].計(jì)算機(jī)科學(xué)與探索,2020,14(6):901-917.
[10]邱維蓉,吳幫玉,潘學(xué)樹(shù),等.幾種聚類優(yōu)化的機(jī)器學(xué)習(xí)方法在靈臺(tái)縣滑坡易發(fā)性評(píng)價(jià)中的應(yīng)用[J].西北地質(zhì),2020,53(1):222-233.
[11]周方明,潘華亮,周奉翔,等.基于支持向量回歸的焊接變形預(yù)測(cè)系統(tǒng)開(kāi)發(fā)研究[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,31(3):282-287.
[12]鄒強(qiáng),田穎,李紅松,等.基于支持向量機(jī)的燃料電池發(fā)動(dòng)機(jī)氫氣泄漏檢測(cè)方法[J].北京交通大學(xué)學(xué)報(bào),2020,44(1):84-90.
[13]劉涵,王月嶺,王曉,等.基于支持向量機(jī)與概率輸出網(wǎng)的深度學(xué)習(xí)模型[J].系統(tǒng)工程理論與實(shí)踐,2018,38(8):2147-2154.
[14]張金環(huán),王超群,張彤,等.基于高斯混合分布模型的風(fēng)電功率預(yù)測(cè)誤差統(tǒng)計(jì)分析研究[J].智慧電力,2020,48(7):59-64;72.
[15]雙翼帆,顧幸生.基于改進(jìn)的快速搜索聚類算法和高斯過(guò)程回歸的催化重整脫氯前氫氣純度多模型建模方法[J].化工學(xué)報(bào),2016,67(3):765-772.
(收稿日期:2023-03-26,修回日期:2023-10-17)