歐陽福生,李 盾,方偉剛
(華東理工大學石油加工研究所,上海 200237)
催化裂化是重油輕質化的主要工藝。我國催化裂化裝置所生產(chǎn)的汽油和柴油約占成品汽油和柴油總量的70%和30%[1]。實際生產(chǎn)過程中,催化裂化主要以餾分油和渣油為原料,其中餾分油主要為直餾減壓餾分油,也包括少量焦化蠟油,渣油主要為減壓渣油、加氫處理渣油或脫瀝青油等,并以一定比例摻入餾分油中進行加工。因催化裂化原料油種類和渣油摻煉比例的不同,原料油性質會發(fā)生較大變化。如果對不同原料油的加工不加以區(qū)分,僅憑借生產(chǎn)經(jīng)驗進行操作就會使大部分原料油難以達到最優(yōu)的加工狀態(tài)。聚類分析[2]是比較各個事物之間的性質,并將性質相似的歸于一類,將性質差別較大的歸入不同的類別中,與平常所說的“物以類聚”相仿。聚類分析是數(shù)據(jù)挖掘的一項重要功能,它不需要事先確定分類的準則來分析數(shù)據(jù)對象,而是在訓練數(shù)據(jù)的過程中根據(jù)最大的組內相似性和最小的組間相似性為原則進行聚類和分組。在實際過程中,可以將一個類別中的數(shù)據(jù)對象作為一個整體來處理,因此,聚類分析在許多領域得到廣泛應用[3-5]。傳統(tǒng)的聚類算法主要包括劃分聚類方法和層次聚類方法,劃分聚類方法主要的算法有K-means算法、K-medoids算法、CLARA算法和CLARANS算法[6]。層次聚類的方法有BRICH算法、CHAMELEON算法、ROCK算法和CURE算法[7-8]。除此之外,傳統(tǒng)的聚類算法還有基于網(wǎng)格的聚類、基于圖論的聚類、基于模型的聚類、機器學習中的聚類算法和高維數(shù)據(jù)的聚類算法等[9-10]。除了上述傳統(tǒng)聚類算法外,還有模糊聚類算法、綜合聚類算法和新對象的聚類算法[11],這些聚類算法對傳統(tǒng)聚類算法進行了擴展,使得它們具有更強的適用性。
MIP工藝是由中國石化石油化工科學研究院開發(fā),通過對催化裂化氫轉移反應的調控,直接降低催化裂化汽油烯烴含量,同時多產(chǎn)異構烷烴的催化裂化新工藝[12]。本研究在綜合分析MIP裝置原料油數(shù)據(jù)的基礎上,以汽油收率最大為目標,通過建立原料油數(shù)據(jù)的聚類評價模型,旨在將性質最為相近的原料油聚為一類,并對每一類原料油的特征進行描述,以此為基礎,有助于建立相應的智能化模型,尋找加工該類別原料油時目的產(chǎn)物收率最大的操作條件。
原料油性質是決定催化裂化產(chǎn)品的基礎。原料油為烷烴、烯烴、環(huán)烷烴和芳烴的混合物,其中烷烴發(fā)生分解反應;烯烴除發(fā)生分解反應外還發(fā)生氫轉移、異構化、芳構化反應;環(huán)烷烴主要開環(huán)斷裂生成烯烴或通過氫轉移轉化為芳烴;芳烴的烷基側鏈容易發(fā)生斷裂生成烯烴。一般認為原料油中支鏈烷烴、烯烴、環(huán)烷烴、帶側鏈芳烴的含量越高,其裂解性能越好,越有利于生成C5~C12汽油組分。因而,原料中各烴類含量對于反應速率的影響較大。原料油中含有的金屬會引起催化劑的失活,主要影響反應的金屬包括鎳、釩、鐵以及鈣。催化裂化反應條件下,鎳起脫氫的作用,使催化裂化產(chǎn)物生成多環(huán)芳烴聚合物和焦炭,使催化劑的選擇性變差;釩會破壞分子篩中的晶體結構并使催化劑的活性下降。殘?zhí)糠从吃现猩刮镔|含量的多少和生焦傾向,殘?zhí)吭酱螅固慨a(chǎn)率越高。因此,殘?zhí)恳彩且粋€重要的影響因素。
表1 原料油性質分布
K-means算法理論可靠、算法簡單并且收斂速率快,除此之外該算法對大數(shù)據(jù)集有較高的效率,因此K-means算法作為一種基本的劃分算法被廣泛應用于數(shù)據(jù)挖掘領域[13]。模糊聚類算法可以得到每個樣本屬于各個類別的不確定程度,表達了樣本類屬的中介性,建立了樣本屬于各個類別的不確定程度,因此模糊聚類算法在聚類分析中的應用也比較廣泛[14]。本研究分別采用K-means算法和模糊聚類算法建立原料油性質的聚類模型,采用MATLAB作為原料油性質聚類模型的編程平臺。
2.1.1K-means算法K-means算法是在給定聚類數(shù)k時,通過最小化組內誤差平方和得到每一個樣本點的分類。在使用時首先隨機選擇k個對象作為初始k個類的質心,然后對剩余的每個對象,根據(jù)其與各個質心的距離,將它賦給最近的類別,然后重新計算每個類別的質心。K-means算法在應用時通常采用歐式距離來計算對象與質心距離,計算式如(1)所示。
(1)
式中,xik、xjk分別表示第i和第j個數(shù)據(jù)對象在屬性k上的取值。
數(shù)據(jù)對象和質心的距離會不斷重復的計算,直到準則函數(shù)收斂,通常采用的準則函數(shù)為平方誤差和準則函數(shù),即SSE(sum of the squared error):
(2)
式中:SSE為數(shù)據(jù)集中所有對象的平方誤差總和;p為數(shù)據(jù)對象;K-means算法將觀測樣本分為i個集合C= {C1,C2,…,Ci};mi為集合Ci的平均值。這個準則函數(shù)使得生成的結果盡可能緊湊和獨立。
K-means算法的具體過程如下:
(1)給定大小為n的數(shù)據(jù)集,令I=1,選取k個初始聚類中心Zj(I),j=1,2,3,…,k。
(2)計算每個數(shù)據(jù)對象與聚類中心的距離D(xi,Zj(I)),i=1,2,3,…,n,j=1,2,3,…,k,如果滿足:
D(xi,Zk(I))=min{D(xi,Zk(I)),
i=1,2,3,…,n}
(3)
則xi∈Ck。
(3)計算k個新的聚類中心:
(4)
以便下一步進行判斷。
(4)判斷:Zj(I+1)≠Zj(I),j=1,2,3,…,k,則I=I+1,返回(2);否則算法結束。
2.1.2K-means聚類結果分析K-means聚類的最佳聚類數(shù)kopt事先無法確定,目前許多學者已經(jīng)提出一些確定kopt的有效方法[15-16],但是由于這些方法中的構造函數(shù)自身存在缺陷,一般難以通過這些方法直接確定kopt。一般情況下,可以先確定聚類數(shù)的最小和最大值,然后在該范圍內進行試算,計算結果最符合實際過程的聚類數(shù)即為最佳聚類數(shù)。本研究設定最小聚類數(shù)kmin=3,最大聚類數(shù)采用經(jīng)驗式(5)[17]計算。
(5)
式中,n表示聚類的樣本數(shù),由于原料油性質共95組樣本,因此kmax=9。
將95組包含ρ,SH,AH,AR,Ni,V,CR的原料油數(shù)據(jù)進行歸一化計算,計算式如式(6)所示。
(6)
式中:xi表示屬性i的平均值;si表示屬性i的標準差;xij表示屬性i的第j組樣本原始值;zij表示屬性i的第j組樣本標準化值。
聚類數(shù)從3依次變化至9,并設定最大迭代次數(shù)為80。使用MATLAB編好的程序進行原料油數(shù)據(jù)的聚類分析,計算結果如表2所示。
表2 變量貢獻度分布表
表2是聚類數(shù)在3~9變化的過程中,各變量對聚類結果貢獻度排列情況。因為聚類的目的是找到每一類原料油(智能化模型)在汽油收率最大的同時盡可能控制生焦量的操作條件。因此,聚類過程中應以影響汽油收率和生焦量的因素為主。汽油的生成主要是因為烷烴發(fā)生分解反應,烯烴發(fā)生裂化、氫轉移和異構化反應,環(huán)烷烴發(fā)生斷裂生成烯烴,芳烴的烷基側鏈發(fā)生斷裂生成烯烴等一系列反應;焦炭一般是多環(huán)芳烴的縮合結構,芳烴在側鏈基團斷裂后具有強烈的生焦傾向,而瀝青質和膠質中也含有大量的多環(huán)芳烴和雜環(huán)芳烴。因此影響汽油收率的因素主要是SH和AH,其中SH對汽油的貢獻最大;影響焦炭收率的主要因素是AH和AR,其中AR是主要影響因素。ρ從一定程度上表示原料的輕重程度,ρ越大,AR和AH越大,SH越小;反之,AR和AH越小,SH越大。CR是表示生焦傾向的一個重要指標,CR越大,表明原料在反應時越容易生焦。Ni和V在反應過程中主要影響催化劑的活性和使用壽命,一定程度上促進焦炭的生成,而在實際生產(chǎn)過程可以通過加入新鮮催化劑和金屬鈍化劑來保持催化劑活性在指標范圍內。因此,重金屬含量可以作為次要的因素考慮。綜上所述,當聚類數(shù)為4時,各變量對聚類結果影響的重要性由大到小的順序為:SH>AR>AH>ρ>CR>Ni>V,滿足上述的分析過程,因此確定最佳聚類數(shù)kopt=4。
表3為當聚類數(shù)為4時,每一類每個變量的平均值。當原料油飽和分含量越高時,芳香分含量和(瀝青質+膠質)含量越低,原料油密度越小,殘?zhí)吭叫?。第一類原料油命名為“超重質原料油”,其特點是芳香分含量和(瀝青質+膠質)含量、殘?zhí)俊㈡嚭外C的含量最高,殘?zhí)恳沧罡摺T诜磻^程中,該類油所產(chǎn)汽油收率很低,生焦量很高,高的燒焦負荷和高的重金屬含量大大縮短了催化劑的使用壽命,能耗也高,因此這類油煉制成本較高。第二類原料油命名為“重質原料油”,該類油比第一類油飽和分含量高,但是由于(瀝青質+膠質)含量也比較高,使得殘?zhí)枯^高,此外重金屬含量也較高,這類油所產(chǎn)汽油收率會比第一類油高,但是生焦量也會很大。第三類原料油命名為“超輕質原料油”,這類油的特點是飽和分含量最高,芳香分和瀝青質、膠質總含量很低,同時鎳和釩的含量也很低,這類油加工的經(jīng)濟效益最高。第四類原料油命名為“輕質原料油”,這類油的特點是飽和分含量較高,芳香分和瀝青質、膠質總含量較低,同時鎳和釩的含量也較低。
表3 當聚類數(shù)為4時每一類變量的平均值
以對汽油收率貢獻大的飽和分含量為橫坐標,對焦炭收率貢獻大的(瀝青質+膠質)含量為縱坐標,繪制了95組樣本的散點圖(圖1)。由圖1可以看出,每一類與其它類的邊界較為明顯,分類效果較好。
圖1 K-means聚類散點圖■—第一類油; ●—第二類油; ★—第三類油; 第四類油
K-means聚類分析是一種硬劃分,它把每個待辨識的對象嚴格地劃分到某個類中,具有非此即彼的性質。因此,K-means的每一類都具有明確的界限。而實際上有些對象并沒有嚴格屬性,它們在形態(tài)類屬方面存在著中介性,于是人們開始使用模糊的方法來處理聚類問題,稱之為模糊聚類分析。模糊劃分的概念最早由Ruspini在1969年提出的[18],它是指某些對象或者概念并沒有嚴格的屬性,它們在形態(tài)和類屬方面存在著中介性,利用這一概念人們提出了多種聚類方法,其中應用最廣泛的是模糊c均值聚類算法(FCM,F(xiàn)uzzy c-means)。
FCM在計算時給定數(shù)據(jù)集X={x1,x2,……,xn},其中每個元素包含s個屬性。模糊聚類就是要把X劃分為c類(2≤c≤n),v={v1,v2,……,vc}為c個聚類中心。在FCM中,每一個樣本點不是嚴格地被劃分到某一類,而是以一定的隸屬度屬于某一類。令μij表示第j個樣本點屬于第i類的隸屬度,μij∈[0,1],數(shù)據(jù)對象的隸屬度總和為1。
(7)
FCM的目標函數(shù)為:
(8)
式中:dij=‖xj-vi‖,為樣本點xj與聚類中心vi之間的歐幾里德距離;m∈[1,∞)]是模糊加權指數(shù),通常m=2。
構造如下新的目標函數(shù),可求得使式(8)達到最小值的必要條件:
(9)
式中λj(j=1,2,……,n)是式(7)的n個約束式的拉格朗日算子。對輸入變量進行求導,使式(8)達到最小的必要條件為:
(10)
(11)
有上述兩個必要條件,F(xiàn)CM算法就變成了一個簡單地迭代計算過程。在批處理方式下,F(xiàn)CM通過以下步驟來確定聚類中心ci和隸屬矩陣U:步驟1,初始化隸屬矩陣U,其值是[0,1]間的隨機數(shù)并且滿足式(7)中的約束條件;步驟2,用式(10)計算各個聚類的中心,記為ci,i=1,2,……,c;步驟3,根據(jù)式(8)計算目標函數(shù)的值,如果函數(shù)值小于預先設定的閥值,或它與上一次目標函數(shù)的差值的絕對值小于閥值,則算法停止;步驟4,用式(11)計算新的U矩陣,返回步驟2。
FCM聚類算法最重要的任務是確定最佳聚類數(shù),現(xiàn)有的算法需要預先確定聚類的數(shù)目,但是實際問題中由于樣本數(shù)量巨大,很難有效確定聚類數(shù)目。聚類有效性函數(shù)能夠通過找到函數(shù)的極值達到對聚類數(shù)c的優(yōu)選,而常用的有效性函數(shù)一般是基于隸屬度的有效性函數(shù),包括劃分系數(shù)F(U,c)、可能性劃分系數(shù)P(U,c)和聚類有效性函數(shù)P(U,c)[19]。對于給定的聚類數(shù)c和隸屬度矩陣U:
(12)
(13)
式中,n為聚類樣本個數(shù)。
FP(U,c)=F(U,c)-P(U,c)
(14)
本研究中FCM算法的參數(shù)設置如表4所示。
表4 FCM算法主要參數(shù)
FCM的最佳聚類數(shù)copt事先無法確定,目前許多學者已經(jīng)提出一些確定copt的有效方法[15-16],但是由于這些方法中的構造函數(shù)自身存在缺陷,一般難以通過這些方法直接確定copt。一般情況下,可以先確定聚類數(shù)的最小和最大值,然后在該范圍內進行試算,計算結果最符合實際過程的聚類數(shù)即為最佳聚類數(shù)。本研究設定最小聚類數(shù)cmin=3,最大聚類數(shù)采用經(jīng)驗公式(15)[17]計算。
(15)
式中,n為樣本個數(shù)。在式(15)的基礎上,取最大聚類數(shù)cmax=12。FCM聚類有效性函數(shù)值和收斂迭代次數(shù)與聚類數(shù)目的關系見表5。由表5可以看出,當聚類數(shù)為5時,對應的有效性函數(shù)值最小為0.006 8,因此,F(xiàn)CM算法的最佳聚類數(shù)copt=5。表5為當聚類數(shù)為5時,95組原料油樣本對于不同類別的隸屬度。由表6可以看出,第1組樣本對于5個類別的隸屬度中,對第1個類別的隸屬度最大,為0.269 720,說明第1組樣本的原料油性質與第1個類別的原料油性質最相近;第3組樣本對于5個類別的隸屬度中,對第3個類別的隸屬度最大,為0.389 022,說明第3組樣本的原料油性質與第3個類別的原料油性質最相近。
表5 數(shù)據(jù)集分類的有效性函數(shù)值和收斂迭代次數(shù)與聚類數(shù)目的關系
表6 聚類數(shù)為5時原料油樣本對于不同類別的隸屬度
表7為當聚類數(shù)為5時,每一類中每個變量的平均值。由表7可以看出,原料油飽和分含量越高,(膠質+瀝青質)含量越低,原料油密度越小,殘?zhí)吭降?。第一類原料油命名為“輕質原料油”,這類油的特點是飽和分含量較高,芳香分和(瀝青質+膠質)含量較低,同時鎳和釩的含量也較低。第二類和第五類原料油密度相近,(膠質+瀝青質)含量也相近,說明這兩類油輕重程度相似,但是這兩類油重金屬含量不同,第二類重金屬含量明顯低于第五類油,因此可以將第二類油命名為“低金屬重質原料油”,第五類原料油命名為“高金屬重質原料油”,第二類油的飽和分含量相對較高,殘?zhí)肯鄬^低,因此汽油收率相對于第五類油大,同時焦炭收率小,催化劑的消耗量較小。第三類原料油命名為“超輕質原料油”,這類油的特點是飽和分含量最高,芳香分和(瀝青質+膠質)含量最低,同時鎳和釩的含量也最低,這類油的經(jīng)濟效益最高。第四類原料油命名為“超重質原料油”,其特點是芳香分含量和(瀝青質+膠質)含量最高,殘?zhí)恳沧罡?,在反應過程中,該類油汽油收率很低,生焦量很高,同時鎳和釩的含量也最高,催化劑的損耗也最高,因此這類油煉制成本最高。
表7 聚類數(shù)為5時每一類變量的平均值
以催化裂化MIP裝置工業(yè)數(shù)據(jù)為基礎,選取原料油性質中的密度、飽和分含量、芳香分、(瀝青質+膠質)含量、鎳含量、釩含量、殘?zhí)康?個變量,建立了原料油性質的K-means和FCM聚類模型。K-means聚類法將原料油性質的95組樣本分為4類,分別為“超重質原料油”、“重質原料油”、“超輕質油”和“輕質油”,F(xiàn)CM聚類法將原料油性質的95組樣本分為5類,5類油的命名方式是在K-means的基礎上將重質原料油分為“低金屬重質油”和“高金屬重質油”兩類。聚類結果中的每一類原料油特征都比較明顯,表明K-means和FCM聚類法對于原料油性質的聚類分析均具有較好的適用性。這樣,可以針對每一類原料油建立相應的產(chǎn)品分布優(yōu)化智能模型,從而尋找到使目的產(chǎn)品收率最大的操作條件,對提高煉油廠的經(jīng)濟效益具有一定的指導意義。
[1] 許友好. 我國催化裂化工藝技術進展[J]. 中國科學,2014,44(1):13-24
[2] 周濤,陸惠玲. 數(shù)據(jù)挖掘中聚類算法研究進展[J]. 計算機工程與應用,2012,48(12):100-111
[3] 楊敬一,鄒華偉,蔡海軍,等. 原料性質對焦化行為的影響[J]. 石油煉制與化工,2015,46(10):6-11
[4] 魯紅英,肖思和,楊盡. 模糊聚類分析方法在土地整治分區(qū)中的應用[J]. 成都理工大學學報:自然科學版,2014,41(1):124-128
[5] 周俊,劉麗川,楊繼平. 基于K-均值聚類與小波分析的聲發(fā)射信號去噪[J]. 石油化工高等學校學報,2013,26(3):69-73
[6] 黎敏. 數(shù)據(jù)挖掘算法研究與應用[D]. 大連:大連理工大學,2004
[7] 向先全,王海波,路文海,等. 基于數(shù)據(jù)挖掘的渤海灣水生態(tài)環(huán)境特性研究[J]. 海洋通報,2013,32(1):72-77
[8] Guha S,Rastogi R,Shim K. Cure:An efficient clustering algorithm for large databases [J]. Information Systems,2001,26(1):35-58.
[9] 賀玲,吳玲達,蔡益朝,等. 數(shù)據(jù)挖掘中的聚類算法綜述[J]. 計算機應用研究,2007,24(1):10-13
[10] 陳安,陳寧,周龍驤. 數(shù)據(jù)挖掘技術及應用[M]. 北京:科學出版社,2006:183-203
[11] 馬飛. 數(shù)據(jù)挖掘中的聚類算法研究[D]. 南京:南京理工大學,2008
[12] 許友好,張久順,龍軍,等. 多產(chǎn)異構烷烴的催化裂化工業(yè)技術開發(fā)與應用[J]. 中國工程科學,2003,5(5):55-58
[13] 王千,王成,馮振元,等. K-means 聚類算法研究綜述[J]. 電子設計工程,2012,20(7):21-24
[14] 高新波,謝維信. 模糊聚類理論發(fā)展及應用的研究進展[J]. 科學通報,1999,44(21):2241-2251
[15] Bezdek J C,Pal N R. Some new indexes of cluster validity [J]. IEEE Transactions on Systems,Man,and Cybernetics,Part B(Cybernetics),1998,28(3):301-315.
[16] 于劍,程乾生. 模糊聚類方法中的最佳聚類數(shù)的搜索范圍[J]. 中國科學(E輯),2002,32(2):274-280
[17] Rezaee M R,Lelieveldt B P,Reiber J H. A new cluster validity index for the fuzzyc-mean[J]. Pattern Recognition Letters,1998,19(3):237-246
[18] Ruspini E H. A new approach to clustering[J]. Information and Control,1969,15(1):22-32
[19] Bezdek J C. Clustering validity with fuzzy sets[J]. Mathematical Biology,1974(1):57-71