高志敏
(西安石油大學石油工程學院,陜西 西安 710065)
近年來,基于機器學習的人工智能方法在各領域的研究中取得了豐碩的成果,該方法是在大量的復雜的數(shù)據(jù)中通過一定的模型及算法探究某一規(guī)律,以應用于某一問題的解決[1-2]。常用的一些智能算法模型,如人工神經(jīng)網(wǎng)絡模型、支持向量機模型等,在工程科技領域的應用逐漸興起,在解決某些數(shù)據(jù)量較大且繁冗的工程問題上,智能方法具有較為獨特的優(yōu)勢。該方法的使用價值和應用前景得到了較多科技工作者的肯定,顯然,該方法在未來工業(yè)的發(fā)展中前途廣闊。
目前,在石油化工行業(yè),應用人工智能算法模型來解決部分實際問題的現(xiàn)象已較為廣泛,在復雜的原油儲層、井筒及管道流動環(huán)境中,原油的流態(tài)、相態(tài)、物性等指標所受影響因素較多,需要大量的模擬、預測等計算描述,對此而言,智能算法模型是一個有力且高效的應用工具。隨著計算機技術的不斷進步以及科研者的不斷探究,人工智能能模型對于輸油管道蠟沉積的預測應用逐漸增多。當原油溫度受外在環(huán)境影響而降低至析蠟點溫度及以下,并加之各種外在因素的影響,析出的蠟分子會沉積在管壁上,使得流通面積減小,且會對原有的油品流動性形成一定的阻礙。對蠟沉積而言,常用的描述參數(shù)有析蠟點溫度、溶蠟點溫度、析蠟量、蠟沉積量等,各參數(shù)的計算過程中需考慮的復雜機理、因素較多[3]。相較于傳統(tǒng)的數(shù)學模型而言,智能模型的引入無需細致研究其機理,會節(jié)省一定的人工投入。
用于蠟沉積預測的智能算法模型中,使用較為廣泛的有人工神經(jīng)網(wǎng)絡模型、支持向量機模型、遺傳算法、蟻群算法等,以及各種模型組合使用的綜合方法。對于不同條件進行的不同建模方法[4],整體來看,各學者使用較多的模型為人工神經(jīng)網(wǎng)絡模型、支持向量機模型,以及組合了多種算法后的委員會機器模型。
早在1943年,McCulloch W S等人[5]依據(jù)神經(jīng)元的原理提出了最早的神經(jīng)網(wǎng)絡模型。該原始模型是近代所出現(xiàn)的各種神經(jīng)網(wǎng)絡模型的雛形,但因其計算過程中的權重值必須通過手動調(diào)節(jié),難以滿足計算需求,且人工干預程度較大,故被逐漸淘汰。新發(fā)展的神經(jīng)網(wǎng)絡模型在此基礎上進行了大量的改進與優(yōu)化,與智能學習的趨勢相接軌。
神經(jīng)網(wǎng)絡模型的結構主要由輸入層、隱藏層、輸出層構成,其中的隱藏層可根據(jù)建模情況分為單層和多層,其結構如圖1所示[6]。
圖1 三層神經(jīng)網(wǎng)絡結構圖
其最小的組成部分便是神經(jīng)元,作為連接輸入和輸出的樞紐,并承擔著進行某種計算的任務,大多包含多個點的輸入和一個點的輸出。計算過程中所使用的算法和數(shù)學函數(shù)也是多種多樣,不盡相同。各項參數(shù)輸入模型中后,需進行大量的學習計算,對數(shù)據(jù)進行訓練、測試,不斷調(diào)整權重值,以期得到最好的預測情況。
常用的神經(jīng)網(wǎng)絡模型有誤差反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡模型、徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡模型、長短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡模型等。其中,BP神經(jīng)網(wǎng)絡模型是Rumelhart等人于1986年提出的,該模型依據(jù)人腦思維的第二種方式,將外部的信息按照輸入層→中間隱藏層→輸出層的正向進行傳播,而將誤差信息按照輸出層→中間隱藏層→輸入層的反向進行傳播,以不斷修正、調(diào)整各層的權重值,加強模型的學習及訓練過程,針對于非線性連續(xù)函數(shù),可用于解決其多層前饋神經(jīng)網(wǎng)絡權重值的調(diào)整問題。RBF神經(jīng)網(wǎng)絡模型是Broomhcad等人于1988年將RBF應用于神經(jīng)網(wǎng)絡的建模而形成,該模型可將輸入的低維數(shù)據(jù)轉變至高維空間內(nèi),可用于解決非線性函數(shù)的問題,具有分類能力較強、學習收斂速度較快的特點,這一模型的核心是基函數(shù)的選取,包括高斯函數(shù)、多二次函數(shù)等。LSTM神經(jīng)網(wǎng)絡模型是一種與時間有關的遞歸網(wǎng)絡模型,相比與傳統(tǒng)神經(jīng)網(wǎng)絡模型而言,其具有記憶功能,且具有解決長時依賴問題的能力。
彭繼慎等人[7]建立了經(jīng)典的“2-5-1”結構的RBF神經(jīng)網(wǎng)絡模型,“2-5-1”結構即為該模型中輸入層節(jié)點的個數(shù)為2,隱藏層節(jié)點的個數(shù)為5,輸出層節(jié)點的個數(shù)為1,該模型的原理如圖2所示,由簡單的3層前向網(wǎng)絡組成。該模型結構雖然簡單,卻仍有較強的泛化能力,通過MATLAB軟件進行了相關的仿真實驗,結果表明,其設計的RBF神經(jīng)網(wǎng)絡與指數(shù)趨近律結合后,可實時調(diào)整其中的切換效益,具有較強的非線性跟蹤能力,能夠減少一定的設備損耗。
圖2 RBF神經(jīng)網(wǎng)絡模型的原理圖
早在1995年,Cortes C等人[8]提出了支持向量機(Support Vector Machines,SVM)模型,該模型基于統(tǒng)計學習理論、VC維理論等基礎,經(jīng)過科學研究者們多年嘔心瀝血的探索及改進,在算法訓練、分類方法等方面有了許多創(chuàng)新性的改進,該領域的研究在多個行業(yè)里面也逐漸成為炙手可熱的對象。截止到目前,該模型已成為一種較為通用的機器學習算法模型。
支持向量機模型與神經(jīng)網(wǎng)絡模型相似,但也有較大差別,二者都是基于機器學習的算法訓練機制,但支持向量機模型主要針對的是小樣本型的數(shù)據(jù)集,數(shù)據(jù)量較少,而神經(jīng)網(wǎng)絡模型主要針對的是大樣本型的數(shù)據(jù)集,數(shù)據(jù)量較大且繁冗。此外,支持向量機模型的重點在于數(shù)學方法、優(yōu)化技術的選擇改進等。當然,為了更好地滿足實際應用中的需要,多位學者也在積極探索研究大樣本型數(shù)據(jù)集的訓練算法,為提高求解精度而不斷摸索嘗試。目前,該領域內(nèi)常用的訓練算法主要有分塊算法、子集選擇算法、序貫最小優(yōu)化算法、增量學習算法等類型,主要是針對于不同的目標,通過相應的約束條件等,解決各種訓練速度、分類速度等相關問題。
關于該領域內(nèi)的分類方法,其雛形是二分類問題,此后的各類方法皆是基于此而提出?,F(xiàn)實生活中很多問題都是多分類的問題,多數(shù)研究者的目光也是聚集在該類問題上。這一類問題的解決方法籠統(tǒng)來說可以分為兩種:直接法、間接法,各有特點與局限性,針對不同的問題辯證使用。支持向量機模型中核函數(shù)的選取是一個非常重要的問題,該模型方法之所以能夠解決非線性分類問題、高維模式識別問題,很大程度上取決于核函數(shù)的引入和核參數(shù)的優(yōu)化,因此在建模過程中需抓住這一關鍵問題。
李捷輝等人[9]為了提高分類預測的效果,建立了基于改進蝙蝠算法優(yōu)化的支持向量機模型,其分類路線如圖3所示。為解決實際應用的多分類問題,通過一對一的方法,以一層的訓練樣本和一層的測試樣本數(shù)據(jù)集,對所建模型的功能進行數(shù)據(jù)的訓練及測試,通過改進的蝙蝠算法對模型中的懲罰系數(shù)、核函數(shù)半徑等參數(shù)進行優(yōu)化,同時與遺傳算法、粒子群算法、網(wǎng)絡搜索算法、蝙蝠算法優(yōu)化的支持向量機模型進行精度對比。結果表明,該改進蝙蝠算法優(yōu)化的支持向量機模型精度為97.5%,預測效果最好。
圖3 支持向量機分類路線圖
早在1965年,Nilsson[10]提出了委員會機器(committee machine, CM)模型(圖4),該類模型提出的最初目的是為了克服關于多層感知器的某一缺點——缺乏自適應學習規(guī)則,后來經(jīng)過各科研學者的研究與探索,逐漸在各種領域中鋪展應用開來,并出現(xiàn)了相應的許多改進模型。該類型的模型其實是一種集成的學習方法,通過單一的模型進行某一單模塊的任務求解,然后對各模塊的解進行合成,得到最后的結果。
圖4 動態(tài)分類委員會機器流程圖
該類模型通常由輸入層、專家層、組合器和輸出層4個部分組成[11]。其中,輸入層是這一類模型的開端處,原始數(shù)據(jù)從此處輸入并進行相關的預處理;專家層是模型的重要組成部分,包含多種算法,各自承擔著相應模塊的訓練任務及預測結果的輸出任務;組合器是該類模型核心部分,針對于各專家模塊權重值的計算與分配等重要問題。委員會機器模型通常分為兩類:靜態(tài)委員會機器模型、動態(tài)委員會機器模型,前者通常會受限于專家的自身性能,提升空間有一定限制,后者可以簡化數(shù)據(jù)結構,進而提升相關訓練模型的性能。
白洋等人[12]通過引入門網(wǎng)絡建立了動態(tài)分類委員會機器模型,在輸入層和輸出層之間建立了敏感性評價指標,由門網(wǎng)絡對輸入數(shù)據(jù)進行劃分,使用概率神經(jīng)網(wǎng)絡、決策樹、BP神經(jīng)網(wǎng)絡、貝葉斯分類、最近鄰算法5種智能算法對各子數(shù)據(jù)集進行訓練,通過組合器對各子模型進行優(yōu)化和組合。結果表明,該委員會機器模型的訓練集的準確率為96.29%,驗證集的準確率為91.39%,相較于其他單一模型而言精度最高,提高了流體類型的預測準確率。
原油蠟沉積的傳統(tǒng)預測模型主要為動力學模型和熱力學模型,前者基于分子擴散、剪切剝離、老化作用等機理,考慮不同影響因素,通過大量的實驗數(shù)據(jù)以及適當?shù)臄?shù)學方法建模。后者基于相平衡理論,從原油組分的微觀角度入手,建立相關的預測模型。近年來隨著智能算法模型的發(fā)展,多為研究學者在原油蠟沉積智能模型預測方面進行了探索應用,開辟了更廣闊的道路。
鄒德昊等人[13]針對于某油礦井筒的結蠟問題,通過對多口井的高含蠟、高凝原油的物性和流動性進行分析,發(fā)現(xiàn)井筒內(nèi)剪切應力、原油黏度、徑向溫度梯度、蠟分布密度4個因素對原油蠟沉積的影響較大,便以這4個因素作為輸入變量,以蠟沉積速率作為目標參數(shù),用SPSS Modeler軟件建立了BP神經(jīng)網(wǎng)絡模型。該模型以雙極S形函數(shù)為激活函數(shù),最大訓練周期設為1000次,最終的預測表明,該蠟沉積速率預測結果用于清管周期的計算時,誤差率在3%以內(nèi),效果較好。
楊鳴峰等人[14]利用開源文獻中的實驗數(shù)據(jù),考慮了4個影響因素:管壁處溫度梯度、管壁處剪切應力、原油動力黏度和管壁處蠟分子質(zhì)量分數(shù)梯度,通過MATLAB軟件建立了RBF神經(jīng)網(wǎng)絡模型,以較小的樣本數(shù)據(jù)作為訓練和測試(24組訓練,6組預測),結果表明,預測的相對誤差在2%左右,與實驗數(shù)據(jù)值吻合度較好。
田震等人[15]在研究BP神經(jīng)網(wǎng)絡對管道蠟沉積的預測過程中,分析了不同的輸入維數(shù)對神經(jīng)網(wǎng)絡模型預測精度的影響,通過灰色關聯(lián)法對輸入維數(shù)為7(7個影響因素)和輸入維數(shù)為4(4個影響因素)時進行了關聯(lián)度計算,發(fā)現(xiàn)輸入維數(shù)為7時更為合適。在建模過程中,借助MATLAB軟件,選用trainlm函數(shù)作為訓練函數(shù),將最大訓練次數(shù)設為10000,隱藏層的節(jié)點數(shù)設置為10,通過38組開源文獻數(shù)據(jù)進行數(shù)據(jù)的訓練及測試。結果表明,該模型預測的相關系數(shù)為0.999962、均方誤差為0.0475085,精度較高。
王磊等人[16]在研究支持向量機模型對蠟沉積速率的預測研究中,利用開源文獻中的環(huán)道實驗數(shù)據(jù),將7個影響因素:流速、油溫、壁溫、原油動力黏度、管壁處蠟分子濃度梯度、管壁處溫度梯度、管壁處剪切應力作為輸入變量,將蠟沉積速率作為輸出變量,選取RBF作為核函數(shù),用svmtrain函數(shù)訓練相關的樣本數(shù)據(jù),用svmpredict函數(shù)測試相關的樣本數(shù)據(jù),建立了相關預測模型。最終的預測表明,訓練數(shù)據(jù)的相關系數(shù)為0.9907,測試數(shù)據(jù)的的相關系數(shù)為0.9823,預測精度較高。此外,通過網(wǎng)格參數(shù)尋優(yōu)法、遺傳算法、粒子群算法三種方法對分別支持向量機模型進行參數(shù)優(yōu)化,發(fā)現(xiàn)最終結果的差異并不大,預測的差值在0.05左右,效果不錯。類似的,靳文博等人[17]從最小二乘支持向量機預測的角度出發(fā),通過對模型的參數(shù)進行相關優(yōu)化,建立了適用于小樣本數(shù)據(jù)集的蠟沉積速率預測模型,相對于神經(jīng)網(wǎng)絡模型而言,該模型可以得到顯式表達式,具有一定的優(yōu)勢,且預測效果較好。
Jalalnezhad M J等人[18]對輸油管道蠟沉積智能模型的開發(fā)進行研究,基于實驗數(shù)據(jù)集,將神經(jīng)網(wǎng)絡與模糊邏輯組合成一種新的智能算法模型——自適應神經(jīng)模糊推理系統(tǒng)模型,對蠟沉積厚度進行預測。其研究基于管道單相紊流狀態(tài),以雷諾數(shù)、時間、蠟含量、周圍環(huán)境溫度、油溫、管壁溫度等7個影響因素作為輸入變量,建立了自適應神經(jīng)模糊推理系統(tǒng)模型五層結構。該模型基于if-then規(guī)則的模糊邏輯,考慮了具有2個輸入x、y和1個輸出f的網(wǎng)絡。模型推理完畢后,使用實驗數(shù)據(jù)值與模型預測的結果進行對比,該項研究從1500個數(shù)據(jù)中隨機選取1000個數(shù)據(jù)作為訓練集數(shù)據(jù),剩余數(shù)據(jù)作為測試集數(shù)據(jù),最終的預測結果如圖5、圖6所示。其中,圖5顯示了自適應神經(jīng)模糊推理系統(tǒng)模型的測試結果與該研究中的實驗結果的對比,圖6顯示了該模型輸出的實際結果與實驗結果的對比。其結果表明,該模型的計算結果與實際計算結果吻合較好,其中,均方誤差為0.00077034,絕對相對偏差為0.015720,平均相對偏差為0.097961,該模型的精度較高。在單相湍流流動狀態(tài)下,該自適應神經(jīng)模糊推理系統(tǒng)模型比Halstensen模型所預測的蠟沉積厚度更為精準。
圖5 蠟沉積厚度隨時間的變化圖
圖6 模型預測結果圖
目前,隨著智能化趨勢的到來,雖然已有較多學者使用智能算法模型對原油蠟沉積的預測進行研究及探索,但仍存在一定的問題,具體如下:
1)智能算法模型相比于傳統(tǒng)預測模型而言,對數(shù)據(jù)的要求較高,對不同數(shù)據(jù)的適應性較差;2)不同智能算法模型對于數(shù)據(jù)量大小的要求不同,學習速率受影響較大,各模型相關參數(shù)值對預測結果的影響較大,理論方面有待提高;3)不同輸入維數(shù)對最終的預測結果也有一定影響,維數(shù)過大過小都不合適,其選擇也要適當。
1)相比穿傳統(tǒng)的熱動力學預測模型,智能算法模型無需考慮各種復雜的機理,人工投入較少,且計算精度較高;2)智能算法模型對于單種油品的預測效果較好,但應用于多種類油品的預測時,穩(wěn)定性則較差,其專注性強于普適性;3)未來智能算法模型的發(fā)展,應更貼近于實際預測應用,加強數(shù)學理論深度的研究,深入開發(fā)適應性強的算法,綜合多種算法模型的組合使用。