国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

近紅外光譜的油頁巖總有機碳快速檢測

2022-06-06 10:06:12李泉倫陳爭光孫先達
光譜學(xué)與光譜分析 2022年6期
關(guān)鍵詞:油頁巖波長預(yù)處理

李泉倫,陳爭光*,孫先達

1.黑龍江八一農(nóng)墾大學(xué)信息與電氣工程學(xué)院,黑龍江 大慶 163319 2.東北石油大學(xué)“陸相頁巖油氣成藏及高效開發(fā)”教育部重點實驗室,黑龍江 大慶 163318

引 言

作為一種非常規(guī)石油資源,油頁巖可以作為石油的一種替代能源。世界油頁巖儲量豐富并分布較為廣泛。油頁巖的勘測和開采具有重要的戰(zhàn)略意義[1]。油頁巖中的總有機碳(total organic carbon, TOC)含量是評價油頁巖含油率的重要指標(biāo)之一。目前,用于檢測油頁巖總有機碳的方法主要是按照GB/T19145—2003沉積巖中總有機碳的測定方法,其檢測方法主要采取灼燒法。該方法具有準(zhǔn)確度高的優(yōu)點,但是容易產(chǎn)生殘留污染,檢測過程復(fù)雜繁瑣且耗時較多,操作難度大,技術(shù)要求高等不足,無法滿足快速檢測油頁巖總有機碳的要求。

近紅外光譜分析技術(shù)是用于物質(zhì)成分定量分析的一種快速檢測技術(shù)。它具有檢測速度快、無需破壞樣品、不需要檢測試劑、儀器操作簡便等優(yōu)點。目前,近紅外光譜分析技術(shù)已經(jīng)應(yīng)用到農(nóng)業(yè)[2]、醫(yī)學(xué)[3]、食品[4]、石油[5]等領(lǐng)域。

近紅外是指波長在780~2 500 nm范圍內(nèi)的電磁波,能夠反應(yīng)含氫基團(比如N—H,C—H,O—H等)震動的倍頻與合頻響應(yīng)情況。近年來,近紅外光譜分析逐漸應(yīng)用于巖石、土壤中有機碳等成分含量的定量檢測。申燕[6]等利用近紅外光譜分析法對東北黑土的有機碳進行了測定,所建模型的擬合效果良好。王賽亞[7]等對煤炭和巖石的近紅外光譜曲線特征和吸收特征進行了研究,證明了近紅外光譜分析用于測定天然巖石中各種礦物含量是可行的。李耀翔[2]等利用近紅外光譜測定了森林土壤的有機碳含量,經(jīng)過預(yù)處理后驗證集相關(guān)系數(shù)達到0.849 4。Romeo[8]等用近紅外光譜分析了來自昆士蘭州中部斯圖爾特礦床的53個油頁巖樣品的烴(干酪根)含量。利用二階導(dǎo)數(shù)和多元散射校正預(yù)處理后建立PLS校正模型,評價指標(biāo)相關(guān)系數(shù)R2到達0.73,證明了可以使用近紅外光譜分析預(yù)測油頁巖的含油率。王宏智[9]等使用實驗室合成樣本,研究了不同波長組合選擇方法對油頁巖含油率近紅外光譜數(shù)據(jù)進行波長篩選并建立留一交互校驗多元線性回歸模型進行驗證。趙振英[5]等利用近紅外光譜分析對油頁巖含油率的波長選擇方法進行了研究。由此可見,基于近紅外光譜的測量技術(shù)在巖石和土壤中碳含量檢測具有可行性。以上研究的樣本多為人工合成模擬的油頁巖樣本或經(jīng)過處理后的樣本,并非自然條件下的油頁巖樣本,所建立的模型以線性的偏最小二乘(partial least squares, PLS)模型為主,模型精度不高。由于近紅外光譜數(shù)據(jù)和理化值之間存在非線性關(guān)系[4],因此,使用線性的PLS進行建模不足以表達自變量和因變量之間的關(guān)系,而基于非線性建模的支持向量機(support vector machine, SVM)、隨機森林(random forest, RF)等方法在近紅外光譜建模中受到越來越多的重視。以大慶油田松遼盆地某區(qū)塊所取巖芯為研究對象,建立基于SVM和RF的油頁巖TOC含量非線性模型,并和經(jīng)典的PLS方法進行比較,以期為油頁巖TOC含量快速檢測建立更加穩(wěn)定高效的近紅外光譜模型,為油頁巖總有機碳的檢測提供更加簡便快速的方法。

1 實驗部分

1.1 樣本

實驗用大慶油田松遼盆地某區(qū)塊采集的巖芯樣本共計230個,在對巖心樣本進行分析和數(shù)據(jù)采集前使用液氮冷凍保存,按照GB/T19145—2003沉積巖中總有機碳的測定方法測量其總有機碳的含量。

1.2 光譜采集

使用傅里葉變換近紅外光譜儀TANGO(德國BRUKER公司)采集光譜數(shù)據(jù),波數(shù)范圍:11 542~3 940 cm-1,分辨率為8 cm-1,掃描32次取平均值。圖1所示是全部230個油頁巖樣品的平均光譜。從光譜曲線來看,巖石樣本光譜曲線基線漂移較為嚴(yán)重,在7 300,5 200和4 500 cm-1三個波數(shù)附近有明顯的吸收峰,同時伴隨一定量的噪聲。8 800和4 200 cm-1附近有吸收峰,但不是很明顯。

圖1 原始光譜圖

1.3 異常樣本剔除

由于受到環(huán)境因素、樣本來源多樣性以及測量儀器等客觀因素的影響,導(dǎo)致一些樣本的光譜偏離樣本的總體分布,這些所謂的異常樣本引入將會導(dǎo)致模型的預(yù)測精度大幅下降[10]。因此,對異常樣本進行剔除是保證定量模型可靠的必要條件。采用蒙特卡洛交叉驗證算法對異常樣本進行剔除。蒙特卡洛隨機取樣(Monte Carlo sampling, MCS)法每次隨機抽取一定比例的樣本(占樣品量的80%)構(gòu)成校正集建立偏最小二乘模型,剩余的20%作驗證集對模型進行驗證,計算驗證集殘差。經(jīng)過多次抽樣建模后能夠得到多個預(yù)測殘差,計算出這些預(yù)測殘差的均值與方差,將樣本預(yù)測值誤差高于平均殘差的樣本標(biāo)記為異常樣本。最后通過校正集相關(guān)系數(shù)R2、交叉驗證均方差RMSECV、預(yù)測均方差RMSEP對模型進行評價,驗證剔除異常樣本是否有利于模型精度的提高。剔除異常樣本前后的建模結(jié)果如表1所示,由表可以看出剔除異常樣本后的模型的性能參數(shù)有明顯改善。

表1 剔除異常樣本前后的建模結(jié)果

1.4 光譜預(yù)處理

為了消除噪聲干擾和基線漂移對模型性能的影響,一般在建模之前對光譜數(shù)據(jù)進行預(yù)處理。目前比較常用的近紅外光譜預(yù)處理方法有Savitzky-Golay(S-G)卷積平滑、基線校正(baseline correction, BSC)、標(biāo)準(zhǔn)正態(tài)變量變換(sandard normal variate correction, SNV)、一階導(dǎo)數(shù)(first derivative)、二階導(dǎo)數(shù)(second derivative)、去趨勢(detrend, DT)等。S-G能有效提高光譜的平滑性,減少高頻噪聲干擾。SNV主要是減少固體顆粒物大小不均和物體表面散射以及光程變換對光譜數(shù)據(jù)的影響,從而達到去除噪聲的目的。DT算法用來處理漫反射光譜基線漂移的問題,一般和SNV組合使用。導(dǎo)數(shù)方法用來消除背景干擾和基線校正,提高分辨率和靈敏度。通過對比不同預(yù)處理方法的效果最終確定適合油頁巖樣本的近紅外光譜預(yù)處理方法。

1.5 特征波長選擇

近紅外光譜篩選波長后所建立的模型相比于全光譜模型,不僅模型變量數(shù)大幅度減少,而且模型性能也有大幅提升。進行特征波長選擇可以通過簡單的模型來提高模型的解釋性,通過減少噪聲或者干擾選擇出效果更好的變量,并且能夠提高模型的預(yù)測能力[11],在眾多的波長選擇算法中,連續(xù)投影(successive projections algorithm, SPA)算法,無信息變量消除(uninformative variables elimination, UVE)算法和競爭自適應(yīng)重加權(quán)(competitive adaptive reweighted sampling, CARS)算法具有一定的代表性,波長選擇結(jié)果較優(yōu)。

1.5.1 連續(xù)投影算法

連續(xù)投影算法是一種前向循環(huán)的特征變量選擇算法,即從一個波長開始,其他波長向這個波長向量的法平面投影,投影長度最長的波長向量被選擇為特征波長,然后以新選擇的波長為基礎(chǔ),重復(fù)上述投影過程,直到達到指定的波長個數(shù)為止。該算法可以從眾多光譜信息中篩選出重要樣本變量的波長,用少數(shù)幾列光譜數(shù)據(jù)來概括大部分光譜信息,降低了模型的復(fù)雜度,有效提高建模的速度和模型的穩(wěn)定性。

1.5.2 無信息變量消除法

無信息變量消除算法是通過向樣本光譜矩陣中人為引入隨機噪聲,并在此基礎(chǔ)上建立偏最小二乘回歸交叉驗證模型,得到的偏最小二乘回歸系數(shù)均值與標(biāo)準(zhǔn)差的商作為衡量波長重要性的關(guān)鍵指標(biāo),將噪聲矩陣的最大值作為閾值,大于閾值的變量被作為優(yōu)選的特征向量。UVE算法可以去除沒有貢獻的變量,減少模型的運算量,增強模型的適應(yīng)性。

1.5.3 競爭性自適應(yīng)重加權(quán)算法

競爭自適應(yīng)重加權(quán)算法是將每個波長變量看作是一個單位個體,將適應(yīng)力弱的個體剔除,從而保留適應(yīng)性強的個體。通過蒙特卡洛采樣和PLS模型的測定系數(shù)進行特征波長選擇,首先通過蒙特卡羅采樣隨機選擇校正集樣本建立PLS模型[12]。計算該模型各參數(shù)的系數(shù)權(quán)重,然后利用CARS算法篩選出PLS模型回歸系數(shù)絕對值權(quán)重大的波長,去掉權(quán)重小的波長,模型交叉驗證的均方根誤差最小的波長組合即為選擇的特征波長。該算法可以有效保留特征變量及相關(guān)影響變量,剔除冗余及噪聲變量。

1.6 建模方法及評價指標(biāo)

1.6.1 支持向量機

支持向量機是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和最小化結(jié)構(gòu)風(fēng)險基礎(chǔ)上的一種有監(jiān)督二分類機器學(xué)習(xí)算法。該算法的基本思想是將低維非線性問題轉(zhuǎn)換成高維線性問題來分類,通過非線性變換將輸入變量映射到一個高維的特征空間,并在新的空間中進行線性回歸尋找一個最優(yōu)的超平面,使得所有樣本到超平面的距離最小,從而解決常規(guī)空間中樣本線性不可分的問題[13]。支持向量機能夠較好地解決高維空間中遇到的維數(shù)災(zāi)難問題,具有良好的泛化能力,在解決小樣本,非線性樣本分類以及高維模式識別中表現(xiàn)出很多特有的優(yōu)勢,并對異常樣本及噪聲具有很好的魯棒性。

1.6.2 隨機森林

隨機森林算法是基于決策樹和自助重采樣法的一種集成學(xué)習(xí)算法。它的基本思想是利用自助重采樣法不斷生成訓(xùn)練變量集和檢驗變量集,由檢驗變量集隨機生成多個分類決策樹,每個決策樹節(jié)點的分裂變量也是隨機產(chǎn)生,從而形成隨機森林。隨機森林通過對產(chǎn)生的決策樹進行投票得出最終預(yù)測結(jié)果,其結(jié)果具有較高的準(zhǔn)確性。該算法優(yōu)點體現(xiàn)在訓(xùn)練速度快且不易出現(xiàn)過擬合,能夠很好的處理數(shù)量大的樣本,并且對噪聲具有較強的魯棒性[14]。

1.6.3 模型評價指標(biāo)

通過內(nèi)部交叉驗證和外部驗證對模型效果進行檢驗,采用模型值和真實值的相關(guān)系數(shù)R2和均方根誤差(root mean square error, RMSE)作為模型的評價指標(biāo)。R2越接近1,模型RMSE值越小,說明模型的預(yù)測效果越好。

2 結(jié)果與討論

2.1 光譜預(yù)處理和樣本劃分

針對光譜樣本的消噪和基線矯正需求,分別采用S-G卷積平滑、SNV、BSC、DT、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)6種方法以及組合處理共8種方法對光譜數(shù)據(jù)進行預(yù)處理,并以PLS模型的模型參數(shù)作為預(yù)處理效果評價光譜預(yù)處理方法。不同的光譜預(yù)處理方法的結(jié)果如表2所示。其中,基于DT方法(DT,DT+SNV,DT+BSC等)的預(yù)處理方法模型性能優(yōu)于其他方法。這是因為,巖石樣本近紅外光譜基線漂移較為嚴(yán)重(見圖1),DT預(yù)處理方法能在一定程度上消除漫反射光譜的基線漂移,因此效果較好。所有預(yù)處理方法中,在去趨勢基礎(chǔ)上進行基線校正的DT+BSC預(yù)處理方法的PLS模型性能最優(yōu)。經(jīng)過預(yù)處理之后可以看出11 541.94~8 872.71 cm-1波段共580個波長點沒有明顯的吸收峰,且噪聲明顯。因此,在后續(xù)的研究中只對DT+BSC處理后的8 864.473~3 946.174 cm-1波段共1 265個波長點的光譜數(shù)據(jù)進行分析。

表2 不同預(yù)處理方法下的建模結(jié)果

圖2 DT+BSC預(yù)處理的光譜

預(yù)處理后的光譜數(shù)據(jù)采用SPXY算法按照2∶1的比例對剔除異常樣本之后的216個油頁巖樣本進行劃分,得到校正集樣品144個,驗證集樣品72個。樣本集劃分結(jié)果見表3,由表3可知,校正集和驗證集樣品的分布比較均勻,校正集總有機碳樣品含量基本涵蓋了驗證集。

表3 樣本集劃分

2.2 波長選擇結(jié)果

2.2.1 SPA算法

圖3為SPA算法提取不同數(shù)量特征波長對應(yīng)的模型的RMSE,從圖中可以看出RMSE的值隨波長數(shù)的增加而降低,當(dāng)選取波長個數(shù)為16時,模型均方根誤差到達穩(wěn)定且最小。被選中的波長分別是8 918,8 790,7 348,7 138,7 068,7 002,5 643,5 412,5 272,5 132,4 526,4 481,4 374,4 353,4 325和4 213 cm-1,其分布情況如圖4所示。這些波長與芳烴和CH3伸縮振動的倍頻峰以及CH2變形伸縮振動的合頻峰一致。

圖3 不同特征波長數(shù)的RMSE值

圖4 基于SPA算法篩選的特征波長

2.2.2 UVE算法

UVE算法篩選的油頁巖TOC特征波長結(jié)果如圖5所示。其中豎線左側(cè)為1265個光譜變量的穩(wěn)定性指數(shù)分布曲線,右側(cè)為UVE產(chǎn)生的同光譜變量相同數(shù)量的隨機變量穩(wěn)定性指數(shù)分布曲線。以隨機變量穩(wěn)定性指數(shù)絕對值的最大值作為篩選變量的閾值,即穩(wěn)定性指數(shù)分布曲線在兩條水平虛線以外的光譜變量被選中,共選擇出253個特征波長,所有特征波長點位于光譜吸收峰附近,其分布如圖6所示。

圖5 各波長變量和隨機變量下的穩(wěn)定性指數(shù)

圖6 基于UVE算法篩選的特征波長

2.2.3 CARS算法

CARS算法篩選的特征波長數(shù)、RMSE以及回歸系數(shù)隨運行次數(shù)的變化如圖7所示。從圖中可以看出,當(dāng)運行次數(shù)從1次增加到24次,特征波長數(shù)的下降由快變慢,RMSECV逐漸降低,表明在1~24次運行過程中剔除了較多的無關(guān)光譜變量,模型精度不斷提高。隨著運行次數(shù)的繼續(xù)增加,RMSECV緩慢或者迅速增大,回歸系數(shù)不斷變大。在運行次數(shù)為24次時,RMSECV值最低,此時有65個波長被保留下來,其中大部分波長位于光譜吸收峰附近,其分布如圖8所示。

圖7 基于CARS算法篩選特征波長的過程

圖8 基于CARS算法篩選的特征波長

利用SPA,UVE和CARS進行特征波長篩選后,特征波長數(shù)明顯少于全光譜波長的1 265個波長,分別是全譜波長的1.26%,20%和5.14%。說明特征波長篩選對于簡化模型、提高模型效率能表現(xiàn)出較好的效果。此外從篩選出的波長來看,有明顯吸收峰或者吸收峰附近的波長被保留了下來。

2.3 不同模型的性能比較

為比較不同建模方法和不同特征波長提取方法對油頁巖中有機碳含量的預(yù)測效果,分別采用PLS、SVM和RF建模方法對全光譜波段、CARS、SPA、UVE篩選出的特征波長建立油頁巖TOC含量的預(yù)測模型(表3)。SVM進行建模,以徑向基函數(shù)作為模型核函數(shù),根據(jù)網(wǎng)格搜索法優(yōu)選懲罰因子和核函數(shù)參數(shù)。建立RF模型時,以不同特征波長提取方法下驗證集相關(guān)系數(shù)最高時的決策樹數(shù)量作為RF模型的最優(yōu)決策樹數(shù)目。

由表4可知,基于CARS,UVE和SPA三種特征波長的模型精度均高于全譜波長模型的精度。這是因為利用全光譜進行建模時,包含的變量較多,變量間存在有冗余信息的干擾,而特征波長提取可以有效去除冗余信息,提取后的波長能充分代表原始光譜的有效信息,從而提高模型質(zhì)量。在三種特征波長選擇方法中,基于CARS算法提取特征波長之后所建立的模型效果最好,尤其是CARS-SVM模型,其驗證集測定系數(shù)由未進行特征波長選擇時的0.793 0提升到0.906 6,均方根誤差由0.286 8降低到0.222 0,是所有模型中最優(yōu)的,該模型可以應(yīng)用于油頁巖總有機碳含量預(yù)測。

表4 不同方法建模結(jié)果

三種模型中,SVM模型的效果優(yōu)于RF模型和PLS模型,說明基于SVM法建立的預(yù)測模型能較好地應(yīng)用于近紅外光譜檢測模型,其預(yù)測精度高、實用性強,對快速準(zhǔn)確檢測油頁巖TOC含量有實際價值[15]。此外,相較于近紅外光譜領(lǐng)域常用的線性的PLS模型而言,SVM和RF兩種非線性的建模方法得到模型在校正集上的表現(xiàn)均有不同程度的提高,其中SVM模型無論在校正集還是在驗證集均有明顯提升。這是因為油頁巖樣本中的碳存在于各類烴的中,由于不同類別含烴基團的吸收峰之間相互影響,使得油頁巖TOC含量和近紅外光譜數(shù)據(jù)之間存在著復(fù)雜的非線性關(guān)系。作為線性分析的PLS模型,其表達光譜數(shù)據(jù)和濃度數(shù)據(jù)之間的非線性關(guān)系能力不及SVM和RF,后者能夠有效地對自變量和因變量之間的非線性關(guān)系進行描述,從而增強了光譜數(shù)據(jù)和樣本理化值之間的相關(guān)性,使得所建立的非線性模型效果要略優(yōu)于線性的PLS模型。該結(jié)果與陳華舟[4]等基于近紅外光譜針對魚粉蛋白進行定量分析所建立的非線性模型SVM和RF效果優(yōu)于線性模型PLS的效果結(jié)論一致。建立非線性模型比線性模型的R2更好,準(zhǔn)確度更高[16]。因此,可以通過非線性建模近紅外光譜法實現(xiàn)油頁巖總有機碳含量快速檢測。

3 結(jié) 論

運用近紅外光譜分析結(jié)合化學(xué)計量學(xué)方法對油頁巖總有機碳含量進行了定量分析,研究結(jié)果表明:去趨勢和基線校正組合的預(yù)處理方式針對油頁巖總有機碳的近紅外光譜數(shù)據(jù)建立的模型表現(xiàn)出了較好的效果。使用三種不同特征波長算法進行波長提取后建立的模型精度相比于全光譜模型均有所提高,說明了進行波長篩選對近紅外光譜建模的重要性。對于油頁巖有機碳含量預(yù)測模型而言,利用非線性模型進行預(yù)測分析得到的效果更好。使用CARS-SVM方法對油頁巖總有機碳含量進行預(yù)測,模型能夠達到較好的效果,CARS-SVM方法在對油頁巖總有機碳含量檢測方面有著巨大潛力。本研究為油頁巖總有機碳的快速檢測提供了一種新的思路和方法。

猜你喜歡
油頁巖波長預(yù)處理
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
對油頁巖勘探現(xiàn)狀的評價分析
智能城市(2019年14期)2019-08-15 08:58:36
基于預(yù)處理MUSIC算法的分布式陣列DOA估計
雙波長激光治療慢性牙周炎的療效觀察
日本研發(fā)出可完全覆蓋可見光波長的LED光源
中國照明(2016年4期)2016-05-17 06:16:15
淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
油頁巖與木屑混合熱解特性研究
油頁巖微波熱解氣態(tài)產(chǎn)物析出特性
化工進展(2015年3期)2015-11-11 09:18:28
油頁巖煉制過程技術(shù)經(jīng)濟分析
化工進展(2015年3期)2015-11-11 09:18:19
絡(luò)合萃取法預(yù)處理H酸廢水
泾川县| 石楼县| 南华县| 兰考县| 齐河县| 平南县| 白水县| 南江县| 临澧县| 江阴市| 平江县| 嵩明县| 汉沽区| 揭西县| 游戏| 苏州市| 邓州市| 康定县| 大姚县| 灵台县| 开鲁县| 泗洪县| 会同县| 桑植县| 嘉禾县| 海伦市| 贡嘎县| 万年县| 汪清县| 浦城县| 东至县| 鞍山市| 会昌县| 措勤县| 津南区| 龙州县| 视频| 綦江县| 德钦县| 库尔勒市| 广德县|