国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

小波特征提取和隨機森林模型解析色譜重疊峰

2019-09-20 00:55:10
測控技術(shù) 2019年5期
關(guān)鍵詞:拐點小波導數(shù)

(東南大學 儀器科學與工程學院,江蘇 南京 210096)

在復雜物質(zhì)的色譜法解析過程中,經(jīng)常會有色譜峰重疊[1]的情況發(fā)生。目前,用于重疊峰分解的方法有以下幾種:傳統(tǒng)的傅里葉變換和導數(shù)等方法對噪聲敏感,降低了信噪比而不利于定性定量分析;垂線法和切線法的原理簡單、計算速度較快,但是對一些重疊峰分解的精度可能會出現(xiàn)較大誤差;曲線擬合法[2]實現(xiàn)過程和運算都比較復雜,難以實現(xiàn)色譜曲線實時處理,在實際的應用中有一定的局限性;小波變換方法雖然運用廣泛[3-4],但容易引起變換后曲線重構(gòu)的信號不準確;神經(jīng)網(wǎng)絡(luò)法利用了其較強的非線性映射能力計算子峰面積比,但其數(shù)學模型較為復雜,網(wǎng)絡(luò)結(jié)構(gòu)選擇不一,只能憑借經(jīng)驗選取,并且它的計算量大,網(wǎng)絡(luò)的收斂速度也較慢。

隨機森林模型是一種基于決策樹的算法,被歸類為機器學習中的一種方法[5]。它具有模型簡單、訓練速度快、預測精度高、泛化能力強等突出優(yōu)點。本文結(jié)合了神經(jīng)網(wǎng)絡(luò)法的思想,對隨機森林模型在色譜重疊峰分解領(lǐng)域的應用進行了研究。首先利用gaus1小波分解系數(shù)來模擬導數(shù),利用小波分解計算過程中自動消除噪聲的特點,直接從原始的信號中提取相應的導數(shù)特征點;然后并以特征點作為模型輸入、重疊峰子峰面積比作為模型輸出,使用交叉驗證的方式確定模型參數(shù),對隨機森林模型進行有監(jiān)督的訓練;最后使用訓練好的模型擬合待測色譜重疊峰信號的各子峰面積比,實現(xiàn)重疊峰的解析。

1 重疊峰解析基本原理

色譜峰信號一般使用高斯函數(shù)來擬合,表達式為:

(1)

式中,t為信號采樣時間;h(t)為信號在時間t時的強度;H為色譜峰信號的最大值;T為峰的保留時間;σ為峰拐點距離峰保留時間的距離。如果色譜峰不對稱,則:tT時,σ=σb。因此σa+σb、σa/σb分別代表了一個色譜峰的寬度和它的不對稱度。

對于一個由兩個色譜峰疊加而形成的重疊峰,即可以用H1、T1、σ1a、σ1b、H2、T2、σ2a、σ2b八個參數(shù)來唯一決定。并且對于化學色譜峰,可以假設(shè)兩個子峰的不對稱度相同,即有σ1a/σ1b=σ2a/σ2b,這樣參數(shù)的數(shù)量就減少到5個。此時可定義此重疊峰的子峰面積比Q如下,其中S1、S2分別為兩子峰面積。

Q=S1/S2

(2)

(3)

色譜重疊峰的分離度RS定義為

(4)

式中,Wi為峰1、峰2的峰底寬度。RS的值越小,則兩峰重疊的越厲害。當RS較小時,兩峰已不能用肉眼識別;當RS接近1.5時,兩峰已基本分離。本文研究的重疊峰分離度RS范圍為0.5~1.4。

色譜重疊峰信號的特征點有起點、拐點、谷點、頂點、終點等,它們是色譜信號中的突變點或是奇偶點,包含了較為重要的信息。由于重疊峰具有前肩峰、后肩峰等不同的形狀,所含有的特征點種類和數(shù)量都不相同。只有拐點是所有形式重疊峰都具有的特征點,這些點的橫縱坐標與子峰面積比之間一定存在著某種聯(lián)系,但無法用簡單的函數(shù)關(guān)系式表示出來。考慮到隨機森林模型具有對任意函數(shù)進行擬合的能力,并且具有訓練速度快,擬合精度高等優(yōu)點,因此本文選取其對上述關(guān)系進行擬合。

2 連續(xù)小波變換計算色譜曲線拐點

導數(shù)在信號處理領(lǐng)域發(fā)揮著著十分重要的作用,但在實際的色譜分析過程中,信號往往含有較大的噪聲。如果使用點到點微分的方法,求導結(jié)果曲線中往往也含有大量噪聲。此時使用二階導數(shù)法求取色譜重疊峰拐點,就可能因為噪聲而難以計算出準確的結(jié)果。

小波變換為色譜信號求導提供了新的思路,小波變化的小波分解系數(shù)可以用來模擬求導[6]。根據(jù)小波分解的性質(zhì),如果選取的小波滿足小波容許條件,在進行變換的過程中能夠自動地對噪聲進行消除,提高信噪比,得到的結(jié)果可以用來模擬導數(shù),彌補了導數(shù)法的不足,適用于對色譜重疊峰信號的拐點提取。

本文使用小波模擬一階導數(shù)的極值點來檢測原色譜曲線拐點,而不是模擬二階導數(shù)的過零點。有以下幾點原因:① 若使用尺度較小的小波在對低信噪比的色譜信號進行分析,小波計算的模擬導數(shù)由于仍然存在噪聲,可能會在零點附近波動;② 選取較大的分解尺度時,色譜峰會變得銳化,從而有利于極值點的提取。由于高斯函數(shù)的各階導數(shù)正好可以滿足小波容許條件,本文選取了gaus1函數(shù)作為母小波對原色譜信號進行連續(xù)小波變換來模擬一階導數(shù)。gaus1函數(shù)表達式如下所示,其中C為調(diào)整因子。

gaus1(x)=C·e-x2

(5)

圖1為模擬的色譜重疊峰并使用gaus1小波分別在3,10,15,25尺度下進行分解得到的細節(jié)系數(shù)。從圖中可以看出,隨著分解尺度的增加,小波細節(jié)系數(shù)也逐漸增大,并且存在4個極值點A、B、C、D。上述小波模擬導數(shù)可以代替實際導數(shù)計算的理論基礎(chǔ)是特征點位置在小波變換前后沒有發(fā)生變換。實際上在選取不同的分解尺度時,可能會造成特征點不同程度的偏移。下面以某后肩峰為例使用gaus1小波,選取不同尺度進行分解并對其拐點進行計算,得到的結(jié)果如表1所示,其中模擬信號的范圍為-2000~3000,單位為毫秒(ms),拐點位置為模擬信號的橫坐標值,相對誤差定義為位置誤差與子峰寬度之間的比值。

表1 不同分解尺度下拐點位置計算結(jié)果

可以看出,使用gaus1小波進行變換之后的模擬導數(shù)的4個極值點,相較于原色譜信號的拐點,位置誤差較小。因此,小波變換的方法具有可行性。

下面在重疊峰信號中加入一定量級的白噪聲,對小波模擬導數(shù)檢測拐點的抗噪性進行分析。圖2分別是在色譜信號中加入信噪比為20 dB的噪聲后,進行小波變換模擬的一階導數(shù)曲線,以及先進行滑動窗口濾波,然后使用數(shù)值微分方法求取的一階導數(shù)曲線??梢钥闯?,雖然原色譜信號被噪聲污染嚴重,但經(jīng)過小波計算模擬的一階導數(shù)比較光滑,峰形清晰,分辨率較高,明顯優(yōu)于數(shù)值微分方法求取的結(jié)果。

圖1 不同尺度的分解結(jié)果

圖2 一階導數(shù)曲線

可以看出,隨著分解尺度的增大,模擬的導數(shù)曲線越來越光滑,有利于求取其極值點。但由于尺度的增大,其極值點位置也會發(fā)生偏移,因此需要合理選擇小波分解尺度。信噪比不同,分解的尺度也應不相同,最優(yōu)分解尺度應通過觀察小波模擬導數(shù)的曲線來確定,當模擬導數(shù)的譜峰分辨率有了很大提高,并且導數(shù)曲線較為光滑時,即認為是合適的尺度。選取了合適的尺度之后,模擬一階導數(shù)曲線也可能存在噪聲的殘留,但相較于原信號已有非常大的改善,優(yōu)于使用數(shù)值微分方法得到的結(jié)果。

3 重疊峰解析的隨機森林模型

(6)

為了克服單一決策樹模型容易出現(xiàn)過擬合、預測精度不高的缺點,隨機森林模型引入了套袋(bagging)[9]和隨機子空間的思想[10]??梢宰C明,這兩種方法的運用,不僅可以保證每棵子樹節(jié)點之間的特征子集都不同,還可以使得隨機森林模型中的各回歸子樹建立更加隨機化,保證了相互之間的獨立性,從而有效地解決了過擬合的問題,提高了回歸分析結(jié)果的精度。子樹的數(shù)量和選取的自變量個數(shù)會影響到隨機模型的性能,因此本文將使用交叉驗證的方式為模型選取合適的參數(shù)。除此之外,在構(gòu)建回歸決策樹的時候,使用的是CART算法,由于各子樹的構(gòu)建是相互獨立的,因此可使用多線程的方式并行實現(xiàn)隨機森林模型。

基于隨機森林模型進行重疊峰解析的整體思想如圖3所示。先按照一定的方式模擬不同情況下的色譜重疊峰,使用上文所述小波變換的方法檢測其拐點,為了加快模型收斂,本文由原始的拐點數(shù)據(jù)生成了5個無因次比值,生成訓練和測試使用的數(shù)據(jù)集;然后基于網(wǎng)格搜索的方式不斷調(diào)整參數(shù)的最優(yōu)組合,使用10折交叉驗證的方式選擇最優(yōu)的隨機森林模型參數(shù);最后利用最優(yōu)參數(shù)和CART算法構(gòu)建并訓練模型,使用測試數(shù)據(jù)集驗證模型的結(jié)果。

圖3 模型訓練流程

4 模型的配置和訓練

本文參考了神經(jīng)網(wǎng)絡(luò)法分解重疊峰中的數(shù)據(jù)集產(chǎn)生方法和無因次比值計算方法[11],生成了5400組重疊峰,并按照5:1的比例隨機劃分成訓練集和測試集。然后對訓練集和測試集的每一個重疊峰,使用guas1小波進行小波變換模擬其導數(shù),按圖4所示求其4個拐點A、B、C、D。參考神經(jīng)網(wǎng)絡(luò)方法計算5個無因次比值作為輸入,Q1為需要擬合的因變量,使用第3節(jié)的方法訓練隨機森林模型,即可得到自變量和因變量之間的映射關(guān)系。

5 實驗驗證

經(jīng)過模型的網(wǎng)格搜索和交叉驗證,可得到這兩個特征在不同取值時的系數(shù)曲線。綜合考慮性能和模型復雜度,得到最優(yōu)的參數(shù)組合為:特征數(shù)量3,回歸子樹數(shù)量為150。

得到最優(yōu)參數(shù)組合之后,本文使用最優(yōu)參數(shù)建立隨機森林模型,并使用訓練數(shù)據(jù)集對模型進行訓練。最后使用測試集驗證模型的精準度。采用均方根誤差(RMSE)、最大絕對誤差(MAE)、R2決定系數(shù)等參數(shù)作為評價的依據(jù),定義如下:

(7)

(8)

(9)

表2 模型性能分析

可以看出,隨機森林模型對輸入輸出的擬合能力很強,平均誤差不到1%,R2決定性系數(shù)達到99%以上,說明了本模型具有較強的學習能力和泛化能力。圖4為模型在訓練時的學習曲線,訓練集和測試集收斂于同一條線,說明沒有過擬合的發(fā)生。

圖4 模型學習曲線

本文還在相同的環(huán)境下實驗測試了神經(jīng)網(wǎng)絡(luò)法和垂線法進行了結(jié)果對比。其中,神經(jīng)網(wǎng)絡(luò)方法采用的是含有10個隱節(jié)點的BP神經(jīng)網(wǎng)絡(luò),激活函數(shù)選用單極性sigmoid函數(shù),學習率為0.01,分別設(shè)置了不同的迭代次數(shù)進行多次訓練,結(jié)果如表3所示。同時,模擬了不同參數(shù)(分離度RS、峰1面積比例Q1)下使用垂線法進行計算,其結(jié)果如表4所示。

表3 神經(jīng)網(wǎng)絡(luò)性能分析

表4 垂線法結(jié)果(—代表出現(xiàn)肩峰)

測試的結(jié)果表明,雖然神經(jīng)網(wǎng)絡(luò)法也能對輸入輸出進行擬合,但準確度不如本文的隨機森林模型。并且隨著網(wǎng)絡(luò)規(guī)模的擴大,若要達到相同誤差程度,需要進行成倍規(guī)模的計算,訓練時間也遠遠超出。雖然神經(jīng)網(wǎng)絡(luò)也可以通過模型調(diào)優(yōu)等方式使結(jié)果精度不斷提高,但不論是其參數(shù)選擇還是模型訓練的過程,相較于隨機森林模型而言都較為繁瑣,并且容易陷入過擬合或是局部最優(yōu)的結(jié)果。而垂線法雖然原理簡單,計算速度很快,但是其精度會受到重疊峰的分離度和峰形的影響。一般重疊度越高,垂線法計算的誤差會越大。并且垂線法無法對肩峰進行分割計算,存在使用的局限性。綜合比較各方面而言,本文的模型有著更易理解、參數(shù)調(diào)節(jié)簡單、模型收斂速度快、準確率也較高等優(yōu)點,具有一定的優(yōu)勢。

最后,本文使用型號為NP7000C高壓色譜泵和NC3000C系列可見光檢測器,在實際中對本模型的結(jié)果進行驗證。設(shè)置色譜泵流速為2 ml/min,梯度程序時間為30 min,檢測器波長設(shè)為254 nm,流動相為85%的甲醇水溶劑。通過對某一試劑連續(xù)進樣,控制其前后兩次進樣的體積比例,人為造成不同比例的重疊峰。對采集到的重疊峰信號進行連續(xù)小波變換檢測其拐點,并計算無因次比值作為本模型的輸入,多次實驗的結(jié)果如表5所示。

表5 模型實際使用效果

以上實驗結(jié)果表明本文提出的利用小波特征提取和隨機森林模型的重疊峰解析方法可以有效地對重疊峰中的子峰面積比值進行計算,結(jié)果優(yōu)于傳統(tǒng)的垂線法和神經(jīng)網(wǎng)絡(luò)法。隨機森林模型的兩大隨機特性可以有效地解決神經(jīng)網(wǎng)絡(luò)模型中的過擬合問題,提高了回歸結(jié)果的精度。并且因為模型中各子樹之間的相互獨立性,可通過多線程構(gòu)建的方式提升模型的訓練速度,從而在性能上具有一定的優(yōu)勢,克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)法計算量大、學習效率低、網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)難以確定的缺點。從而提高了色譜分析效率,保證了分析結(jié)果的準確性。

6 結(jié)論

隨機森林作為一種高效的機器學習模型,已經(jīng)在很多領(lǐng)域得到廣泛的運用,本文將其引入到色譜分析領(lǐng)域。采用本文所述的方法,利用小波變換和隨機森林模型分解色譜重疊峰,在精度上優(yōu)于傳統(tǒng)的垂線法和神經(jīng)網(wǎng)絡(luò)法。相較于神經(jīng)網(wǎng)絡(luò)方法,它模型簡單、收斂更快、訓練時間更短,因此擁有更高的效率。通過仿真信號和實際色譜信號的實驗驗證表明,本方法得到的結(jié)果較為精準,確保了色譜分析結(jié)果的準確性。

猜你喜歡
拐點小波導數(shù)
構(gòu)造Daubechies小波的一些注記
科技風(2021年19期)2021-09-07 14:04:29
解導數(shù)題的幾種構(gòu)造妙招
秦國的“拐點”
新拐點,新機遇
廣州化工(2020年5期)2020-04-01 07:38:52
基于MATLAB的小波降噪研究
電子制作(2019年13期)2020-01-14 03:15:32
恢復高考:時代的拐點
基于改進的G-SVS LMS 與冗余提升小波的滾動軸承故障診斷
《廉潔拐點》
紅巖春秋(2017年6期)2017-07-03 16:43:54
關(guān)于導數(shù)解法
導數(shù)在圓錐曲線中的應用
阆中市| 于田县| 边坝县| 乐东| 山丹县| 遵义市| 阿巴嘎旗| 兰西县| 宁河县| 郴州市| 修武县| 天津市| 广州市| 平安县| 同德县| 定日县| 陆丰市| 郸城县| 福鼎市| 潢川县| 海宁市| 冀州市| 赤水市| 长兴县| 康定县| 古交市| 永德县| 富裕县| 绥宁县| 丰原市| 沈丘县| 玛曲县| 海城市| 淮阳县| 汕头市| 措美县| 庄浪县| 芦山县| 文昌市| 寻乌县| 灌云县|