国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隨機森林結(jié)合直接正交信號校正的模型傳遞方法

2020-09-23 12:29:10王其濱楊輝華潘細朋李靈巧
激光與紅外 2020年9期
關(guān)鍵詞:波長校正光譜

王其濱,楊輝華,,潘細朋,李靈巧,

(1.桂林電子科技大學電子工程與自動化學院,廣西 桂林 541004;2.北京郵電大學自動化學院,北京 100876)

1 引 言

近紅外光譜分析技術(shù)能夠?qū)崿F(xiàn)快速、無損、在線分析樣本,在化工,食品,農(nóng)業(yè),藥品等多個領(lǐng)域得到了迅速的發(fā)展[1-4]。模型傳遞技術(shù)是近紅外光譜分析中一種常用的方法,用于解決儀器間因不同的時間,環(huán)境或者機械加工誤差,而導(dǎo)致模型通用性較差的問題[5]。在實際的應(yīng)用中,一臺光譜儀上建立的校正模型,如果直接用于另一臺光譜儀進行樣本的分析會產(chǎn)生較大的偏差,無法得到理想的預(yù)測結(jié)果。盡管相同型號的儀器實現(xiàn)模型的共享最終必須要依靠硬件的提高,但模型傳遞方法依然有必要進一步研究下去[6]。目前,模型傳遞技術(shù)主要分為有標樣和無標樣兩種方法,在實際中使用最為廣泛的是有標樣的直接校正算法(DS)、分段直接校正算法(PDS)以及Shenk′s算法等。這些方法能夠?qū)崿F(xiàn)模型傳遞的效果,但在進行模型傳遞的過程中,并沒有考慮待測量的特征,無法在去除光譜中存在的背景噪聲的同時,很好的保留與待測變量有關(guān)的光譜信息。對此,多項研究將正交信號校正方法引入光譜的處理中,王安冬等人[7],提出用正交信號回歸法對不同批次中藥材光譜進行模型傳遞研究。賈一飛等人[8],提出直接正交信號校正方法結(jié)合SBC算法,用于近紅外定量模型批次間的傳遞并取得了不錯的效果。劉賢等人[9],提出將正交信號校正用于秸稈青貯飼料粗蛋白近紅外分析模型傳遞中,較好的實現(xiàn)了模型傳遞的效果。

直接正交信號校正(Direct Orthogonal Signal Correction,DOSC)方法已經(jīng)被證明能夠大幅提高近紅外光譜模型的預(yù)測能力和穩(wěn)健性,是一種被廣泛采用的預(yù)處理方法[10]。但在實驗過程中發(fā)現(xiàn),光譜數(shù)據(jù)中的噪音并不絕對正交于光譜的濃度陣,因此DOSC方法只能除去它們在與濃度陣正交方向上的投影,噪音殘留的部分便會影響模型的穩(wěn)定性,并可能造成過擬合。針對DOSC的這個缺陷,本文提出了一種改進的方法,即RF-DOSC模型傳遞方法。該方法在應(yīng)用DOSC處理數(shù)據(jù)之前,首先采用隨機森林波長選擇方法預(yù)先除去那些噪音含量豐富的區(qū)域,盡可能的去除噪音殘留部分的干擾。

2 RF-DOSC算法

RF-DOSC模型傳遞方法,首先將光譜運用隨機森林算法進行波長篩選,用于去除光譜中含有豐富噪聲的區(qū)域,之后利用DOSC方法對優(yōu)選后的光譜進行校正,減小不同批次樣本的光譜背景差異,最后在構(gòu)建一元線性回歸模型,求得傳遞矩陣。通過在近紅外玉米光譜數(shù)據(jù)集之間進行傳遞模型實驗,實驗結(jié)果相較于傳統(tǒng)方法光譜差異和預(yù)測標準偏差都有所降低。

2.1 變量篩選

RF-DOSC模型傳遞方法,采用隨機森林算法進行近紅外光譜波長篩選。隨機森林最早是由Breiman提出的一種集成學習方法[11],它以決策樹為基學習器,在訓練過程中加入了隨機屬性選擇。隨機森林算法利用Bootstrap重采樣建立訓練集,根據(jù)包外數(shù)據(jù)誤差OOB(out-of-bag)對特征變量重要程度進行衡量,將各個變量重要程度進行降序排列,通過剔除相對不重要的變量,從而實現(xiàn)變量的篩選。

對于每一個隨機森林中的決策樹,使用其相應(yīng)的OOB(包外數(shù)據(jù))數(shù)據(jù)來計算它的包外數(shù)據(jù)誤差,記為errOOB1。隨機地對包外數(shù)據(jù)OOB中所有樣本的特征X加入噪聲干擾,并再次計算它的包外數(shù)據(jù)誤差,記為errOOB2。假設(shè)隨機森林中有Ntree棵決策樹,那么對于特征X的重要性MX便可以根據(jù)公式(1)計算得到。

(1)

隨機森林特征選擇的步驟為:

(1)對隨機森林中的特征變量的重要程度進行衡量,并進行降序排列。

(2)確定刪除數(shù)目,從當前的特征變量中剔除相應(yīng)數(shù)目不重要的變量,得到一個新的特征集。

(3)用新的特征集建立隨機森林,重復(fù)以上步驟,直到剩下N個特征變量。

2.2 直接正交信號校正算法

RF-DOSC模型傳遞方法在波長優(yōu)選后,采用DOSC方法對光譜進行校正處理。DOSC算法是在正交信號校正算法的基礎(chǔ)上提出的一種改進算法[12],該方法將光譜矩陣X與濃度矩陣Y正交,之后將光譜陣X中與Y無關(guān)的信號去除,保留與濃度陣Y相關(guān)的光譜信息,從而能夠?qū)崿F(xiàn)在去除光譜噪聲的同時,保留光譜中與目標值有關(guān)的有用信息。該方法的實現(xiàn)過程如下。

3)通過將ZZ′進行奇異值分解,求得Z的得分矩陣T。

4)回歸計算權(quán)重矩陣W=X-1T,計算新的得分矩陣T=XW,載荷矩陣P=X′T(T′T)-1。

5)去除X中與Y正交的噪聲,XDOSC=X-TP′(XDOSC為正交信號校正后X矩陣)。

從上述方法步驟可以看出,DOSC算法是將光譜陣X投影到一個由標樣集光譜X和濃度Y確立的空間中,光譜X在此空間中只保留了與濃度陣Y相關(guān)的部分,與濃度陣Y無關(guān)的部分被去除,因此該方法能夠有效的消除光譜中與目標值Y無關(guān)的背景噪聲。通常運用DOSC方法進行預(yù)處理后的光譜,在進行回歸建模分析可以取得比不經(jīng)過預(yù)處理建模更好的預(yù)測結(jié)果。

2.3 校正模型建立

RF-DOSCR模型傳遞方法在經(jīng)過直接正交信號校正處理后,采用一元線性回歸建立模型傳遞的校正模型[13]。設(shè)主儀器上測得光譜矩陣表示為Xm,從儀器上測得光譜矩陣表示為Xs,則光譜數(shù)據(jù)第i個樣品在第j個波長點上的吸光度可表示為Xm(i,j)和Xs(i,j),其應(yīng)滿足如下一元線性回歸方程:

(2)

式(2)中,第j(j∈1,…,p)個波長點對應(yīng)的回歸系數(shù)分別為b0(j)和b(j)。由式(2)可得:

(3)

其中,[1n×1Xs(:,j)]+表示[1n×1Xs(:,j)]的廣義逆矩陣。

(4)

式中,回歸系數(shù)b0(j)和b(j)可以通過公式(3)求出。從儀器上測得的未知樣品光譜X′(n′×p)(其中n′為未知樣品數(shù)),通過公式(4)可以轉(zhuǎn)換為與主儀器上測得的一致的光譜Xstd,傳遞后的從儀器的光譜數(shù)據(jù)便可以使用主機建立的校正模型進行樣品的分析。

3 實 驗

3.1 實驗數(shù)據(jù)

實驗采用玉米數(shù)據(jù)集驗證了RF-DOSC模型傳遞方法的有效性。數(shù)據(jù)是由Eigenvector Research公司提供的玉米數(shù)據(jù)集(http://www.eigenvector.com/data/Corn/index.html),數(shù)據(jù)集包含3臺儀器上80組玉米的光譜數(shù)據(jù),數(shù)據(jù)的波長范圍為1100~2498 nm,樣本維度為700,波長間隔為2 nm,提供了包括玉米的水分、油分、蛋白質(zhì)和淀粉四種性質(zhì)參數(shù)。

3.2 數(shù)據(jù)處理

光譜處理過程主要分為兩個階段,分別是利用隨機森林進行光譜變量的優(yōu)選和通過DOSC對光譜進行校正處理。波長優(yōu)選階段,將光譜信息重疊、冗余,含有大量背景噪聲等光譜區(qū)間作為主要的關(guān)注對象,采用隨機森林算法將變量的重要程度進行排序,通過剔除相對不重要的變量,實現(xiàn)變量的篩選。實驗過程中,采用交叉驗證均方根誤差(RMSECV)作為模型的評價指標,通過選擇不同的波長數(shù)進行實驗,將誤差最小時對應(yīng)的波長數(shù)設(shè)為最佳波長數(shù)。光譜校正處理階段,采用DOSC方法,將光譜正交分解后,進一步去除與待測量無關(guān)的光譜信息,能夠很好的校正光譜中因溫度,時間,儀器等因素的變動帶來的光譜背景差異。對比試驗采用SG卷積平滑預(yù)處理方法對光譜數(shù)據(jù)進行處理,用于消除光譜的噪聲,提高樣本的信噪比。

3.3 建立定量模型及評價指標

實驗過程通過K-S算法對玉米數(shù)據(jù)集進行標樣集的選取,該方法通過計算光譜之間的歐氏距離,能夠選取光譜中最具代表性的樣本子集作為標樣集。實驗將數(shù)據(jù)集按照成分進行降序排列,然后通過改變不同的目標值,就能夠?qū)Σ煌某煞诌M行預(yù)測。玉米數(shù)據(jù)集一共80個樣本,在主儀器光譜數(shù)據(jù)集上選取50個測試集,30個校正集,采用10折交叉驗證,利用預(yù)測標準偏差(SEP)作為評價指標得到最優(yōu)的PLS模型主因子數(shù),建立主儀器的定量分析模型。實驗采用光譜平均差異(ARMS)、預(yù)測標準偏差(SEP)和光譜校正率(Prcorrected)作為RF-DOSC模型傳遞方法的評價指標。其中ARMS越小,說明兩個不同的主從光譜儀測得的光譜差異越小,SEP越小,表明所建模型的預(yù)測能力越強,Prcorrected值的大小,代表模型傳遞方法的傳遞效果好壞。ARMS和SEP計算公式如下式(5)和(6):

(5)

(6)

(7)

式中,ARMSuncorrected代表模型傳遞前為校正的平均光譜差異;ARMScorrected代表模型傳遞后校正過的平均光譜差異。

4 結(jié)果與討論

4.1 波長變量數(shù)篩選結(jié)果分析

近紅外光譜往往變量數(shù)很大,維數(shù)較高,且光譜信息重疊、冗余,光譜中含有大量背景噪聲等問題。通過對光譜數(shù)據(jù)進行波長選擇,可以去除冗余數(shù)據(jù)和背景噪聲,降低數(shù)據(jù)維度,簡化算法的復(fù)雜度。實驗采用玉米水分成分含量為例,通過隨機森林算法進行波長篩選,然后進行PLS回歸建模預(yù)測。實驗采用交叉驗證均方根誤差(RMSECV)作為模型的評價指標。如圖1所示,波長數(shù)的變化對RMSECV有很大的影響,整體的變化呈先降低后升高的趨勢。RMSECV的值越小,說明模型的預(yù)測能力越強。在波長數(shù)為70周圍時,RMSECV的值最小,之后隨著波長數(shù)的增加,RMSECV的值又逐漸變大,這有可能是加入了一些與模型預(yù)測不太相關(guān)甚至無關(guān)的變量。所以,本文的實驗,波長篩選的數(shù)目設(shè)定為70,以獲取一個最優(yōu)的樣本集,從而達到最好的預(yù)測效果。

圖1 玉米水分成分RMSECV隨波長變量數(shù)的變化情況

4.2 數(shù)據(jù)校正處理結(jié)果分析

在波長優(yōu)選后,采用直接正交信號校正算法進行光譜的處理,通過正交的數(shù)學方法將與濃度陣無關(guān)的光譜信號濾除。設(shè)從儀器1表示為S1,從儀器2表示為S2。為了能夠直觀的觀察直接信號校正算法的校正效果,實驗在全光譜上進行光譜的校正處理,實驗結(jié)果如圖2(a)、(b)所示。

圖2 處理前后S1玉米樣本光譜對比圖

其中,圖2(a)為S1原始光譜與平均光譜的差值光譜圖,圖2(b)為S1直接正交信號校正處理后與平均光譜的差值光譜圖。通過將玉米樣本處理前(a)后(b)的S1差值光譜圖進行對比,可以發(fā)現(xiàn)在光譜的處理過程中,光譜的整體形狀并沒有發(fā)生很大的差別,但校正處理后,光譜曲線變的更為光滑,且光譜的排列也比校正前更整齊緊密,也說明直接正交信號校正處理后去除了光譜中的噪聲,同時也保留了原光譜中的主要信息。

4.3 模型傳遞前后平均光譜差異對比

使用RF-DOSC模型傳遞方法,建立玉米樣本近紅外光譜校正模型。分別計算對比兩個從儀器玉米樣本傳遞前后的平均光譜差異,可以得出RF-DOSC模型傳遞方法的效果。表1記錄了RF-DOSC算法模型傳遞前后S1和S2間的光譜差異以及光譜校正率。以S1玉米的水分成分為例,校正前光譜與主儀器光譜平均差異為0.2096,校正后光譜的平均差異為0.0568,通過校正率計算公式(8)計算可得其光譜校正率為92.66 %,可見RF-DOSC模型傳遞方法可以很好的消除主儀器光譜和從儀器光譜之間的差異。

表1 測試集經(jīng)RF-DOSC算法傳遞前后主從儀器間的光譜差異

將RF-DOSC算法與DS、PDS和DOSC三種算法模型傳遞后以及未校正的光譜平均差異進行對比,如表2所示。從表2數(shù)據(jù)我們可以看出,四種模型傳遞的算法均能有效的減小光譜的平均差異,其中RF-DOSC模型傳遞方法的光譜差異最小,也說明本文的提出的方法在四種方法中,效果最優(yōu)。DOSC方法效果相較于DS、PDS模型傳遞方法整體表現(xiàn)更優(yōu),但在S1、S2儀器玉米水分成分的光譜差異不如其他方法,也說明DOSC方法在實際的實驗過程中,表現(xiàn)不穩(wěn)定,容易出現(xiàn)過擬合的現(xiàn)象。從DS、PDS方法與DOSC和RF-DOSC方法的光譜差異對比可以發(fā)現(xiàn),DOSC和RF-DOSC模型傳遞方法在校正的過程中,受到了目標值變化的影響,而另外兩種方法,則與目標值Y無關(guān),四種成分的光譜差異均相同。

表2 DS、PDS、DOSC和RF-DOSC傳遞后測試集主從儀器間的光譜差異(ARMS)

4.4 模型傳遞前后預(yù)測結(jié)果對比

為驗證RF-DOSC模型傳遞方法在預(yù)測精度,穩(wěn)健性方面的表現(xiàn),實驗使用主光譜儀測得的光譜數(shù)據(jù)集進行PLS回歸建模分析。通過將模型傳遞前后的光譜數(shù)據(jù)代入回歸模型中進行分析對比,采用預(yù)測標準偏差作為評價指標,可以得出模型傳遞方法的傳遞效果。通過與DS、PDS、DOSC方法的對比,可以發(fā)現(xiàn)RF-DOSC模型傳遞方法表現(xiàn)最優(yōu),預(yù)測標準偏差最小。結(jié)果如表3所示。

表3 DS、PDS、DOSC和RF-DOSC傳遞后測試集預(yù)測標準偏差(SEP)

實驗結(jié)果顯示,在光譜模型傳遞前,未校正的從儀器光譜直接帶入主儀器光譜數(shù)據(jù)建立的PLS回歸模型進行預(yù)測分析,會產(chǎn)生較大的誤差。在經(jīng)過模型傳遞之后,校正后的從儀器光譜數(shù)據(jù)預(yù)測標準偏差均有減小,其中RF-DOSC算法整體預(yù)測標準偏差最小,此時所建模型預(yù)測能力和穩(wěn)健性最好。PDS整體結(jié)果表現(xiàn)優(yōu)于DS、DOSC方法,DOSC方法在某些成分預(yù)測上,優(yōu)于DS、PDS,這可能是因為光譜殘留的噪聲,通過DOSC正交分析后影響了模型的穩(wěn)定性。實驗結(jié)果也說明,通過隨機森林算法預(yù)先進行波長篩選,去除含有大量噪聲的光譜區(qū)間是有必要的。實驗結(jié)果表明RF-DOSC算法在經(jīng)過波長篩選后,采用直接正交信號校正算法消除光譜背景噪聲,在建立校正回歸模型,可以較好地實現(xiàn)近紅外光譜模型的傳遞。

5 結(jié) 論

針對近紅外光譜模型通用性較差的問題,提出了一種基于隨機森林結(jié)合直接正交信號校正的模型傳遞方法。該方法首先使用隨機森林算法實現(xiàn)光譜波長點的篩選,然后利用直接正交信號算法進行光譜校正,最后采用回歸分析求得模型傳遞矩陣。該方法首先采用隨機森算法進行波長的篩選,有效地去除了光譜中含有大量噪聲的區(qū)間,避免了直接正交信號校正算法可能會造成過擬合的弊端。在一臺主儀器,兩臺從儀器上測的玉米光譜數(shù)據(jù)集進行實驗驗證,表明該方法能夠消除不同儀器間光譜的平均差異,提高模型的預(yù)測能力和穩(wěn)健性。在與其他傳統(tǒng)模型傳遞方法DS,PDS和DOSC算法對比之后,得出結(jié)論基于隨機森林結(jié)合直接正交信號的模型傳遞方法能夠較好地完成近紅外光譜的模型傳遞,實現(xiàn)不同儀器間模型的共享。

猜你喜歡
波長校正光譜
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
基于三維Saab變換的高光譜圖像壓縮方法
劉光第《南旋記》校正
國學(2020年1期)2020-06-29 15:15:30
一類具有校正隔離率隨機SIQS模型的絕滅性與分布
雙波長激光治療慢性牙周炎的療效觀察
機內(nèi)校正
日本研發(fā)出可完全覆蓋可見光波長的LED光源
中國照明(2016年4期)2016-05-17 06:16:15
星載近紅外高光譜CO2遙感進展
中國光學(2015年5期)2015-12-09 09:00:28
便攜式多用途光波波長測量儀
物理實驗(2015年9期)2015-02-28 17:36:46
苦味酸與牛血清蛋白相互作用的光譜研究
遂溪县| 隆尧县| 天台县| 上饶市| 东明县| 偏关县| 利川市| 且末县| 巩义市| 清远市| 石家庄市| 墨竹工卡县| 荥阳市| 习水县| 南溪县| 贡觉县| 拜城县| 政和县| 虹口区| 大名县| 会泽县| 株洲市| 苏尼特右旗| 溧水县| 石嘴山市| 昌邑市| 伊春市| 南投县| 石首市| 北辰区| 禄丰县| 兰西县| 汉寿县| 彭阳县| 萝北县| 阳春市| 九寨沟县| 宜君县| 河池市| 上饶县| 临江市|