王其濱,楊輝華,,潘細(xì)朋,李靈巧,*
(1.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.北京郵電大學(xué) 自動(dòng)化學(xué)院,北京 100876)
近紅外光譜分析技術(shù)因具有實(shí)時(shí)、高效、低成本以及不破壞樣本等優(yōu)點(diǎn),被廣泛應(yīng)用于食品、藥品、化工等領(lǐng)域[1-4]。該技術(shù)通過建立分析模型,將訓(xùn)練樣本的近紅外光譜與物理化學(xué)性質(zhì)相聯(lián)系,可計(jì)算出未知樣本對(duì)應(yīng)的性質(zhì)參數(shù)[5]。
模型傳遞方法是近紅外光譜分析技術(shù)中一個(gè)常見并具有重要意義的技術(shù)問題[6]。通常在實(shí)際的應(yīng)用中,因?yàn)闇y(cè)量環(huán)境的改變或光譜儀器在制造過程的機(jī)械差異等原因,源機(jī)(Master)上建立的定量分析模型應(yīng)用于目標(biāo)機(jī)(Slave)測(cè)量的光譜數(shù)據(jù)時(shí)會(huì)產(chǎn)生較大的偏差[7],不能得到正確的預(yù)測(cè)結(jié)果。如果在目標(biāo)機(jī)上再次測(cè)量多組樣本數(shù)據(jù)建立定量模型則費(fèi)時(shí)費(fèi)力[8],此問題嚴(yán)重阻礙了近紅外光譜儀在實(shí)際生產(chǎn)中的應(yīng)用,而模型傳遞技術(shù)很好地解決了這一問題。模型傳遞是建立源機(jī)與目標(biāo)機(jī)上測(cè)量光譜之間的數(shù)學(xué)模型[9],該模型通過對(duì)目標(biāo)機(jī)上的近紅外光譜進(jìn)行轉(zhuǎn)換,可將其用源機(jī)上建立的模型進(jìn)行參數(shù)分析。模型傳遞方法主要分為有標(biāo)樣和無標(biāo)樣模型傳遞。目前,有標(biāo)樣模型傳遞算法應(yīng)用更為廣泛,如直接校正算法(DS)[10]、分段直接校正算法(PDS)[11]以及Shenk's算法[12]等。DS算法通過選取少量樣本建立標(biāo)樣集,將目標(biāo)機(jī)上測(cè)量的全光譜數(shù)據(jù)轉(zhuǎn)換成源機(jī)光譜數(shù)據(jù)來構(gòu)建校正模型[13]。PDS算法在目標(biāo)機(jī)光譜中增加窗口限制[14],選取窗口內(nèi)光譜波長(zhǎng)點(diǎn)轉(zhuǎn)換成源機(jī)光譜,代替DS算法中全光譜進(jìn)行校正。Shenk's算法利用某波長(zhǎng)點(diǎn)周圍的光譜數(shù)據(jù)來計(jì)算該波長(zhǎng)的校正參數(shù)。
光譜儀器采集的光譜數(shù)據(jù)集普遍存在基線漂移、隨機(jī)噪聲、漫反射等現(xiàn)象,如果直接對(duì)光譜進(jìn)行建模分析,會(huì)出現(xiàn)模型傳遞效果差、不穩(wěn)定等問題,故本文嘗試對(duì)光譜數(shù)據(jù)進(jìn)行小波變換預(yù)處理。小波變換作為一種源于傅里葉變換的信號(hào)處理工具[15],為一種時(shí)間和頻率的局域變換,因而能有效的從信號(hào)中提取信息[16]。小波可以沿時(shí)間軸前后平移,也可以按比例伸展和壓縮以獲取低頻和高頻小波,從而對(duì)函數(shù)或信號(hào)進(jìn)行多尺度細(xì)化分析[17]。通過一維小波連續(xù)變換對(duì)近紅外光譜進(jìn)行預(yù)處理,能夠?qū)崿F(xiàn)對(duì)光譜數(shù)據(jù)平滑、降噪以及消除基線漂移的處理。動(dòng)態(tài)時(shí)間規(guī)整算法是一個(gè)優(yōu)化問題[18],算法通過計(jì)算兩個(gè)序列點(diǎn)之間最佳的對(duì)應(yīng)關(guān)系,獲得代價(jià)矩陣最小時(shí)的規(guī)整路徑。在近紅外光譜領(lǐng)域,由于設(shè)備老化、機(jī)械誤差以及溫度濕度等條件的影響,源機(jī)與目標(biāo)機(jī)測(cè)得的光譜之間不但會(huì)產(chǎn)生基線漂移,而且波長(zhǎng)點(diǎn)也會(huì)產(chǎn)生偏移[19]。通過尋找源機(jī)光譜與目標(biāo)機(jī)光譜的最佳對(duì)應(yīng)關(guān)系,可以建立更精確的校正模型。
WDTW模型傳遞方法,首先將光譜進(jìn)行小波變換預(yù)處理,然后計(jì)算源機(jī)光譜與目標(biāo)機(jī)光譜上各個(gè)波長(zhǎng)點(diǎn)的相關(guān)距離,通過DTW算法找到源機(jī)光譜與目標(biāo)機(jī)光譜各個(gè)波長(zhǎng)點(diǎn)的關(guān)聯(lián)關(guān)系,使得整體的相關(guān)距離最小,最后再根據(jù)此關(guān)聯(lián)關(guān)系構(gòu)建回歸模型。通過在近紅外藥品光譜數(shù)據(jù)集和汽油光譜數(shù)據(jù)集之間進(jìn)行傳遞模型實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果相較于傳統(tǒng)方法光譜差異和預(yù)測(cè)標(biāo)準(zhǔn)偏差均有所降低。
設(shè)兩個(gè)序列分別表示為X=(x1,x2,x3,…,xN)和(y1,y2,y3,…,yM)。DTW算法可以將序列X和Y中的點(diǎn)進(jìn)行最佳匹配,使兩序列點(diǎn)之間的距離和最小。序列和匹配關(guān)系示意圖如圖1所示。
圖1 序列的匹配關(guān)系Fig.1 The matching relation of sequence
(1)
式中,Cov表示光譜序列之間的協(xié)方差,Var表示光譜序列的方差。源機(jī)光譜和目標(biāo)機(jī)光譜序列之間的相關(guān)距離可根據(jù)相關(guān)系數(shù)求出:
(2)
DTW算法通過構(gòu)造一個(gè)代價(jià)矩陣C∈RN×M表示序列X與序列Y中每個(gè)元素之間的距離。
C∈RN×M∶ci,j=Di,j
(3)
通常在語音識(shí)別領(lǐng)域,DTW算法是通過ci,j=‖xi-yi‖計(jì)算元素之間距離,而光譜數(shù)據(jù)更關(guān)注于兩個(gè)光譜序列波長(zhǎng)點(diǎn)的相關(guān)性,因此用相關(guān)距離Di,j。
圖2 最佳規(guī)整路徑Fig.2 The optimal warping path
根據(jù)代價(jià)矩陣,DTW算法能夠找到元素之間相關(guān)距離最小的路徑,該路徑代表了元素之間的最佳對(duì)應(yīng)關(guān)系。圖2表示了兩個(gè)序列X和Y的最佳規(guī)整路徑示意圖。
規(guī)整路徑的計(jì)算必須滿足3個(gè)條件:
① 邊界限制:規(guī)整路徑必須從(1,1)點(diǎn)出發(fā),在(N,M)點(diǎn)結(jié)束。
② 順序限制:規(guī)整路徑需要按照順序匹配,不能交叉或跳過某點(diǎn)進(jìn)行匹配。
③ 單調(diào)限制:路徑匹配過程中,只能向右、向上或者右上方向移動(dòng),以避免無意義的循環(huán)。
如順序限制和單調(diào)限制條件:設(shè)當(dāng)前點(diǎn)為(i,j),下一個(gè)將要匹配的點(diǎn)只能是(i+1,j)、(i,j+1)或者(i+1,j+1)。規(guī)整路徑中相關(guān)聯(lián)點(diǎn)代價(jià)的和即為DTW算法的損失函數(shù):
(4)
DTW算法要求解的就是使關(guān)聯(lián)代價(jià)最小化:
DTW(X,Y)=min{cp(X,Y),p∈PN×M}
(5)
通過應(yīng)用動(dòng)態(tài)規(guī)劃來求解累加距離最小的路徑,其計(jì)算公式如下:
D(i,j)=min{D(i-1,j-1),D(i-1,j),D(i,j-1)}+c(xi,yj),i∈[1,N],j∈[1,M]
(6)
式(6)中,c(xi,yj)為當(dāng)前所在點(diǎn)的關(guān)聯(lián)代價(jià),累加距離最小即為其與前一匹配點(diǎn)相關(guān)距離的最小值之和。累加距離最小的路徑即為規(guī)整路徑。
(7)
(8)
通過PLS方法求得方程系數(shù),將源機(jī)光譜點(diǎn)分別做如上運(yùn)算,然后將求得的全部系數(shù)保存于矩陣F,F(xiàn)即為模型傳遞所求的傳遞矩陣。通過如下公式即求得傳遞后的光譜。
(9)
分別采用藥品和汽油2個(gè)數(shù)據(jù)集驗(yàn)證了WDTW模型傳遞方法的有效性。數(shù)據(jù)集1是由國(guó)際漫反射會(huì)議(IDRC)公布的藥品近紅外光譜數(shù)據(jù)集(http://www.eigenvector.com/data/tablets/index.html),包括了藥品的活性、重量和硬度3個(gè)性質(zhì)參數(shù)。數(shù)據(jù)集2是由中國(guó)石油化工股份有限公司石油化工科學(xué)研究院提供的汽油近紅外光譜數(shù)據(jù)集,其包括了汽油C7、 C8、 C9、C10 4個(gè)成分的性質(zhì)參數(shù)。2個(gè)數(shù)據(jù)集樣本數(shù)、樣本維度、波長(zhǎng)范圍及波長(zhǎng)間隔如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)介紹Table 1 Detailed introduction of experimental data
光譜儀器采集的光譜數(shù)據(jù)集普遍存在基線漂移、隨機(jī)噪聲、漫反射等現(xiàn)象,故需要對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理過程首先采用數(shù)據(jù)平滑消除光譜數(shù)據(jù)中可能存在的隨機(jī)噪聲(平滑窗口為17,多項(xiàng)式階數(shù)為3),然后再使用小波變換(小波尺度Scale為4,母小波波長(zhǎng)為32*Scale)進(jìn)行數(shù)據(jù)處理。
采用K-S算法選取藥品和汽油數(shù)據(jù)的標(biāo)樣集,通過計(jì)算近紅外光譜之間的歐氏距離,選取最具代表性的光譜樣本子集即為標(biāo)樣集。首先將實(shí)驗(yàn)數(shù)據(jù)成分進(jìn)行排序,然后采用隔三取一的方式從汽油數(shù)據(jù)集中選取60個(gè)測(cè)試集,28個(gè)校正集;同樣從藥品數(shù)據(jù)集中選取460個(gè)測(cè)試集,155個(gè)校正集。最后采用10折交叉驗(yàn)證,據(jù)預(yù)測(cè)標(biāo)準(zhǔn)偏差(SEP)得到最優(yōu)的PLS模型主因子數(shù),用PLS建立源機(jī)定量模型。采用光譜平均差異(ARMS)、預(yù)測(cè)標(biāo)準(zhǔn)偏差(SEP)和光譜校正率(Prcorrected)作為WDTW模型傳遞方法的評(píng)價(jià)指標(biāo)。其中,ARMS越小,說明兩個(gè)不同的光譜儀器測(cè)得的光譜差異越小;SEP越小,表明所建模型的預(yù)測(cè)能力越強(qiáng);Prcorrected值越小,代表模型的傳遞效果越好。ARMS和SEP計(jì)算公式如下:
(10)
(11)
(12)
實(shí)驗(yàn)預(yù)處理過程先采用數(shù)據(jù)平滑,再進(jìn)行小波變換處理。前者主要用于消除光譜數(shù)據(jù)中可能存在的隨機(jī)噪聲,后者用于消除數(shù)據(jù)可能存在的基線漂移。實(shí)驗(yàn)結(jié)果顯示,通過將藥品和汽油樣本預(yù)處理前后的目標(biāo)機(jī)儀器光譜圖進(jìn)行對(duì)比,可以發(fā)現(xiàn)預(yù)處理過程能夠有效消除樣本數(shù)據(jù)間普遍存在的基線漂移、隨機(jī)噪聲和漫反射等現(xiàn)象。圖3為預(yù)處理前后藥品樣本目標(biāo)機(jī)儀器光譜圖。
圖4 藥品樣本源機(jī)和目標(biāo)機(jī)光譜間波長(zhǎng)點(diǎn)匹配關(guān)系Fig.4 The match relation of the master and slave instrumental spectrograms wavenumber of the drug sample
通過WDTW算法,可以得到源機(jī)光譜和目標(biāo)機(jī)光譜波長(zhǎng)點(diǎn)之間最優(yōu)的對(duì)應(yīng)關(guān)系。以藥品近紅外光譜數(shù)據(jù)為例,由于光譜波長(zhǎng)點(diǎn)較多,只選取1 000~1 160 nm波長(zhǎng)點(diǎn)顯示,其中上方黑色線為目標(biāo)機(jī)光譜(Slave),下方藍(lán)色線為源機(jī)光譜(Master),中間紅色線即連接了源機(jī)光譜和目標(biāo)機(jī)光譜之間最優(yōu)對(duì)應(yīng)關(guān)系(見圖4)。從圖中紅色連接線可看到,在波長(zhǎng)點(diǎn)10~15 nm、20~25 nm和120~130 nm處,波長(zhǎng)點(diǎn)之間發(fā)生明顯偏移,而WDTW算法很好地找到了兩者最優(yōu)的對(duì)應(yīng)關(guān)系。WDTW模型傳遞方法基于此對(duì)應(yīng)關(guān)系建立了回歸方程。
使用WDTW模型傳遞方法建立了近紅外光譜校正模型,分別對(duì)比汽油、藥品樣本的原始平均光譜圖和傳遞后的平均光譜圖,可以很直觀地看出WDTW模型的傳遞效果。圖5左圖為汽油樣本測(cè)試集原始的平均光譜圖,其中實(shí)線代表源機(jī)光譜,點(diǎn)線代表目標(biāo)機(jī)光譜,可見源機(jī)光譜和目標(biāo)機(jī)光譜之間有很大差異,如果直接將源機(jī)光譜建立的回歸模型用于目標(biāo)機(jī)光譜數(shù)據(jù),必將產(chǎn)生很大誤差。圖5右圖為汽油樣本測(cè)試集模型傳遞后的平均光譜圖,源機(jī)光譜和目標(biāo)機(jī)光譜之間基本重合,可見WDTW模型傳遞方法減小了兩儀器間光譜的差異。藥品樣本測(cè)試集校正前后的譜圖效果與汽油樣品相同,即采用WDTW模型傳遞方法于藥品樣本可有效減小源機(jī)和目標(biāo)機(jī)光譜之間的差異。
表2記錄了WDTW算法模型傳遞前后源機(jī)和目標(biāo)機(jī)儀器間的光譜差異以及光譜校正率。以汽油C7成分為例,在目標(biāo)機(jī)光譜取標(biāo)樣集為5,校正前光譜平均差異為0.018 8,校正后光譜的平均差異為0.002 1,通過校正率計(jì)算公式(12)可得其光譜校正率為98.75%,WDTW模型傳遞算法可以很好的消除源機(jī)光譜和目標(biāo)機(jī)光譜之間的差異。
表2 WDTW算法傳遞前后測(cè)試集主從儀器間的光譜差異Table 2 Spectral difference between master and slave instruments before and after test set passing through WDTW algorithm
將WDTW算法與DS、PDS和DTW 3種算法模型傳遞后以及未校正的光譜平均差異進(jìn)行對(duì)比,如表3所示,對(duì)比未校正的光譜,發(fā)現(xiàn)經(jīng)過模型傳遞后的平均光譜差異均有減小,其中WDTW算法表現(xiàn)最好,模型傳遞后的平均光譜的差異整體最小,也說明此算法模型的傳遞效果最好。其中汽油樣本經(jīng)過WDTW算法模型傳遞后,C7、C8、C9和C10 4種成分的平均光譜差異均為0.002 1。在藥品樣本數(shù)據(jù)集中,WDTW算法同樣取得了很好的效果,藥品活性、重量和硬度在模型傳遞后,平均光譜差異分別為0.026 8、0.025 7、0.026 0。
表3 DS、PDS、DTW和WDTW傳遞后測(cè)試集主從儀器間的光譜差異Table 3 Spectral differences between master and slave devices of test set after DS,PDS,DTW and WDTW transmission
為了進(jìn)一步驗(yàn)證WDTW模型傳遞方法的有效性,實(shí)驗(yàn)采用源機(jī)光譜數(shù)據(jù)建立PLS回歸模型,將經(jīng)過模型傳遞后的光譜數(shù)據(jù)代入回歸模型,并用預(yù)測(cè)標(biāo)準(zhǔn)偏差評(píng)價(jià)模型傳遞的效果。通過與DS、PDS、DTW算法比較(PDS算法的窗口大小用交叉驗(yàn)證確定),WDTW算法傳遞后,光譜預(yù)測(cè)結(jié)果的預(yù)測(cè)標(biāo)準(zhǔn)偏差整體最小,模型傳遞效果最好,結(jié)果如表4所示。
表4 DS、PDS、DTW和WDTW傳遞后測(cè)試集預(yù)測(cè)標(biāo)準(zhǔn)偏差(SEP)Table 4 Prediction standard deviation(SEP) of the test set after DS,PDS,DTW and WDTW pass
實(shí)驗(yàn)結(jié)果顯示,在模型傳遞前,未校正的目標(biāo)機(jī)光譜直接帶入源機(jī)光譜數(shù)據(jù)建立的PLS回歸模型進(jìn)行預(yù)測(cè)有較大誤差。通過模型傳遞之后,校正后的光譜數(shù)據(jù)預(yù)測(cè)標(biāo)準(zhǔn)偏差均有減小,其中WDTW算法整體的預(yù)測(cè)標(biāo)準(zhǔn)偏差最小,表明此時(shí)所建模型預(yù)測(cè)能力最好。DS算法通過全光譜建立校正模型,范圍太大容易引起誤差。PDS算法通過限定一個(gè)窗口,在窗口范圍內(nèi)建立校正模型,窗口大小將會(huì)直接影響結(jié)果的好壞。DTW算法很好的找到源機(jī)光譜和目標(biāo)機(jī)光譜的最佳對(duì)應(yīng)關(guān)系,其建立的模型相較DS和PDS算法在汽油數(shù)據(jù)集上有明顯的優(yōu)勢(shì),但在藥品數(shù)據(jù)集中表現(xiàn)較差、原因可能是由于未經(jīng)過數(shù)據(jù)的預(yù)處理,光譜中的一些噪聲會(huì)引起DTW算法建立的模型不穩(wěn)定。而WDTW算法在經(jīng)過小波變換預(yù)處理后,有效消除了樣本數(shù)據(jù)間存在的基線漂移、隨機(jī)噪聲等,之后通過找到波長(zhǎng)點(diǎn)最佳對(duì)應(yīng)關(guān)系,再根據(jù)此對(duì)應(yīng)關(guān)系建立校正回歸模型,可以更加精確的求得轉(zhuǎn)移光譜,實(shí)現(xiàn)近紅外光譜模型的傳遞。
本文針對(duì)近紅外光譜模型傳遞問題,提出了基于小波變換動(dòng)態(tài)時(shí)間規(guī)整的模型傳遞方法。該方法首先使用小波變換進(jìn)行光譜預(yù)處理,然后利用動(dòng)態(tài)時(shí)間規(guī)整算法求得傳遞光譜。通過一維小波連續(xù)變換對(duì)近紅外光譜進(jìn)行多尺度細(xì)化分析,以實(shí)現(xiàn)對(duì)光譜數(shù)據(jù)平滑、降噪以及消除基線漂移的處理。在經(jīng)過小波變換預(yù)處理后,動(dòng)態(tài)時(shí)間規(guī)整算法通過尋找不同光譜儀器之間波長(zhǎng)點(diǎn)最佳的匹配關(guān)系并建立回歸模型,求得傳遞矩陣實(shí)現(xiàn)模型傳遞。對(duì)汽油和藥品兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明了該方法能夠消除不同儀器間光譜的平均差異,提高模型的預(yù)測(cè)能力和通用性。通過與其他模型傳遞方法DS、PDS和DTW算法進(jìn)行對(duì)比后,表明基于WDTW算法所求的參數(shù)少,傳遞效果最好,整體性能最優(yōu)。