王文顥, 劉振丙, 雒志超
(1.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)
由于近紅外技術(shù)的非接觸、速度快等特點(diǎn),被廣泛使用在農(nóng)產(chǎn)品[1]、食品[2]和藥物[3]的質(zhì)量檢測(cè)。近紅外光譜定量分析法[4]利用已知的樣本及性質(zhì)通過(guò)化學(xué)計(jì)量學(xué)方法可建立定量分析模型,用于未知樣本的性質(zhì)預(yù)測(cè)。
在應(yīng)用中,由于源機(jī)與目標(biāo)機(jī)的測(cè)量光譜存在偏差,所以不能直接使用源機(jī)上建立的定量分析模型。若在目標(biāo)機(jī)上再次測(cè)量多組樣本數(shù)據(jù),建立新的定量分析模型又費(fèi)時(shí)費(fèi)力。為了解決這一問(wèn)題,模型傳遞技術(shù)[5]應(yīng)運(yùn)而生。模型傳遞技術(shù)首先建立源機(jī)的測(cè)量光譜與目標(biāo)機(jī)的測(cè)量光譜間關(guān)系的數(shù)學(xué)模型,再通過(guò)該模型對(duì)目標(biāo)機(jī)上的光譜進(jìn)行轉(zhuǎn)換。用在源機(jī)建立的定量分析模型,分析傳遞后的光譜便可獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。
模型傳遞分為有標(biāo)樣法和無(wú)標(biāo)樣法。有標(biāo)樣法需要使用標(biāo)準(zhǔn)樣本在多機(jī)上分別檢測(cè),而無(wú)標(biāo)樣法不需要標(biāo)樣集。有標(biāo)樣方法包括Shenk’s算法[6]、直接校正法(DS)[7]、分段校正法(PDS)[8]等;無(wú)標(biāo)樣方法包括有限脈沖響應(yīng)算法(FIR)[9]。其中直接校正法和分段校正法是主流的模型傳遞方法。直接校正法直接使用源機(jī)和目標(biāo)機(jī)上測(cè)量光譜整體來(lái)構(gòu)建校正模型;分段校正法法是直接校正法的改進(jìn),增加了源機(jī)光譜波長(zhǎng)點(diǎn)和目標(biāo)機(jī)光譜波長(zhǎng)點(diǎn)近鄰的限制窗口,窗口的大小直接影響校正的結(jié)果。
動(dòng)態(tài)時(shí)間規(guī)整算法(dynamic time warping,簡(jiǎn)稱(chēng) DTW)[10-11]在語(yǔ)音分析中經(jīng)常使用。因?yàn)槿寺暤碾S機(jī)性,同一單詞的2次發(fā)音并不相同,動(dòng)態(tài)時(shí)間規(guī)整算法可以尋找兩組語(yǔ)音序列中幀的關(guān)系,計(jì)算序列的相似度。
提出的模型傳遞算法基于動(dòng)態(tài)時(shí)間規(guī)整算法。該算法首先計(jì)算雙機(jī)光譜上波長(zhǎng)點(diǎn)的相關(guān)距離。再使用動(dòng)態(tài)時(shí)間規(guī)整算法尋找使整體的相關(guān)距離最小的源機(jī)光譜與目標(biāo)機(jī)光譜的關(guān)聯(lián)關(guān)系。最后根據(jù)關(guān)聯(lián)關(guān)系,構(gòu)建回歸模型。
設(shè)Sm(i,j)為源機(jī)的光譜矩陣,Ss(i,j)為目標(biāo)機(jī)的光譜矩陣。其中S(i,:)是第i個(gè)光譜樣本的波長(zhǎng)數(shù)據(jù),S(S,j)是每個(gè)光譜樣本的第j個(gè)波長(zhǎng)點(diǎn)的吸光度。
近紅外光譜設(shè)備受到自身老化、環(huán)境溫濕度等條件的影響,源機(jī)與目標(biāo)機(jī)測(cè)得的光譜之間不但會(huì)產(chǎn)生基線漂移,而且波長(zhǎng)點(diǎn)也會(huì)產(chǎn)生偏移,故需要建立源機(jī)光譜Sm與目標(biāo)機(jī)光譜Ss的對(duì)應(yīng)關(guān)系。當(dāng)源機(jī)光譜第p個(gè)波長(zhǎng)點(diǎn)Sm(:,p)與目標(biāo)機(jī)光譜第q個(gè)波長(zhǎng)點(diǎn)Ss(:,q)對(duì)應(yīng)時(shí),向量間的相關(guān)距離小,則相關(guān)系數(shù)大。相關(guān)系數(shù)使用皮爾遜相關(guān)系數(shù)計(jì)算,
(1)
根據(jù)相關(guān)系數(shù)計(jì)算相關(guān)距離,
DSm(:,p),Ss(:,q)=1-ρSm(:,p),Ss(:,q)。
(2)
對(duì)于給定的2個(gè)序列X=(x1,x2,,xN)和Y=(y1,y2,,yM),使用動(dòng)態(tài)時(shí)間規(guī)整得到2個(gè)序列的匹配關(guān)系。當(dāng)2個(gè)序列間的距離最小時(shí),匹配關(guān)系是最佳的。兩個(gè)序列的匹配關(guān)系如圖1所示。
圖1 兩個(gè)序列的匹配關(guān)系
光譜數(shù)據(jù)Sm(:,i)可以看作序列X中xi,Ss(:,j)可以看作序列Y中yi。
1.2.1 計(jì)算代價(jià)矩陣
首先構(gòu)造一個(gè)代價(jià)矩陣C∈RN×M,它由序列中的元素的距離構(gòu)成。將其元素定義為:
ci,j=Dxi,yj,xi∈X,yj∈Y。
(3)
樸素的動(dòng)態(tài)時(shí)間規(guī)整算法使用Dxi,yj=‖xi-yj‖作為距離。這里更關(guān)注元素的相關(guān)性,故
Dxi,yj=1-ρxi,yj。
(4)
1.2.2 計(jì)算規(guī)整路徑
動(dòng)態(tài)時(shí)間規(guī)整方法可以依據(jù)代價(jià)矩陣得到一條規(guī)整路徑。圖2為一條從序列X到序列Y的規(guī)整路徑。
圖2 最佳規(guī)整路徑
設(shè)P=(p1,p2,,pL)為規(guī)整路徑,pl=(xi,yj)為路徑中的第l個(gè)元素,表示序列X的元素xi和序列Y的元素yj相關(guān)。規(guī)整路徑必須滿足3個(gè)條件:
1)邊界條件。起點(diǎn)只能是(x1,y1)點(diǎn),終點(diǎn)只能是(xN,yM)點(diǎn)。
2)順序限制。序列中的點(diǎn)必須依次逐個(gè)匹配,禁止跳過(guò)序列中的點(diǎn)。
3)步長(zhǎng)限制。一次只能移動(dòng)一步進(jìn)行匹配,方向?yàn)橄蛴?、向上、向右上,例如?dāng)前點(diǎn)為(xi,yj),那么下一步只能為(xi+1,yj)、(xi,yj+1)或(xi+1,yj+1)。
使用規(guī)整路徑的代價(jià)和作為算法的損失函數(shù),
(5)
當(dāng)pl=(xi,yj)時(shí),c(pl)=c(xi,yi)=cxi,yj。動(dòng)態(tài)時(shí)間規(guī)整算法尋找代價(jià)和最小的規(guī)則路徑:
DTW(X,Y)=min{CP(X,Y)}。
(6)
構(gòu)造累計(jì)代價(jià)矩陣Dacc,其計(jì)算式為:
當(dāng)i=1,j=1時(shí),
Dacc(i,j)=c(xi,yj);
(7)
當(dāng)i=1,2≤j≤M時(shí),
Dacc(i,j)=Dacc(i,j-1)+c(xi,yj);
(8)
當(dāng)2≤i≤N,j=1時(shí),
Dacc(i,j)=Dacc(i-1,j)+c(xi,yj);
(9)
當(dāng)2≤i≤N,2≤j≤M時(shí),
Dacc(i,j)=min{Dacc(i-1,j-1),Dacc(i-1,j),
Dacc(i,j-1)}+c(xi,yj)。
(10)
當(dāng)前點(diǎn)累計(jì)的代價(jià)是前一步的最小累計(jì)代價(jià)與當(dāng)前點(diǎn)代價(jià)的和。累計(jì)代價(jià)矩陣構(gòu)造完成后,從終點(diǎn)pL=(xN,yM)按最小累計(jì)代價(jià)回溯到起始點(diǎn)p1=(x1,y1)即可得到規(guī)整路徑。
1.2.3 根據(jù)規(guī)整路徑建立校正模型
源機(jī)與目標(biāo)機(jī)測(cè)量光譜的波長(zhǎng)點(diǎn)的關(guān)系由規(guī)整路徑確定。根據(jù)此關(guān)系來(lái)構(gòu)建校正模型。
當(dāng)Sm(:,i)與Ss(:,j)單一對(duì)應(yīng)時(shí),構(gòu)造一元回歸方程:
Sm(:,i)=bi,M+1+bi,jSs(:,j)。
(11)
當(dāng)Sm(:,i)與Ss(:,j-n)到Ss(:,j+m)相匹配時(shí),構(gòu)建多元回歸方程:
Sm(:,i)=bi,M+1+bi,j-nSs(:,j-n)++
bi,j+mSs(:,j+m)。
(12)
式(11)、(12)通過(guò)最小二乘法求得系數(shù)。完成每個(gè)波長(zhǎng)點(diǎn)的計(jì)算后,構(gòu)造轉(zhuǎn)移矩陣F∈R(M+1)×N,其元素為回歸方程的系數(shù),定義為:
(13)
(14)
為驗(yàn)證基于動(dòng)態(tài)時(shí)間規(guī)整算法的模型傳遞方法,實(shí)驗(yàn)數(shù)據(jù)使用的藥物數(shù)據(jù)集和玉米數(shù)據(jù)集來(lái)自網(wǎng)頁(yè)(http://www.eigenvector.com/data/tablets/index.html)和網(wǎng)頁(yè)(http://www.eigenvector.com/data/Corn/index.html)。
藥物數(shù)據(jù)集來(lái)自2臺(tái)近紅外光譜儀對(duì)654片藥片樣本采樣獲得的數(shù)據(jù)。每個(gè)樣本的光譜波長(zhǎng)從600~1898 nm,采樣間隔2 nm,共650維。采集到的654對(duì)光譜數(shù)據(jù)被分為訓(xùn)練155對(duì)、測(cè)試460對(duì)和驗(yàn)證40對(duì)。此外,還包含藥物質(zhì)量、藥物硬度、活性物質(zhì)含量3種性質(zhì)供分析使用。
玉米數(shù)據(jù)集是3臺(tái)近紅外光譜儀對(duì)80個(gè)玉米樣本采樣獲得的數(shù)據(jù)。每個(gè)樣本的光譜波長(zhǎng)從1100~2498 nm,采樣間隔2 nm,共700維。此外,還包含油、水、淀粉和蛋白質(zhì)含量4種性質(zhì)供分析使用。
對(duì)于藥物數(shù)據(jù)集,先對(duì)光譜數(shù)據(jù)做零均值化處理。選擇儀器1作為源機(jī),在訓(xùn)練集上使用PLS算法對(duì)藥物數(shù)據(jù)創(chuàng)建定量分析模型,對(duì)藥物的3種性質(zhì)進(jìn)行預(yù)測(cè)。
對(duì)于玉米數(shù)據(jù)集,先對(duì)光譜數(shù)據(jù)做零均值化處理。選擇m5作為源機(jī),使用K-S算法劃分訓(xùn)練集和測(cè)試集。其中訓(xùn)練集樣本50個(gè),測(cè)試機(jī)樣本30個(gè)。使用PLS算法對(duì)訓(xùn)練集創(chuàng)建定量分析模型,對(duì)玉米的4種性質(zhì)進(jìn)行預(yù)測(cè)。
使用10折交叉驗(yàn)證創(chuàng)建定量分析模型,最優(yōu)的PLS模型主因子數(shù)由平均預(yù)測(cè)均方差確定,結(jié)果如表1所示。
表1 使用源機(jī)光譜建立的PLS模型
使用動(dòng)態(tài)時(shí)間規(guī)整算法得到規(guī)整路徑,以此得到波長(zhǎng)點(diǎn)的對(duì)應(yīng)關(guān)系。
藥物數(shù)據(jù)集以波長(zhǎng)600~920 nm為例,對(duì)應(yīng)關(guān)系和規(guī)整路徑如圖3、4所示。圖3中圓形點(diǎn)為源機(jī)波長(zhǎng)點(diǎn),星形點(diǎn)為目標(biāo)機(jī)波長(zhǎng)點(diǎn),二者的細(xì)線是其對(duì)應(yīng)關(guān)系??梢钥闯?,在700 nm附近的峰值存在變化,動(dòng)態(tài)時(shí)間規(guī)整算法能找到準(zhǔn)確的對(duì)應(yīng)關(guān)系和規(guī)整路徑,并建立回歸方程。
圖3 波長(zhǎng)點(diǎn)的匹配關(guān)系
圖4 兩臺(tái)近紅外光譜儀器的波長(zhǎng)的規(guī)整路徑
玉米數(shù)據(jù)集里的源機(jī)與目標(biāo)機(jī)偏差較小,其光譜波長(zhǎng)點(diǎn)單一對(duì)應(yīng)。動(dòng)態(tài)時(shí)間規(guī)整算法也能找到準(zhǔn)確的規(guī)整路徑,得出準(zhǔn)確的關(guān)聯(lián)關(guān)系,回歸方程部分退化為一元線性回歸。
求解上述回歸方程,得到轉(zhuǎn)移矩陣F。
使用動(dòng)態(tài)時(shí)間規(guī)整算法得到轉(zhuǎn)移矩陣F,通過(guò)式(14)可計(jì)算轉(zhuǎn)移后的目標(biāo)機(jī)光譜。藥物數(shù)據(jù)集上的源機(jī)光譜、目標(biāo)機(jī)光譜、傳遞后的目標(biāo)機(jī)光譜如圖5所示。其中目標(biāo)機(jī)光譜和源機(jī)光譜差異較大,目標(biāo)機(jī)光譜在傳遞后和源機(jī)光譜的差異則顯著減小。
圖5 模型傳遞后的平均光譜
表2為直接校正算法、分段校正算法、動(dòng)態(tài)時(shí)間規(guī)整算法得到的傳遞光譜與未傳遞光譜的平均差異(ARMS)。由表2可看到,光譜的ARMS在應(yīng)用了模型傳遞算法后較未傳遞的光譜均有下降。其中動(dòng)態(tài)時(shí)間規(guī)整算法傳遞后的光譜的ARMS整體較小,意味著算法的適用性更好,傳遞的結(jié)果和原機(jī)光譜匹配度高、有效。
表2 各算法傳遞光譜的平均差異(ARMS)
將傳遞前的光譜和使用直接校正算法、分段校正算法、動(dòng)態(tài)時(shí)間規(guī)整算法傳遞后的光譜輸入如表1所示的PLS回歸模型中預(yù)測(cè)樣本的性質(zhì),其預(yù)測(cè)結(jié)果的預(yù)測(cè)均方偏差(RMSEP)如表3、4所示。其中分段校正算法的窗口大小通過(guò)交叉驗(yàn)證確定。
表3 在藥物數(shù)據(jù)集上使用各算法傳遞光譜的預(yù)測(cè)均方差(RMESP)
結(jié)果表明,直接使用目標(biāo)機(jī)光譜進(jìn)行預(yù)測(cè)會(huì)由于其和源機(jī)光譜的差異產(chǎn)生不客觀的預(yù)測(cè)結(jié)果。在使用模型傳遞算法后,預(yù)測(cè)結(jié)果均有提升。在不同的預(yù)測(cè)項(xiàng)目中有不同的算法取得優(yōu)勢(shì),使用動(dòng)態(tài)時(shí)間規(guī)整算法得到的傳遞后光譜在8項(xiàng)預(yù)測(cè)中的4項(xiàng)取得領(lǐng)先,故準(zhǔn)確度優(yōu)于直接校正算法和分段校正算法,但由于其運(yùn)算量大于直接校正算和分段校正法算法,故需要更多的計(jì)算時(shí)間。
表4 在玉米數(shù)據(jù)集上使用各算法傳遞光譜的預(yù)測(cè)均方差(RMESP)
提出一種新的近紅外光譜模型傳遞算法。該算法依次得到規(guī)整路徑、匹配關(guān)系、回歸模型、傳遞矩陣。使用傳遞矩陣便可對(duì)目標(biāo)機(jī)光譜進(jìn)行傳遞,以獲得更準(zhǔn)確的定量分析的預(yù)測(cè)結(jié)果。在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證實(shí)了算法的有效性,但計(jì)算時(shí)間略長(zhǎng)。