鐘毅偉、沈 韜,2*、毛存禮、余正濤
1. 昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院、云南 昆明 650500 2. 昆明理工大學(xué)材料科學(xué)與工程學(xué)院、云南 昆明 650500
核優(yōu)化相關(guān)向量機(jī)太赫茲頻譜特征提取方法
鐘毅偉1、沈 韜1,2*、毛存禮1、余正濤1
1. 昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院、云南 昆明 650500 2. 昆明理工大學(xué)材料科學(xué)與工程學(xué)院、云南 昆明 650500
太赫茲頻譜對(duì)分子非局域振動(dòng)模式的變化較為敏感。因此、其波形容易受到多種理化因素的影響、會(huì)產(chǎn)生峰值改變、頻移、甚至整體波形的變化、單一地從固定峰值特征與物質(zhì)的對(duì)應(yīng)關(guān)系上進(jìn)行組分分析和物質(zhì)鑒別容易產(chǎn)生較大誤差甚至錯(cuò)誤。針對(duì)此問(wèn)題、提出區(qū)別于局部特征提取方法的基于核優(yōu)化相關(guān)向量機(jī)(KO-RVM)的整體圖形特征提取方法、并與支持向量回歸算法(SVR)進(jìn)行比較。結(jié)果表明、經(jīng)過(guò)期望最大化算法進(jìn)行基函數(shù)參數(shù)控制的RVM適用于太赫茲透射譜的特征提取、可對(duì)每種物質(zhì)的光譜數(shù)據(jù)進(jìn)行稀疏表示、控制提取圖形特征的數(shù)量。利用已提取特征構(gòu)造的模型能夠還原頻譜曲線的整體特征、對(duì)譜線各頻段的擬合效果更加一致、同時(shí)所提取的特征還可作為不同物質(zhì)間太赫茲光譜相似性度量和共同特征發(fā)現(xiàn)的依據(jù)。
太赫茲頻譜; 特征提??; 相關(guān)向量機(jī); 核函數(shù)優(yōu)化
多數(shù)大分子物質(zhì)的轉(zhuǎn)動(dòng)及部分振動(dòng)能級(jí)位于太赫茲波段、如非局域的分子內(nèi)振動(dòng)、骨架振動(dòng)、氫鍵、范德華力等。此類振動(dòng)易受外界物理和化學(xué)環(huán)境變化的影響、使其太赫茲頻譜波形發(fā)生不同程度的改變[1-2]。如文獻(xiàn)[3-6]中牛血清蛋白、青霉胺同質(zhì)異構(gòu)體、雙氯芬酸和四烷基銨鹽的實(shí)驗(yàn)中、在溫度變化、分子結(jié)構(gòu)改變、水分蒸發(fā)、分子大小及顆粒形狀不同、或共晶體形式轉(zhuǎn)變時(shí)、太赫茲頻域透射譜都會(huì)發(fā)生不同程度的整體變化、同時(shí)發(fā)生峰值改變和頻移。此類研究說(shuō)明、在不同實(shí)驗(yàn)條件下、相同物質(zhì)的太赫茲頻譜測(cè)量結(jié)果會(huì)有很大區(qū)別、多數(shù)共晶體和有機(jī)大分子無(wú)法通過(guò)標(biāo)定少數(shù)峰值特征進(jìn)行定性分析。而傳統(tǒng)的分析方法目前僅可對(duì)一些理想條件下的化合物、共晶體以及同質(zhì)異構(gòu)體標(biāo)定明顯的吸收峰。如文獻(xiàn)[7-9]中就對(duì)蔗糖結(jié)晶、微晶纖維素、尿嘧啶-尿素共晶體等物質(zhì)的特征吸收峰進(jìn)行了標(biāo)定、并利用其吸收峰進(jìn)行結(jié)晶度和混合物濃度等方面的估計(jì)。從中我們可以看出、傳統(tǒng)方法在對(duì)太赫茲頻譜特征進(jìn)行分析時(shí)、多次進(jìn)行特征峰值出現(xiàn)位置或固定采樣點(diǎn)處頻譜參數(shù)的判斷、同時(shí)結(jié)合數(shù)學(xué)模型的推導(dǎo)。如Partha等利用TCF(時(shí)間相關(guān)函數(shù))結(jié)合高斯衰減模型及漲落耗散定理、擬合多種烷烴溶劑中硝基苯的太赫茲頻譜[10]。整個(gè)分析過(guò)程將會(huì)極大地增加模型復(fù)雜度和計(jì)算成本、對(duì)于計(jì)算機(jī)性能和分析人員的專業(yè)知識(shí)提出了極高的要求。而且、研究人員目前尚未發(fā)現(xiàn)太赫茲頻譜的各類圖形特征(如峰高、峰寬、峰值頻率和波形整體斜率等)與對(duì)應(yīng)物質(zhì)的理化性質(zhì)之間的確切聯(lián)系。在此情況下、研究快速有效的物質(zhì)太赫茲頻譜整體圖形特征提取和分析方法、去除冗余信息的同時(shí)保留主要圖形特征、可為物質(zhì)分類、理化性質(zhì)與頻譜圖形的對(duì)應(yīng)關(guān)系研究起到良好的支撐作用。
除了在傳統(tǒng)方法中結(jié)合德拜模型、比爾-朗伯定理等數(shù)學(xué)模型進(jìn)行分析外、目前廣泛應(yīng)用的太赫茲頻譜特征分析方法有主成分分析法(PCA)、支持向量機(jī)(SVM)、支持向量回歸(SVR)、偏最小二乘法(PLS)等[11-15]。其中PCA和PLS方法對(duì)頻譜的特征提取過(guò)程為多個(gè)采樣點(diǎn)組合的線性映射、所提取的特征維沒(méi)有與原頻譜的圖形對(duì)應(yīng)關(guān)系或物理對(duì)應(yīng)關(guān)系、但是得到的特征具有較高的有效性和區(qū)分度、可用于物質(zhì)分類和聚類分析。PLS在文獻(xiàn)[15]中的各改進(jìn)算法可分區(qū)間進(jìn)行PLS擬合、并選取擬合精度最高的頻率區(qū)間作為特征譜區(qū)構(gòu)造定量回歸模型。但是這種應(yīng)用方法所提取的特征為局部特征、不利于表達(dá)頻譜波形的整體特征。而利用PLS或SVM進(jìn)行擬合時(shí)、提取特征的數(shù)量難以控制、不利于頻譜全譜的稀疏表示以及后續(xù)的特征向量構(gòu)造。針對(duì)此問(wèn)題、本文擬用期望最大化算法對(duì)訓(xùn)練數(shù)據(jù)集上的RVM核函數(shù)參數(shù)進(jìn)行尋優(yōu)、同時(shí)提取太赫茲頻譜的整體圖形特征、控制特征提取的數(shù)量、以期用稀疏的特征點(diǎn)和平滑的擬合模型最大程度地保存頻譜的主要峰值頻率、峰高、峰寬和波形整體斜率等全局圖形特征。并利用重構(gòu)的擬合模型與3種濾波后的頻譜曲線進(jìn)行比較、以檢驗(yàn)其擬合模型的特征保存程度、再與SVM的改進(jìn)算法進(jìn)行比較。
受實(shí)驗(yàn)儀器本身的信號(hào)干擾和環(huán)境波動(dòng)的影響、樣品的太赫茲光譜中通常會(huì)帶有少量噪聲、且此類噪聲往往由多個(gè)元誤差因素疊加產(chǎn)生。此類情況符合大數(shù)定律中高斯分布的假設(shè)、因此我們采用S-G濾波和兩種小波變換對(duì)原頻譜數(shù)據(jù)進(jìn)行濾波、去除其中的高斯噪聲和其他高頻噪聲、得到3種濾波后的頻譜數(shù)據(jù)。本文所采用的數(shù)據(jù)為抗壞血酸(ascorbic acid)在0.9~6 THz、溫度300 K、PE基質(zhì)中含量為5%的條件下的透射譜、并四苯(tetracene)在0.9~6 THz、溫度60 K、PE基質(zhì)中含量為5%條件下的透射譜、以及核黃素(riboflavin)在0.9~6 THz、溫度300 K、PE基質(zhì)中含量為10%條件下的透射譜。
在以上的數(shù)據(jù)基礎(chǔ)上、我們使用核優(yōu)化RVM算法(kernel optimized RVM)對(duì)未經(jīng)濾波的數(shù)據(jù)進(jìn)行特征提取、并利用所提取的特征進(jìn)行回歸模型重構(gòu)。分別使用啟發(fā)式閾值小波消噪、固定式閾值小波消噪和Savitzky-Golay濾波算法對(duì)原數(shù)據(jù)進(jìn)行處理、并計(jì)算回歸模型與這3種濾波數(shù)據(jù)的均方根誤差MSE、以直觀地對(duì)比重構(gòu)模型所保存特征的有效性。
特征提取是對(duì)信號(hào)的測(cè)量指標(biāo)進(jìn)行整合、重組和取舍的過(guò)程、其目的是去除冗余、噪聲、并將信號(hào)轉(zhuǎn)化為利于后續(xù)處理的表達(dá)方式。對(duì)于光譜而言、直接提取原曲線中的關(guān)鍵圖形特征點(diǎn)更有利于理化性質(zhì)與圖形特征對(duì)應(yīng)關(guān)系的分析、也將有利于物質(zhì)頻譜分類和相似性度量方面的研究。相關(guān)向量機(jī)是由Michael E Tipping于2001年提出的一種基于稀疏貝葉斯框架的有監(jiān)督回歸訓(xùn)練模型[16]。此方法在支持向量機(jī)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論和由權(quán)重決定的超曲面分類模型基礎(chǔ)上、提出為每個(gè)權(quán)重分配一個(gè)先驗(yàn)正態(tài)分布、通過(guò)優(yōu)化這些先驗(yàn)分布中各參數(shù)自身的分布、使多數(shù)對(duì)構(gòu)造回歸模型或分類模型影響微小的基函數(shù)所對(duì)應(yīng)的權(quán)值由于先驗(yàn)分布p(wi|α)以及p(wi|t,α,σ2)快速收斂于0而被修剪(α和σ2即為分布超參數(shù))。相關(guān)權(quán)值及其對(duì)應(yīng)的相關(guān)向量被訓(xùn)練出來(lái)、利用相關(guān)權(quán)值與基函數(shù)矩陣的乘積構(gòu)造回歸模型或分類模型、以達(dá)到稀疏表示的目的。因?yàn)橄嚓P(guān)向量機(jī)采用了全概率框架進(jìn)行參數(shù)的迭代優(yōu)化和訓(xùn)練、避免了傳統(tǒng)支持向量機(jī)預(yù)測(cè)結(jié)果非概率性、支持向量隨訓(xùn)練樣本的增長(zhǎng)而線性增長(zhǎng)、內(nèi)積核必須滿足梅西定理等缺點(diǎn)、進(jìn)一步增強(qiáng)了泛化能力、提高了預(yù)測(cè)結(jié)果的容錯(cuò)性、并且獲得比支持向量機(jī)更加稀疏的預(yù)測(cè)模型。RVM訓(xùn)練得到的權(quán)值向量是概率選擇的結(jié)果而非閾值條件所決定、避免了局部過(guò)擬合或欠擬合、更有利于整體圖形特征的提取。RVM的學(xué)習(xí)過(guò)程如下:
(1)
ti=y(xi,w)+εi
(2)
其中εi為噪聲項(xiàng)、其均值為零、服從方差為σ2的高斯分布。有了前面的模型和假設(shè)、為目標(biāo)向量分配高斯先驗(yàn)分布、表示為
(3)
通常、我們希望訓(xùn)練得到的權(quán)值向量w使上式概率最大、即求出上式的最大似然估計(jì)。但是這樣會(huì)造成所有樣本都參與構(gòu)造模型、得出的權(quán)值向量也會(huì)導(dǎo)致過(guò)擬合問(wèn)題。在支持向量機(jī)理論中、為了避免在不可分模式下的過(guò)擬合問(wèn)題、根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論構(gòu)造權(quán)值向量w的最小化泛函、設(shè)置了模型復(fù)雜度和不可分離點(diǎn)數(shù)量之間的平衡參數(shù)、以此作為權(quán)值向量的約束條件[17-18]。所以在相關(guān)向量機(jī)的假設(shè)中、以類似的思想直接為權(quán)值向量的每一個(gè)分量添加先驗(yàn)分布以進(jìn)行約束
(4)
其中、α和β=σ-2為權(quán)值向量先驗(yàn)分布函數(shù)中的超參數(shù)、分別服從Gamma分布、且相互獨(dú)立、形態(tài)參數(shù)和尺度參數(shù)的初值為0。在定義了權(quán)值的先驗(yàn)分布后、需求出未知參數(shù)w,α,σ2的后驗(yàn)分布
p(w,α,σ2|t)=p(w|α,σ2,t)p(α,σ2|t)
(5)
式(5)右邊第一項(xiàng)為
(6)
其中均值矩陣μ=σ-2ΣΦTt、協(xié)方差矩陣Σ=(σ-2ΦTΦ+A)-1、超參數(shù)對(duì)角矩陣A=diag(αi)。因?yàn)閜(α,σ2|t)正比于p(t|α,σ2)p(α)p(σ2)而α和σ2的先驗(yàn)分布已知、則式(5)右邊第二項(xiàng)可通過(guò)最大化p(t|α,σ2)而求出
(7)
其中C=σ2I+ΦA(chǔ)-1ΦT。在求解使式(7)概率最大的α和σ2時(shí)、無(wú)法直接求得它們的解析解(closed form)。因此這里使用的是Tipping等[19]于2003年提出的快速邊緣似然最大化方法(fast marginal likelihood maximization)、設(shè)超參數(shù)向量α的似然函數(shù)為
log|C|+tTC-1t]
(8)
將αi對(duì)應(yīng)C的矩陣第i列移除、有
=L(α-1)+l(αi)
(9)
由于相關(guān)向量機(jī)的經(jīng)典框架缺少關(guān)于各權(quán)值的先驗(yàn)分布中方差之間的結(jié)構(gòu)性先驗(yàn)概率約束、因而其稀疏性仍受核函數(shù)及核參數(shù)的控制、在一些情況下可能出現(xiàn)低頻部分或高頻部分欠擬合以及整體波形過(guò)擬合或欠擬合的現(xiàn)象[20-21]。為了解決RVM的稀疏性控制問(wèn)題、近年來(lái)許多學(xué)者在此課題上提出了一些新的觀點(diǎn)。如Schmolck[20]等改造各權(quán)值向量的先驗(yàn)分布、即對(duì)式(4)進(jìn)行改進(jìn)、通過(guò)噪聲相關(guān)平滑函數(shù)取代超參數(shù)的Gamma分布、從而使權(quán)值向量的分布不再服從student-t分布、得到平滑相關(guān)向量機(jī)(smooth RVM)。但是即使先驗(yàn)足夠光滑、該方法也無(wú)法保證輸出函數(shù)的絕對(duì)光滑、這也是導(dǎo)致無(wú)法適當(dāng)擬合的原因[22]、而且此方法仍舊依賴于核函數(shù)的準(zhǔn)確選擇和組合、無(wú)法通過(guò)控制單一參數(shù)使算法在所有擬合任務(wù)上適用。文獻(xiàn)[19]中所闡述的方法對(duì)原RVM框架進(jìn)行了顯著的改進(jìn)、實(shí)現(xiàn)了對(duì)邊緣分布的極大似然函數(shù)快速求解、但是在核寬度選擇不當(dāng)?shù)那闆r下仍不足以提供適當(dāng)?shù)臄M合結(jié)果。因此、在能夠進(jìn)行頻譜整體圖形特征提取的基礎(chǔ)上、需進(jìn)一步降低提取特征的稀疏度、并且各頻段的核函數(shù)參數(shù)的選擇應(yīng)適用于該頻段的擬合任務(wù)、以獲得更加均勻的擬合效果。本文在上述方法的基礎(chǔ)上采用了期望最大化核學(xué)習(xí)方法(exception maximization)、通過(guò)分別估計(jì)高斯核函數(shù)寬度向量的每個(gè)分量對(duì)L(α)的影響、以解決高斯核函數(shù)寬度b2的選擇問(wèn)題[21]。
設(shè)輸入向量x與原樣本集中第i個(gè)輸入向量xi之間的高斯核函數(shù)為
(10)
在原框架中、b=b1=…=bN、核矩陣每一列的核寬度相同、沒(méi)有根據(jù)原信號(hào)的頻率和噪聲特點(diǎn)進(jìn)行估計(jì)。而在最大期望核學(xué)習(xí)方法中、設(shè)核寬度向量為b=[b1、…、bN]、在假設(shè)其他參數(shù)已知的情況下、求使得式(8)關(guān)于向量b最大時(shí)的值、并設(shè)置核寬度的幾何平均為恒定值、作為極大似然優(yōu)化的約束條件
(11)
(12)
其中μb為核寬度向量均值約束條件。引入拉格朗日乘子λ、則最大似然函數(shù)的約束優(yōu)化問(wèn)題可表述為
(13)
D=(C-1ttTC-1-C-1)ΦA(chǔ)-1=σ2((t-y)μT-ΦΣ)
(14)
其中Dmn=?L(α)/?φmn、化簡(jiǎn)得
(15)
使式(15)為0、并滿足均值約束條件、求解各個(gè)最優(yōu)bm、組合得到最優(yōu)核寬度向量b=[b1、…、bN]。由于在迭代過(guò)程中、超參數(shù)對(duì)角矩陣A不斷更新、使得均值矩陣μ及協(xié)方差矩陣Σ不斷更新、所以L(α)及核矩陣也會(huì)相應(yīng)更新。為避免訓(xùn)練過(guò)程出現(xiàn)震蕩、核矩陣更新速度設(shè)置為低于其他參數(shù)更新速度。通過(guò)上述迭代訓(xùn)練過(guò)程、核優(yōu)化相關(guān)向量機(jī)(kernel optimized RVM,KO-RVM)可避免自適應(yīng)相關(guān)向量機(jī)(ARVM)和自適應(yīng)核學(xué)習(xí)相關(guān)向量機(jī)(AKL-RVM)采用梯度下降法導(dǎo)致收斂過(guò)慢的問(wèn)題、也可避免sRVM的核函數(shù)選擇問(wèn)題、同時(shí)計(jì)算復(fù)雜度沒(méi)有明顯提高、在訓(xùn)練速度上和快速邊緣似然最大化方法接近。另外、由于太赫茲頻譜波形在不同頻段的波動(dòng)幅度經(jīng)常出現(xiàn)較大差別、高斯核函數(shù)優(yōu)化的RVM算法可進(jìn)一步避免不同頻段擬合效果不一致的問(wèn)題、將更加適用于太赫茲頻譜的整體圖形特征提取以及各頻段曲線的擬合。
4.1 數(shù)據(jù)
本文所采用的數(shù)據(jù)為抗壞血酸(Ascorbic Acid)在0.9~6 THz、溫度300 K、PE基質(zhì)中含量為5%的條件下的透射譜、并四苯(Tetracene)在0.9~6 THz、溫度60 K、PE基質(zhì)中含量為5%條件下的透射譜、以及核黃素(Riboflavin)在0.9~6 THz、溫度300 K、PE基質(zhì)中含量為10%條件下的透射譜。以上數(shù)據(jù)均來(lái)源于日本理化研究所太赫茲數(shù)據(jù)庫(kù)(www.riken.jp/THzdatabase/)。每組數(shù)據(jù)采樣點(diǎn)數(shù)均為6 000以上、保證了光譜曲線的信息量和特征提取時(shí)的稀疏度對(duì)比、原頻率單位波數(shù)變換為太赫茲、如圖1所示。
4.2 特征提取與重構(gòu)模型
首先利用epsilon-SVR和KO-RVM對(duì)每種物質(zhì)的透射譜進(jìn)行特征提取、在兩種算法各自的擬合模型與原數(shù)據(jù)的均方根誤差接近時(shí)、通過(guò)對(duì)比支持向量與相關(guān)向量的數(shù)量差距、來(lái)判斷在相近的擬合效果下哪種算法所提取的圖形特征更稀疏、再進(jìn)一步對(duì)比兩種算法根據(jù)這些特征所重構(gòu)出的擬合模型的平滑性。而后、改變epsilon-SVR算法的誤差系數(shù)以降低其提取特征的稀疏度(即降低支持向量的稀疏度)、對(duì)比稀疏度下降的epsilon-SVR模型與KO-RVM模型的擬合效果。
圖1 抗壞血酸(Ascorbic Acid)、并四苯(Tetracene)、核黃素(Riboflavin)的太赫茲透射譜曲線
Fig.1 Terahertz transmission spectra of Ascorbic Acid,Tetracene and Riboflavin
由于每種太赫茲光譜檢測(cè)方法都不可避免地受到多種系統(tǒng)因素和環(huán)境因素的共同作用而含有噪聲、這類噪聲符合大數(shù)定律中高斯分布的假設(shè)、所以我們應(yīng)用三種濾除高斯噪聲的濾波方法分別得到每種物質(zhì)的三組透射譜濾波數(shù)據(jù)、并計(jì)算每種算法的擬合模型與濾波數(shù)據(jù)的RMSE、以此判斷訓(xùn)練得到的模型是否保留了光譜的主要特征以及能否擬合原曲線。這里采用的三種濾波方法分別是啟發(fā)式閾值小波消噪(heursure)、固定式閾值小波消噪(sqtwolog)和Savitzky-Golay濾波(S-G)、如表1所示。
從圖2(a)、(d)、(g)可以看到、在保證對(duì)三種物質(zhì)頻譜的回歸均方根誤差(RMSE)均小于3%的情況下、epsilon-SVR的特征稀疏度較低、圖中藍(lán)圈表示的支持向量的數(shù)量均達(dá)到了5 400以上、而我們所采用的頻譜曲線樣本點(diǎn)數(shù)量為6 349、提取特征的數(shù)量超過(guò)了原樣本數(shù)量的80%、沒(méi)有起到很好的特征提取及降維的作用。相對(duì)的、核優(yōu)化RVM對(duì)三種物質(zhì)的擬合誤差RMSE均達(dá)小于3%、所提取的特征數(shù)量占原樣本數(shù)量的1.5%左右、特征稀疏度較高、可以對(duì)原數(shù)據(jù)模型進(jìn)行稀疏表示。當(dāng)調(diào)整epsilon-SVR的誤差系數(shù)和懲罰系數(shù)、使其提取的特征下降至4 000以下時(shí)、出現(xiàn)了圖2(b)、(e)、(h)中較嚴(yán)重的欠擬合現(xiàn)象。此結(jié)果說(shuō)明SVM的改進(jìn)算法依舊依賴于懲罰系數(shù)以及誤差系數(shù)的設(shè)置、在保證擬合效果的情況下無(wú)法控制其特征提取的稀疏度。而改進(jìn)的RVM算法能夠在只提取少量關(guān)鍵特征的情況下保證對(duì)原光譜曲線的準(zhǔn)確擬合、重構(gòu)模型具有良好的特征還原性、RMSE均小于0.02。
表1 KO-RVM與參數(shù)調(diào)整后的ε-SVR對(duì)比的訓(xùn)練結(jié)果及回歸均方根誤差(RMSE)
另外、從局部放大圖2(j)和(k)中可以看到、左邊的epsilon-SVR局部擬合模型與原數(shù)據(jù)誤差較大、并且出現(xiàn)了過(guò)擬合現(xiàn)象、沒(méi)有平滑原曲線中的任何毛刺。而核優(yōu)化RVM算法的擬合模型在平滑了毛刺的基礎(chǔ)上、還原了原曲線的主要峰值特征、沒(méi)有出現(xiàn)頻移或劇烈的幅值變化、并且在此基礎(chǔ)上提取了少量對(duì)重構(gòu)模型具有關(guān)鍵作用的特征[圖2(k)中的藍(lán)圈為提取的圖形特征]。相對(duì)的、核優(yōu)化RVM提取的特征較為均勻和稀疏、epsilon-SVR提取的特征集中于震蕩劇烈的部分以及峰值附近、且提取的特征數(shù)量較多、不利于降低后續(xù)分析工作的計(jì)算復(fù)雜度。
結(jié)合圖2和表1的實(shí)驗(yàn)結(jié)果我們可以看出、KO-RVM與參數(shù)選擇適當(dāng)?shù)膃psilon-SVR擬合效果接近、但是在用于模型重構(gòu)的圖形特征數(shù)量上、KO-RVM比epsilon-SVR稀疏兩個(gè)數(shù)量級(jí)、且沒(méi)有降低對(duì)原模型的擬合質(zhì)量。在與3種濾波數(shù)據(jù)進(jìn)行對(duì)比時(shí)、KO-RVM與濾波后數(shù)據(jù)以及原數(shù)據(jù)的RMSE均小于0.02、在不刻意進(jìn)行參數(shù)調(diào)優(yōu)的情況下、還原模型未出現(xiàn)過(guò)擬合或欠擬合現(xiàn)象、圖形特征稀疏性明顯。對(duì)比擬合模型和原頻譜曲線可發(fā)現(xiàn)、峰值、峰寬、峰值頻率等主要圖形特征均未出現(xiàn)明顯改變、整體特征保存良好。另外、本實(shí)驗(yàn)所采用的SVR和RVM代碼在執(zhí)行效率上不具有可比性、故不作時(shí)間復(fù)雜度和迭代次數(shù)方面的具體分析比較(SVR代碼為已編譯版本、RVM代碼未編譯; SVR的平均訓(xùn)練時(shí)間為9 s、RVM的平均訓(xùn)練時(shí)間為13 s)。
圖2 (a)、(b)、(c)為抗壞血酸光譜擬合結(jié)果; (d)、(e)、(f)為并四苯光譜擬合結(jié)果; (g)、(h)、(i)為核黃酸光譜擬合結(jié)果
其中(a)、(d)、(g)為準(zhǔn)確擬合的epsilon-SVR算法的擬合模型與支持向量; (b)、(e)、(h)為特征數(shù)量降至4 000以下的epsilon-SVR所產(chǎn)生的擬合模型; (c)、(f)、(i)為核參數(shù)優(yōu)化的RVM進(jìn)行的擬合以及相關(guān)向量; (j)、(k)為(g)和(i)的局部放大
Fig.2 (a),(b),(c) showed the fitting results of Ascorbic Acid spectrum,(d),(e),(f) showed the fitting results of Tetracene spectrum; (g),(h),(i) showed the fitting results of Riboflavin spectrum Besides,(a),(d),(g) stand for the good fitting results of epsilon-SVR,and (b),(e),(h) stand for the result of feature sparsity below 4 000; In addition,(c),(f),(i) showed the remarkable fitting result of KO-RVM; Graphs (j) & (k) are the enlarged views of (g) & (i)
在太赫茲頻段、化合物、混合物或單質(zhì)的頻域波形受到多種理化因素的影響、會(huì)產(chǎn)生峰值變換、頻移、甚至整體波形都會(huì)產(chǎn)生變化、所以本文在此基礎(chǔ)上提出區(qū)別于局部特征提取的基于最大期望的核優(yōu)化RVM整體特征提取方法、并與SVR改進(jìn)算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明、在三種有較明顯峰值特征以及峰寬較大的有機(jī)物光譜的擬合任務(wù)中、核優(yōu)化RVM表現(xiàn)出了優(yōu)異的擬合精度、擬合模型具有良好的平滑性、與濾波后數(shù)據(jù)相對(duì)比、沒(méi)有出現(xiàn)明顯的過(guò)擬合或欠擬合現(xiàn)象。在稀疏度方面、相較于現(xiàn)在應(yīng)用廣泛的用于擬合任務(wù)SVM方法、其提取出的用于重構(gòu)擬合模型的整體圖形特征點(diǎn)更加稀疏、在重構(gòu)擬合模型時(shí)更加關(guān)鍵。同時(shí)相關(guān)向量保留了與原數(shù)據(jù)圖形的物理意義間的對(duì)應(yīng)關(guān)系、可為之后的多類物質(zhì)太赫茲光譜圖形的簇內(nèi)和簇間相似性分析以及成分分析提供便利。以上各項(xiàng)優(yōu)點(diǎn)都表明了該算法在太赫茲光譜數(shù)據(jù)量日益豐富背景下、對(duì)各類物質(zhì)的太赫茲光譜與理化性質(zhì)的圖形對(duì)應(yīng)關(guān)系的分析研究具有重要意義及應(yīng)用價(jià)值。
[1] Baxter J,Guglietta G. Analytical Chemistry,2011,83:4342.
[2] Fuse N,Takahashi T、Ohki Y,et al. IEEE Electrical Insulation Magazine,2011,27(3): 26.
[3] Ji T,Zhao H,Han P,et al. Nuclear Science and Techniques,2013,24(1): 1.
[4] Burnett A,Kendrick J,Russell C,et al. Analytical Chemistry,2013,85(16): 7926.
[5] Li X,Fu X,Liu J,et al. Journal of Molecular Structure,2013,1049: 441.
[6] King M、Buchanan W、Korter T. Analytical Chemistry,2011,83(10): 3786.
[7] Ueno Y,Rungsawang R,Tomita I,et al. Analytical Chemistry,2006,78(15): 5424.
[8] Kim J,Boenawan R,Ueno Y,et al. Journal of Lightwave Technology,2014,32(20): 3768.
[9] Ermolina I,Darkwah J,Smith G. AAPS Pharmscitech,2014,15(2): 253.
[10] Dutta P,Tominaga K. Journal of Molecular Liquids,2009,147(1-2): 45.
[11] Chen T,Li Zhi,Mo Wei. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2013,106: 48.
[12] Ge H,Jiang Y,Xu Z,et al. Optics Express,2014,22(10): 12533.
[13] Avila F,Mora M,Oyarce M,et al. Journal of Food Engineering,2015,162: 9.
[14] El Haddad J,de Miollis F,Sleiman J,et al. Analytical Chemistry,2014,86(10): 4927.
[15] Wang Q,Ma Y. Chemometrics and Intelligent Laboratory Systems,2013,127: 43.
[16] Tipping M. Journal of Machine Learning Research,2001、(1): 211.
[17] Vapnik V. IEEE Transactions on Neural Networks,1999,10(5): 988.
[18] Bowd C,Medeiros F,Zhang Z,et al. Investigative Ophthalmology & Visual Science,2005,46(4): 1322.
[19] Tipping M,Faul A. Fast Marginal Likelihood Maximization for Sparse Bayesian Models. Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics,2003.
[20] Schmolck A、Everson R. Machine Learning,2007,68(2): 107.
[21] Mohsenzadeh Y、Sheikhzadeh H. IEEE Transactions on Neural Networks and Learning Systems,2015,26(4): 709.
[22] Cheng D,Nguyen M,Gao J,et al. Neural Networks,2013,48: 173.
Terahertz Spectrum Features Extraction Based on Kernel Optimization Relevance Vector Machine
ZHONG Yi-wei1,SHEN Tao1,2*,MAO Cun-li1,YU Zheng-tao1
1. School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China 2. School of Materials Science and Engineering,Kunming University of Science and Technology,Kunming 650500,China
Terahertz spectrum is sensitive to the change of the nonlocal molecular vibration mode. Accordingly,the spectral waveform is susceptible to variety of physical and chemical factors,which will lead to peak changes,frequency shifts,and even deformation of the overall waveform. Component analysis and material identification from the correspondence between the fixed peak features and materials will prone to cause errors or mistakes. Therefore,to solve this problem,we proposed a method based on Kernel Optimization Relevance Vector Machine (KO-RVM),which extracts global graphic features to distinct from the local features extraction method. And we use Support Vector Regression (SVR) algorithm as comparison. The result shows that,when basis functions’ parameters of RVM are optimized with expectation-maximization algorithm,it will be suitable for feature extraction of terahertz transmission spectrum. The spectrum can be sparsely represented,and the amount of extracted graphic features is substantially reduced. Reconstruction models based on these features are capable of retaining the overall spectral characteristics,and fitting results for each band are more consistent,while the extracted spectrum features can be used as basis of similarity measurement and the common characteristics investigation between different materials.
Terahertz frequency spectrum; Feature extraction; Relevance vector machine; Kernel optimize
Sep. 4,2015; accepted Jan. 18,2016)
2015-09-04、
2016-01-18
國(guó)家自然科學(xué)基金項(xiàng)目(61302042),云南省應(yīng)用基礎(chǔ)研究基金項(xiàng)目(2013FD010),昆明理工大學(xué)材料學(xué)院青年拔尖人才項(xiàng)目(14078343)資助
鐘毅偉、1988年生、昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院碩士研究生 e-mail: zhongyiweiKM@163.com *通訊聯(lián)系人 e-mail: shentao@kmust.edu.cn
O657.3
A
10.3964/j.issn.1000-0593(2016)12-3857-06
*Corresponding author