皮世威,林 朝,黃哲學
(1.深圳大學 計算機與軟件學院,廣東 深圳 518060;2.深圳市理邦精密儀器股份有限公司,廣東 深圳 518067)
在化學測量領域中,多組分物質(zhì)的濃度光學測量是研究經(jīng)典問題,其分析方法被廣泛應用于臨床檢驗中,對于醫(yī)學判定和輔助診斷具有重要的作用。由于生物樣本的復雜特性,化學計量的信號具有高噪聲[1]、多重疊[2]、特征變量多的特點[3],分析過程中包含大量的非線性擬合過程[4],通常需要應用大量的回歸分析來建立因變量與自變量之間的非線性關系。當前化學計量最常應用的回歸方法有普通最小二乘(OLS)[5],偏最小二乘法(PLS),正交偏最小二乘法(OPLS)[6]等,其中普通最小二乘是經(jīng)典的擬合方法。偏最小二乘回歸線性擬合對于獨立自變量多于因變量的案例具有較好的回歸應用效果,可以有效剔除高維度變量中的無關成分[7]。正交偏最小二乘法(OPLS)[8]是在偏最小二乘的基礎上通過建立自變量的正交映射,能夠更為高效的去除變量中的無關信息,在迭代求解殘差項中的正交量過程中,快速提取有效信息,對于復雜背景噪聲下的變量具有明顯的主成分提取作用,正交偏最小二乘法在代謝組以及化學分析領域中具有廣泛的應用[9-10],但該方法對于多變量應用下易發(fā)生過擬合現(xiàn)象,導致預測精度降低。文獻[11]在OPLS擬合的基礎上,通過引入Kernel核變量將原空間中的正交成分轉(zhuǎn)化到特征空間,在高維空間完成正交無關項的預測與分離,該方法能夠提升變量的非線性擬合精度,提高多變量的預測能力。Kernel矩陣對于非線性擬合具有較高的擬合精度[12],并且對于分析過程中的分類方式具有較好的可視化特性。KOPLS(核正交偏最小二乘法)的非線性擬合優(yōu)勢被應用于代謝組[13-14]和多組分濃度光譜分析中。尤其在多組分物質(zhì)濃度測量中,由于被測樣本成分復雜,光譜信號往往包含非線性噪聲和干擾[15],高精度的光譜分析建模方法成為預測準確度控制的重要因素。
在多組分物質(zhì)光譜分析應用中算法的核心思想是建立原數(shù)據(jù)矩陣X和濃度矩陣Y之間的映射模型。在保證模型準的預測準確度的前提下,同時還需要具有較快的計算速度。常用的建模算法有偏最小二乘(PLS)、正交投影映射(OPLS)等。
偏最小二乘法PLS的核心思想是最大化自變量與因變量數(shù)據(jù)之間的協(xié)方差來解析自變量中的正交得分向量,首先對原數(shù)據(jù)矩陣X和濃度矩陣Y進行主成分分析:
(1)
主成分個數(shù)由權重項w決定,分解得到各自對應的得分矩陣T、U和載荷矩陣P、Q,殘差項分別為E、F。通過主成分分析T=XP,可以將原數(shù)據(jù)矩陣和濃度矩陣分別降至相應的低緯度空間,并保留原矩陣中的大部分有效信息。再對建立各自得分矩陣之間的線性回歸方程:
U=TB
(2)
B為回歸系數(shù)矩陣。
B=TU(TTT)-1
(3)
最后X相對與Y的線性回歸可轉(zhuǎn)變?yōu)閄得分矩陣相對于Y的線性回歸:
Y=TBQ
(4)
步驟1~6為標準的NIPALS PLS法
1.w=max
2.w=w/‖w‖;
3.t=Xw/(wTw);
4.qT=tTY/(tTt);
5.u=Yc/(cTc);
6.pT=tTX/(tTt);
OPLS是在PLS的基礎上建立的,通過篩選原數(shù)據(jù)矩陣X與濃度矩陣Y的不相關信息,使分類信息快速集中在主成分中,從而搭建簡潔的X與Y的線性關系,這種建模方法適用于多元數(shù)據(jù)統(tǒng)計,OPLS建模的具體步驟如下。首先和PLS一樣,通過主成分分析法建立X、Y的線性組合:
(5)
(6)
其中:t,u可由權系數(shù)w,c求得:
t=Xw/‖w‖
(7)
u=Yc/‖c‖
(8)
為使t、u之間的相關性最大,可以目標化t、u的協(xié)方差為最大,即:
Max:Cov(t,u)
(9)
采用拉格朗日方法求解極值問題,w為XTYYTX矩陣的最大特征值對應的特征向量,c為YTXXTY矩陣的最大特征值對應的特征向量。隨之即可求相應的得分向量t,u。這樣X和Y的載荷矩陣可通過關系式求得:
pT=tTX/(tTt)
(10)
qT=uTY/(uTu)
(11)
計算X的正交權重向量worth:
worth=p-[wTp/(wTw]w
(12)
worth=worth/‖worth‖
(13)
那么X正交矩陣的得分向量:
(14)
X正交矩陣的載荷:
(15)
求解正交殘差項EOPLS、FOPLS:
(16)
將X替換為EOPLS因此則有:
(17)
再對Xorth進行主成分分析:
(18)
由式(4)可將X相對與Y的線性回歸可轉(zhuǎn)變?yōu)榈梅志仃嘪orth相對于Y的線性回歸。相對于PLS,OPLS能夠?qū)ο到y(tǒng)變量進行單獨分析,通過去除正交無關量,可以降低過擬合發(fā)生的現(xiàn)象。但是當變量之間差異性較小,非線性耦合程度較高時,差異變量無法有效的被剔除,此時OPLS模型的計算準確度會降低。
KOPLS在OPLS算法的基礎上保留了正交無關項的理念,并對建模方法做了進一步的改進,通過引入Kernel核矩陣來對數(shù)據(jù)中的非線性結構進行建模,同時仍可像OPLS一樣對數(shù)據(jù)中的無關項進行篩選。在KOPLS算法中,通過對預測成分Tp和正交成分Yorth的建模來有效提取數(shù)據(jù)中的相關成分,這使得KOPLS模型的預測精度與基于核矩陣的偏最小二乘法(KPLS)[16]以及支持向量機模型[17]的預測精度保持一致,但Kernel矩陣通過在高維度的特征空間內(nèi)對信號中的噪聲進行轉(zhuǎn)換建模,能夠有效的消除原數(shù)據(jù)中由于外界因素帶來的異常信息,例如測量儀器的信號漂移、樣本中的生物耦合變量等。因此KOPLS對于非線性因素影響較大的生物化學多組分析具有較高的估算精度。
在KOPLS具體算法中,Kernel矩陣的引入將原矩陣X中的變量轉(zhuǎn)化為高維特征空間內(nèi)的點積(XXT),接著通過將XXT替換為Kernel矩陣K,Kernel矩陣K中的元素Ki,j由X的第i和第j行向量組成,Kernel變換通過簡潔的計算方式在將X映射到了高維空間中。因此KOPLS算法的第一步是選擇合適的核函數(shù),常用的核函數(shù)有線性、多項式和高斯核函數(shù),其表達式分別為:
k(x,y)=x×y
(19)
k(x,y)=(xTy+1)P
(20)
k(x,y)=exp(-‖x-y‖2/2σ2)
(21)
接下來的步驟是將原數(shù)據(jù)矩陣替換為核矩陣具體計算步驟如下。
①Kernel矩陣中心化:
KOPLS算法往往用于處理維度較大的數(shù)據(jù),因此首先需要對Kernel矩陣進行中心化處理,中心化計算方法:
(22)
式中,En為n×1的向量,元素等于1。
②求解權重向量:
建立Kernel矩陣K后,需確定數(shù)據(jù)中的正交成分個數(shù)N。這樣K表示為被剔除第N個正交成分后所組成的矩陣。接著通過對YTKY特征值分解求得權重向量Cp和∑p。
③求Y預測得分矩陣:
通過將Y映射到Cp上可求得Y的預測得分矩陣:
Up=YCp
④求X預測得分矩陣:
X的預測得分矩陣:
Tp=KTUp∑p(-1/2)
⑤在正交成分個數(shù)1到N內(nèi),迭代循環(huán):
對TpTQiTp特征值分解,求得Y正交載荷向量Corth;
計算Y正交得分向量t(orth-i)=QiTpCorth。
⑥對torth抽取Ki,得到Ki+1;
此時預測得分矩陣:
Tp=K(i+1)Up∑p(-1/2)
⑦最后建立回歸方程:
KOPLS算法在預測項遠大于測量項的應用下,具有較好的預測準確度,因此在非線性回歸和分類應用較多的組分學中,KOPLS的優(yōu)勢較為明顯。例如對于使用光譜吸光度信號對樣本中的多組分物質(zhì)濃度分析時,樣本本身復雜的絡合狀態(tài)往往伴隨較大的非線性信號結構,KOPLS中特有的將Y預測成分與正交無關成飛在特征空間中分離步驟,相對于OPLS和PLS都具有更好的預測執(zhí)行能力。
KOPLS在代謝組學研究中已有成功的應用。而對于多組分物質(zhì)光譜分析應用場景,需要通過算法擬合建立光譜與各組分物質(zhì)濃度之間的非線性關系,由于需要從單個光譜中解析的多組分物質(zhì)較多,而各組分之間特征耦合度高,且存在較多的非線性關系,KOPLS的特點正好適用于此類場景的建模,模型擬合效果相對于OPLS和PLS更好。
為了對比各算法在多組分物質(zhì)光譜分析中的應用優(yōu)劣,通過對多組分物質(zhì)的濃度分析實驗來評估。實驗用多組分物質(zhì)采用血液中的血紅蛋白及其衍生物為樣本。其測量方法基于分光光度法[18],即由于多組分物質(zhì)中各物質(zhì)的吸收波長各不相同,因此根據(jù)朗博比爾定律:
A=k1c1l+k2c2l+…+kncnl
(23)
其中:A為總吸光度系數(shù);ki為各組分物質(zhì)的吸光度系數(shù);ci為各組分物質(zhì)的濃度;l為測量光學量程。
由此可知對于不同濃度下的衍生物,其總吸光度也各不同,通過建立吸光度曲線與各組分物質(zhì)濃度之間的關系,即可實現(xiàn)通過測量吸光度來完成對多組分物質(zhì)的濃度檢測,如圖1所示。
圖1 不同血液樣本濃度下的吸收度光譜曲線分布圖
實驗首先通過200組數(shù)據(jù)進行建模,為保證原始數(shù)據(jù)的準確性,每組樣本的光譜信號采用海洋光學光譜儀(QE65 Pro)進行采集,對樣本數(shù)據(jù)搭建基于PLS,KOPLS模型的吸光度-多組分物質(zhì)濃度的分析模型。再通過111組樣本和靶標帶入模型中進行計算,通過對比各自算法下的預測值與靶標值的差異,如圖2所示。
圖2 PLS, KOPLS模型下的血紅蛋白濃度預測結果對比
從計算結果圖2可以看出,當采用PLS算法進行建模時,血紅蛋白濃度預測值相對靶值的準確度達到±5.2 g/dL,在高濃度區(qū)間時,預測結果的離散度增大,這是由于被測樣本為血液,其物質(zhì)組成復雜,光譜分析過程包含過多的非線性因素。當采用KOPLS算法建模時,設定迭代剔除正交無關項20次,預測值相對靶值的準確度達到±0.6 g/dL,準確度得到較大的提升。對比結果如表1所示,實驗結果說明KOPLS對于非線性因素較多的血液樣本單一物質(zhì)濃度分析具有較高的預測精度。
表1 PLS, KOPLS模型下的血紅蛋白
對于血紅蛋白中多組分物質(zhì)濃度測量,光譜數(shù)據(jù)中各組分對應的特征量存在部分重疊。在建模過程中需要在不同血紅蛋白濃度下配置不同梯度的多組分衍生物濃度。建模過程采用PLS模型和KOPLS模型,在兩種模型下分別對111組樣本進行預測,預測精度對比如圖3所示。
圖3 PLS, KOPLS算法建模下的多組分物質(zhì)濃度預測結果對比
從計算結果圖3(a)以看出,當采用PLS算法進行建模時,血紅蛋白組分1的濃度預測值相對靶值的準確度達到±32.6%,各梯度區(qū)域預測結果的離散度較大。當采用KOPLS算法建模時,預測值相對靶值的準確度達到±6.6%,準確度得到較大的提升,在不同梯度下的離散度也有了很大的降低。血紅蛋白組分2的濃度預測值相對靶值的準確度達到±26.7%,結果如圖3(b)所示,各梯度區(qū)域預測結果的離散度同樣較大。當采用KOPLS算法建模時,預測值相對靶值的準確度達到±9.3%,準確度得到了較大的提升,在不同梯度下組分2的離散度也有了大幅提升。血紅蛋白組分3的濃度預測值相對靶值的準確度如圖3(c)所示達到±34.5%,各梯度區(qū)域預測結果的離散度較大。當采用KOPLS算法建模時,預測值相對靶值的準確度達到±9.48%,準確度和離散度同樣得到較大的提升,對比結果如表2所示。對比結果說明KOPLS對于預測血液樣本中的多組分物質(zhì)濃度具有較高的預測精度,測量結果相對于PLS有明顯的提升。
表2 PLS, KOPLS模型下的血液多組分物質(zhì)濃度預測準確度
本研究通過算法推導闡述了由PLS到OPLS,再到KOPLS算法的演變過程。KOPLS算法保留OPLS的正交映射思想,通過剔除正交無關量,快速提取原數(shù)據(jù)矩陣中的有效特征,建立原數(shù)據(jù)與變量之間的映射關系。同時通過Kernel變換,將原數(shù)據(jù)矩陣轉(zhuǎn)化為高維特征空間的內(nèi)積,建立原數(shù)據(jù)與變量之間的非線性關系。通過對血液樣本的吸收光譜和多組分物質(zhì)濃度進行KOPLS建模于預測計算,結果表明KOPLS對于具有大量非線性關系的血液多組分物質(zhì)濃度分析具有明顯的預測優(yōu)勢。這些特點可以在多組分物質(zhì)濃度檢測設備中得到應用。