李江華,范葉飛,劉文鋒
計(jì)算機(jī)的普及與發(fā)展使得對(duì)海量數(shù)據(jù)進(jìn)行分析與處理成為可能,與此相適應(yīng),采用“系統(tǒng)論”的方法從系統(tǒng)、整體的角度進(jìn)行研究也日漸成為 21世紀(jì)科學(xué)研究的主流趨勢(shì)。體育科研也不例外,尤其是運(yùn)動(dòng)人體科學(xué)、基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等主流的系統(tǒng)生物學(xué)研究方法已開(kāi)始頻繁用于相關(guān)的研究中。由于對(duì)系統(tǒng)性和整體性的追求,系統(tǒng)論指導(dǎo)下的研究方法往往會(huì)產(chǎn)生大量的數(shù)據(jù),要想解讀如此復(fù)雜的信息,或者說(shuō)從中提取有用的信息,就必須借助以計(jì)算機(jī)信息技術(shù)為基礎(chǔ)發(fā)展起來(lái)的模式識(shí)別技術(shù)。偏最小二乘法 (PLS)是 20世紀(jì) 80年代才發(fā)展起來(lái)的一種新型的模式識(shí)別方法,它集多元線性回歸法(MLR)和主成分分析法 (PCA)的基本功能于一體[7]。在高維數(shù)據(jù)處理中,如果樣本類(lèi)別已知,PLS不但比傳統(tǒng)降維方法“PCA”的降維效果更好,而且以此為基礎(chǔ)發(fā)展起來(lái)的偏最小二乘法判別分析 (PLS-DA)也比傳統(tǒng)的線性判別分析 (LDA)具有更好的預(yù)測(cè)識(shí)別能力[10,12];另外,PLS進(jìn)行降維的同時(shí)還可以輕松實(shí)現(xiàn)“奇異樣本”的發(fā)現(xiàn)與剔除和自變量因子 (各觀測(cè)指標(biāo))的重要性程度分析,而其他類(lèi)似的數(shù)據(jù)處理方法功能相對(duì)比較單一,難以同時(shí)實(shí)現(xiàn)這些分析。因其對(duì)高維度數(shù)據(jù)強(qiáng)大的處理能力,PLS已在生物信息學(xué)、藥學(xué)、社會(huì)科學(xué)等領(lǐng)域得到了廣泛的應(yīng)用,而在體育界,PLS的研究與應(yīng)用相對(duì)緩慢,其功能還有待于更多的研究與開(kāi)發(fā)。為此,本研究以參加第 15屆亞運(yùn)會(huì)中短距離比賽的中國(guó)游泳隊(duì)男運(yùn)動(dòng)員的核磁共振 (NMR)數(shù)據(jù)為例,通過(guò)與 SPSS軟件中常用的 PCA降維及 LDA數(shù)據(jù)處理效果進(jìn)行比較,闡述 PLS分析的優(yōu)越性以及如何利用PLS進(jìn)行降維、發(fā)現(xiàn)奇異樣本、分析自變量因子 (各觀測(cè)指標(biāo))的重要性程度和實(shí)現(xiàn)判別分析。
2.1 數(shù)理分析
通過(guò)簡(jiǎn)單分析 PLS的計(jì)算過(guò)程,闡述 PLS分析的基本原理與思路。
2.2 案例分析
利用 SIMCA-P 10.0軟件,以參加第 15屆亞運(yùn)會(huì)中短距離比賽的中國(guó)游泳隊(duì)男運(yùn)動(dòng)員的核磁共振 (NMR)數(shù)據(jù)為例,闡述 PLS分析的基本功能與實(shí)現(xiàn)過(guò)程,并通過(guò)與SPSS軟件中的 PCA降維及 LDA數(shù)據(jù)處理效果進(jìn)行比較,闡述 PLS分析的優(yōu)越性。
2.2.1 取樣與測(cè)試
亞運(yùn)會(huì)賽前一個(gè)月內(nèi),每周 1次,連續(xù)收集運(yùn)動(dòng)員晨尿 3次。運(yùn)動(dòng)員根據(jù)亞運(yùn)會(huì)的比賽成績(jī)是否進(jìn)入前 8名,分為決賽運(yùn)動(dòng)員組 (FG)和非決賽運(yùn)動(dòng)員組 (NF),其中, FG樣本 19個(gè),NF樣本 30個(gè)。所有樣品進(jìn)行預(yù)處理后,在500.13MHZ磁場(chǎng)共振頻率下進(jìn)行一維核磁共振氫譜(1H NMR)測(cè)試。
2.2.2 數(shù)據(jù)處理
為了消除核磁共振采集信號(hào)過(guò)程中壓水峰所造成的影響,去除了水峰和尿素峰附近 6.2~4.6 ppm這一區(qū)段(圖 1)。然后對(duì) 10~0.2 ppm進(jìn)行分段積分,每段為 0.02 ppm,結(jié)果從每個(gè)樣本的1H NMR獲得了 409個(gè)相應(yīng)的積分?jǐn)?shù)據(jù)[1,2]。積分?jǐn)?shù)據(jù)經(jīng)過(guò)常規(guī)歸一化處理后,即可導(dǎo)入SIMCA-P 10.0軟件,進(jìn)行 PLS分析,計(jì)算公式如下:
式中,xik為第k個(gè)樣本,i區(qū)段的原始積分?jǐn)?shù)據(jù);為標(biāo)準(zhǔn)化以后的數(shù)據(jù)。
圖 1 傅立葉變換后的一維核磁共振氫譜圖
與主成分分析一樣,PLS也是通過(guò)提取主成分的方法達(dá)到降維的目的,即將原變量進(jìn)行轉(zhuǎn)換,從而產(chǎn)生少數(shù)幾個(gè)新變量(主成分),這些新變量是原變量的線性組合,同時(shí),這些新變量要盡可能多地表征原變量的數(shù)據(jù)結(jié)構(gòu)而盡量少丟失信息,并且新變量即主成分互不相關(guān),即正交。如果從數(shù)學(xué)上進(jìn)行解釋,即為:設(shè)有p個(gè)原始指標(biāo)(x1,x2, x3,Λ,xp),用來(lái)對(duì)n個(gè)樣本進(jìn)行評(píng)價(jià),則共有np個(gè)數(shù)據(jù)。提取主成分的目的是要將這些原始指標(biāo)組合成新的相互獨(dú)立的綜合指標(biāo):y1,y2,y3,L,yp,這些綜合指標(biāo)表現(xiàn)為原始指標(biāo)的線性函數(shù)[3]:
PLS與主成分分析不同點(diǎn)在于主成分分析法只考慮一個(gè)自變量矩陣,而偏最小二乘法還有一個(gè)因變量矩陣,在各自提取主成分的同時(shí)還要考慮兩個(gè)矩陣之間相關(guān)關(guān)系。因此,PLS分析的基本思路可以概括為:“同時(shí)提取因變量主成分和自變量主成分并使兩者的相關(guān)性達(dá)到最大”。具體要求:1)各主成分必須是原變量的線性組合,為了盡可能多地?cái)y帶變量的變異信息,要求它們的方差達(dá)到最大;2)為了使自變量成分對(duì)因變量成分有最大的解釋能力或預(yù)測(cè)能力,要求兩者的相關(guān)性達(dá)到最大[4]。從數(shù)學(xué)上進(jìn)行解釋,即為:設(shè)有因變量Y={Y1,Y2,…,Ym}和自變量集合X={X1,X2,…,Xm},為了研究Y與X間的統(tǒng)計(jì)關(guān)系,首先在X與Y中提出主成分t1和u1,PLS方法在提取這兩個(gè)主成分時(shí)要求同時(shí)滿足:1)t1和u1盡可能多地?cái)y帶它們各自數(shù)據(jù)表中的變異信息;2)t1和u1的相關(guān)程度能夠達(dá)到最大[9]。綜合以上兩點(diǎn)要求,可以歸結(jié)為使兩者的協(xié)方差達(dá)到最大[4]。
4.1 降維與發(fā)現(xiàn)奇異樣本
圖 2 偏最小二乘法(PLS)降維效果圖(t1 vs t2)
PLS分析的中心目的是降維,以排除眾多信息共存中相互重疊的信息。與傳統(tǒng)降維方法相比,由于考慮了樣本的類(lèi)別信息,其后續(xù)分類(lèi)效果較好,并且往往只需提取較少的幾個(gè)主成分進(jìn)行分析即可實(shí)現(xiàn)對(duì)總體的綜合評(píng)價(jià)。這一優(yōu)點(diǎn)使得數(shù)據(jù)可視化成為可能,通過(guò) PLS的二維或三維主成分散點(diǎn)圖的直觀表征,人們可以輕易地對(duì)樣本類(lèi)別信息進(jìn)行觀察與分析,有利于進(jìn)一步挖掘數(shù)據(jù)的內(nèi)在特征。經(jīng) PLS降維后,第一成分t1對(duì)第二成分t2的散點(diǎn)圖顯示(圖2) ,決賽運(yùn)動(dòng)員組( FG)和非決賽運(yùn)動(dòng)員組(NF)樣本各自聚集,分離性較好。這一結(jié)果表明,高水平運(yùn)動(dòng)員尿液核磁共振 (NMR)數(shù)據(jù)能在一定程度上反映運(yùn)動(dòng)員之間競(jìng)技水平的差異,利用 NMR進(jìn)行尿液分析實(shí)現(xiàn)對(duì)高水平運(yùn)動(dòng)員的狀態(tài)監(jiān)控具有一定的可行性。
同時(shí),在實(shí)驗(yàn)或觀測(cè)過(guò)程中難免會(huì)有偶然誤差產(chǎn)生,由此引起某些樣本的數(shù)據(jù)出現(xiàn)異常,PLS在實(shí)現(xiàn)降維的過(guò)程中還可以實(shí)現(xiàn)異常數(shù)據(jù)的發(fā)現(xiàn)與剔除。其基本原理是通過(guò)第i個(gè)樣本點(diǎn)對(duì)第h個(gè)成分th的貢獻(xiàn)率t2hi來(lái)發(fā)現(xiàn)樣本點(diǎn)集合中的異常數(shù)據(jù)[6]。
在 PLS模型中,定義樣本點(diǎn)i對(duì)成分t1,t2,…,tm的累計(jì)貢獻(xiàn)率為:
上式表示的圖形為一橢圓,在t1/t2二維平面圖上,可以做出 T2橢圓圖。如果所有的樣本點(diǎn)都落在橢圓區(qū)內(nèi),則認(rèn)為所有樣本點(diǎn)的分布是均勻的,落在橢圓區(qū)外的樣本點(diǎn)為異常點(diǎn)[6]。
圖 2中的絕大多數(shù)樣本點(diǎn)都落在橢圓區(qū)內(nèi),第 34號(hào)樣本落在橢圓區(qū)外,可見(jiàn)本研究的案例中,運(yùn)動(dòng)員的樣本點(diǎn)總體上是分布均勻的,只有 34號(hào)樣本屬于奇異值。至此,一方面,在建模時(shí)或進(jìn)一步進(jìn)行數(shù)據(jù)處理時(shí)應(yīng)將此樣本剔除;另一方面,還可以據(jù)此對(duì)實(shí)驗(yàn)過(guò)程進(jìn)行回顧,查找奇異值產(chǎn)生的原因。剔除 34號(hào)樣本后,重新進(jìn)行 PLS的結(jié)果如圖 3所示,相對(duì)于圖 2,決賽運(yùn)動(dòng)員組 (FG)和非決賽運(yùn)動(dòng)員組 (NF)樣本得到了更好的分離效果。而主成分分析 (PCA)的降維效果則明顯較差 (圖 4),決賽選手和非決賽選手的樣本分布散亂,相互交錯(cuò),沒(méi)有出現(xiàn)明顯的分離。
圖 3 剔除奇異點(diǎn)后的偏最小二乘法(PLS)降維效果圖(t1 vs t2)
4.2 自變量因子 (各觀測(cè)指標(biāo))的重要性程度分析
PLS分析主要用于多維數(shù)據(jù)的降維,需要進(jìn)行 PLS的數(shù)據(jù)往往含有多個(gè)觀測(cè)指標(biāo) (也稱自變量因子),如本研究所分析的案例,從每個(gè)樣本的1H NMR就產(chǎn)生了 409個(gè)相應(yīng)的數(shù)據(jù),即有 409個(gè)自變量因子。那么,這么多的自變量因子對(duì)因變量的解釋能力都相等嗎?因此,在對(duì)多維數(shù)據(jù)進(jìn)行分析的過(guò)程中,往往需要找出對(duì)因變量的解釋能力較強(qiáng)的自變量因子,即重要性較高的觀測(cè)指標(biāo)進(jìn)行進(jìn)一步分析。PLS分析中,觀測(cè)指標(biāo)的重要性程度可以用變量投影重要性指標(biāo)VIPj(variab le importance in p rojection,V IP)來(lái)量化。從 PLS建模過(guò)程可知,若所提取的成分th對(duì)Y的解釋能力越強(qiáng),而自變量因子xj在構(gòu)造th時(shí)又起到了相當(dāng)重要的作用,則xj對(duì)Y的解釋能力就越大。所以,對(duì)于自變量因子x,可計(jì)算其重要性指標(biāo)VIP[8]:
圖 4 主成分分析(PCA)降維效果圖(PC1 vs PC2)
通過(guò)對(duì)運(yùn)動(dòng)員尿液樣本的1H NMR所產(chǎn)生的 409個(gè)自變量因子的VIPj進(jìn)行計(jì)算和排序,1H NMR譜中對(duì)運(yùn)動(dòng)員之間競(jìng)技水平差異解釋能力較強(qiáng)的各區(qū)段及其所代表的代謝產(chǎn)物如表 1所示,對(duì)這些代謝產(chǎn)物的進(jìn)一步的分析與討論可見(jiàn)筆者前期發(fā)表的相關(guān)文獻(xiàn)[11,12]。
表 1 對(duì)競(jìng)技水平差異解釋能力較強(qiáng)的1 H NM R各區(qū)段及其所代表的代謝產(chǎn)物一覽表
4.3 實(shí)現(xiàn)判別分析 (PLS-DA)
偏最小二乘法判別分析 (partial least squares-discrim iannt analysis,PLS-DA)是基于 PLS回歸的一種判別分析方法,由于在構(gòu)造因素時(shí)考慮到了輔助矩陣以代碼形式提供的類(lèi)成員信息,因此,比傳統(tǒng)的判別分析法具有更高效的鑒別能力,也使出現(xiàn)假陽(yáng)極鑒別的概率有所降低[5]。其核心思想是將測(cè)試的樣本人為地分為“訓(xùn)練集”和“預(yù)測(cè)集”,其中,“訓(xùn)練集”用來(lái)訓(xùn)練建模,“預(yù)測(cè)集”則用來(lái)檢驗(yàn)所建模型的預(yù)測(cè)能力,具體判別過(guò)程如下:
表 2 偏最小二乘法判別分析(PLS-DA)與線性判別分析(LDA)對(duì)運(yùn)動(dòng)員預(yù)測(cè)集樣本類(lèi)別的識(shí)別結(jié)果比較一覽表
1.利用“訓(xùn)練集”數(shù)據(jù)對(duì)計(jì)算機(jī)進(jìn)行訓(xùn)練 (建立模型)。例如,對(duì)于兩類(lèi)的情況,在訓(xùn)練集中,有一些樣本屬于 A類(lèi),另外一些樣本屬于 B類(lèi),然后教給計(jì)算機(jī),建立分類(lèi)變量與觀測(cè)數(shù)據(jù)間的 PLS回歸模型。
2.根據(jù)所建立的 PLS模型,輸入“預(yù)測(cè)集”各樣本的觀測(cè)數(shù)據(jù),計(jì)算機(jī)計(jì)算識(shí)別這些“未知樣本 (不輸入這些樣本的分類(lèi)信息)”的類(lèi)別。
本研究的案例共有樣本 49個(gè),其中的 33個(gè)樣本 (約2/3)為訓(xùn)練集,16個(gè)樣本 (約 1/3)為預(yù)測(cè)集。計(jì)算機(jī)經(jīng)過(guò)訓(xùn)練之后,對(duì)預(yù)測(cè)集樣本類(lèi)別的識(shí)別結(jié)果如表 2所示:3個(gè)樣本的類(lèi)別識(shí)別錯(cuò)誤,13個(gè)樣本的類(lèi)別識(shí)別正確,總判別正確率為 81.25%。而在所有的數(shù)據(jù)條件完全相同的情況下,線性判別分析的結(jié)果則相對(duì)較差,總判別正確率僅為68.75%(表 2)。
偏最小二乘法 (PLS)對(duì)高維度數(shù)據(jù)具有強(qiáng)大的處理能力。在體育科研中,同樣可以根據(jù) PLS分析的基本原理,利用 PLS進(jìn)行降維、發(fā)現(xiàn)異常數(shù)據(jù)、分析自變量因子 (各觀測(cè)指標(biāo))的重要性程度和實(shí)現(xiàn)判別分析,并且在已知樣本類(lèi)別的條件下,PLS比傳統(tǒng)降維方法“PCA”及“LDA”具有更好的數(shù)據(jù)處理效果。
[1]李江華,劉承宜,徐曉陽(yáng),等.2006多哈亞運(yùn)會(huì)短距離游泳男運(yùn)動(dòng)員志愿者代謝組學(xué)研究[J].體育科學(xué),2008,28(2):42-46.
[2]李江華,劉承宜,沙海燕,等.高水平男子中短距離游泳成績(jī)預(yù)測(cè)代謝組學(xué)模型[J].體育學(xué)刊,2010,17(4):103-106.
[3]聶馥霖.淺談統(tǒng)計(jì)綜合評(píng)價(jià)中主成分分析法的應(yīng)用[J].陜西綜合經(jīng)濟(jì),2007,(5):46-48.
[4]錢(qián)國(guó)華,茍鵬,程陳峰,等.偏最小二乘法降維在微陣列數(shù)據(jù)判別分析中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2007,24(2):120-123.
[5]楊忠,任海青,江澤慧,等.PLS-DA法判別分析木材生物腐朽的研究[J].光譜學(xué)與光譜分析,2008,28(4):793-796.
[6]楊杰,方俊,胡德秀,等.偏最小二乘法回歸在水利工程安全監(jiān)測(cè)中的應(yīng)用[J].農(nóng)業(yè)工程學(xué)報(bào),2007,25(3):136-140.
[7]張琳,張黎明,李燕,等.偏最小二乘法在傅里葉變換紅外光譜中的應(yīng)用及進(jìn)展[J].光譜學(xué)與光譜分析,2005,25(10):1610-1613.
[8]周強(qiáng),歐陽(yáng)一鳴,胡學(xué)鋼,等.數(shù)據(jù)挖掘中應(yīng)用偏最小二乘法發(fā)現(xiàn)異常值[J].微電子學(xué)與計(jì)算機(jī),2005,22(1):25-27.
[9]周秀平,王文圣,曾懷金.偏最小二乘與人工神經(jīng)網(wǎng)絡(luò)耦合模型在酸雨 pH值預(yù)測(cè)中的應(yīng)用[J].水利水電科技進(jìn)展,2006,26 (4):50-52.
[10]BOULESTEIX A L,PORZEL IUSC,DAUM ERM.M icroarray-based classification and clinical p redictors:on combined c lassifiers and additional p redictive value[J].B ioinformatics,2008,24(15): 1698-706.
[11]L IJH,L IU TCY,YUAN JQ,etal.Performance-enhancing photobiomodu lation[J].Laser Su rgM ed,2007,39(S19):68.
[12]NGUYEN D,ROCKE D M.Tumor classification by partial least squares usingm icroarray gene exp ression data[J].B ioinformatics, 2002,18(1):39-50.