劉桃花
(邵陽學(xué)院理學(xué)與信息科學(xué)系,湖南邵陽422000)
疾病檢測(cè)是人們?nèi)粘>驮\中很常見且很重要的環(huán)節(jié),對(duì)于家庭個(gè)人檢測(cè)疾病具有顯著意義.其中,肝病檢測(cè)是檢查肝臟是否健康的一種方式,如果肝功能出現(xiàn)問題會(huì)影響生活質(zhì)量,一般造成肝功能出現(xiàn)問題的原因有可能是肝病的傳染造成的,也有可能是由于工作壓力過大,沒有很好的休息或者是由于其他疾病引起了暫時(shí)的肝功能造成問題.所以辨別肝功能是不是真正的出現(xiàn)問題還是要有一定的標(biāo)準(zhǔn),所以就有了肝病檢測(cè)指標(biāo).
醫(yī)生對(duì)病人的診斷是靠對(duì)病人觀測(cè)若干癥狀后來綜合評(píng)定的.如一個(gè)人發(fā)高燒,醫(yī)生根據(jù)他的體溫高低、白血球數(shù)目及其其他癥狀來判斷它是患感冒、肺炎還是其他疾病.為了使判斷更為準(zhǔn)確可靠,事先應(yīng)有一批經(jīng)專家確診或手術(shù)后經(jīng)病理化驗(yàn)確診的病歷資料,根據(jù)這批資料利用多元統(tǒng)計(jì)方法可建立診斷的準(zhǔn)則(即專家系統(tǒng)).對(duì)來就診的病人,按專家系統(tǒng)的要求,觀測(cè)若干項(xiàng)指標(biāo)后,根據(jù)診斷準(zhǔn)則,即作出診斷.
在對(duì)疾病檢驗(yàn)指標(biāo)進(jìn)行分析時(shí),為了盡可能全面反映評(píng)價(jià)對(duì)象的整體情況,需要選取恰當(dāng)?shù)?、客觀的指標(biāo).在實(shí)際工作中,需要精簡(jiǎn)指標(biāo),將原來的指標(biāo)重新組合成一組相互無關(guān)的綜合指標(biāo)以此來盡可能多地反映原來指標(biāo)信息量,主成分分析為解決此類問題提供了很好的方法.
1933年,Hotelling提出的主成分分析(Principal Component Analysis)方法正是實(shí)現(xiàn)這一目的的有效途徑之一.主成分分析是考察多個(gè)定量(數(shù)值)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法.它的基本思想是通過降維過程,將多個(gè)相互關(guān)聯(lián)的數(shù)值指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)互不相關(guān)的綜合指標(biāo)的統(tǒng)計(jì)方法,即用較少的指標(biāo)來代替和綜合反映原來較多的信息,這些綜合后的指標(biāo)就是原來多指標(biāo)的主要成分.簡(jiǎn)而言之,主成分實(shí)際上就是由原變量X1~Xm線性組合出來的m個(gè)互不相關(guān)、且未丟失任何信息的新變量,也稱為綜合變量.多指標(biāo)的主成分分析常被用來尋找判斷某種事物或現(xiàn)象的綜合指標(biāo),并給綜合指標(biāo)所蘊(yùn)藏的信息以恰當(dāng)解釋,以便更深刻地揭示事物內(nèi)在的規(guī)律[1-4?.
適合用主成分析方法的數(shù)據(jù)應(yīng)該有如下表格所示的特點(diǎn):
表1 主成分分析的數(shù)據(jù)結(jié)構(gòu)Tab.1 Data structure of principal component analysis
設(shè)數(shù)據(jù)具有表1的結(jié)構(gòu),且主成分為Z,表達(dá)式如下:
其中Xi為原始變量,xi為Xi的標(biāo)準(zhǔn)化變量(即每個(gè)原始變量減去樣本均數(shù)再除以樣本標(biāo)準(zhǔn)差);bij是線性組合的系數(shù),稱為因子負(fù)荷量,λi為與第i個(gè)主成分對(duì)應(yīng)的特征值,i,j=1,2,…,m.
求主成分的計(jì)算過程,實(shí)際上就是求上述表達(dá)式因子負(fù)荷量.上面的表達(dá)式是由標(biāo)準(zhǔn)化變量的協(xié)方差矩陣(即相關(guān)矩陣)求特征值及其對(duì)應(yīng)的特征向量,其分量為bij,i,j=1,2,…,m,SAS 中直接給出的因子負(fù)荷量與表達(dá)式對(duì)應(yīng).
主成分分析的基本條件與主成分的基本性質(zhì):
原始變量的個(gè)數(shù)為m,則系數(shù)矩陣R就是m階方陣,特征值為λ,求各特征值λi的過程就是求解下列特征方程:|R-λi|=0,此方程的左邊展開后實(shí)際上是一個(gè)λ的m階多項(xiàng)式,其解由大到小依次排列為λ1≥λ2≥…≥λm>0.主成分分析的基本條件與主成分的基本性質(zhì)可概述如下:
①各主成分之間互不相關(guān),若原變量服從正態(tài),則各主成分之間互相獨(dú)立;
②全部m個(gè)主成分所反映的n例樣品的總信息,等于m個(gè)原變量的總信息.信息量的多少,用變量的方差來度量.若將m個(gè)原變量標(biāo)準(zhǔn)化后,每個(gè)變量的方差都為1,故方差之和為m,此時(shí),求得的m個(gè)主成分的方差之和也為m;
③各主成分的作用大小是 ∶Z1≥Z2≥…≥Zm;
④第 i個(gè)主成分的貢獻(xiàn)率是(λi/m)×100%;
以下是某醫(yī)院記錄的100例肝病患者的18項(xiàng)癥狀.這100名患者中,有21名女性,79名男性,其中20歲以下(不包括20歲)有6名,20歲以上且40歲以下(不包括40歲)有36名,40歲以上且60歲以下(不包括60歲)有43名,60歲以上(不包括60歲)有15名.
這18項(xiàng)癥狀分別是:輸血史、低熱(≦38℃)、中高熱(>38℃)、寒戰(zhàn)、踝部水腫、脛前水腫、下肢水腫、單側(cè)上肢水腫、鞏膜黃染、皮膚黃染、肝掌、蜘蛛痣、皮膚搔癢、咯白痰、咳嗽、咽痛、扁桃體紅、扁桃體腫大,依次用X1至X18表示,其中0表示無該癥狀,1表示有該癥狀.
表2 相關(guān)矩陣的特征值Tab.2 Eigenvalues of the correlation matrix
我們通過SAS軟件[5]對(duì)上述事例進(jìn)行主成分分析,第1部分給出了相關(guān)矩陣的特征值(Eigenvalue),(文章只給出了前7個(gè)主成分的特征值)特征值越大,它所對(duì)應(yīng)的主成分變量包含的信息就越多.第1個(gè)至第7個(gè)主成分的貢獻(xiàn)率分別為 38.52%、23.64%、9.56%、7.42%,5.78%、4.43% 和3.68%,最后1列為累計(jì)貢獻(xiàn)率,由此列數(shù)值可知:前7個(gè)主成分就包含了原來18個(gè)指標(biāo)93.00%的信息.
表3 特征向量Tab.3 Eigenvectors
續(xù)表
第2部分給出了特征向量(Eigenvectors),(文章只列舉了前6個(gè)主成分的特征向量),據(jù)此可以寫出由標(biāo)準(zhǔn)化變量所表達(dá)的各主成分的關(guān)系式:
在各主成分的表達(dá)式中,各標(biāo)準(zhǔn)化指標(biāo)Xi前的系數(shù)與該主成分所對(duì)應(yīng)的特征值之平方根的乘積是該主成分與該指標(biāo)之間的相關(guān)系數(shù),如∶
系數(shù)的絕對(duì)值越大,說明該主成分受該指標(biāo)的影響也就越大.因此,決定第1主成分Z1大小的主要為 X3和 X4,即中高熱(>38℃)和寒戰(zhàn);決定第2主成分Z2大小的主要為X5和X7,即踝部水腫和下肢水腫;決定第3主成分Z3大小的主要為X5、X6和X7,即踝部水腫、脛前水腫和下肢水腫AFP;決定第4主成分大小的主要為X1和X9、X15,但作用相反.這可以表明(以專業(yè)知識(shí)為依據(jù)):Z1指向傳單;Z2指向肺炎;Z3指向丙肝;Z4指向急性乙肝,Z5指向心衰,Z6指向慢性乙肝,Z7指向乙肝,其余的貢獻(xiàn)率很小,僅作參考,它可能指向其他肝病,如指向急性肝萎縮.
求出了主成分,并結(jié)合專業(yè)知識(shí)給各主成分所蘊(yùn)藏的信息以恰當(dāng)?shù)慕忉專€應(yīng)該利用它們來判斷樣品的特性,本例可據(jù)肝病患者的4個(gè)主成分值來為判斷肝病類型提供參考.為了求主成分值的方便,可將用標(biāo)準(zhǔn)化指標(biāo)表達(dá)的主成分換成用原指標(biāo)表達(dá)的形式.
設(shè)現(xiàn)有一名疾病就診者,測(cè)得18項(xiàng)疾病指標(biāo)為:X1=0,X2=1,X3=0,X4=0,X5=0,X6=0,X7=0,X8=0,X9=1,X10=1,X12=1,X13=1,X14=0,X15=0,X16=0,X17=0,X18=0,把它們分別代入Z1至Z18表達(dá)式中計(jì)算得,Z6值最大,即第6主成分的值最大,因此,診斷該病人炎癥類型很可能為慢性乙肝.
本文通過SAS軟件利用主成分分析,得出影響判斷疾病的主要診斷指標(biāo),尤其是對(duì)肝病診斷,并通過患者的檢測(cè)指標(biāo)對(duì)其所患的肝病類型進(jìn)行判斷.我們通過求出主成分,并結(jié)合專業(yè)知識(shí)給各主成分所蘊(yùn)藏的信息以恰當(dāng)?shù)慕忉?,并且利用它們來判斷樣品的特性,?jù)患者的18個(gè)主成分值來為判斷疾病類型提供參考.
可以看出,主成分分析在指標(biāo)體系中其應(yīng)用前景十分廣闊.近年來,主成分分析方法在社會(huì)經(jīng)濟(jì)問題研究中的應(yīng)用越來越多,其應(yīng)用范圍也更加廣泛.因此,我們應(yīng)當(dāng)正確理解和運(yùn)用這種方法,使其發(fā)揮出各自最大的優(yōu)勢(shì),以便于更好地服務(wù)于社會(huì).
[1]胡良平.現(xiàn)代統(tǒng)計(jì)學(xué)與SAS應(yīng)用[M].北京:軍事醫(yī)學(xué)科學(xué)出版社,2000.
[2]高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2005.
[3]高惠璇.實(shí)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2006.
[4]約翰遜,威克恩.實(shí)用多元統(tǒng)計(jì)分析[M].北京:清華大學(xué)出版社,2008.
[5]李東風(fēng).統(tǒng)計(jì)軟件教程[M].北京:人民郵電出版社,2006.