羅 盛 張 錦 陳景武
對應分析(correspondence analysis),又稱相應分析,其基本思想首先由理查森(Richardson)和庫德(Kuder)在1933年提出,后來法國統(tǒng)計學家Jean-Paul Benzecri和日本統(tǒng)計學家Hayashi Chikio對該方法進行了發(fā)展,主要用于分析二維數(shù)據(jù)陣中行因素和列因素間的關系。對應分析把R型和Q型因子分析結合起來,同時得到兩方面的結果——在同一因子平面上對變量和樣品進行分類,從而揭示所研究的樣品和變量間的內在聯(lián)系。目前對應分析已被廣泛地應用于自然科學和社會科學的各個領域,取得了可喜的成果〔1-3〕。比如在研究不同地區(qū),不同種類的惡性腫瘤死亡率時,我們既關心不同種類惡性腫瘤間的關系、不同地區(qū)間的關系,又想了解不同惡性腫瘤與地區(qū)間的關系。此時需要對惡性腫瘤(列因素)和地區(qū)(行因素)同時進行因子分析,即對應分析。這樣可以探討腫瘤類別間、不同地區(qū)間死亡率的關系以及各地區(qū)與不同惡性腫瘤間的關系。
對應分析缺點是不能用于相關關系的假設檢驗。對應分析雖然能揭示行因素和列因素間的關系,不能說明兩個變量之間存在的聯(lián)系是否有統(tǒng)計學意義。針對對應分析在應用時的不足,本文探討將因子分析和多元回歸分析結合應用來進行彌補。
對山東省某縣2000~2002年17個鄉(xiāng)鎮(zhèn)(用字母表示)惡性腫瘤標化死亡資料進行分析,探討該縣惡性腫瘤死亡率的影響因素,為研究惡性腫瘤的病因提供線索。其中(x,y)為研究區(qū)域內各調查點的坐標。
表1 2000~2002年各鄉(xiāng)鎮(zhèn)惡性腫瘤標化死亡率(1/10萬)
作者曾對資料做過對應分析〔4,5〕,發(fā)現(xiàn)胃癌(X1)、食管癌(X2)和結腸癌(X5)有比較強的聚集性,該縣的全部鄉(xiāng)鎮(zhèn)(i鎮(zhèn)除外)都與這3種癌比較靠近,并且全縣這3種惡性腫瘤的死亡率都比較高。同時提示這3種癌可能有某些共同的致病因素。白血病(x3)和乳腺癌(x4)在第一因子上有較大的正負荷,鼻咽癌(X6)在第一因子上有較大的負負荷,提示白血病和乳腺癌的共同致病因素有可能是鼻咽癌的保護因素。結果見圖1。
分別以胃癌和鼻咽癌死亡率為因變量,以地理位置坐標(x,y)和同一組內的其他惡性腫瘤死亡率為自變量,進行多元逐步回歸分析。
(1)以胃癌為因變量,以地理坐標(x,y)、食管癌、結腸癌、白血病、乳腺癌和鼻咽癌為自變量做逐步回歸。經(jīng)多重共線性診斷和擬合優(yōu)度檢驗,按進入標準sle=0.15,剔除標準sls=0.16選出的方程為最優(yōu)回歸方程,擬合優(yōu)度R2=0.716,有意義的自變量是地理位置橫坐標x、食管癌、乳腺癌,且回歸系數(shù)都為正(表2),說明自變量是危險因素,胃癌死亡率除了與地理位置橫坐標有聯(lián)系外還與食管癌、乳腺癌的死亡率有很大關系,這與對應分析結果基本一致〔4〕。隨著地理橫坐標x和食管癌、乳腺癌死亡率的增大,胃癌死亡率呈逐漸升高趨勢,胃癌的死亡率由西向東逐漸升高,這一結論與之前做過的趨勢面分析結果一致〔6〕。
圖1 地區(qū)與腫瘤種類的的對應分析因子負荷圖
表2 多元逐步回歸分析結果(sle=0.15,sls=0.16)
(2)以鼻咽癌死亡率為因變量,以地理坐標(x,y)、乳腺癌、白血病、食管癌、結腸癌和胃癌為自變量做逐步回歸。經(jīng)檢驗按進入標準sle=0.10,剔除標準sls=0.11選出的方程為最優(yōu)回歸方程,擬合優(yōu)度R2=0.475,有意義的自變量是地理位置橫坐標x和白血病。且回歸系數(shù)都為負(表3),說明自變量是保護因素,鼻咽癌死亡率除了與地理位置橫坐標x有聯(lián)系外還與白血病死亡率有很大關系,這與對應分析結果完全一致〔4〕。隨著地理橫坐標x和白血病死亡率的增大,鼻咽癌死亡率呈逐漸降低趨勢,鼻咽癌的死亡率由西向東逐漸降低,這一結論與之前的趨勢面分析結果一致〔6〕。
表3 多元逐步回歸分析結果(sle=0.10,sls=0.11)
在流行病研究中,為了解惡性腫瘤的地區(qū)分布和腫瘤類型分布特征,我們可以對資料進行對應分析,從而發(fā)現(xiàn)不同惡性腫瘤死亡率的高發(fā)地和低發(fā)地,為進一步做流行病學病因調查及制定相應的防癌規(guī)劃提供理論依據(jù),但是遺憾的是對應分析不能用于相關關系的假設檢驗。本研究探討將因子分析和多元回歸分析結合應用來完善對應分析,一方面可以驗證對應分析的結果,一方面又可以對腫瘤間的相關關系進行假設檢驗。
本研究將因子分析和多元回歸分析結合應用,先通過R型因子分析將10大惡性腫瘤進行了分組,然后分別以胃癌和鼻咽癌死亡率為因變量,以地理位置坐標(x,y)和同一組的其他惡性腫瘤死亡率為自變量,進行多元逐步回歸分析。不但能對對應分析的結果進行驗證,而且可以彌補對應分析不能用于相關關系假設檢驗的局限性。從而可以發(fā)現(xiàn)惡性腫瘤死亡率與地區(qū)的對應關系、不同惡性腫瘤間的聚集性和相關性以及腫瘤死亡率的地域變化規(guī)律性,這不僅為臨床“早發(fā)現(xiàn)、早診斷、早治療”提供了理論依據(jù),而且對該地區(qū)惡性腫瘤病因的確定以及今后的發(fā)病趨勢預測有十分重要的意義。
1.Alain F.Canonical correspondence analysis of lowland pasture vegetation in the humid tropics of Mexico.Statistics for Biology and Health,2007:561-547.
2.Mao DQ.Correspondence analysis on images of Jiangxi Province as a tourist destination.Chinese Geographical Science,2005,15(3):275-280.
3.Ken Reed.The use of correspondence analysis to develop a scale to measure workplace morale from multi-level data.Social Indicators Research,2002,3:339-351.
4.羅盛,馬峻嶺,陳景武.地區(qū)惡性腫瘤死亡率的對應分析.數(shù)理統(tǒng)計與管理,2009,28(3):566-570.
5.羅盛,馬峻嶺,陳景武.分組對應分析在流行病學研究中的應用.中國衛(wèi)生統(tǒng)計,2008,25(3):280-282.
6.羅盛,馬峻嶺,陳景武.惡性腫瘤死亡率地域分布的趨勢面分析.中國衛(wèi)生統(tǒng)計,2008,25(4):359-362.