国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SAS與R軟件的主成分分析

2018-05-18 09:55:49胡良平
四川精神衛(wèi)生 2018年2期
關(guān)鍵詞:計量學(xué)特征向量特征值

胡良平

(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029 *通信作者:胡良平,E-mail:lphu812@sina.com)

1 概 述

1.1 基本概念

在科學(xué)研究中,經(jīng)常需要從同一個體(或觀測單位)上觀測多個指標,這些指標從不同方面反映個體的性質(zhì)。但指標太多,不僅會增加計算的復(fù)雜性,也會給合理分析問題和解釋問題帶來困難。表面上,各指標之間地位相同。實際上,各指標所包含的信息量參差不齊,且指標間往往不是相互獨立的,它們所包含的信息有交叉或重疊的部分。所以,需要對眾多指標進行適當?shù)奶幚恚员愀玫胤从呈挛锏谋举|(zhì)特征。

1.2 何為主成分分析

主成分分析(principal components analysis)是將多個定量指標轉(zhuǎn)換為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法。它是將彼此相關(guān)的一組變量轉(zhuǎn)化為彼此獨立的一組新變量,并以其中少數(shù)的幾個新變量綜合反映原先多個變量所包含的主要信息,且這少數(shù)幾個綜合變量具有獨特的專業(yè)含義。主成分變量實際上就是由原變量X1~Xm線性組合出來的m個互不相關(guān)、且未丟失任何信息的新變量,也稱為綜合變量。

1.3 主成分分析的作用

多指標的主成分變量常被用來揭示某種事物或現(xiàn)象內(nèi)在規(guī)律性的綜合指標,研究者結(jié)合基本常識和專業(yè)知識對綜合指標所蘊藏的信息予以恰當解釋,就可以更深刻地揭示事物的內(nèi)在規(guī)律。主要應(yīng)用于以下三個方面:①降維,即利用較少的幾個主成分變量就可以取代原來眾多的變量所承載的信息;②基于消除多重線性回歸分析中自變量間共線性關(guān)系之后的主成分變量再進行回歸分析,即所謂的“主成分回歸分析”;③應(yīng)用于綜合評價領(lǐng)域,就是基于綜合評價指標在各個體上的“取值或得分”對全部個體或觀測單位進行排序,還可進一步對其進行分檔。這種做法和結(jié)果事實上就是將原先的“無序樣品”轉(zhuǎn)變成“有序樣品”,此時,就相當于對“有序樣品”進行聚類分析了。

1.4 適合進行主成分分析的數(shù)據(jù)結(jié)構(gòu)[1]

1.4.1 問題與數(shù)據(jù)結(jié)構(gòu)

【例1】某文獻計量學(xué)家收集到23種腫瘤類期刊的載文量(X1)、基金論文比(X2)、總被引頻次(X3)、影響因子(X4)、5年影響因子(X5)、即年指標(X6)、被引半衰期(X7)和Web即年下載率(X8)8個指標的具體數(shù)據(jù)。見表1。

1.4.2 對數(shù)據(jù)結(jié)構(gòu)的分析

在表1中,23種期刊都是腫瘤學(xué)方面的期刊,故可認為它們具有“同質(zhì)性(簡單地理解,就是具有可比性)”;X1~X8這8個計量指標都是用來反映每種學(xué)術(shù)期刊的影響力、知名度、學(xué)術(shù)和社會價值等,而且,這些指標的取值都是越大越好,即所謂的“高優(yōu)指標”。顯然,從“性質(zhì)”上來看,這些指標也是具有“同質(zhì)性(簡單地理解,就是具有可比性)”的。滿足以上兩方面(橫向被稱為“樣品”、縱向被稱為“變量”)要求的資料,稱為“單組設(shè)計多元定量資料”。

表1 23種腫瘤類期刊的文獻計量學(xué)指標及其取值

1.4.3 適合選用的統(tǒng)計分析方法

對于前面所呈現(xiàn)的“單組設(shè)計多元定量資料”而言,可以選用哪些多元統(tǒng)計分析方法呢?使人驚訝的是:適合分析這種數(shù)據(jù)結(jié)構(gòu)的多元統(tǒng)計分析方法占據(jù)了全部多元統(tǒng)計分析方法的絕大部分。具體來說,需要按以下兩種情形來劃分:

(1)不提供任何附加信息

可以選擇的多元統(tǒng)計分析方法有以下5種:①無序樣品聚類分析法;②變量聚類分析法;③主成分分析法;④探索性因子分析法;⑤對應(yīng)分析法。

(2)提供某些附加信息

可以選擇的多元統(tǒng)計分析方法有以下7種:①單組設(shè)計多元方差分析(需要提供各指標的標準值);②通徑分析(需要提供通徑圖,即依據(jù)基本常識和專業(yè)知識繪制出變量之間相互依賴關(guān)系的圖形);③證實性因子分析[需要提供通徑圖,即依據(jù)基本常識和專業(yè)知識繪制出變量之間相互依賴關(guān)系的圖形,變量包括“顯變量(可觀測其取值的變量)”與“隱變量(不可觀測其取值的變量)”];④結(jié)構(gòu)方程模型分析[需要提供通徑圖,即依據(jù)基本常識和專業(yè)知識繪制出變量之間相互依賴關(guān)系的圖形,變量包括“顯變量(可觀測其取值的變量)”與“隱變量(不可觀測其取值的變量)”];⑤多維尺度分析(需要提供任何兩個樣品之間相似度或不相似度系數(shù),全部系數(shù)構(gòu)成相似度或不相似度矩陣);⑥典型相關(guān)分析(需要依據(jù)基本常識和專業(yè)知識將全部變量劃分為兩類);⑦復(fù)相關(guān)分析(需要指出一個變量為因變量、其他變量為自變量)。

2 主成分分析的實現(xiàn)

2.1 基于SAS實現(xiàn)計算

2.1.1 所需要的SAS程序

將表1中的23行9列數(shù)據(jù)按文本格式存儲在“F:CCC”文件夾中,命名為“23種腫瘤類期刊文獻計量學(xué)指標資料.txt”;設(shè)所需要的SAS程序名為“基于腫瘤類期刊文獻計量學(xué)指標進行主成分分析.SAS”:

data a1;

infile 'F:CCC23種腫瘤類期刊文獻計量學(xué)指標資料.txt';

input name $20. x1-x8;

run;

proc princomp data=a1 out=b1 prefix=z;

var x1-x8;

run;

2.1.2 SAS程序主要輸出結(jié)果及解釋

相關(guān)矩陣

以上為8個計量變量兩兩之間的Pearson相關(guān)矩陣。

相關(guān)矩陣的特征值特征值差值比例累積14.247249872.988574630.53090.530921.258675240.292497910.15730.688230.966177330.282557640.12080.809040.683619690.193382660.08550.894550.490237030.215778320.06130.955760.274458710.209337590.03430.990170.065121120.050660100.00810.998280.014461020.00181.0000

以上為相關(guān)矩陣的特征值、相鄰兩特征值之差量、各特征值占總特征值(=8)的比例和累計百分比。

特征向量z1z2z3z4z5z6z7z8x1-0.0475470.8480010.0821380.2345230.1693190.2703610.3258210.094669x20.322469-0.174411-0.4112910.3011670.774864-0.026423-0.0122710.066849x30.4213050.3191880.2766490.0479470.019984-0.073226-0.788615-0.118797x40.437866-0.0164280.218581-0.4329260.036042-0.0500050.1725700.734316x50.435547-0.0357640.297129-0.3369190.1626790.0328670.400564-0.647475x60.353989-0.003982-0.531820-0.119258-0.3588220.664815-0.070554-0.043710x70.267853-0.3275410.4423390.694887-0.2182420.2401780.1651710.099216x80.3711790.199364-0.3646910.232311-0.407886-0.6462190.222003-0.047511

以上為8個特征值對應(yīng)的特征向量。選取幾個主要的主成分變量就可近似取代原先8個變量信息的直觀判斷方法見圖1。

圖1 碎石圖

由圖1可知:在主成分變量為2個時,折線出現(xiàn)了明顯的“拐點”,也就是說,取前兩個主成分變量,就可近似反映原來的8個原變量所包含的信息。

各主成分變量攜帶的信息量占總量8的比例見圖2。

圖2 各主成分變量攜帶的信息量占總量8的比例

由圖2可知:下面的折線代表各主成分變量攜帶的信息量占總量8的比例,上面的折線代表各主成分變量對應(yīng)的特征值累積后的結(jié)果。

下面寫出第一個主成分變量的線性表達式(系數(shù)來自“特征向量”第1列):

z1=-0.047547x1+0.322469x2+0.421305x3+0.437866x4+0.435547x5+0.353989x6+0.267853x7+0.371179x8

利用“特征向量”中的系數(shù),可以寫出第2~8個主成分變量的表達式。

值得注意的是:“特征向量”中的各列系數(shù)都是采取了標準化變換(即每個變量減去其算術(shù)平均值除以標準差)而獲得的,若希望用原變量表達出來,需要進行相反的變換,此處從略。

2.1.3 如何給主成分變量命名

(1)選取幾個主成分變量

應(yīng)結(jié)合特征向量各列的系數(shù),給前幾個主要的主成分變量命名。究竟應(yīng)該關(guān)注前幾個主成分變量呢?一般采取兩種決定方法之一:第一種,選取特征值≥1的那幾個主成分變量;第二種,選取累計貢獻率達到85%左右時所對應(yīng)的那幾個最大和較大特征值所對應(yīng)的主成分變量。在本例中,若按前者來選取,就選兩個主成分變量;若按后者來選取,就需要選4個主成分變量了。

(2)給選取的前兩個主成分變量命名

命名的依據(jù):根據(jù)各列特征向量的系數(shù)的絕對值大小及其左側(cè)變量的專業(yè)含義來給各列主成分變量命名。第一主成分變量可以命名為:除“載文量”之外的其他7個文獻計量指標的綜合效應(yīng)指標;而第二主成分變量可以命名為:“載文量”與“總被引頻次”2個文獻計量指標的綜合效應(yīng)指標。

2.2 基于R軟件實現(xiàn)計算[2]

2.2.1 所需要的R程序

將表1中的23行9列數(shù)據(jù)按文本格式存儲在“F:CCC”文件夾中,命名為“23種腫瘤類期刊文獻計量學(xué)指標資料含變量名.txt”;設(shè)所需要的R程序名為“基于腫瘤類期刊文獻計量學(xué)指標進行主成分分析.txt”:

#設(shè)置路徑為"F://CCC/"

setwd("F://CCC/")

#下面data1中的數(shù)據(jù)為23行9列

data1<- read.table("23種腫瘤類期刊文獻計量學(xué)指標資料含變量名.txt",header=TRUE)

#刪掉第1列:期刊名稱

data<- data1[,-1]

attach(data)

#假定已安裝stats子程序包

#install.packages("survival")

#加載stats子程序包

library(stats)

#基于princomp()函數(shù)且相關(guān)矩陣進行主成分分析

model1=princomp(data,cor=TRUE,scores=TRUE)

#系數(shù)保留4位小數(shù)

options(digits=4)

#輸出模型1的分析結(jié)果

summary(model1,loading=TRUE)

#繪制模型1的碎石圖

screeplot(model1,type="line",main="碎石圖")

#基于模型1且前兩個主成分變量繪制各指標的散布圖

biplot(model1)

#計算各主成分變量在各樣品上的預(yù)測值

predict(model1)

【R輸出結(jié)果】

Importance of components:

Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7Comp.8Standarddeviation2.06091.12190.98290.826810.700170.523890.255190.120254ProportionofVariance0.53090.15730.12080.085450.061280.034310.008140.001808CumulativeProportion0.53090.68820.80900.894470.955740.990050.998191.000000

以上為第1部分輸出結(jié)果,其中,第1行“標準差”實際上就是“特征值的平方根”。

Loadings:

Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7Comp.8x10.8480.2350.169-0.270-0.326x2-0.322-0.174-0.4110.3010.775x3-0.4210.3190.2770.7890.119x4-0.4380.219-0.433-0.173-0.734x5-0.4360.297-0.3370.163-0.4010.647x6-0.354-0.532-0.119-0.359-0.665x7-0.268-0.3280.4420.695-0.218-0.240-0.165x8-0.3710.199-0.3650.232-0.4080.646-0.222

以上為第2部分輸出結(jié)果,即“特征向量”,各列中空缺處為“0”。與前面“SAS輸出的特征向量”進行比較,在第一主成分變量上“差距”非常大,很可能是“定義或算法(如:是否采取了坐標軸旋轉(zhuǎn))”不同所致。選取幾個主要的主成分變量就可近似取代原先8個變量信息的直觀判斷方法見圖3。

圖3 碎石圖

R軟件還可以以第一主成分變量為橫坐標軸、以第二主成分變量為縱坐標軸繪制出散布圖(因篇幅所限,此圖省略),從此圖上可看出:在8個文獻計量學(xué)指標中,唯獨x1(載文量)很特別,其他7個指標的性質(zhì)和表現(xiàn)比較接近。

因篇幅所限,各主成分變量在各樣品上的預(yù)測值(或得分)從略。

【說明】在醫(yī)學(xué)研究中,要謹慎使用主成分分析。關(guān)鍵在于:應(yīng)注意本文中所提及的“數(shù)據(jù)結(jié)構(gòu)”。若針對文獻[3]的資料,如何使用主成分分析,請讀者認真思考。

參考文獻

[1] 胡良平. 面向問題的統(tǒng)計學(xué)——(3)試驗設(shè)計與多元統(tǒng)計分析[M]. 北京: 人民衛(wèi)生出版社, 2012: 19-39.

[2] 李詩羽, 張飛, 王正林. 數(shù)據(jù)分析: R語言實戰(zhàn)[M]. 北京: 電子工業(yè)出版社, 2015: 211-220.

[3] 趙巍峰, 彭敏, 謝博, 等. 健康教育對精神分裂癥患者病恥感影響的持續(xù)性[J]. 四川精神衛(wèi)生, 2017, 30(6): 519-523.

猜你喜歡
計量學(xué)特征向量特征值
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
生物化學(xué)計量學(xué)原理在離散生物動力系統(tǒng)的應(yīng)用
云南化工(2021年5期)2021-12-21 07:41:34
一類帶強制位勢的p-Laplace特征值問題
針刺治療失眠癥的文獻計量學(xué)分析
單圈圖關(guān)聯(lián)矩陣的特征值
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
基于科學(xué)計量學(xué)的公安院??蒲信c評價
基于商奇異值分解的一類二次特征值反問題
阳城县| 新乐市| 宾川县| 聂拉木县| 兴文县| 宿松县| 北流市| 五台县| 十堰市| 蒲城县| 高陵县| 朝阳县| 桂阳县| 工布江达县| 正阳县| 崇左市| 泌阳县| 胶州市| 祁门县| 新民市| 洪洞县| 罗甸县| 赣榆县| 博乐市| 蓬溪县| 二连浩特市| 龙陵县| 武川县| 新田县| 和田县| 辽阳县| 洞口县| 福海县| 呼伦贝尔市| 五峰| 青浦区| 渭南市| 垣曲县| 根河市| 阳曲县| 桑日县|