惠月月,張曉琴
(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)
?
一種增強(qiáng)雙標(biāo)圖可視化的方法
惠月月,張曉琴
(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原030006)
雙標(biāo)圖是一種廣泛應(yīng)用的可視化分析方法, 但是當(dāng)所研究的數(shù)據(jù)包含較多變量時(shí),如果直接用雙標(biāo)圖進(jìn)行分析會(huì)導(dǎo)致圖中較多變量重疊,不能很清晰地觀察變量間的相關(guān)關(guān)系,可視化程度較低,分析效果不精確。針對(duì)上述問題,故引入一種新的方法——聚類雙標(biāo)圖,首先通過對(duì)原始數(shù)據(jù)進(jìn)行聚類分析,得到新的數(shù)據(jù)集,然后對(duì)得到的數(shù)據(jù)集進(jìn)行雙標(biāo)圖分析。該方法不僅保留了數(shù)據(jù)間的絕大多數(shù)信息,而且使得雙標(biāo)圖的可視化程度增強(qiáng)。對(duì)新的方法進(jìn)行實(shí)證分析,并與原始數(shù)據(jù)構(gòu)成的雙標(biāo)圖進(jìn)行比較研究,驗(yàn)證了該方法的有效性。
雙標(biāo)圖;聚類分析;可視化
隨著e時(shí)代的到來,數(shù)據(jù)可視化[1]越來越受到人們的歡迎,其基本思想是將數(shù)據(jù)庫中的每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素來表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同維度觀測(cè)數(shù)據(jù),進(jìn)而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。數(shù)據(jù)可視化主要借助于圖形化手段,把隱藏在數(shù)據(jù)內(nèi)部的信息展示出來,清晰有效地傳達(dá)與溝通信息。Klavans和Boyack將科學(xué)制圖[2]定義為把元素集及它們之間的關(guān)系展示在一張二維圖中,即將多維數(shù)據(jù)繪制成一張低維圖,意味著要損失代表數(shù)據(jù)的信息,低維圖中希望最小化信息損失。
雙標(biāo)圖是一種典型的二維圖,由Gabriel[3]于1971年首次提出,Gower和Hand[4]于1996年將其與數(shù)據(jù)分析結(jié)合起來。雙標(biāo)圖是多元數(shù)據(jù)的圖形表示,數(shù)據(jù)陣的元素通過點(diǎn)和向量來表示,點(diǎn)表示矩陣的行,向量表示矩陣的列,向量之間夾角的余弦值表示兩個(gè)列變量指標(biāo)的相關(guān)性。雙標(biāo)圖基于主成分分析,能夠很直觀地反映變量與變量,樣本與樣本,變量與樣本之間的關(guān)系。此分析方法已被應(yīng)用到不同領(lǐng)域,如精神病學(xué)[5],遺傳學(xué)[6],數(shù)據(jù)檢查[7],測(cè)試環(huán)境評(píng)價(jià)[8],文獻(xiàn)計(jì)量學(xué)[9],基因型[10],降雨的變化[11],社會(huì)指數(shù)[12]等等。
雙標(biāo)圖雖是可視化的一種方法,但處理多維數(shù)據(jù)時(shí),變量與變量之間存在相關(guān)性,畫出的雙標(biāo)圖中很多向量之間交織在一起,可視性下降。為了解決這類問題,可通過減少變量來實(shí)現(xiàn)。方法之一是選擇變量,但可能丟失原始數(shù)據(jù)的部分信息。為此,本文提出一種新方法來減少原始變量的維度,并盡量保存原始數(shù)據(jù)的完整信息。
本節(jié)將雙標(biāo)圖概念與分析步驟, 以及3種常見類型的雙標(biāo)圖作簡(jiǎn)單介紹。
假設(shè)原始數(shù)據(jù)矩陣X包含n個(gè)樣本和p個(gè)變量,且有如下表示:
(1)
其中xij表示矩陣X的第i行與第j列對(duì)應(yīng)的元素,xj=(x1j,x2j,…,xnj)Τ(j=1,2,…,p)表示第j個(gè)變量觀測(cè)值,xi=(xi1,xi2,…,xip)(i=1,2,…,n)表示第i個(gè)樣本觀測(cè)值。雙標(biāo)圖分析步驟如下:
步驟1對(duì)(1)式進(jìn)行標(biāo)準(zhǔn)化,即消除量綱,得到矩陣Z,且
Z=Zn×p=(zij)n×p=(z1,z2,…,zp)
(2)
其中
zj=(z1j,z2j,…,znj)Τ,j=1,2,…,p
步驟2對(duì)(2)中矩陣Z進(jìn)行奇異值分解
Z=UΓVT
步驟3計(jì)算雙標(biāo)圖坐標(biāo)
Z=FGT
通常,在雙標(biāo)圖中根據(jù)α取值的不同有3種類型雙標(biāo)圖,具體如下:
1)協(xié)變量雙標(biāo)圖:此時(shí)α=0,n個(gè)觀測(cè)點(diǎn)的坐標(biāo)是F=U,p個(gè)變量的坐標(biāo)是G=VΓ。這種雙標(biāo)圖適合分析變量及其之間的關(guān)系。
3)形式雙標(biāo)圖: 此時(shí)α=1,n個(gè)觀測(cè)點(diǎn)的坐標(biāo)是F=UΓ,p個(gè)變量的坐標(biāo)是G=V。這種雙標(biāo)圖適合分析觀測(cè)點(diǎn)及其之間的關(guān)系。
圖 1 中的二維雙標(biāo)圖各元素的解釋如下:
(a)點(diǎn)近似表示矩陣X的行(觀測(cè)點(diǎn))信息;
(b)向量近似表示矩陣X的列(變量)信息;
(c)兩點(diǎn)之間的距離D(i,j)近似表示兩樣本的相似性;
(e)兩向量之間的夾角余弦值近似表示兩列指標(biāo)間的相關(guān)性;
(f)點(diǎn)到向量的距離近似表示標(biāo)準(zhǔn)化矩陣中該樣本點(diǎn)在此列指標(biāo)下的值。
圖1 二維雙標(biāo)圖中元素的解釋Fig.1 The interpretation of elements in a two-dimensional biplot
步驟4雙標(biāo)圖中的相關(guān)計(jì)算
令F[i,1]與F[i,2]分別表示矩陣F的第i行第1列,第i行第2列對(duì)應(yīng)的元素,G[i,1]與G[i,2]分別表示矩陣G的第i行第1列,第i行第2列對(duì)應(yīng)的元素。
樣本到原點(diǎn)的距離:
向量的長(zhǎng)度:
兩向量的夾角余弦值:
如果數(shù)據(jù)集中變量較多,用雙標(biāo)圖解釋時(shí)可視化可能會(huì)減弱。為了增強(qiáng)可視化,本文結(jié)合聚類分析來減少原始變量的維度,并保存了原始數(shù)據(jù)的完整信息。基本思想:首先,用聚類分析中的最長(zhǎng)距離法將原始數(shù)據(jù)集中變量分類;其次,對(duì)每一類提取其算術(shù)均值變量,此算術(shù)均值變量代表這一類的新變量,簡(jiǎn)稱均值變量,所有類的均值變量構(gòu)成一個(gè)新數(shù)據(jù)矩陣;最后,對(duì)此新數(shù)據(jù)矩陣做雙標(biāo)圖分析,分析類與類之間的關(guān)系。如果對(duì)新數(shù)據(jù)矩陣做雙標(biāo)圖分析,畫出的雙標(biāo)圖還存在之前的弊端,即類與類之間依然是擁擠、模糊狀態(tài),則循壞第一步驟,繼續(xù)分類、提取,以此類推。詳細(xì)描述如下。
考慮式(1)中的數(shù)據(jù)矩陣X。
步驟1利用聚類方法中的最長(zhǎng)距離法將原始數(shù)據(jù)X的p個(gè)變量分類,分為M(M
(3)
步驟2計(jì)算(3)中每一類Xk(k=1,2,…,M)的均值變量yk(k=1,2,…,M),且
所有M個(gè)均值變量構(gòu)成一個(gè)新數(shù)據(jù)矩陣Y:
Y=(yij)n×M=(y1,y2,…,yM),M
(4)
步驟3對(duì)(4)式中的新矩陣Y做雙標(biāo)圖分析,本文主要考慮α=0的協(xié)變量雙標(biāo)圖。
步驟4對(duì)(3)式的M類中的每一類變量進(jìn)行分析,分析每類原始變量之間及原始變量與均值變量之間的關(guān)系,使分析更加具體化。
固定k,Xk=(xpk-1+1,xpk-1+2,…,xpk)類的均值變量為yk,此類原始變量和均值變量構(gòu)成新的第k類,則
Qk=(xpk-1+1,xpk-1+2,…,xpk,yk)
用于分析pk-pk-1+1個(gè)變量之間的關(guān)系。
步驟5第4步驟中每一類按照步驟3畫出相應(yīng)的雙標(biāo)圖,如果變量之間還存在上述弊端,即變量之間依然是擁擠、模糊狀態(tài),則循壞第一步驟,對(duì)此類原始變量繼續(xù)分類、提取,到第4 步驟繼續(xù)判斷是否要進(jìn)行第5步驟,以此類推,直到可以直觀分析所有的原始變量。
本節(jié)將給出一個(gè)實(shí)例,并使用第2節(jié)中的方法對(duì)其進(jìn)行分析,以驗(yàn)證本文方法的有效性。
隨著改革開放的推進(jìn),國民經(jīng)濟(jì)的快速發(fā)展,各個(gè)行業(yè)間發(fā)展不平衡導(dǎo)致各行就業(yè)人員收入差距也有大的變化趨勢(shì),而就業(yè)人員的平均工資是各個(gè)行業(yè)收入的一個(gè)直觀表現(xiàn)。表1是2014 年分行業(yè)分崗位就業(yè)人員年平均工資,該數(shù)據(jù)來自于2014年國家統(tǒng)計(jì)局?jǐn)?shù)據(jù),其中,V1(采礦業(yè)),V2(制造業(yè)),V3(電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)業(yè)),V4(建筑業(yè)),V5(批發(fā)和零售業(yè)),V6(交通運(yùn)輸、倉儲(chǔ)和郵政業(yè)),V7(住宿和餐飲業(yè)),V8(信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)),V9(房地產(chǎn)業(yè)),V10(租賃和商務(wù)服務(wù)業(yè)),V11(科學(xué)研究和技術(shù)服務(wù)業(yè)),V12(水利、環(huán)境和公共設(shè)施管理業(yè)),V13(居民服務(wù)、修理和其他服務(wù)業(yè)),V14(教育),V15(衛(wèi)生和社會(huì)工作),V16(文化、體育和娛樂業(yè)),P1(就業(yè)人員),P2(中層及以上管理人員),P3(專業(yè)技術(shù)人員),P4(辦事人員和有關(guān)人員),P5(商業(yè)、服務(wù)業(yè)人員),P6(生產(chǎn)、運(yùn)輸設(shè)備操作人員及有關(guān)人員)。
如果直接對(duì)數(shù)據(jù)集表1中的數(shù)據(jù)做雙標(biāo)圖分析,可得到圖2(a)。顯見16個(gè)變量之間的關(guān)系不能很清楚地區(qū)分開,降低了可視化的程度。故對(duì)此數(shù)據(jù)進(jìn)行雙標(biāo)圖分析之前,先用聚類分析進(jìn)行分類,分類結(jié)果如表2。
圖2 (a)2014 年分行業(yè)分崗位就業(yè)人員年平均工資的 協(xié)變量雙標(biāo)圖;(b)新數(shù)據(jù)集Y構(gòu)成的雙標(biāo)圖;(c)第一 類Q1數(shù)據(jù)集構(gòu)成的雙標(biāo)圖;(d)第二類Q2數(shù)據(jù)集構(gòu) 成的雙標(biāo)圖;(e)第三類Q3數(shù)據(jù)集構(gòu)成的雙標(biāo)圖Fig.2 (a) The covariance biplot of the average wage of employed personnel from different post divisions and industries in 2014;(b) The biplot was made by the new data set of Y; (c)The biplot was made by the first class data set of Q1; (d)The biplot was made by the second class data set of Q2; (e)The biplot was made by the third class data set of Q3
Tab.1 The average wage of employed personnel from different post divisions and industries in 2014 (Yuan)
表2 表1中原始變量的分類結(jié)果及每 一類對(duì)應(yīng)的均值變量Tab.2 The classification results of the original variables and the corresponding mean variables of each class in Table 1
表2中, 每個(gè)均值變量Yj是第Qj(j=1,2,3)類原始變量對(duì)應(yīng)的算術(shù)平均值,且:
圖2(b)是由新數(shù)據(jù)集Y得到的雙標(biāo)圖,每一類中的原始變量及其均值變量得到的新雙標(biāo)圖,如圖2(c),(d),(e),相關(guān)數(shù)據(jù)計(jì)算結(jié)果分別見表3、4、5、6??傻玫饺缦陆Y(jié)論:
表3 圖2(b)中6個(gè)觀測(cè)點(diǎn)中的每一點(diǎn)到原點(diǎn)的距離及其秩Tab.3 The distances and ranks between each of 6 observations with the origin in the Figure 2 (b)
表4 圖2(b)中三個(gè)均值變量Y1,Y2,Y3的長(zhǎng)度及其秩Tab.4 The length and ranks between mean variables Y1,Y2, Y3 in the Figure 2 (b)
表5 圖2(b)中三個(gè)均值變量之間的夾角余弦值Tab.5 The angles between any two mean variables in the Figure 2 (b)
1)從點(diǎn)的角度,也就是從不同崗位人員的平均工資來看,點(diǎn)2(中層及以上管理人員)距離原點(diǎn)是最遠(yuǎn)(表3),并且與所有向量都是同方向的,說明中層及以上管理人員在各個(gè)行業(yè)中工資是最高的。點(diǎn)4(辦事人員和有關(guān)人員)距離坐標(biāo)原點(diǎn)最近,說明辦事人員和有關(guān)人員在各個(gè)行業(yè)上的工資相差不大,接近總體的一個(gè)均值,比較穩(wěn)定,其次是點(diǎn)1(就業(yè)人員)距離坐標(biāo)原點(diǎn)較近,說明就業(yè)人員在各個(gè)行業(yè)上的工資也是相差不大,接近總體的一個(gè)均值。點(diǎn)3(專業(yè)技術(shù)人員)與所有向量同方向,所以專業(yè)技術(shù)人員在各個(gè)行業(yè)上的平均工資較高,但是工資間相差較大。表6中,1(就業(yè)人員)和4(辦事人員和有關(guān)人員)的距離最近,說明在各個(gè)行業(yè)上的這兩個(gè)崗位工資是相近的。
表6 圖2(b)中6個(gè)觀測(cè)點(diǎn)之間的距離Tab.6 The distances between each of 6 observations in the Figure 2 (b)
2)從向量的角度,也就是從不同行業(yè)的平均工資來看。原始數(shù)據(jù)經(jīng)分析變?yōu)槿?,第一類Y1包括:V1(采礦業(yè)),V3(電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)業(yè)),V6(交通運(yùn)輸、倉儲(chǔ)和郵政業(yè)),V16(文化、體育和娛樂業(yè));第二類Y2包括:V2(制造業(yè)),V4(建筑業(yè)),V5(批發(fā)和零售業(yè)),V7(住宿和餐飲業(yè)),V9(房地產(chǎn)業(yè)),V12(水利、環(huán)境和公共設(shè)施管理業(yè)),V13(居民服務(wù)、修理和其他服務(wù)業(yè)),V14(教育),V15(衛(wèi)生和社會(huì)工作);第三類Y3包括:V8(信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)),V10(租賃和商務(wù)服務(wù)業(yè)),V11(科學(xué)研究和技術(shù)服務(wù)業(yè))。
第一類中向量Y1的長(zhǎng)度最長(zhǎng)(表4),這些行業(yè)間的工資差距較大,平均工資較高,處于中等水平。從圖2(c)來看,V1(采礦業(yè))和V3(電力、熱力、燃?xì)饧八a(chǎn)和供應(yīng)業(yè))之間夾角最小,說明這兩個(gè)行業(yè)間工資差距較小。V16(文化、體育和娛樂業(yè))行業(yè)工資距離此類平均工資Y1最近,且向量長(zhǎng)度最短,故此類工資比較穩(wěn)定。
第二類中向量Y2的長(zhǎng)度最短(表4),同一個(gè)行業(yè)不同崗位人員的工資相差不大,且平均工資較低,但它離主成分軸最近,故它是較穩(wěn)定的。從圖2(d)來看,V4(建筑業(yè))距離Y2最近,其次是 V7(住宿和餐飲業(yè)),故這兩個(gè)行業(yè)的工資接近此類的平均工資Y2,較穩(wěn)定。V12(水利、環(huán)境和公共設(shè)施管理業(yè))和 V13(居民服務(wù)、修理和其他服務(wù)業(yè))之間的夾角余弦值很小,向量的長(zhǎng)度基本也相同,說明兩者的發(fā)展趨勢(shì)是相類似的。V9(房地產(chǎn)業(yè))的工資偏低是由于新政策的實(shí)施,房地產(chǎn)股下跌所致。V14(教育)向量的長(zhǎng)度較長(zhǎng),偏離均值向量Y2,故不太穩(wěn)定。
第三類中向量Y3的長(zhǎng)度居中(表4),是平均工資很高的行業(yè),這些行業(yè)的平均工資在全國各行業(yè)里都是遙遙領(lǐng)先的。從圖2(e)來看,V10(租賃和商務(wù)服務(wù)業(yè))向量的長(zhǎng)度最長(zhǎng),相應(yīng)的工資是最高的,互聯(lián)網(wǎng)的發(fā)展和國家出臺(tái)的新政策帶動(dòng)了軟件產(chǎn)品和商務(wù)服務(wù)業(yè)的發(fā)展,進(jìn)而使得該行業(yè)就業(yè)人員的收入非常高,并帶動(dòng)了V8(信息傳輸、軟件和信息技術(shù)服務(wù)業(yè))、V11(科學(xué)研究和技術(shù)服務(wù)業(yè))等行業(yè)的發(fā)展,這個(gè)從圖2(e)中V8和V11向量幾乎重合,向量長(zhǎng)度基本相同可觀察到。
本文針對(duì)數(shù)據(jù)集中多變量的問題,提出了一種新的雙標(biāo)圖分析方法,該方法結(jié)合聚類分析對(duì)變量間的相關(guān)性進(jìn)行分類,不僅保留了原始數(shù)據(jù)集的所有信息,而且降低了數(shù)據(jù)的維度,使得可視化效果增強(qiáng)。并對(duì)改進(jìn)的雙標(biāo)圖進(jìn)行實(shí)例分析,通過構(gòu)造2014 年分行業(yè)分崗位就業(yè)人員年平均工資的雙標(biāo)圖。其結(jié)果表明,改進(jìn)的雙標(biāo)圖比原來的雙標(biāo)圖可視化程度更好。因此,當(dāng)數(shù)據(jù)集中含有較多變量時(shí),采用本文提出的雙標(biāo)圖分析方法是一個(gè)不錯(cuò)的選擇。當(dāng)然,本文還存在著一些問題,如類的數(shù)目的選擇,到底選幾類是最科學(xué)的,還需要進(jìn)一步的探索。
[1] GREENACRE M J.Theory and Applications of Correspondence Analysis[M].London:Academic Press,1984.
[2] KLAVANS R,BOYACK K W.Toward a consensus map of science[J].Journal of the American Society for information science and technology,2009,60(3):455-476.
[3] GABRIEL K R.The biplot graphical display of matrices with application to principal component analysis[J].Biometrika,1971,58(3):453-467.
[4] GOWER J C,HAND D J.Biplots[M].London:Chapman and Hall,1996.
[5] STRAUSS J S,GABRIEL K R,KOKES R F,et al.Do psychiatric patients fit their diagnoses? patterns of symptomatology as described with the biplot[J].The Journal of nervous and mental disease,1979,167(2):105-113.
[6] CHAPMAN S,SCHENK P,KAZAN K,et. al.Using biplots to interpret gene expression patterns in plants[J].Bioinformatics,2002,18(1):202-204.
[7] KOHLER U,LUNIAK M.Data inspection using biplots[J].Stata Journal,2005,5(2):208-223.
[8] YAN W,HOLLAND J B.A heritability-adjusted gge biplot for test environment evaluation[J].Euphytica,2010,171(3):355-369.
[9] SALINAS D T,GARCIA N R,CONTRERAS E J,et al.On the use of biplot analysis for multivariate bibliometric and scientific indicators[J].Journal of the American Society for Information Science and Technology,2013,64(7):1468-1479.
[10]NOERWIJATI K,PRAJITNO D.Fresh tuber yield stability analysis of fifteen cassava genotypes across five environments in east java (indonesia) using gge biplot[J].Energy Procedia,2014,47:156-165.
[11]ALKAN B B,ATAKAN C,AKDI Y.Visual analysis using biplot techniques of rainfall changes over turkey[J].MAPAN,2015,30(1):25-30.
[12]ALVAREZ I G,VILLARDON M P G,ROSA M R.Analysis of the sustainable society index worldwide: A study from the biplot perspective[J].Social Indicators Research,2015,120(1):29-65.
[13]GOOD I J.Some applications of the singular decomposition of a matrix[J].Technometrics,1969,11(4):823-831.
A method for enhanced visualization of biplot
HUI Yueyue,ZHANG Xiaoqin
(School of Mathematical Sciences, Shanxi University, Taiyuan,Shanxi 030006, China)
Biplot is a visually analytical method, which is widely used. However, when there are many variables in the dataset, the biplot method is applied directly, which will lead to the problem of overlapping together between variables and then it can' t clearly observe the relationship between the variables, so the result of visualization will be weaken and not accurate. For the problem, therefore, a new method of cluster biplot was presented. First, the original dataset is processed by cluster analysis, and get the new dataset, then the new dataset was subjected to the analysis of biplot,which not only retains the all most information of the original dataset, but also makes the effect of visualization better. An empirical analysis for the new method, based on the biopiot of the original data were compared to verify the validity of the method.
biplot; cluster analysis; visualization
1004—5570(2016)04-0062-06
2016-01-10
國家自然科學(xué)基金青年項(xiàng)目(71503151)
惠月月(1992-), 女, 碩士研究生, 研究方向: 統(tǒng)計(jì)機(jī)器學(xué)習(xí), E-mail:1498787801@qq. com.
O212.4
A