国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多圖模型及其在宏觀經(jīng)濟(jì)指標(biāo)相關(guān)分析中的應(yīng)用

2020-02-07 04:43:58崔婉琪鄧笑笑
統(tǒng)計(jì)與信息論壇 2020年1期
關(guān)鍵詞:邊數(shù)總產(chǎn)值高斯

高 偉,崔婉琪,鄧笑笑

(西安財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,陜西 西安 710100)

一、引 言

多變量之間的相關(guān)關(guān)系是統(tǒng)計(jì)學(xué)研究的一個(gè)基礎(chǔ)問(wèn)題,多變量之間不僅存在直接相互作用,還存在以中間變量為橋梁的間接相互作用,傳統(tǒng)的相關(guān)性分析方法難以處理間接關(guān)系。高斯圖模型是變量服從多維正態(tài)分布的圖模型,用結(jié)點(diǎn)表示隨機(jī)變量,結(jié)點(diǎn)之間的無(wú)向邊表示變量之間的條件相依關(guān)系,可以區(qū)別和處理間接關(guān)系,分析高維數(shù)據(jù)間復(fù)雜的相依結(jié)構(gòu),為建模分析和預(yù)測(cè)提供了全面準(zhǔn)確的信息,在統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、生物技術(shù)、社會(huì)學(xué)等方面得到廣泛應(yīng)用[1-5]。

目前關(guān)于高斯圖模型的研究主要集中在單個(gè)圖模型的結(jié)構(gòu)學(xué)習(xí)和應(yīng)用方面。然而在許多應(yīng)用領(lǐng)域中隨機(jī)變量的觀測(cè)數(shù)據(jù)是具有分組特征的多源數(shù)據(jù),來(lái)自于不同的又有一定聯(lián)系的系統(tǒng),將隨機(jī)變量間的相依結(jié)構(gòu)用圖模型表示,這些圖模型同時(shí)具有共同特征和各自獨(dú)有的結(jié)構(gòu)。例如不同經(jīng)濟(jì)發(fā)展水平的地區(qū),表示其宏觀經(jīng)濟(jì)變量間相互聯(lián)系的圖模型,除各自獨(dú)有的聯(lián)系外,還存在相同的條件相關(guān)和條件獨(dú)立聯(lián)系。如果分別估計(jì)單個(gè)圖模型,會(huì)忽視共同的結(jié)構(gòu)信息。聯(lián)合估計(jì)方法通過(guò)對(duì)組間差異施加約束同時(shí)估計(jì)具有共性和個(gè)性特征的多個(gè)圖模型,如連接單個(gè)圖模型的分層懲罰方法[6-7],通過(guò)廣義融合Lasso或組Lasso約束類間差異的聯(lián)合圖Lasso方法等[8-10]。Guo等通過(guò)分層懲罰處理多個(gè)圖模型精度矩陣中共同的零元素,但只考慮了圖模型中無(wú)邊相連的結(jié)點(diǎn),沒(méi)有考慮有聯(lián)系的結(jié)點(diǎn)[6]。張凌潔和張海提出了一種連接單個(gè)圖模型的分層懲罰方法對(duì)多圖模型進(jìn)行估計(jì)[7]。Danaher等提出聯(lián)合圖Lasso方法,通過(guò)廣義融合Lasso或組Lasso約束類間差異,估計(jì)多個(gè)高斯圖模型[8]。Zhu等對(duì)精度矩陣之間的每個(gè)差異引入1懲罰,解決聯(lián)合估計(jì)問(wèn)題[9]。Yang等提出了融合多類圖Lasso模型,該模型通過(guò)融合Lasso 懲罰激勵(lì)相鄰圖之間的共性,并提出了可分解為子圖進(jìn)行估計(jì)的高維圖篩選準(zhǔn)則[10]。上述方法在聯(lián)合估計(jì)多個(gè)圖模型結(jié)構(gòu)時(shí),并沒(méi)有用到多源數(shù)據(jù)結(jié)構(gòu)已知的信息。Ma和 Michailidis在模型結(jié)構(gòu)間存在先驗(yàn)信息的條件下,聯(lián)合估計(jì)多個(gè)高斯圖模型,并證明了提出方法的相容性,但假設(shè)已知每對(duì)變量間的相關(guān)關(guān)系在不同類間的差異,在實(shí)際應(yīng)用中過(guò)于嚴(yán)格[11]。

本文假設(shè)數(shù)據(jù)來(lái)自于多個(gè)同時(shí)具有相同結(jié)構(gòu)和各自獨(dú)有聯(lián)系的圖模型,發(fā)展了多圖聯(lián)合估計(jì)方法,用數(shù)值模擬驗(yàn)證了方法的有效性。最后將方法應(yīng)用于不同經(jīng)濟(jì)發(fā)展水平省份宏觀經(jīng)濟(jì)變量間的相關(guān)特征分析,揭示其經(jīng)濟(jì)發(fā)展的共性和差異,為制定經(jīng)濟(jì)發(fā)展政策提供依據(jù)。

二、多圖模型及其聯(lián)合估計(jì)方法

(一)多圖模型

多源數(shù)據(jù)的異構(gòu)性使得數(shù)據(jù)出現(xiàn)分類的情況,按照一定的標(biāo)準(zhǔn)把結(jié)構(gòu)相似的數(shù)據(jù)歸為一組,每組的相依結(jié)構(gòu)用一個(gè)圖模型表示。 由于組間結(jié)構(gòu)的差異,圖模型的邊集不一定相同,但由于其表示的是同一組隨機(jī)變量之間的聯(lián)系,又會(huì)存在某些共同特征。如果對(duì)每類數(shù)據(jù)分別使用圖模型方法建模,將忽視共同的結(jié)構(gòu),而把數(shù)據(jù)集融合,建立同一個(gè)圖模型,則導(dǎo)致差異信息損失。聯(lián)合估計(jì)方法通過(guò)對(duì)不同圖模型的結(jié)構(gòu)差異施加約束,同時(shí)學(xué)習(xí)多個(gè)圖模型,考慮到各類間的共同信息,保持共同結(jié)構(gòu)的同時(shí)允許不同類間存在差異。本文主要研究如下定義的多圖模型。

定義1:設(shè)p維隨機(jī)變量X=(X1,X2,…,Xp)T,K組觀測(cè)值分別來(lái)自于M(M≤K)個(gè)正態(tài)分布N(0p,Σm)。M個(gè)高斯圖模型Gm=(V,Em),m=1,2,…,M,其中結(jié)點(diǎn)集V={1,2,…,p},Em表示結(jié)點(diǎn)對(duì)應(yīng)的隨機(jī)變量間相依結(jié)構(gòu)。 即K組觀測(cè)值中,k1個(gè)來(lái)自于圖模型G1,…,kM個(gè)來(lái)自于圖模型GM,k1+k2+…+kM=K。

(二)聯(lián)合估計(jì)方法

將單個(gè)圖模型結(jié)構(gòu)估計(jì)的Lasso方法推廣到多圖模型,聯(lián)合估計(jì)M個(gè)圖模型。 Meinshausen等將求解精度矩陣的問(wèn)題轉(zhuǎn)換為回歸系數(shù)估計(jì)問(wèn)題,提出高斯圖模型結(jié)構(gòu)學(xué)習(xí)的Lasso方法[12]。Yuan等將Lasso方法推廣到分組數(shù)據(jù)上,提出了組Lasso方法,約束來(lái)自于同一組的變量其系數(shù)同時(shí)都為零或都不為零[13]。本文將高斯圖模型結(jié)構(gòu)學(xué)習(xí)的Lasso方法推廣到分組結(jié)構(gòu)上,得到聯(lián)合估計(jì)多個(gè)圖模型的組Lasso方法,即求解如下的分組優(yōu)化問(wèn)題:

(1)

(2)

進(jìn)一步,在式(2)得到的圖模型基礎(chǔ)上,用圖Lasso方法再次進(jìn)行邊集選擇,得到更精確的圖模型[14]:

(3)

m=1,2,…,M

聯(lián)合估計(jì)方法將構(gòu)建多圖聯(lián)合模型的問(wèn)題轉(zhuǎn)化為K個(gè)回歸方程在1范數(shù)和分組約束下的求解問(wèn)題,避免了直接估計(jì)精度矩陣Θ。通過(guò)分組懲罰使M個(gè)類別之間的精度矩陣具有相似性。由于求解是按照不同變量獨(dú)立進(jìn)行的,有可能導(dǎo)致模型給出的結(jié)果具有不對(duì)稱性,即出現(xiàn)和結(jié)果不對(duì)稱情況??梢钥紤]和中任意一個(gè)非0,就認(rèn)為圖中結(jié)點(diǎn)i與j有邊相連。優(yōu)化問(wèn)題(1)中涉及到懲罰參數(shù)的選擇,本文用貝葉斯信息準(zhǔn)則(BIC)平衡模型擬合優(yōu)度及其復(fù)雜性,

BIC(λ)=

(4)

三、數(shù)值模擬

本文通過(guò)模擬數(shù)據(jù)驗(yàn)證多圖模型聯(lián)合估計(jì)方法的有效性。由推論1可以發(fā)現(xiàn),多圖模型聯(lián)合估計(jì)的收斂速度和變量個(gè)數(shù)、樣本量以及協(xié)方差結(jié)構(gòu)等有關(guān)。我們考慮了不同圖結(jié)構(gòu)、變量個(gè)數(shù)和樣本量對(duì)多圖聯(lián)合估計(jì)方法的影響,并與單獨(dú)估計(jì)的圖lasso方法進(jìn)行對(duì)比分析。

圖模型結(jié)構(gòu)估計(jì)的有效性用精確率(Precision)、召回率(Recall)和F1得分來(lái)評(píng)價(jià),即:

其中,TP表示正確辨識(shí)的邊數(shù),F(xiàn)P表示誤判為存在但實(shí)際不存在的邊數(shù),F(xiàn)N表示誤判為不存在但實(shí)際存在的邊數(shù)。精確率為正確辨識(shí)的邊數(shù)占辨識(shí)的總邊數(shù)比例,召回率為正確辨識(shí)的邊數(shù)占實(shí)際總邊數(shù)的比例。懲罰參數(shù)值較大時(shí),辨識(shí)的邊數(shù)較少,精確率大而召回率?。粦土P參數(shù)值較小時(shí),辨識(shí)的邊數(shù)較多,精確率小而召回率大。F1得分是精確率和召回率的調(diào)和均值,只有當(dāng)兩者都大時(shí),才能得到高的F1得分值。

給定高斯圖模型個(gè)數(shù)M和變量個(gè)數(shù)p,每類生成一組模擬數(shù)據(jù)。首先生成邊集,對(duì)共同結(jié)構(gòu)E0,設(shè)邊數(shù)為|E0|,|E0|組不同的邊(i,j),i、j=1,2,…,p,i≠j。每個(gè)高斯圖模型的獨(dú)立結(jié)構(gòu)邊數(shù)設(shè)為φ|E0|,φ(φ>0)表示圖模型獨(dú)有的邊數(shù)與共有的邊數(shù)之間的比值。分別隨機(jī)抽取φ|E0|組不同于E0的邊作為每個(gè)圖模型各自的邊,結(jié)合共同結(jié)構(gòu)E0,組成多圖模型的邊集Em,m=1,2,…,M。然后生成精度矩陣,精度矩陣的非對(duì)角線非零元素位置對(duì)應(yīng)于邊集Em,從區(qū)間[-1,-0.5]∪[0.5,1]中產(chǎn)生隨機(jī)數(shù)為其取值,對(duì)角線元素取值設(shè)為相同,且保證矩陣的正定性。本節(jié)模擬用精度矩陣直接求逆的方法得到協(xié)方差矩陣,當(dāng)變量維數(shù)較高時(shí),建議采用優(yōu)化方法計(jì)算協(xié)方差矩陣Σm。最后分別產(chǎn)生n個(gè)多維正態(tài)分布N(0p,Σm)的隨機(jī)數(shù)作為樣本。

表1 p=20,不同φ|E0|兩種方法結(jié)果比較

接下來(lái)設(shè)M=5,變量個(gè)數(shù)p和公共邊數(shù)都分別取10,20和50,獨(dú)有的邊數(shù)為0.3|E0|,樣本量分別取n=50和n=100,模擬進(jìn)行100次。表2的結(jié)果表明,樣本量一定,隨著變量維數(shù)的增加,兩種方法的F1得分都減少,聯(lián)合估計(jì)方法減小幅度小于單獨(dú)估計(jì)方法;維數(shù)一定,F(xiàn)1得分隨樣本量增加而提高,聯(lián)合估計(jì)方法增加的幅度大于單獨(dú)估計(jì)方法。各種情況下,聯(lián)合估計(jì)方法都優(yōu)于單獨(dú)估計(jì)方法,并且隨著變量個(gè)數(shù)和樣本量的增加,差距顯著增加,進(jìn)一步驗(yàn)證了聯(lián)合估計(jì)方法的一致性和在高維變量上的優(yōu)勢(shì)。

表2 φ=0.3,不同樣本和變量個(gè)數(shù)下兩種方法結(jié)果比較

四、實(shí)證分析

將多圖模型聯(lián)合估計(jì)方法應(yīng)用于中國(guó)宏觀經(jīng)濟(jì)變量,分析不同經(jīng)濟(jì)發(fā)展水平省份宏觀經(jīng)濟(jì)變量間的相關(guān)聯(lián)系特征。

考慮到數(shù)據(jù)收集的完整性,選取15個(gè)省份13個(gè)宏觀經(jīng)濟(jì)變量1980—2017年共計(jì)38年的年度數(shù)據(jù),分別為:財(cái)政預(yù)算支出X1,財(cái)政預(yù)算收入X2,城鎮(zhèn)登記失業(yè)率X3,國(guó)際旅游外匯收入X4,居民消費(fèi)價(jià)格指數(shù)X5,貨運(yùn)量X6,客運(yùn)量X7,農(nóng)業(yè)總產(chǎn)值X8,林業(yè)總產(chǎn)值X9,牧業(yè)總產(chǎn)值X10,漁業(yè)總產(chǎn)值X11,社會(huì)固定資產(chǎn)投資X12,社會(huì)消費(fèi)品零售總額X13。數(shù)據(jù)來(lái)源于國(guó)家統(tǒng)計(jì)局(http://data.stats.gov.cn)。為確保多個(gè)數(shù)據(jù)源之間的兼容性和一致性,對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化和正態(tài)化處理。

五組圖模型中共同的聯(lián)系有財(cái)政預(yù)算支出X1、財(cái)政預(yù)算收入X2和社會(huì)固定資產(chǎn)投資X12之間存在的完全子圖結(jié)構(gòu);財(cái)政預(yù)算支出X1、社會(huì)固定資產(chǎn)投資X12和社會(huì)消費(fèi)品零售總額X13之間的完全子圖;農(nóng)業(yè)總產(chǎn)值X8、林業(yè)總產(chǎn)值X9和牧業(yè)總產(chǎn)值X10之間的完全子圖;農(nóng)業(yè)總產(chǎn)值X8、林業(yè)總產(chǎn)值X9和漁業(yè)總產(chǎn)值X11之間的完全子圖;社會(huì)消費(fèi)品零售總額X13與居民價(jià)格消費(fèi)指數(shù)X5之間的聯(lián)系。這些共同聯(lián)系反映了中國(guó)現(xiàn)階段經(jīng)濟(jì)發(fā)展的特征。

每一類中與其他四類不同的聯(lián)系,反映了各類隨機(jī)變量間相依結(jié)構(gòu)獨(dú)有的特征。第一類中北京和上海是15個(gè)省份中經(jīng)濟(jì)發(fā)展最好的,作為直轄市,土地面積和發(fā)展規(guī)劃與其他省份不同,財(cái)政預(yù)算支出X1與林業(yè)總產(chǎn)值X9,貨運(yùn)量X6與漁業(yè)總產(chǎn)值X11之間的聯(lián)系為其獨(dú)有。與其余四類相比,城鎮(zhèn)登記失業(yè)率X3、國(guó)際旅游外匯收入X4及貨運(yùn)量X6與客運(yùn)量X7之間均無(wú)邊相連,反映出旅游業(yè)、失業(yè)率和貨運(yùn)量與客運(yùn)量沒(méi)有明顯的直接聯(lián)系。第二類中江蘇和山東在15個(gè)省份中是僅次于北京和上海的文化與經(jīng)濟(jì)大省,漁業(yè)是臨海地區(qū)主要產(chǎn)業(yè),居民價(jià)格消費(fèi)指數(shù)X5與漁業(yè)總產(chǎn)值X11之間存在聯(lián)系,貨運(yùn)量X6與農(nóng)業(yè)總產(chǎn)值X8、牧業(yè)總產(chǎn)值X10及社會(huì)消費(fèi)品零售總額X13之間的聯(lián)系,反映了農(nóng)、牧業(yè)和社會(huì)消費(fèi)品的生產(chǎn)優(yōu)勢(shì)。城鎮(zhèn)登記失業(yè)率X3與國(guó)際旅游外匯收入X4之間的聯(lián)系表明,它們作為臨海省份,旅游業(yè)和漁業(yè)具有獨(dú)特地位。與其余四類相比,林業(yè)總產(chǎn)值X9與社會(huì)固定資產(chǎn)投資X12,財(cái)政預(yù)算支出X1與貨運(yùn)量X6之間沒(méi)有直接聯(lián)系,進(jìn)一步表明其在林業(yè)和貨運(yùn)上,對(duì)財(cái)政和交通的依賴不明顯。第三類中河南和河北牧業(yè)發(fā)展較好,牧業(yè)總產(chǎn)值X10與城鎮(zhèn)登記失業(yè)率X3及居民價(jià)格消費(fèi)指數(shù)X5之間的獨(dú)有聯(lián)系反映了其經(jīng)濟(jì)發(fā)展特征。第四類中安徽、遼寧、廣西、江西和湖南五個(gè)省份,與其余四類相比,其13個(gè)經(jīng)濟(jì)指標(biāo)間的相依結(jié)構(gòu)沒(méi)有明顯的特色。第五類中吉林、陜西、貴州和黑龍江處于發(fā)展期,財(cái)政預(yù)算收入X2與國(guó)際旅游外匯收入X4及農(nóng)業(yè)總產(chǎn)值X8之間的聯(lián)系,反映了農(nóng)業(yè)和旅游業(yè)在其經(jīng)濟(jì)發(fā)展中的重要地位;城鎮(zhèn)登記失業(yè)率X3與林業(yè)總產(chǎn)值X9,貨運(yùn)量X6與社會(huì)固定資產(chǎn)投資X12之間的聯(lián)系是獨(dú)有的。

五、結(jié) 論

多源數(shù)據(jù)同時(shí)具有共性和異質(zhì)性,對(duì)其分析要在發(fā)現(xiàn)獨(dú)有特征的同時(shí)保留共同信息。本文提出改進(jìn)的多個(gè)高斯圖模型的聯(lián)合估計(jì)方法,首先對(duì)數(shù)據(jù)進(jìn)行分組,應(yīng)用組Lasso方法約束各組內(nèi)聯(lián)系的一致性,用聯(lián)合估計(jì)方法充分利用所有樣本對(duì)共同信息進(jìn)行估計(jì),再進(jìn)一步用圖Lasso方法優(yōu)化每組的圖結(jié)構(gòu)。數(shù)值模擬結(jié)果表明,多圖聯(lián)合估計(jì)比單獨(dú)估計(jì)得到更準(zhǔn)確的圖模型結(jié)構(gòu)。最后將提出的方法應(yīng)用于中國(guó)15個(gè)省份13個(gè)宏觀經(jīng)濟(jì)變量數(shù)據(jù)分析中,得到反映五組省份變量間相依結(jié)構(gòu)的圖模型,分析其經(jīng)濟(jì)發(fā)展的共性,以及不同類獨(dú)有的聯(lián)系。結(jié)果表明,多圖聯(lián)合估計(jì)方法對(duì)于體系復(fù)雜的宏觀經(jīng)濟(jì)變量數(shù)據(jù)分析更全面,在保留組間共有結(jié)構(gòu)信息的基礎(chǔ)上,揭示了不同經(jīng)濟(jì)發(fā)展水平省份經(jīng)濟(jì)發(fā)展側(cè)重點(diǎn)的個(gè)性信息,指標(biāo)間聯(lián)系的差異反映了其經(jīng)濟(jì)發(fā)展政策上的特征。

猜你喜歡
邊數(shù)總產(chǎn)值高斯
小高斯的大發(fā)現(xiàn)
2019年來(lái)賓市蔗糖業(yè)總產(chǎn)值近100億元
盤(pán)點(diǎn)多邊形的考點(diǎn)
天才數(shù)學(xué)家——高斯
西江邊數(shù)大船
歌海(2016年3期)2016-08-25 09:07:22
最大度為10的邊染色臨界圖邊數(shù)的新下界
陜西林業(yè)總產(chǎn)值今年將突破千億元
陜西有色上半年實(shí)現(xiàn)工業(yè)總產(chǎn)值590億元
7月陜西省工業(yè)總產(chǎn)值增長(zhǎng)由負(fù)轉(zhuǎn)正
有限域上高斯正規(guī)基的一個(gè)注記
通许县| 青铜峡市| 泊头市| 青浦区| 古田县| 泸州市| 宽甸| 利川市| 涟源市| 乌拉特前旗| 苏州市| 乐至县| 苍溪县| 滨海县| 湛江市| 泸水县| 孙吴县| 峡江县| 芦山县| 图木舒克市| 莱阳市| 元谋县| 疏附县| 辉南县| 湘乡市| 白水县| 花莲县| 蕲春县| 方城县| 新安县| 东丽区| 南木林县| 兴宁市| 诸暨市| 兴隆县| 绥江县| 固始县| 武威市| 三门县| 株洲县| 海南省|