郭家驥
(河北省承德水文水資源勘測局,河北 承德 067000)
對于降水和溫度的相關(guān)性,雖然已有部分研究成果,但研究思路多為:首先將兩者獨立分開研究,然后基于某種線性理論的方法將兩者進行結(jié)合[1-3]。目前, 衡量變量間相關(guān)性多采用Pearson系數(shù)ρx,y、Kendall秩相關(guān)系數(shù)τ和Spearman秩相關(guān)系數(shù)ρs此3類系數(shù)。這些方法在一定程度上雖然能表述兩者的相關(guān)性,但其要求隨機變量的方差要保持在某些特定的區(qū)間之內(nèi),且方法本身也只適用于表示兩個變量之間的線性關(guān)系或單調(diào)關(guān)系,對于變量降水和溫度這類時常會發(fā)生非線性增減變化情況,線性理論相關(guān)方法顯得捉襟見肘。
針對上述方法存在的不足,研究重新梳理了思路,引入在表述多變量關(guān)聯(lián)性領(lǐng)域具有獨特優(yōu)勢的Copula函數(shù)理論,用于研究降水和溫度的相關(guān)性和兩者之間的聯(lián)合特性,探究最合適的表述降水和溫度關(guān)系的Copula函數(shù)類型,從而實現(xiàn)精確量化兩者相關(guān)性的效果。
Pearson系數(shù)、Kendall系數(shù)和Spearman系數(shù)是目前描述兩變量 (如降水與溫度)相關(guān)性最主要的方法。Pearson旨在反映變量間的線性關(guān)系;Kendall系數(shù)(也作和諧系數(shù)),通常用τ表示,是一種通過研究隨機變量等級而反映相關(guān)程度的方法,此法需要提前對變量進行定類分析;Spearman系數(shù)通常用ρs表示,它是對兩變量的秩進行線性相關(guān)研究,且不限制其各自分布情況,但統(tǒng)計效率相比Pearson稍差。3個相關(guān)性系數(shù)的表示式為:
式中 X,Y為變量;E(·)為期望;n是樣本容量;sgn為階躍函數(shù);rgX和rgY分別為隨機變量X,Y的秩;cov (·)為協(xié)方差;σ為標(biāo)準(zhǔn)差。
“Copula”源自拉丁文中的“連結(jié)”一詞,其用于定量表達多維聯(lián)合分布與對應(yīng)邊緣分布的相關(guān)關(guān)系。Copula函數(shù)可有效地構(gòu)建聯(lián)合分布函數(shù),構(gòu)建的形式為:任意的m維聯(lián)合分布函數(shù)可拆解成1個Copula函數(shù)和m個邊緣分布的形式,Copula函數(shù)為連接邊緣和聯(lián)合分布的橋梁[4-5]。形式為:
式中 Fm(xm)和H(x1,x2,…,xm)分別為邊緣分布與其對應(yīng)的聯(lián)合分布;C為連接形式或規(guī)則。
降水和溫度作為水文循環(huán)中的重要因素,降水的增減可以在一定程度上影響區(qū)域的溫度變化,而區(qū)域溫度的升降則會影響水文循環(huán)中的蒸發(fā)速率,進而對降水產(chǎn)生反饋作用。兩者互相影響和聯(lián)系,故而引入Copula函數(shù)理論來量化研究降水與溫度的相關(guān)性。若分別以F(x)和G(y)表示降水和溫度的分布函數(shù),則應(yīng)有兩維Copula函數(shù)C(u,v),使得等式H(x,y)=C[F(x),G(y)]成立。
在水利科學(xué)研究中,Copula函數(shù)可分為Elliptical Copula(橢圓族)和Archimedean Copula(阿基米德族)兩類。其中,Elliptical Copula(橢圓族)主要有Normal Copula和t-Copula函數(shù)2種;而對于Archimedean Copula(阿基米德族),主要有Clayton Copula函數(shù)、Frank Copula函數(shù)及Gumbel Copula函數(shù)3種。針對本文研究的降水和溫度的二維形式而言,上述5種Copula函數(shù)的表達式為式(5)~式(9),各個函數(shù)的密度函數(shù)及具體內(nèi)容詳見參考文獻[6]:
(1)Normal Copula函數(shù)
式中 u,v分別為邊緣分布;θ為需估計的參數(shù)。
擬合度是衡量Copula函數(shù)的匹配效果的。若理論分布和經(jīng)驗越相近,則擬合效果越好,該指標(biāo)可以有效地反映選擇的理論分布質(zhì)量的好壞。研究中通過擬合度測驗對一系列待選Copula函數(shù)進行優(yōu)選,從而選出最優(yōu)者。檢驗擬合度優(yōu)劣的方法主要分為相關(guān)性測度法和AIC值和OLS值最小準(zhǔn)則法。對于Copula函數(shù)中相關(guān)性測度法的詳細(xì)內(nèi)容,具體可結(jié)合文獻[7],此處不再贅述;而對于AIC和OLS值最小準(zhǔn)則法,有:
式中 I[·]為示性函數(shù),當(dāng)Fn(xi)≤u時,I[Fn(xi)≤u]=1,否則I[Fn(xi)≤u]=0;MSE為平均誤差;m為參數(shù)數(shù)量;n為樣本容量。AIC值通常小于零,AIC值和OLS值最小時,則擬合度最優(yōu)。
非參數(shù)法、全參數(shù)法和半?yún)?shù)法是進行Copula函數(shù)的參數(shù)估計的主要方法。其中,對于非參數(shù)法,Copula聯(lián)合分布函數(shù)的參數(shù)幾乎完全決定于兩個邊緣隨機變量之間的相關(guān)性關(guān)系 (通常是秩相關(guān)系數(shù));全參數(shù)法中極大似然法(MLE)和分布推導(dǎo)法(IMF)使用最為廣泛,但前者需要提前對各個邊緣分布中參數(shù)進行估算確定,進而才可估計聯(lián)合分布的參數(shù),且此方法計算過程過于繁冗;后者需要提前擬定兩個邊緣分布的函數(shù)類型,而邊緣分布類型的確定本身就存在較大的主觀性,或許不能客觀科學(xué)地反應(yīng)邊緣分布的真實情況。因此,本研究采用兼顧兩者優(yōu)點的半?yún)?shù)法。
對于半?yún)?shù)法,可以使用經(jīng)驗分布函數(shù)Fn(xi)和Gn(yi)來代替邊緣分布函數(shù)F(x,θ1)和G(y,θ2),從而避免邊緣分布的參數(shù)估計,如此可直接估計聯(lián)合分布的參數(shù),表達式為:
半?yún)?shù)法中,似然函數(shù)并不需要確定邊緣分布是屬于何種分布類型,因此其并不會受到邊緣分布類型的限制,變量間的聯(lián)合分布多取決于變量間的關(guān)系,而和其各自的邊緣分布并沒有關(guān)系,且此方法計算比較高效快捷。
2.1.1 計算邊緣分布函數(shù)
首先,對于承德市1978~2017年共40年的長系列降水與溫度數(shù)據(jù)進行整理分析。在計算邊緣分布時,本此研究中采用基于經(jīng)驗分布函數(shù)和高斯核函數(shù)理論相結(jié)合的方法,以樣本經(jīng)驗分布函數(shù)近似當(dāng)作總體分布函數(shù)進行計算,方法具體內(nèi)容可參見文獻[8]。首先,將降水和溫度樣本分別進行歸一化處理;然后對其歸一化值的累積概率F(x)進行統(tǒng)計計算,并以歸一化值和其對應(yīng)的累積概率描繪散點;之后,利用高斯核函數(shù)確定降水和溫度的邊緣分布,如圖2。
圖2 承德市年降水與溫度邊緣分布
2.1.2 計算相關(guān)性系數(shù)
根據(jù)年降水和溫度資料,采用常規(guī)方法計算3大相關(guān)性系數(shù):Pearson、Kendall系數(shù)和Spearman系數(shù),將計算結(jié)果列于表1中。
表1 年降水與溫度3大相關(guān)性系數(shù)值
2.1.3 Copula函數(shù)初選
根據(jù)年降水和溫度數(shù)據(jù),以相關(guān)性測度法計算5種待選Copula函數(shù)對應(yīng)的Kendall系數(shù)和Spearman系數(shù),并與表1進行比較。初選出兩種較優(yōu)的Copula函數(shù)用于下一步優(yōu)選。
表2 年尺度降水和溫度的不同Copula函數(shù)相關(guān)性測度值
通過表1和表2比較分析可得出,Normal Copula函數(shù)和Frank Copula函數(shù)對應(yīng)的Kendall系數(shù)τ與Spearman系數(shù)ρs與表1中相應(yīng)值最相近。
2.1.4 參數(shù)估計與函數(shù)優(yōu)選
采用半?yún)?shù)估計法對Normal Copula函數(shù)與Frank Copula函數(shù)中的參數(shù)進行估算。然后,以經(jīng)驗聯(lián)合分布和上述估算好參數(shù)的兩個函數(shù)為基礎(chǔ),根據(jù)式(10)~式(13),分別計算兩種情況下的AIC值和OLS值,將結(jié)果列于表3。
表3 承德市年降水與溫度擬合度評判值
由表3可知,Normal Copula函數(shù)對應(yīng)的AIC值和OLS值較小,分別是0.401和-17.932。由此表明,對于年尺度上,Normal Copula函數(shù)在表述降水和溫度相關(guān)性時擬合效果最優(yōu)。
通過優(yōu)選可知,Normal Copula為表征降水和溫度相關(guān)性最好的Copula函數(shù)。之后,通過Matlab編程計算,用Normal Copula函數(shù)可繪出降水和溫度的聯(lián)合概率密度和聯(lián)合分布函數(shù)圖像,圖中的邊緣變量降水和溫度的相關(guān)函數(shù)分別以u和v表示,如圖3。
圖3 年降水和溫度Normal Copula
從概率密度分布函數(shù)與聯(lián)合分布函數(shù)圖像可知,降水和溫度存在一定的相關(guān)性。結(jié)合計算的三大相關(guān)性系數(shù)可知,兩者的線性相關(guān)系數(shù)為0.471,Kendall為0.425,Spearman系數(shù)為0.604, 屬于中等相關(guān)。并且通過優(yōu)選可知,相比其他4種Copula而言,Normal Copula函數(shù)可以更好地定量描述兩者之間的聯(lián)合分布,通過Normal Copula聯(lián)合分布函數(shù),可以探究不同頻率的降水和溫度之間的聯(lián)合重現(xiàn)期,進而研究不同頻率下,同時考慮降水和溫度因素的降水和溫度的聯(lián)合水文事件。
為了進一步探究季節(jié)性降水與溫度的相關(guān)性,研究在季節(jié)性尺度上,是否依然是Normal Copula函數(shù)在描述兩者關(guān)系時表現(xiàn)最優(yōu)。同樣地,按照年尺度研究方法,以降水與溫度數(shù)據(jù)為基礎(chǔ),分別計算春、夏、秋、冬4個季節(jié)的Pearson系數(shù)、Kendall系數(shù)和Spearman系數(shù)。首先,確定4個季節(jié)的降水和溫度的相關(guān)性,然后針對相關(guān)季節(jié),按照計算流程進行研究,尋找各季節(jié)最佳Copula函數(shù)。
表4 4個季節(jié)降水與溫度3大相關(guān)性系數(shù)
由表4可知,春、夏、秋、冬4個季節(jié)的相關(guān)性系數(shù)中,只有夏、冬兩季的3個相關(guān)性系數(shù)均大于0.4,春、秋兩季對應(yīng)的3個相關(guān)性系數(shù)則都不超過0.15。因此,夏季和冬季的降水和溫度存在相關(guān)性。分析原因,可能與承德市的降水季節(jié)性分配有關(guān)系,對于夏季,承德市6~8月的降水量超過全年降水總量的65%。而冬季的降水僅占約15%,且承德處于溫帶季風(fēng)帶,冬季寒冷干燥,干燥的空氣反而不利于土壤和植被保持水分,水分更容易因蒸散發(fā)而流失,從而影響降水結(jié)構(gòu)和過程的變化。因此,在降水較少的冬季,降水和溫度反而變得相關(guān)。
根據(jù)計算流程,同樣采用基于經(jīng)驗分布函數(shù)結(jié)合高斯核函數(shù)方法求得承德市夏季和冬季的降水和溫度的邊緣分布,如圖4。
圖4 夏季和冬季降水與溫度的邊緣分布
從季節(jié)性降水與溫度經(jīng)驗分布和高斯核分布圖可知,夏季和冬季的降水和溫度在經(jīng)驗分布上存在較小差異。采用相關(guān)性測度法分別計算承德市夏季和冬季降水和溫度的5種Copula函數(shù)對應(yīng)的Kendall和Spearman系數(shù)并與表4對比,進行初選。
表5 夏、冬兩季降水和溫度的相關(guān)性測度值
通過初選可看出,與年尺度一樣,同樣為Normal Copula和Frank Copula 2個函數(shù)的值和與表4中的值最接近。因此,初步選取Normal Copula和Frank Copula函數(shù)為優(yōu)選對象。之后,采用半?yún)?shù)估計Normal Copula和Frank Copula函數(shù)中的參數(shù),然后將2個理論Copula函數(shù)與經(jīng)驗Copula函數(shù)進行比較計算,以AIC值和OLS值最小為評判依據(jù),進而優(yōu)選出最合適的Copula函數(shù),計算結(jié)果如表6。
表6 夏季和冬季的降水與溫度擬合度評判值
通過計算和比較兩個函數(shù)的OLS和AIC值可得,不論是冬季還是夏季,雖然兩個函數(shù)計算結(jié)果相差不大,但Frank Copula函數(shù)較Normal Copula函數(shù)OLS和AIC值稍小,夏季是0.22和-118.932,冬季是0.18和-132.401。因此,F(xiàn)rank Copula在表述季節(jié)性尺度上的降水和溫度相關(guān)性具有優(yōu)勢,它是刻畫季節(jié)性降水和溫度相關(guān)性的最優(yōu)Copula函數(shù)。以Frank Copula理論為基礎(chǔ),編程繪出承德市夏季和冬季降水與溫度的概率密度分布函數(shù)和聯(lián)合分布函數(shù)圖像,圖中的邊緣變量降水和溫度的相關(guān)函數(shù)分別以u和v表示,如圖5。
圖5 夏季和冬季的Frank Copula聯(lián)合概率密度和分布函數(shù)
由概率密度函數(shù)和聯(lián)合分布函數(shù)圖像可知,夏季和冬季兩個季節(jié)的降水和溫度的相關(guān)性存在較小差異,聯(lián)合概率密度函數(shù)的值域范圍不同。表明在季節(jié)性尺度上,降水和溫度的相關(guān)性呈現(xiàn)類似規(guī)律,通過研究聯(lián)合分布函數(shù)及其特性,可為更好地研究降水和溫度的相關(guān)關(guān)系和季節(jié)尺度上的不同頻率和聯(lián)合分布提供參考。
(1)在年尺度上,承德市降水和溫度表現(xiàn)出中等相關(guān)的特征,在表述兩者相關(guān)性上,Normal Copula函數(shù)表現(xiàn)最優(yōu);在季節(jié)性尺度上,僅夏季和冬季降水和溫度相關(guān)性明顯,在表述相關(guān)性上,F(xiàn)rank Copula函數(shù)表現(xiàn)最優(yōu)。由此可知,在表征降水和溫度相關(guān)性方面,Normal Copula函數(shù)在長時間尺度(年)最具優(yōu)勢;而Frank Copula函數(shù)在短時間尺度(季)較為突出。
(2)年際降水和溫度在一定程度上呈現(xiàn)出平均的特點,相關(guān)性不如季節(jié)性明顯,在季節(jié)性降水和溫度關(guān)系研究中,降水最多的夏季和降水最少的冬季相關(guān)性表現(xiàn)較為明顯。
(3)降水和溫度的相關(guān)性量化研究可為下一步研究不同頻率、聯(lián)合重現(xiàn)期情況下的水文事件和相關(guān)的自然災(zāi)害(如極端降水、極端干旱和極端高溫)提供理論基礎(chǔ)。