張賀,范夢萱
(中國海洋大學 青島 266000)
我國是海洋大國,海洋資源極為豐富。隨著海洋開發(fā)利用日益受到重視,推動海洋經(jīng)濟發(fā)展已成為全國共識。在建設(shè)海洋強國的背景下,實現(xiàn)海洋經(jīng)濟高質(zhì)量發(fā)展和完成海洋產(chǎn)業(yè)轉(zhuǎn)型升級對青島整體經(jīng)濟的發(fā)展具有重要意義。
依海而生,向海圖強。青島地處山東東南沿海的丘陵地帶,不適合發(fā)展大型機械化種植業(yè);由于三面環(huán)海,海洋產(chǎn)業(yè)一直是青島經(jīng)濟發(fā)展的重要組成部分,“藍色硅谷”、西海岸新區(qū)和紅島經(jīng)濟區(qū)等建設(shè)對青島海洋經(jīng)濟發(fā)展的引領(lǐng)作用日益顯現(xiàn)[1]。2021年上半年青島海洋生產(chǎn)總值增長21.9%,占GDP比重為32%,海洋第一產(chǎn)業(yè)、第二產(chǎn)業(yè)和第三產(chǎn)業(yè)分別增長7.7%、19.7%和25.2%。目前青島發(fā)展海洋經(jīng)濟的優(yōu)勢突出體現(xiàn)在產(chǎn)業(yè)體系完整、產(chǎn)業(yè)集群眾多、基本實現(xiàn)產(chǎn)業(yè)全面覆蓋、科研機構(gòu)云集和港口輻射能力強,尤其在海水養(yǎng)殖業(yè)和濱海旅游業(yè)方面具有得天獨厚的優(yōu)勢。
已有學者采用多部門經(jīng)濟模型測度不同變量對海洋生產(chǎn)總值的貢獻度,如王端嵐[2]研究福建海洋產(chǎn)業(yè)結(jié)構(gòu)變化對海洋經(jīng)濟增長的促進作用,并提出海洋生態(tài)環(huán)境保護和資源可持續(xù)利用的重要價值。格蘭杰因果方法在海洋產(chǎn)業(yè)結(jié)構(gòu)和海洋經(jīng)濟發(fā)展的研究方面也有應(yīng)用,結(jié)果表明二者具有相互促進的關(guān)系。部分學者從海洋資源、海洋生態(tài)環(huán)境、海洋產(chǎn)業(yè)、海洋文化和海洋制度等方面構(gòu)建評價指標體系并加以分析,其中海洋資源和海洋生態(tài)環(huán)境屬于基礎(chǔ)性因素,海洋產(chǎn)業(yè)和海洋文化等屬于提升性因素[3-4]。
目前我國海洋產(chǎn)業(yè)體系逐漸成熟,但也出現(xiàn)產(chǎn)業(yè)發(fā)展同質(zhì)化、科技支撐能力弱和科研成果轉(zhuǎn)化難等問題,阻礙海洋經(jīng)濟的高效發(fā)展[5]。為實現(xiàn)青島海洋經(jīng)濟的高質(zhì)量發(fā)展,助力海洋強國目標的實現(xiàn),本研究從海洋產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級的角度出發(fā),選取相關(guān)評價指標,采用Lasso回歸模型分析對青島海洋經(jīng)濟發(fā)展產(chǎn)生重要影響的海洋產(chǎn)業(yè),并提出發(fā)展建議。
當多個解釋變量對被解釋變量進行預測時,通常采用最小二乘估計法進行線性回歸,但該方法對于基礎(chǔ)回歸存在一定的局限性。①出于最小化均方誤差的目的而追求較低的偏差,導致方差變大,使得模型的泛化能力較差;②在線性回歸中通常保留大量的解釋變量,導致模型的可解釋性降低。本研究應(yīng)用具有較強影響力的解釋變量子集,因此選擇Lasso回歸模型,從而克服普通最小二乘估計法的上述不足[6]。一方面,Lasso回歸模型通過對線性回歸系數(shù)施加約束和懲罰,將某些噪音變量的系數(shù)估計值壓縮至0,從而將其剔除并篩選出重點變量;另一方面,由于變量個數(shù)的減少,Lasso回歸模型往往表現(xiàn)出很強的泛化能力,預測效果通常優(yōu)于線性回歸。
通過求解目標函數(shù)的最小值得到Lasso回歸模型的系數(shù),目標函數(shù)的表達式為:
式中:n表示數(shù)據(jù)樣本量;p表示數(shù)據(jù)特征個數(shù);yi表示第i個被解釋變量的樣本值;xij表示第i個解釋變量的第j個樣本值(i=1,2,…,10;j=1,2,…,p);βj表示p維特征矩陣的待估系數(shù);λ表示調(diào)節(jié)系數(shù);RSS表示殘差平方和。
除線性回歸要求RSS達到最小外,Lasso回歸模型增加回歸系數(shù)的懲罰項:
式中:L1表示回 歸系數(shù)β=(β1,β2,…,βp)的懲罰項[7]。
λ控制對回歸系數(shù)的懲罰力度。隨著λ的逐漸增大,系數(shù)估計值逐漸減小。當λ足夠大時,為使目標函數(shù)達到最小值,L1能夠?qū)⒛承┳兞康南禂?shù)估計值強制設(shè)定為0,從而將這些不重要的變量從模型中剔除。因此,Lasso回歸模型能夠通過λ的取值來確定留在模型中的變量個數(shù),進而得到稀疏模型,使模型更易于解釋。
通常采用坐標下降法求解Lasso回歸系數(shù),該方法可在每步迭代中沿某個特征(坐標)的方向進行搜索,通過循環(huán)使用不同特征以達到目標函數(shù)的局部最小值。具體算法包括3個步驟:
(1)對j維向量β隨機取初值,記為,上標括號里的數(shù)字代表當前迭代的輪數(shù),此時為初始輪數(shù)0。
(2)對于第k輪迭代,從第一個維度β1(k)開始,到第j個維度βj(k)為止。每次迭代僅更新β的1個維度,即將該維度視為變量,將剩下的(n-1)個維度視為常量,通過最小化目標函數(shù)(求導或一維搜索)找到該維度對應(yīng)的新值,得到
(3)檢查向量βk和βk-1在各維度的變化情況。如果其在所有維度上的變化均足夠小并小于設(shè)定的閾值,那么βk即最終結(jié)果;否則轉(zhuǎn)入步驟2,繼續(xù)第(k+1)輪迭代。
λ的取值直接影響變量篩選的最終結(jié)果,對于Lasso回歸至關(guān)重要。在確定λ的最優(yōu)取值時,可采用赤池信息準則(AIC)、貝葉斯信息準則(BIC)和交叉驗證(CV)。其中,AIC和BIC同時考慮模型的擬合程度,并對模型中的變量系數(shù)進行懲罰;二者的不同之處在于,BIC將未知變量系數(shù)的懲罰權(quán)重由常數(shù)2變成樣本容量的對數(shù)函數(shù)[8]。
交叉驗證可分為留一交叉驗證和K折交叉驗證,其中留一交叉驗證為K折交叉驗證中的折數(shù)K等于樣本量時的特殊情況。最常用的是10折交叉驗證(K=10),具體操作方法為將所有樣本平均分為10份即10折,以其中的9折作為訓練集進行模型訓練,以剩余的1折作為測試集(或稱驗證集)計算訓練模型預測的均方誤差。以此類推,10折中的每一折輪流作為訓練集和測試集,計算10個均方誤差的平均值,即最終的交叉驗證誤差。不同的λ會得到不同的交叉驗證誤差,當交叉驗證誤差最小時即得到λ的最優(yōu)取值,并用其建立最終的模型。
與信息準則相比,交叉驗證的計算量較少且操作方便,因此本研究采用經(jīng)典的10折交叉驗證進行λ的取值。
本研究參考和總結(jié)已有研究成果,綜合青島海洋經(jīng)濟發(fā)展現(xiàn)狀,充分考慮評價指標及其數(shù)據(jù)的全面性、可獲取性和代表性,選取海洋漁業(yè)、海洋化工業(yè)、海洋進出口總額、海洋環(huán)境、海洋交通運輸業(yè)和濱海旅游業(yè)6個大類并細分20個特征變量,構(gòu)建青島海洋經(jīng)濟發(fā)展水平評價指標體系(表1)[9-10]。
評價指標 特征變量海洋漁業(yè)(A)海洋漁業(yè)產(chǎn)值(A 1)海洋漁業(yè)增加值(A 2)海水養(yǎng)殖面積(A 3)海水產(chǎn)品產(chǎn)量(A 4)海洋化工業(yè)(B)燒堿產(chǎn)量(B 1)純堿產(chǎn)量(B 2)海洋進出口總額(C)進口額(C 1)出口額(C 2)海洋環(huán)境(D)廢水排放總量(D 1)廢水處理設(shè)施數(shù)量(D 2)廢水處理能力(D 3)
評價指標 特征變量海洋交通運輸業(yè)(E)貨運量(E 1)客運量(E 2)貨物吞吐量(E 3)旅客周轉(zhuǎn)量(E 4)貨物周轉(zhuǎn)量(E 5)濱海旅游業(yè)(F)入境旅客數(shù)量(F 1)入境旅游收入額(F 2)國內(nèi)旅客數(shù)量(F 3)國內(nèi)旅游收入額(F 4)
其中,海洋漁業(yè)增加值是指海洋漁業(yè)及其服務(wù)業(yè)通過生產(chǎn)產(chǎn)品或提供服務(wù)而增加的價值;廢水處理能力是指平均每日的廢水處理總量;旅客周轉(zhuǎn)量是指旅客數(shù)量與運送距離的乘積;貨物周轉(zhuǎn)量是指貨物量與運送距離的乘積。
為分析特征變量對青島海洋經(jīng)濟發(fā)展水平的影響程度,本研究選取2010—2019年青島海洋經(jīng)濟發(fā)展水平評價指標的變量數(shù)據(jù)作為建模樣本,不僅滿足數(shù)據(jù)的時效性要求,而且在一定程度上降低模型的信息冗余。選取的實證分析數(shù)據(jù)主要來自歷年《青島統(tǒng)計年鑒》中關(guān)于海洋產(chǎn)業(yè)的公開數(shù)據(jù),程序?qū)崿F(xiàn)采用SPSS和R等軟件[11]。
本研究對原始數(shù)據(jù)的預處理包括2個方面。①采用時間序列趨勢預測的方法插補缺失數(shù)據(jù)。由于部分年份的數(shù)據(jù)記錄問題,海洋化工業(yè)大類下的燒堿和純堿產(chǎn)量存在不同程度的數(shù)據(jù)缺失。為充分利用現(xiàn)有數(shù)據(jù)并最大限度地提高模型回歸結(jié)果的準確性,本研究利用1949—2013年的燒堿產(chǎn)量和1965—2015年的純堿產(chǎn)量對其進行趨勢預測,從而完成對缺失數(shù)據(jù)的插補。②采用數(shù)據(jù)標準化的方法消除指標量綱的影響。由于評價指標反映產(chǎn)業(yè)種類、發(fā)展?jié)摿蛢?yōu)勢特點等各方面的海洋經(jīng)濟發(fā)展水平,各評價指標下的特征變量量綱存在巨大差異。例如:海洋漁業(yè)產(chǎn)值以人民幣計量,而海洋進出口總額則以美元計量,存在匯率的差異,此外數(shù)量和長度等指標也不具有可比性。為消除指標量綱的影響,本研究對原始數(shù)據(jù)進行標準化處理。
各評價指標特征變量的描述性統(tǒng)計如表2所示。
特征變量 平均值 標準差 最小值 最大值A(chǔ) 1 169.73 23.33 118.19 193.69 A 2 4 803.97 5 198.92 0.83 11 608.91 A 3 3.46 0.28 3.15 4.01 A 4 108.68 3.97 100.79 113.41 B 1 18.79 11.12 9.78 35.36 B 2 67.22 2.93 61.70 72.07 C 1 2 414.04 2 250.31 567.21 5 779.56 C 2 3 022.53 2 940.20 598.83 6 944.38 D 1 5.03 0.75 4.04 6.34 D 2 430.20 48.74 346.00 486.00 D 3 100.84 56.84 37.48 172.10 E 1 2 310.10 1 131.70 1 313.00 4 407.00 E 2 423.90 357.70 161.00 1 302.00 E 3 4.72 0.72 3.50 5.77 E 4 70.99 91.22 0.30 196.73 E 5 1 541.81 987.47 427.00 3 237.40 F 1 135.01 18.17 108.05 170.26 F 2 61.76 20.35 39.97 108.40 F 3 1 185.82 432.12 540.00 1 897.20 F 4 7 273.55 2 159.16 4 396.00 11 132.58
由于特征變量的個數(shù)較多,變量之間易出現(xiàn)信息重復、相關(guān)或冗余的現(xiàn)象,從而導致多重共線性等問題?;诖?本研究計算特征變量的斯皮爾遜線性相關(guān)系數(shù),并對其進行相關(guān)性分析。經(jīng)計算和分析,海洋經(jīng)濟發(fā)展水平的特征變量之間存在強相關(guān)性,其中海洋漁業(yè)產(chǎn)值與海水養(yǎng)殖面積、客運量和貨物吞吐量之間的相關(guān)系數(shù)均超過0.90,進口額與出口額和旅客周轉(zhuǎn)量之間的相關(guān)系數(shù)甚至超過0.99,表明海洋經(jīng)濟發(fā)展水平評價指標體系中的某些變量存在冗余信息,應(yīng)予以剔除。因此,本研究剔除特征變量中的重復變量,篩選重要變量并構(gòu)建Lasso回歸模型。
3.2.1λ的最優(yōu)取值
在Lasso回歸模型中,λ直接決定進入模型的變量個數(shù),進而影響模型回歸的準確性。隨著λ的不斷增大,本研究中20個特征變量的系數(shù)依次縮減到0,即相應(yīng)變量可從模型中剔除。其中,系數(shù)最晚縮減到0的特征變量對被解釋變量預測的重要性最強,以此類推。
為使Lasso回歸模型的結(jié)果更加準確,采用10折交叉驗證確定λ的最優(yōu)取值。本研究中每個特征變量的可用樣本量僅有10個(2010—2019年),即每折僅有1個樣本,因此10折交叉驗證等價于留一交叉驗證,即每次留1個樣本作為測試集,其他9個樣本作為訓練集,進而得到訓練模型在測試集中的均方誤差。最后,取10個測試集均方誤差的平均值作為交叉驗證誤差,以最小交叉驗證誤差對應(yīng)的λ為最優(yōu)取值。
10折交叉驗證誤差隨λ取值變化的曲線如圖1所示。其中,上下閉口的豎直線表示交叉驗證誤差的95%置信區(qū)間,第一條虛線表示當交叉驗證誤差最小時對應(yīng)的λ和模型自由度(變量個數(shù)),第二條虛線表示交叉驗證誤差增速由低到高的轉(zhuǎn)折點。
圖1 交叉驗證誤差和λ的取值
由圖1可以看出:隨著logλ的增大,Lasso回歸模型的交叉驗證誤差緩慢增大;當logλ增至-1附近時,交叉驗證誤差增速驟升;當λ=0.013 76即logλ=-4.286 0時,交叉驗證誤差達到最小值即0.001 0。因此,λ的最優(yōu)取值為0.013 76,此時模型中含有10個特征變量。
數(shù)值形式的模型自由度、交叉驗證誤差和λ如表3所示。
自由度交叉驗證誤差 λ 自由度交叉驗證誤差 λ 10 0.001 0 0.013 76 4 0.014 0 0.097 05 9 0.001 1 0.014 41 4 0.022 5 0.128 30 10 0.001 2 0.015 10 3 0.024 4 0.134 40 10 0.001 3 0.015 82 3 0.030 7 0.154 50 9 0.001 4 0.016 57 3 0.033 3 0.161 90 8 0.001 5 0.017 36 2 0.036 0 0.169 60 8 0.002 6 0.025 18 2 0.149 3 0.374 00 7 0.002 7 0.026 38 2 0.213 7 0.450 50 7 0.003 1 0.030 34 2 0.336 3 0.568 40 6 0.003 3 0.033 29 1 0.367 9 0.595 50 6 0.003 5 0.034 88 1 0.633 0 0.787 20 6 0.006 8 0.060 95 1 0.832 5 0.905 10 5 0.007 3 0.063 85 1 0.912 3 0.948 20 5 0.007 8 0.066 89 0 1.000 0 0.993 30 4 0.010 4 0.080 57
根據(jù)λ由小變大和由大變小2個維度進行分析。①當λ由小變大時,自由度不斷減小,當λ=0.993 30時的自由度為0,此時模型中不再含有變量,且交叉驗證誤差達到最大值即1.000 0;②當λ由大變小時,交叉驗證誤差整體不斷減小,且當λ=0.013 76時,交叉驗證誤差達到最小值即0.001 0,由此得到λ的最優(yōu)取值即0.013 76,此時模型中含有10個變量,這與圖1的驗證結(jié)果相對應(yīng)。值得注意的是,當λ由0.015 10減至0.014 41時,交叉驗證誤差由0.001 2減至0.001 1,自由度由10減為9;隨著λ的繼續(xù)減小,交叉驗證誤差隨之減至0.001 0,但自由度又增至10。這種現(xiàn)象表明λ的取值依賴于交叉驗證誤差,既考慮模型的擬合程度,又考慮模型中的變量個數(shù)。
基于上述分析,本研究采用λ=0.013 76建立Lasso回歸模型,并采用坐標下降法求解Lasso回歸系數(shù)。
3.2.2 Lasso回歸系數(shù)
對20個原始特征變量的待估系數(shù)β=(β1,β2,…,β20)隨機取初值,采用R軟件進行正態(tài)模擬,生成正態(tài)隨機數(shù)并記為β0(表4)。
序號 正態(tài)隨機數(shù) 序號 正態(tài)隨機數(shù)1 0.918 977 11 1.358 680 2 0.782 136 12 -0.102 790 3 0.074 565 13 0.387 672 4-1.989 350 14 -0.053 810 5 0.619 826 15 -1.377 060 6-0.056 130 16 -0.414 990 7-0.155 800 17 -0.394 290 8-1.470 750 18 -0.059 310 9-0.478 150 19 1.100 025 10 0.417 942 20 0.763 176
對于第一輪迭代,從第一個特征變量即海洋漁業(yè)產(chǎn)值對應(yīng)的系數(shù)β1(1)開始,到第二十個特征變量即國內(nèi)旅游收入額對應(yīng)的系數(shù)β20(1)為止。每次迭代僅更新1個特征變量對應(yīng)的待估系數(shù),即將該系數(shù)視為變量,將剩余的19個系數(shù)視為常量,通過目標函數(shù)對該系數(shù)求偏導的方式得到其對應(yīng)的極小值,如此可得Lasso回歸系數(shù)迭代1次的解,記作;然后繼續(xù)迭代,此時出現(xiàn)當部分系數(shù)取值為0時目標函數(shù)才能取得極小值的情況,可將這些系數(shù)對應(yīng)的變量從模型中剔除;持續(xù)迭代直至目標函數(shù)取值的變化足夠小,可將此時的系數(shù)作為最終結(jié)果。
由于系數(shù)估計值較復雜且數(shù)量較多,本研究不再展示求解過程。結(jié)果表明有10個特征變量的系數(shù)估計值為0,在求解過程中將其從模型中剔除。最終的Lasso回歸模型中共含有10個特征變量,其系數(shù)估計值和進入模型的順序如表5所示。
評價指標 特征變量 系數(shù)估計值 進入模型的順序海洋漁業(yè)海洋漁業(yè)產(chǎn)值 0.129 368 0 3海洋漁業(yè)增加值 0.008 927 0 8海水養(yǎng)殖面積 -0.164 600 0 2海洋化工業(yè)燒堿產(chǎn)量 0.034 346 0 7純堿產(chǎn)量 0.004 349 0 9海洋進出口總額 出口額 0.049 385 0 6海洋環(huán)境廢水排放總量 0.046 163 0 5廢水處理能力 -0.056 210 0 4海洋交通運輸業(yè) 貨物吞吐量 0.000 060 2 10濱海旅游業(yè) 國內(nèi)旅客數(shù)量 0.556 582 0 1
采用10折交叉驗證確定λ的最優(yōu)取值為0.013 76,圖1和表3分別以曲線和數(shù)值的形式將確定λ最優(yōu)取值的過程具體化。λ的取值取決于交叉驗證誤差,既考慮模型的擬合程度,又對模型中的變量個數(shù)加罰,能夠顯著提高模型的泛化能力。由于原始數(shù)據(jù)已進行標準化處理,整體變化幅度較小,模型中的變量系數(shù)也較小,但仍可根據(jù)系數(shù)估計值判別各變量的重要性。
由表5可以看出,Lasso回歸模型篩選變量的重要性存在差別。其中,國內(nèi)旅客數(shù)量的系數(shù)估計值最大即重要性最強,而貨物吞吐量的重要性較弱;海洋漁業(yè)產(chǎn)值的系數(shù)估計值明顯大于絕大多數(shù)變量,表明其對青島海洋經(jīng)濟發(fā)展具有顯著影響,海洋漁業(yè)在所有海洋產(chǎn)業(yè)中表現(xiàn)較為突出也是青島海洋經(jīng)濟發(fā)展的明顯特征之一;在濱海旅游業(yè)中,國內(nèi)旅客數(shù)量因系數(shù)估計值最大而被最先選入最終模型,成為關(guān)鍵性變量,且其在整個評價指標體系中的地位也十分顯著;海洋化工業(yè)中的燒堿產(chǎn)量和純堿產(chǎn)量均被保留,但燒堿產(chǎn)量的重要性明顯高于純堿產(chǎn)量;海洋交通運輸業(yè)中僅有貨物吞吐量被保留,但其系數(shù)估計值最小,表明其對青島海洋經(jīng)濟發(fā)展的貢獻較小,尚存在廣闊的發(fā)展前景。
在模型回歸效果方面,應(yīng)用Lasso回歸模型對10個關(guān)鍵性變量的原始數(shù)據(jù)進行擬合,并將擬合值與真實值進行對比,得到整體平均預測誤差為0.000 98,表明預測準確率較高,且模型泛化能力和可信度遠高于普通最小二乘估計法的線性回歸。在相同條件下,若采用多元線性回歸,由于變量個數(shù)遠大于樣本量,得到的設(shè)計矩陣為非列滿秩矩陣;盡管此時的平均預測誤差接近于0,但這樣的回歸結(jié)果很可能是不可靠的,甚至無法得到準確的系數(shù)估計值。因此,本研究接受Lasso回歸模型的預測結(jié)果,并得到穩(wěn)健的稀疏模型。
濱海旅游業(yè)是青島的支柱產(chǎn)業(yè),應(yīng)充分挖掘海洋文化和豐富旅游項目,給各地旅客帶來新鮮感和體驗感,尤其應(yīng)完善相關(guān)基礎(chǔ)設(shè)施建設(shè),為旅客提供“一站式”服務(wù),提高旅客黏性;嚴格實行禁漁制度,定期放苗,保護海洋生態(tài)環(huán)境,促進海洋漁業(yè)的可持續(xù)發(fā)展[12]。
貨輪擁有裝載量大和運輸成本低等特點,適合發(fā)展國際貿(mào)易。青島應(yīng)抓住“后疫情時代”的發(fā)展機遇,提高青島港口的裝卸效率,通過智能化的碼頭和空軌集疏運系統(tǒng),由平面交通向立體交通升級;積極“走出去”,與世界名企聯(lián)合,建設(shè)世界一流的國際化港口。
近年來我國大力倡導綠色發(fā)展,在發(fā)展經(jīng)濟的同時保護環(huán)境已是社會各界共識。青島是依托海洋發(fā)展的城市,海水養(yǎng)殖業(yè)、海洋交通運輸業(yè)和濱海旅游業(yè)等主要產(chǎn)業(yè)的可持續(xù)發(fā)展都對海水質(zhì)量有很高的要求。因此,亟須完善“廢水入海”的管理制度和標準,加大執(zhí)法力度和科研投入,著力提高對工業(yè)和生活廢水的處理能力,使海洋生態(tài)文明建設(shè)更上新臺階。
海洋經(jīng)濟的跨越式發(fā)展須依靠海洋科技的促進和支撐。應(yīng)制定科學的海洋經(jīng)濟發(fā)展規(guī)劃,優(yōu)化海洋產(chǎn)業(yè)結(jié)構(gòu),大力培養(yǎng)海洋人才,以科技促發(fā)展,實現(xiàn)海洋經(jīng)濟發(fā)展方式的轉(zhuǎn)型升級[13]。