基于特征選擇的GDP 預(yù)測研究

2023-11-14 13:46程偉CHENGWei余蓓敏YUBeimin

價值工程 2023年30期

程偉 CHENG Wei；余蓓敏 YU Bei-min

（安徽電子信息職業(yè)技術(shù)學(xué)院電子工程學(xué)院，蚌埠 233040）

0 引言

國內(nèi)生產(chǎn)總值（GDP）是一個國家或地區(qū)反映國民經(jīng)濟發(fā)展變化情況的核心指標，做好GDP 預(yù)測對地方國民經(jīng)濟發(fā)展規(guī)劃及制定各行各業(yè)的發(fā)展計劃具有指導(dǎo)性作用。目前，預(yù)測GDP 變化趨勢主要有ARIMA 模型[1]、人工神經(jīng)網(wǎng)絡(luò)[2]和粒度理論[3]等方法，但利用特征選擇預(yù)測GDP 變化的卻鮮見。

近年來，機器學(xué)習(xí)和數(shù)據(jù)所涉及的數(shù)據(jù)維度呈爆炸性增加，機器學(xué)習(xí)算法中的訓(xùn)練集包含著許多冗余或無關(guān)的特征，這會導(dǎo)致預(yù)測模型的復(fù)雜化并增加訓(xùn)練的時間。特征選擇旨在相關(guān)特點中選擇或提取一部分最重要的特征子集作為算法的實際輸入特征，以求帶來更好的學(xué)習(xí)表現(xiàn)，縮短訓(xùn)練時間，改善模型的通用性，降低過擬合，提高預(yù)測準確度等等。因此，特征選擇及降維技術(shù)成為了機器學(xué)習(xí)和數(shù)據(jù)挖掘的一個重要分支和研究領(lǐng)域[4]。本文基于特征選擇的方法，利用穩(wěn)健深度自動編碼器（robust deep autoencoders）對地方國內(nèi)生產(chǎn)總值變化趨勢進行了預(yù)測。

1 基于特征選擇方法構(gòu)建預(yù)測模型

1.1 設(shè)計思路

模型設(shè)計包含特征選擇與預(yù)測兩大模塊。

特征選擇模塊的目標是探索特征提取方法來優(yōu)化預(yù)測模型并縮短訓(xùn)練時間。

預(yù)測模塊的主要目標通過結(jié)合特征選擇模塊的輸出，來提高預(yù)測算法的準確性和可靠性，以獲得最佳的預(yù)測結(jié)果。

在實驗階段對特征選擇技術(shù)及機器學(xué)習(xí)算法的交叉應(yīng)用進行研究分析，從而提煉出最佳組合方法，如圖1。

圖1 核心模塊示意圖

1.2 特征選擇模塊

特征選擇主要有穩(wěn)健的深度自動編碼器、灰色關(guān)聯(lián)法[5]等機器學(xué)習(xí)方法得出最優(yōu)的特征選擇方法。下面主要介紹穩(wěn)健的深度自動編碼器特征選擇方法。

1.2.1 自動編碼器

自動編碼器是一個基本的三層神經(jīng)網(wǎng)絡(luò)。輸入數(shù)據(jù)通過一對編碼和解碼階段，自動編碼器能夠捕獲隱藏層輸入的抽象表示，并重構(gòu)輸出層的輸入數(shù)據(jù)。

其中X 是輸入數(shù)據(jù)，E 是從輸入數(shù)據(jù)到隱藏層的編碼映射，D 是從隱藏層到輸出層的解碼映射，是輸入數(shù)據(jù)的恢復(fù)版本。CE 自編碼的目標是訓(xùn)練E 和D，使X，之間的重建誤差最小化[6]。因此，一個自動編碼器可以看作是以下優(yōu)化問題的解決方案：

1.2.2 深度自動編碼器

自動編碼器由于其簡單的淺層架構(gòu)，其表示能力是有限的。一個具有多個隱藏層的自動編碼器被稱為深度自動編碼器[7]，每一個額外的隱藏層都需要一對額外的編碼器E（·）和解碼器D（·）。針對高維輸入數(shù)據(jù)，深度自動編碼器通過一對對編碼和解碼階段從輸入到自身學(xué)習(xí)映射：

其中X 為輸入數(shù)據(jù)，深度自編碼器為2n+1 層，共n個編/解碼階段，Ei（i=1，…，n）是從輸入數(shù)據(jù)到隱含層的編碼映射，Di（i=1，…，n）是從隱含層到輸出層的解碼映射，而為重新獲取的新的輸入數(shù)據(jù)。通過允許許多層的編碼器和解碼器，深度自動編碼器可以精確地表示輸入X 上的復(fù)雜分布。

1.2.3 穩(wěn)健的深度自動編碼器（robust deep autoencoders）

根據(jù)穩(wěn)健主成分分析（RPCA）的思想，在深度自動編碼器中加入異常正則懲罰項，由此構(gòu)成穩(wěn)健深度自編碼器[8]。通過加入正則化，穩(wěn)健自編碼器不僅保持了深度自編碼器發(fā)現(xiàn)高質(zhì)量、非線性特征的能力，還可以降低特征維數(shù)，只提取最有用的特征進行數(shù)據(jù)預(yù)測，因此穩(wěn)健深度編碼器的輸出比輸入能更好地理解數(shù)據(jù)特征。學(xué)習(xí)到的穩(wěn)健自編碼器的特征可以作為另一個機器模型的輸入，如支持向量機、神經(jīng)網(wǎng)絡(luò)或隨機森林，用于數(shù)據(jù)預(yù)測。

在穩(wěn)健的深度自動編碼器中加入一個過濾層，將難以重構(gòu)的數(shù)據(jù)中的異常值和噪聲值與剩下的數(shù)據(jù)分離開來，剩下的數(shù)據(jù)可以用低維隱層來表示。輸入數(shù)據(jù)可表示為：

其中LD表示自編碼器隱含層中能很好地表示輸入數(shù)據(jù)特征的部分，S 包含噪聲和難以重構(gòu)的異常值。

其中Eθ（·）表示編碼器，Dθ（·）表示解碼器，λ 是一個調(diào)整S 稀疏度的一個參數(shù)。通過這樣做，穩(wěn)健深度自編碼器對訓(xùn)練數(shù)據(jù)集中的異常值和噪聲是魯棒的。利用穩(wěn)健深度自編碼器的隱層進行數(shù)據(jù)特征選擇，可作為預(yù)測模塊的輸入數(shù)據(jù)，通過支持向量機（SVM）等預(yù)測方法進行數(shù)據(jù)預(yù)測。

1.3 預(yù)測模塊

將選擇的特征作為輸入提供給預(yù)測模塊，通過使用驗證數(shù)據(jù)集進行訓(xùn)練和優(yōu)化，將得到一個含有深度分類器的預(yù)測模型。與傳統(tǒng)預(yù)測模型相比，深度分類器可以更快發(fā)現(xiàn)高級特征，縮短訓(xùn)練時間，降低過擬合，改善模型的通用性，由此來提高預(yù)測算法的準確性和可靠性。

線性回歸（LR）是[9，10]預(yù)測中應(yīng)用最廣泛的回歸模型之一。它將預(yù)測模型與目標變量的觀測數(shù)據(jù)集相擬合以進行預(yù)測和相應(yīng)的特征。支持向量機（SVM）[11]最初用于解決一個二值分類問題，通過構(gòu)造一個決策平面來分離邊界最大的二值分類。支持向量機既可以解決分類[12]問題，也可以解決原理相似的回歸[13]問題。神經(jīng)網(wǎng)絡(luò)（NN）是由神經(jīng)元組成的多層網(wǎng)絡(luò)，通過非線性激活函數(shù)來學(xué)習(xí)輸入和輸出之間的非線性關(guān)系。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中使用梯度下降法，試圖尋找更適合數(shù)據(jù)的系數(shù)，直到得到模型預(yù)測[14]的最優(yōu)權(quán)值。

隨機森林[15，16]通過在訓(xùn)練時構(gòu)造多個決策樹，并輸出單個決策樹的平均預(yù)測來進行回歸分析。隨機森林是一種套裝技術(shù)，在樹之間沒有相互作用，因此生成預(yù)測時無相互影響。

2 案例研究

2.1 模型及數(shù)據(jù)

本案例的預(yù)測模型通過穩(wěn)健的深度自動編碼器（Robust Deep Autoencoder）來選擇最有用的特征，然后利用隨機森林（RF）算法對按收入法構(gòu)成的安徽生產(chǎn)總值（GDP）進行預(yù)測。

數(shù)據(jù)集包括2005-2019 年安徽生產(chǎn)總值（GDP）及按行業(yè)、產(chǎn)業(yè)和收入法構(gòu)成的28 個相關(guān)因素。本案例以安徽生產(chǎn)總值為系統(tǒng)屬性，將行業(yè)、產(chǎn)業(yè)和收入法構(gòu)成的28 個相關(guān)因素作為一系列相關(guān)的特征，由此構(gòu)成相關(guān)的數(shù)據(jù)集，如表1。其余年份的數(shù)據(jù)作為訓(xùn)練集，經(jīng)穩(wěn)健的深度自動編碼器來選擇最有用的特征，利用隨機森林（RF）算法預(yù)測2014-2016 年的安徽生產(chǎn)總值（GDP），其結(jié)果如表2。

表1 2005-2019 年的安徽生產(chǎn)總值單位：億元

表2 用隨機森林（RF）模型預(yù)測GDP

其中yi，分別為實際數(shù)值和預(yù)測數(shù)值。

2.2 數(shù)據(jù)分析

表2 將2014-2016 年安徽生產(chǎn)總值（GDP）預(yù)測結(jié)果與基于穩(wěn)健的深度自動編碼器的特征選擇方法的有效性進行對比。從表2 中可以看出，使用特征選擇后的隨機森林（RF）預(yù)測的安徽生產(chǎn)總值（GDP）與實際數(shù)值更加接近，證明了特征選擇步驟的重要性。

表3 對隨機森林（RF）預(yù)測模型誤差進行分析。其中包含均方根誤差（RMSE）絕對數(shù)值分析，希爾不等系數(shù)（Theil IC）和平均絕對百分誤差（MAPE）相對數(shù)值分析[17]。如果平均絕對百分誤差的值小于10，希爾不等系數(shù)數(shù)值小，則認為預(yù)測模型可行。而帶有特征選擇的隨機森林（RF）預(yù)測模型得到的MAPE 值為2.688162，其值較小且小于10，說明其模型預(yù)測精度較高。從表3 看，帶有特征選擇的RF 預(yù)測模型的希爾不等系數(shù)值為0.013799，比無特征選擇的RF 系數(shù)小，且遠遠小于1，說明此模型的預(yù)測準確度較高。同時帶有特征選擇的RF 預(yù)測模型的均方根誤差的值為608.875，也比無特征選擇的RF 均方根誤差小。

表3 隨機森林（RF）模型預(yù)測誤差比較

綜上所述，通過對安徽生產(chǎn)總值（GDP）預(yù)測模型的分析，驗證了深度自動編碼器的特征選擇方法在安徽生產(chǎn)總值（GDP）預(yù)測中的有效性。

3 結(jié)語

提出了一種基于特征選擇算法的GDP 預(yù)測模型。該模型主要由特征選擇模塊和預(yù)測模塊組成。通過計算系統(tǒng)屬性與特征屬性之間的關(guān)聯(lián)，只有相關(guān)性最高的特征屬性才能被保留。然后，將選取的特征屬性作為輸入數(shù)據(jù)進入預(yù)測模塊進行預(yù)測。以安徽省的生產(chǎn)總值（GDP）為案例，對預(yù)測模型進行了驗證。結(jié)果表明，通過利用提出的特征選擇方法選擇有用的特征，對GDP 進行預(yù)測可顯著提高預(yù)測模型的準確性和有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡