国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種缺失值填充方法的研究

2016-10-12 07:53韓榕生劉志紅
關鍵詞:梯度用量天然氣

韓榕生 劉志紅

(華北電力大學 數(shù)理學院,北京 昌平 102206)

?

一種缺失值填充方法的研究

韓榕生劉志紅

(華北電力大學 數(shù)理學院,北京 昌平 102206)

隨著信息時代的到來,人們在各行各業(yè)都面臨著海量的數(shù)據(jù)信息,而缺失數(shù)據(jù)的存在已成為人們對數(shù)據(jù)處理分析的一個重大難題。鑒于此,基于自聯(lián)想神經(jīng)網(wǎng)絡方法,采用逆非線性主成分分析預測模型對宿州市天然氣用量的原始數(shù)據(jù)構建缺失值填充模型。為進一步改進逆非線性主成分分析(Inverse Nonlinear principal component analysis model)方法出現(xiàn)的局部極小點和收斂速度慢的問題,采用共軛梯度算法對其進一步優(yōu)化。

逆非線性主成分分析模型;共軛梯度法;預測模型

0 引言

無論是在科研實驗,還是在銀行、保險、金融投資以及社會調(diào)查等領域,我們收集到的數(shù)據(jù)常常是不完整數(shù)據(jù)。比如在處理影像恢復的物理問題時,由于各種因素影響,無法避免圖像的降質(zhì),一些重要信息無法從影像中獲取。這就需要我們對圖像進行復原處理。另外在醫(yī)學研究中,對病人臨床試驗時需要搜集大量的資料,有些病人可能不愿意接受調(diào)查或者不愿意反饋治療效果等其他原因都會造成某些數(shù)據(jù)缺失的情況,從而增加科研等一系列工作統(tǒng)計分析的難度。因此對缺失值進行深入的研究具有重要意義。

從人們開始著手研究缺失數(shù)據(jù)的處理到現(xiàn)在,已取得了很多研究成果,總結了一些處理方法,并且在實際的應用中也產(chǎn)生了一定的經(jīng)濟效益[1—4]。A.P.Dempster等在1977年總結出了對缺失值填充的期望極大化(Expectation Maximization,簡寫為EM)算法[5],EM算法的出現(xiàn)加快了缺失數(shù)據(jù)填充的步伐,但是EM算法的收斂速度慢,計算較為復雜。之后,一些研究者相繼提出了回歸方法、貝葉斯方法以及多值填充方法。然而伴隨著機器學習與數(shù)據(jù)挖掘的逐漸發(fā)展,缺失值填充的問題被進一步地補充。人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,簡寫為ANN)是機器學習的一個龐大的分支,有幾百種不同的算法。它是一種模仿動物神經(jīng)網(wǎng)絡行為特征,進行分布式并行信息處理的算法數(shù)學模型,依靠著系統(tǒng)的復雜程度,通過調(diào)整網(wǎng)絡相互連接的節(jié)點的關系,從而實現(xiàn)對信息的處理。神經(jīng)網(wǎng)絡具有自學習和自適應的能力,既可以實現(xiàn)聚類,也能夠?qū)崿F(xiàn)回歸系統(tǒng)本身,這就為缺失值填充問題的研究又開拓了新的領域。

本文是基于Kramer[6]提出的一種自聯(lián)想神經(jīng)網(wǎng)絡(Autoassociative Neural Networks,AANN)的非線性主成分方法,采用逆非線性主成分分析模型[7]對宿州市天然氣用量進行分析預測。考慮到傳統(tǒng)的神經(jīng)的誤差函數(shù)是以一個signmoid函數(shù)為自變量的非線性函數(shù),因此由其構成的連接神經(jīng)網(wǎng)絡的權值不是只有一個極小的拋物面,而是存在多個極小超曲面。一旦網(wǎng)絡在訓練的過程中遇到局部極小點時或者在初始狀態(tài)連接神經(jīng)網(wǎng)絡的權值過大,致使一開始網(wǎng)絡就處于signmoid的飽和區(qū)域,這都將造成結果的不準確。為此本文采用共軛梯度法來減小震蕩趨勢,提高訓練速度,加快網(wǎng)絡的收斂。

1 基于自聯(lián)想網(wǎng)絡的非線性主成分提取

主成分分析方法是對原有的數(shù)據(jù)進行線組合,從而實現(xiàn)主成分的提取,在許多領域中都被廣泛地應用。有些時候主成分與原有的數(shù)據(jù)呈現(xiàn)一種非線性的映射關系,若繼續(xù)采用主成分分析的方法,必將使提取的主成分不準確。1991年Kramer[6]提出的自聯(lián)想神經(jīng)網(wǎng)絡的非線性主成分算法,其基本原理如圖1所示。

自聯(lián)想神經(jīng)網(wǎng)絡模型包括輸出模型、作用函數(shù)模型以及誤差計算模型。

1.1自聯(lián)想神經(jīng)網(wǎng)絡輸出模型

映射層第k個神經(jīng)元的輸出為:

(1)

輸出層第i個神經(jīng)元的輸出為:

(2)

1.2作用函數(shù)模型

神經(jīng)元的激活函數(shù)是神經(jīng)網(wǎng)絡的重要組成部分,激活函數(shù)又包括多種類型,本文采用S形激活函數(shù),即:

(3)

S型激活函數(shù)可將任意值壓縮到(0,1)的范圍內(nèi),是一個非線性型函數(shù)。

1.3誤差計算模型

(4)

1.4INVERSE NLPCA MODEL

為進一步提高神經(jīng)網(wǎng)絡的計算效率,本文采用INVERSE NLPCA MODEL[7],即自聯(lián)想神經(jīng)網(wǎng)絡的解壓縮網(wǎng)絡過程。相比訓練整個神經(jīng)網(wǎng)絡,逆模型的訓練過程進一步地減少計算量,提高了計算效率,并且逆模型同樣可以解決預測問題。相比之下,逆模型網(wǎng)絡中不需要數(shù)據(jù)信息的輸入,即可以任意給出瓶頸層的主成分(或者通過自聯(lián)想神經(jīng)網(wǎng)絡的一次壓縮過程獲得主成分),通過逆模型解壓數(shù)據(jù)信息得到輸出數(shù)據(jù)

(5)

(6)

其中d代表樣本數(shù)據(jù)的某性質(zhì),N代表樣本數(shù)目,通過誤差函數(shù)來修正逆模型網(wǎng)絡的權重和瓶頸層的主成分以獲得最小誤差,從而實現(xiàn)對原樣本數(shù)據(jù)缺失值的填充。其權值的梯度公式為:

(7)

(8)

相比較訓練整個自聯(lián)想神經(jīng)網(wǎng)絡,縮短了填充時間。考慮到INVERSE NLPCA MODEL方法的誤差函數(shù)是一個以sigmoid函數(shù)為自變量的非線性函數(shù),因此構成連接權值的空間存在一些局部極小面,在網(wǎng)絡的訓練的過程中,容易使網(wǎng)絡陷入局部極小值。當誤差函數(shù)接近極小點時,搜索步長會變得越來越小,導致收斂速度越來越慢。為進一步改進INVERSE NLPCA MODEL出現(xiàn)的局部極小點和收斂速度慢的問題,本文采用共軛梯度算法對其進一步優(yōu)化。共軛梯度算法通過一次求導獲得負梯度方向,然后按照與負梯度共軛的方向搜索,從而實現(xiàn)快速達到最優(yōu)值。這樣既克服了最速下降法的鋸齒現(xiàn)象,又避免了牛頓法的計算量大和局部收斂性的缺點。

1.5基于共軛修梯度法對逆網(wǎng)絡模型的修正可以歸納為:

(1)設初始權值為w,精度要求為,令n=n+1;

(3)否則,令d1=-g1,設λ為控制步長的參數(shù),調(diào)節(jié)λ使得E(w1+λd1)到達最小值,并計算w2=w1+λmind1,檢查是否滿足停止條件;

(5)令n=n+1,返回(6)。

2 填充結果與分析

為了檢驗INVERSE NLPCA MODEL填補缺失數(shù)據(jù)的性能,本文選取宿州市2010—2015年天然氣用量及相關因素作為樣本[8],包括天然氣用量人數(shù)、交通運輸數(shù)量、工業(yè)天然氣用量、餐飲業(yè)天然氣用量、其他行業(yè)天然氣用量和天然氣總用量六大部分(詳見表1)。測速變量為天然氣總用量,在這些數(shù)據(jù)中隨機刪除某一年的天然氣總用量和某一方面的天然氣用量數(shù)據(jù)得到測試數(shù)據(jù),用預測值比較刪除的真實值。

表1 天然氣用量及相關因素的樣本數(shù)據(jù)

本文采用fortran語言程序通過INVERSE NLPCA MODEL仿真,根據(jù)天然氣用量及其相關因素把數(shù)據(jù)分為六部分,數(shù)據(jù)以矩陣的形式輸入,矩陣的每一行對應一個觀測事件,矩陣的每一列作為相應的屬性。對2010—2015年天然氣總用量的缺失值填充結果如表2所示。

表2中給出了原始值和填充值,并計算了相對誤差以及平均相對誤差。填充結果的相對誤差和絕對誤差均小于2%,說明該方法能夠?qū)崿F(xiàn)較為合理的缺失值填充。

表2 填充值及相對誤差

從圖2我們可以看到,原始值和填充值吻合得比較好,進一步驗證了該模型的可行性。

3 結論

本文針對天然氣用量的缺失數(shù)據(jù)通過INVERSE NLPCA MODEL予以一定的填充,結果顯示該模型能夠很好解決缺失值填充的問題,并依據(jù)該模型可以得到較高的填充精度。因此,逆非線性主成分分析模型解決缺失值問題是簡單可行并且有效的。本文給出的數(shù)據(jù)較少,缺失值數(shù)據(jù)也只占到15%到20%,考慮到該模型能夠?qū)崿F(xiàn)一個非線性問題的計算且能夠?qū)⒏呔S數(shù)據(jù)壓縮到低維數(shù)據(jù),我們也會進一步研究將該模型應用到高維大數(shù)據(jù)中去解決缺失值填充問題。

[1]Batista G E,Menards M C. A study of k-nearest neighbor as a model-based to treat missing data[J].Proeeedings of the Argentine Symposium on Artificial Intelligence,2003,(30):1—9.

[2]Gediga G,Duntsch I.Maximum Consistency of Incomplete Data via Non-Imputation[J].In Artificial Intelligence Review, 2003,19(1):93—107.

[3]Scheffer J.Dealing with Missing data[J].Research Letters in the Information and Mathematical Sciences, 2002,(2):153—160.

[4]Anderson A B,Basilisky A,Hum D PJ.Missing Data: A Review Literature[G].Handbook of Surgery Research New York, 2002.

[5]Dempster A.P.,Larid N.M.,Rubin D.B..Maximan likelihood estimation from incomplete data via the algorithm[J].J Roy statist Soc B,1997,(39):1—38.

[6]Mark A Kramer Nonlinear Principal Component Analysis Using Auto associative Neural Networks[J].AIChE J, 1991,37(2):233—243.

[7]Scholz M.Kaplan F.Gug CL.Kopka J.Selbig J Non-linear PCA:a missing date approach.Bioinformatics,2005,21(20):3 887—3 895.

[8]李杰.主成分分析模型在天然氣用量預測中的應用研究[J].陰山學報,2016,(4).

責任編輯:盧宏業(yè)

10.3969/j.issn.1674-6341.2016.05.013

2016-08-17

韓榕生(1970—),男,理學博士,副教授,碩士研究生導師。研究方向:生物物理、計算物理、理論凝聚態(tài)物理。

TP39

A

1674-6341(2016)05-0030-03

猜你喜歡
梯度用量天然氣
2021年日本鈦加工材在各個領域用量統(tǒng)計
一個帶重啟步的改進PRP型譜共軛梯度法
一個改進的WYL型三項共軛梯度法
一種自適應Dai-Liao共軛梯度法
第六章 意外的收獲——石油和天然氣
石油和天然氣
大豆種植意向增加16.4%化肥用量或?qū)p少
一個具梯度項的p-Laplace 方程弱解的存在性
天然氣:供暖季在即LNG價格持續(xù)走高
天然氣:LNG價格已經(jīng)開始預熱了么?