王梓涵 于忠清
摘要:針對LSTM神經網絡模型的計算量較大,不可控的自主選擇過程以及容易過擬合等問題,提出了TCK-LSTM-ATT模型,利用卷積核對數(shù)據(jù)特征進行提取合并,采用注意力機制對重要數(shù)據(jù)進行加權的組合模型方法。為了驗證該模型對于供水量預測的準確性,利用中國東北某市2019年到2020年的某供水管網系統(tǒng)供水數(shù)據(jù)進行驗證。實驗結果表明,與普通模型相比,組合模型的預測誤差減少約20%,R2值約為9.5,取得了較好的預測效果。
關鍵詞:供水量預測;長短時循環(huán)記憶網絡;卷積核;注意力機制
中圖分類號:TP183;TV241???????? 文獻標志碼:A
隨著信息技術不斷發(fā)展,近年來水利信息化已經成為了重要課題,其中,城市用水量是一個城市進行水資源規(guī)劃,實施供水調度決策、保障管網系統(tǒng)正常運行、同時降低供水成本的重要數(shù)據(jù)。因此,提供準確數(shù)據(jù),并預測一個城市未來一段時間內的用水趨勢是水利部門進行科學決策的前提。傳統(tǒng)預測方法主要指通過對時間序列本身進行數(shù)學建模的預測方法,包括利用修勻技術的指數(shù)平滑法和移動平均法、將時間序列拆分成四種趨勢的組合模型法、建立多元線性回歸模型的自回歸積分滑動平均模型(ARIMA)等時間序列預測模型方法。這些方法的特點是數(shù)學建模簡單,易于使用,但是因為現(xiàn)實數(shù)據(jù)往往有較大的噪聲混淆,模型不能很好的擬合數(shù)據(jù),且精度低,泛化差[1-2]。近年來人工智能與大數(shù)據(jù)技術的興起,使得利用機器學習算法特別是神經網絡方法,直接從數(shù)據(jù)中學習規(guī)律進行預測越來越受到學術界的關注。目前,循環(huán)神經網絡(RNN)的改進方案長短時記憶神經網絡(LSTM)在預測時間序列相關的問題上具有較多的應用。針對日供水預測這一業(yè)務的需求特點,研究了在利用LSTM將用水量作為單一模型特征的輸入時能夠有效保證用水量預測的可靠性和穩(wěn)定性[3];利用雙向LSTM模型預測某供水管網15 min的需水量實驗,表明預測模型的建立應當考慮水量這一特征的周期性與趨勢性,并且在特征的精度方面做出提高可以獲得更好的效果[4];對LSTM模型加入Encoder-Decoder編碼,解決了利于多特征預測城市用水量問題,使在復雜因素影響下研究城市短期需水量成為了可能[5]。通過相關的前序研究,總結出使用LSTM模型進行用水量預測時需要考慮的影響因素:在多特征復雜條件下的預測需要抽取能夠影響預測的重要特征并向量化表達,并且在輸入特征時保證時間序列內特征能夠反映出其趨勢性與周期性。傳統(tǒng)的LSTM模型有一些固有缺陷:由于模型擬合的參數(shù)變多,會導致計算量的變大; LSTM模型本身對數(shù)據(jù)準確性的依賴性較高;循環(huán)神經網絡在特征量較少時容易過擬合[6]。基于此,提出了一種基于LSTM的組合改進模型,首先利用時間卷積核(Temporal convolution kernel)進行特征提取,增強數(shù)據(jù)的有效利用;再將特征數(shù)據(jù)輸入LSTM模型,通過注意力機制(Attention)對數(shù)據(jù)分配權重并學習重要的數(shù)據(jù),解決信息超載導致的計算資源分配不平衡等問題,以提升模型效率,這種結構被稱為TCK-LSTM-ATT集成模型。TCK-LSTM-ATT集成模型能夠很好地適應不同特征數(shù)下的預測情景。通過利用某市的實際數(shù)據(jù),與普通的LSTM等模型形成對照試驗,實驗結果表明此種預測方法具有較高的預測精度和穩(wěn)定性,是一種有效的預測方法。
1研究方法
1.1 LSTM神經網絡模型
Hochreiter等[7]于1997年提出了模擬人腦記憶機制的長短時循環(huán)記憶網絡(LSTM)模型來解決RNN模型中由于在串行模式下導致的訓練時梯度消失的問題[8-9]。LSTM特點是在隱藏層節(jié)點中加入門控機制構成獨特的神經元結構,典型LSTM神經元結構,如圖1所示。
其中,Wf、Wi、Wc、Wo分別為遺忘門、輸入門、細胞狀態(tài)和輸出門的權重矩陣。ht-1為上一層隱藏狀態(tài)的信息,Ct-1為上一層細胞狀態(tài),Xt為本層輸入信息。
(1)遺忘門:遺忘門體現(xiàn)了對過往歷史信息的學習程度與能力。sigmod函數(shù)輸出值介于0和1之間,越靠近0意味著信息的遺忘,越靠近1意味著信息會被神經元記憶
ft=sigmod(Wfht-1,Xt+bf)(1)
(2)輸入門:輸入門體現(xiàn)了記憶模塊的選擇性,通過利用非線性函數(shù)決定部分信息的存儲。it的值會決定歷史信息中被更新的部分,新的侯選值向量Ct決定保存哪些信息
it=sigmod(Wiht-1,Xt+bi)(2)
Ct=sigmodWcht-1,Xt+bc(3)
更新記憶模塊狀態(tài),得到新的細胞狀態(tài)Ct
Ct=ft*Ct-1+it*Ct (4)
(3)輸出門:輸出門的作用是對記憶模塊本身的更新,即對隱藏層參數(shù)的更新,這種更新包含了對歷史信息的選擇性學習和選擇性保存。
最后新的細胞狀態(tài)與新的隱藏狀態(tài)通過運算,將最終信息傳遞到下一個時間步長中
Ot=sigmodWcht-1,Xt+bo(5)
ht=Ot*tanhCt(6)
LSTM模型通過sigmod函數(shù)的特性提高了模型對信息的選擇能力,并且有效緩解了RNN中反向傳播梯度時的梯度消失問題,提供了解決問題的一種可靠的方法。
1.2 時間卷積核
卷積神經網絡(CNN)是神經網絡的代表模型之一[10-11],利用卷積核(convolution kernel)這種特殊算子提取數(shù)據(jù)的局部特征,卷積核可以應用于處理文本類型的一維數(shù)據(jù)問題。時間卷積核是時間卷積網絡(TCN)中一維卷積的變體膨脹卷積[12]。膨脹卷積的結構如圖2所示。
時間卷積核將膨脹卷積應用于供水量預測問題,在其基礎上,進行了多通道以及變長滑動窗口的改進,使得膨脹卷積能夠用于多變量的時間序列預測,實現(xiàn)利用卷積捕獲可變信號的模式。
1.3 注意力機制
注意力機制最早應用于序列到序列(seq2seq)模型,用以解決該模型在應用于機器翻譯時,由于句子太長而導致遺忘信息的問題[13]。在TCK-LSTM-ATT模型中,注意力機制被應用于LSTM模型學習用水量規(guī)律的過程中,通過權重賦予對輸出時刻的水量與歷史數(shù)據(jù)的特征進行關聯(lián),從而突出特征對輸出數(shù)據(jù)的影響性,增大數(shù)據(jù)學習的有效性。
2 模型構造
2.1 組合模型原理
本文提出的TCK-LSTM-ATT組合模型是一種綜合考慮了時間序列數(shù)據(jù)特點的預測模型,先由同大小但空窗數(shù)不同的一維卷積相互堆疊,形成時間卷積核,時間卷積核有如下特點:在單一特征中,越上層的卷積空洞越大,且輸出層為全連接層,這使得上層每一個包含數(shù)據(jù)的神經元節(jié)點都必然包含下層大量的數(shù)據(jù);在處理多特征的數(shù)據(jù)時,時間卷積核將不同的特征做類似于圖像中RGB多通道處理,再將通道合并以此來節(jié)省計算資源。
在時間卷積處理完畢后,LSTM神經網絡便可接收由大量數(shù)據(jù)重新編排之后的抽象數(shù)據(jù),此時模型多次迭代后學習到的結果更為抽象化,因此加入了注意力機制,通過權重賦予將輸出結果與輸入的時間步進行關聯(lián),以此來保證LSTM模型確實的學習到了數(shù)據(jù)中存在的規(guī)律,并提高LSTM模型的學習效率。
2.2 組合模型詳細構造過程
TCK-LSTM-ATT神經網絡模型如圖3所示。
(1)圖3中①的灰色矩形表示為“卷積空窗”,時間卷積利用多層不同空窗大小的一維卷積相互堆疊進行特征提取?!熬矸e空窗”即是在數(shù)據(jù)的排列中用0作為數(shù)據(jù)進行填充。相比傳統(tǒng)的深度學習網絡中使用的降采樣提取特征的方法,使用“卷積空窗”可以在降低計算成本的同時增加單元上的感受野,同時還不需要改變卷積核的大小。
(2)圖3中②表示時間卷積的第二部分,即將多特征按照空間上下排列,形成可操作的圖像通道,再利用卷積進行特征合并,其優(yōu)點在于合并后的抽象特征數(shù)降低,能夠減少LSTM神經元的運算資源。設卷積核F=(f1,f2,…,fk),k為卷積核的窗口大小,即代表了一組長度為k的序列與卷積核算子進行運算;序列H(i)=(hi1,hi2,…,hiT),i為多特征序列的第i維特征,T為時間步長度;
(3)基于此,TCK卷積核的使用步驟如下:使用多個可設置窗口大小的時間卷積分別對不同的特征維度進行特征提取并用填充方法使得提取后的特征序列尺寸相同,之后按照多通道的方式對多維特征進行合并
F*dHhit=∑Kk=1fkhit-K-kdi=1,…,p(7)
F1Hihi=∏pk=1,i=1fkhi(8)
其中,卷積核F=(f1,f2,…,fk)的膨脹因子d在不同的隱藏層按照2的倍數(shù)遞進。F1為多通道的一維卷積,窗口大小即為特征數(shù)p,hi為第i維特征提取后的數(shù)值。
(4)圖3中③表示LSTM神經網絡模型的數(shù)據(jù)構造,LSTM有稱為“時間步”(time_steps)的參數(shù),表示在一次輸入輸出內,記憶單元的更新次數(shù)。因此設定LSTM的輸出長度與時間步一致,均為T,表示LSTM輸入向量為x=[d(t-T),…,d(t)],輸出向量為y=d(T),此時代表了該模型會按照前T個時刻的數(shù)據(jù)進行非線性擬合,從而在擬合曲線中預測到第T個數(shù)據(jù)。在TCK-LSTM-ATT模型中,LSTM神經網絡的輸入并非是原始數(shù)據(jù),而是經過圖3中②的時間卷積核高度抽象之后的數(shù)據(jù),原始數(shù)據(jù)通常伴有非常多的冗余且特征不明顯,在經過卷積運算之后,能夠將具有潛在規(guī)律性的數(shù)據(jù)提煉出來,以這樣的抽象數(shù)據(jù)輸入神經網絡模型,不僅可以方便模型更好地學習到其中的規(guī)律,而且數(shù)據(jù)量比原始數(shù)據(jù)少也能夠減少計算量。
(5)圖3中④表示注意力機制(ATT),在TCK-LSTM-ATT模型中,假設有序列H=(h1,h2,…,hT)表示為卷積合并之后輸入LSTM得到的隱藏層時間序列,該序列為第T個時間步的最終輸出狀態(tài),則在Attention機制中有αi=aligh(hi,H)表示最終輸出與之前每個時間步狀態(tài)的相關性,即為權重。αi的求解
α1,…,αT=softmaxVTαtanhWαsi-1+Uαhji,j=1,…,T(9)
其中,Wα,Vα,Uα均為與權重αi相關的參數(shù)矩陣,softmax函數(shù)使得輸出結果維持在0到1的區(qū)間范圍內。在得到權重后,實際上體現(xiàn)了LSTM模型的隱藏層序列中不同結果的重要程度,通過張量運算點乘權重αi與輸出序列H可以令輸出的結果獲得重要性權重,之后在下一輪LSTM的學習中便會令數(shù)據(jù)的規(guī)律性結果更進一步地體現(xiàn)。
(6)圖3中⑤表示將最后一層LSTM神經網絡的輸出結果展平成一維張量的形式,并與個數(shù)為1的輸出層神經元進行全連接,通過一層感知機運算輸出最終結果。
3 案例分析
3.1 用水量相關因素分析及數(shù)據(jù)處理
城市用水量受到多種因素影響,除了溫度、濕度、氣壓等自然影響因素外,還包括城市經濟發(fā)展水平、人口規(guī)模、節(jié)假日等社會因素,以及隨機性擾動等因素[14]。城市供水量往往與當?shù)貧庀蟪尸F(xiàn)出某種相關趨勢,考慮同一個季節(jié)之內每天的氣溫波動變化大致相同,因而將每時刻的氣溫選為特征變量之一,使得數(shù)據(jù)呈現(xiàn)出周期性,對于突然溫差變化較大導致的居民用水量影響則作為擾動性的噪聲數(shù)據(jù)。
在與城市用水量相關的社會因素中,將節(jié)假日信息作為特征變量,在具體數(shù)據(jù)處理時將工作日標記為1,周末非工作日以及節(jié)日標記為0,以此來體現(xiàn)不同時間城市居民的人員流動對供水的影響。不同的特征因為量綱不同,因此為保證輸出數(shù)據(jù)的一致性,實驗前對數(shù)據(jù)集進行歸一化操作。
從中國東北某市某自來水管網系統(tǒng)獲取了從2018年9月—2020年9月按照每1 h采集的供水量數(shù)據(jù)。將無效采集數(shù)據(jù)清除后共得到16 920條數(shù)據(jù)作為作為數(shù)據(jù)集,在數(shù)據(jù)集中適當加入噪聲因子,噪聲服從標準正態(tài)分布,最終選取5 000條數(shù)據(jù)作為測試集。輸入數(shù)據(jù)的長度應盡可能保留時間序列的周期趨勢,選取輸入數(shù)據(jù)長度為24,即保留居民用水量24 h,預測當前時刻開始的未來1 h的水量數(shù)據(jù)。部分實際數(shù)據(jù)如圖4所示。
居民用水量在某一個范圍區(qū)間內呈現(xiàn)規(guī)律性,而在區(qū)間之外有個別相差過大的數(shù)據(jù),對此類數(shù)據(jù)判別為擾動性的突發(fā)事件導致,不作處理。
3.2 實驗環(huán)境搭建
本實驗使用Python作為開發(fā)語言,使用TensorFlow和Keras搭建神經網絡模型框架,表1和表2列出TCK-LSTM-ATT組合模型以及對照實驗組的超參數(shù)取值范圍。
3.3 評估指標
對于回歸模型通常使用以下評價指標作為模型預測結果的評估標準,分別是均方根誤差(RMSE),平均絕對誤差(MAE),平均絕對百分比誤差(MAPE)以及R2(確定系數(shù))值
RMSE= 1m∑mi=1yi-yi2(10)
MAE=1m∑mi=1yi-yi (11)
MAPE=1m∑mi=1yi-yiyi×100%(12)
R2=∑mi=1yi-y-2∑mi=1yi-y-2(13)
本實驗以普通RNN,LSTM,雙向LSTM(BiLSTM),帶注意力機制的LSTM(LSTM-ATT)和時間卷積網絡(TCN)為對照組,在相同的實驗環(huán)境下,得到模型的預測評估指標。除此之外,模型的泛化能力也應在實驗中得到檢驗。因此將測試集按照不同的數(shù)量分為100,2 000,5 000的實驗,根據(jù)評價指標的變動體現(xiàn)模型的泛化能力。
3.4 消融實驗驗證特征影響
本實驗共有四個特征,分別為某市居民的用水量,當?shù)氐臍鉁?,用電量與日期信息(包括工作日與節(jié)假日),首先利用消融實驗驗證每個特征與模型輸出既用水量之間的相關性,通過評估指標的值進行相互比較,在建立對比實驗時,需保證實驗環(huán)境的一致性:模型的輸入集一致,所用模型均為TCK-LSTM-ATT模型。由于特征一即用水量本身即是輸入變量同時也是輸出變量,因此假設實驗結果中特征一的誤差最小,表3為消融實驗結果。
實驗結果符合預測,用水量作為特征輸入神經網絡時即是輸入變量又是輸出變量,因此可以看作是單特征的時序預測,其結果符合用水量需求預測可靠性和穩(wěn)定性的需求。根據(jù)實驗結果,氣溫差異與用電需求對用水需求的影響較大,可反推出該市的地理特征與城市類型,與實際情況相符。日期信息與用水需求的相關性不明顯,推測可能與該市居民的生活習慣相關。
根據(jù)以上實驗可以判斷選取特征與輸出變量的相關性,同時證明了單特征時序預測的精確度仍不足以滿足實際用水量需求預測的需要,因此進行多特征時序預測實驗,并通過對比試驗驗證TCK-LSTM-ATT模型的精確度。
3.5 實驗預測結果
圖5為排除5 000條測試集后,剩余的數(shù)據(jù)作為訓練集和驗證集放入神經網絡模型的訓練結果,根據(jù)訓練過程中的誤差趨勢可以看出在迭代40次時,損失函數(shù)已經有了較大程度收斂,且不存在過擬合的現(xiàn)象。圖6為測試集數(shù)據(jù)在放入神經網絡模型后所得出的預測值與真實值的比對,在此模型下預測值的擬合程度接近真實值,TCK-LSTM-ATT模型的預測誤差在允許范圍之內。表4為橫向評估TCK-LSTM-ATT模型與其他模型的預測能力,根據(jù)評價指標的顯示,TCK-LSTM-ATT模型在同類模型中擁有較好的預測精度與泛化能力。
4 結論
在預測案例中,TCK-LSTM-ATT模型利用卷積核的方式對數(shù)據(jù)特征進行選擇提取與合并,相比傳統(tǒng)的循環(huán)類神經網絡具有更高的數(shù)據(jù)利用率,是預測城市供水量的有效方法,在后續(xù)工作中,應當繼續(xù)考慮與預測變量有關的決定性特征,并且對特征進行更細致的處理,如實驗中的日期信息可以精確到具體的星期數(shù);并且在模型中可以選擇添加擾動噪聲而非將擾動因素看作錯誤數(shù)據(jù)剔除,以模擬在日常用水中出現(xiàn)的特殊情況,提高模型對于特殊數(shù)據(jù)的適應性。
參考文獻
[1]張雅君, 劉全勝, 馮萃敏. 多元線性回歸分析在北京城市生活需水量預測中的應用[J]. 給水排水, 2003(4): 26-29.
[2]練庭宏, 劉秋娟, 王景成. 基于ARIMA時序辨識的需水量預測[J]. 控制工程, 2008(S1): 162-164.
[3]茍非洲, 程玉婷. 基于長短期記憶網絡的日供水量預測方法研究[J]. 中國給水排水, 2019, 35(17): 79-83.
[4]郭冠呈, 劉書明, 李俊禹, 等. 基于雙向長短時神經網絡的水量預測方法研究[J]. 給水排水, 2018, 54(3): 123-126.
[5]張薇薇, 趙平偉, 王景成. 基于長短時神經網絡的城市需水量預測應用[J]. 凈水技術, 2019, 38(S1): 257-260+286.
[6]彭湃, 劉敏. 基于Prophet-LSTM組合模型的短期負荷預測方法[J/OL]. 電力系統(tǒng)及其自動化學報: 1-9[2021-03-21]. https://doi.org/10.19635/j.cnki.csu-epsa.000705.
[7]HOCHREITER S,SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[8]HOCHREITER S. The vanishing gradient problem during learning recurrent neural nets and problem solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 1998, 6(2): 107-116.
[9]GRAVES A. Supervised sequence labelling with recurrent neural networks[M]. Berlin: Springer, Heidelberg, 2012.
[10]GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Massachusetts: MIT Press, 2016.
[11]GU J X, WANG Z H, KUEN J, et al. Recent advances in convolutional neural networks[J]. Pattern Recognition, 2015, 77: 354-377.
[12]LAHA A, RAYKAR V. An empirical evaluation of various deep learning architectures for Bi-sequence classification tasks[J/OL].[2021-3-21]https://www.researchgate.net/publication/305401346, 2016.
[13]LUONG M T, PHAM H, MANNING C D. Effective approaches to attention-based neural machine translation[J/OL]. Computer Ence, 2015. [2021-3-21]https://arxiv.org/pdf/1508.04025.pdf
[14]徐瑾, 趙濤. 城市生活需水量預測中智能算法的應用研究[J]. 中國給水排水, 2012, 28(21): 66-68.
Prediction of Urban Water Consumption Based on TCK-LSTM-ATT Model
WANG Zi-han, YU Zhong-qing
(College of Computer Science and Technology Qingdao University, Qingdao 266071, China)
Abstract:
Aiming at the problems of large amount of calculation, uncontrollable independent selection process and easy over fitting of LSTM, a combined model method is proposed. The model uses convolution to extract features and merge features, uses attention mechanism to weight important data. The model is called TCK-LSTM-ATT model. In order to verify the accuracy of this model in water supply prediction, the water supply data of a urban water supply network system in Northeast China from 2019 to 2020 are used for verification. Compared with the ordinary model, the prediction error of this model is reduced by about 20%, and the R2 value is about 9.5. It is considered that a good prediction effect is achieved in the experiment.
Keywords:
water supply forecast; long short-term memory; convolution kernel; attention mechanism
收稿日期:2021-09-13
基金項目:
山東省重點研發(fā)計劃(批準號:2019JZZY020101)資助。
通信作者:
于忠清,男,博士,研究員,主要研究方向為工業(yè)大數(shù)據(jù),智能制造,工業(yè)節(jié)能與優(yōu)化控制。E-mail:haiersoft@163.com
2825501186235