宋 志 清
(張家口市科技館,河北 張家口 075000)
隨著人工智能技術(shù)和大數(shù)據(jù)技術(shù)的不斷發(fā)展,同時也伴隨著網(wǎng)絡(luò)市場的進(jìn)一步改善和網(wǎng)絡(luò)服務(wù)行業(yè)的強(qiáng)烈需求,網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)測引起了行業(yè)內(nèi)的廣泛關(guān)注.為了嘗試預(yù)測網(wǎng)絡(luò)流量的更動趨勢,國內(nèi)外研究者將各種統(tǒng)計學(xué)和數(shù)據(jù)挖掘?qū)W的模型試圖用到此項研究中,比如MARS模型、懲罰性回歸模型和聚類分析模型等.可是由于影響網(wǎng)絡(luò)流量的因素太多很難應(yīng)用傳統(tǒng)統(tǒng)計學(xué)方法進(jìn)行分析和預(yù)測,而通過神經(jīng)網(wǎng)絡(luò)技術(shù)就可以順利的解決這一難題.
本文利用Python爬蟲中逆向JS技術(shù)對某一著名網(wǎng)站進(jìn)行一段時間的持續(xù)跟蹤,得到此網(wǎng)站的用戶流量時間序列數(shù)據(jù),根據(jù)此數(shù)據(jù)進(jìn)行本次實驗.同時利用到LSTM神經(jīng)網(wǎng)絡(luò)模型對得到的數(shù)據(jù)進(jìn)行智能建模,通過分析和調(diào)整LSTM中的三項權(quán)重,得到最終的組合模型并對今后短期流量進(jìn)行預(yù)測.
提到LSTM神經(jīng)網(wǎng)絡(luò),就不得不先介紹一下循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN).因為RNN是LSTM神經(jīng)網(wǎng)絡(luò)的基石,其中LSTM也是從原始的RNN結(jié)構(gòu)中一步一步優(yōu)化得來的.
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),RNN不僅將基本神經(jīng)網(wǎng)絡(luò)中的輸入層、隱藏層和輸出層中各個層級間權(quán)重連接起來,而且也將每層之間的神經(jīng)元建立了權(quán)重連接.如圖1標(biāo)準(zhǔn)RNN網(wǎng)絡(luò)結(jié)構(gòu)圖.
圖1 標(biāo)準(zhǔn)RNN網(wǎng)絡(luò)結(jié)構(gòu)圖
長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),此神經(jīng)網(wǎng)絡(luò)為一種時間循環(huán)神經(jīng)網(wǎng)絡(luò).其主要是因為RNN易受到短時記憶的影響,當(dāng)有一條足長的時間序列數(shù)據(jù)輸入到RNN中時,此神經(jīng)網(wǎng)絡(luò)將很難把信息從早期傳遞到后期,從而會出現(xiàn)梯度爆炸和消失的嚴(yán)重問題,而LSTM神經(jīng)網(wǎng)絡(luò)就是為解決這兩個問題而誕生的.
由上圖2可見,LSTM在普通RNN基礎(chǔ)上嵌入了三個特殊的門處理方法:遺忘門、輸入門和輸出門.以下為LSTM基本原理,它通過狀態(tài)門將信息進(jìn)行選擇性記憶.其中,輸入包括ht-1,xt,輸出為ht,狀態(tài)為ct-1,ct.
圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖
遺忘門:決定從原狀態(tài)中拋棄什么信息,其中將原狀態(tài)和輸入信息添加到Sigmoid函數(shù)進(jìn)行運算,來決定原狀態(tài)信息保留的數(shù)量.其中遺忘門公式為:
ft=δ(wfxt+ufht-1)
(1)
輸入門:對輸入的信息進(jìn)行智能性的挑選,比較重要的信息就多記錄一點,不是太重要的信息就少記錄一點.它的原理是將原來的輸出信息和當(dāng)前輸入信息導(dǎo)入到Sigmoid函數(shù)中進(jìn)行計算,進(jìn)而對信息進(jìn)行挑選.輸入門公式為:
(2)
(3)
輸出門:其功能主要是管理輸出什么信息.和上面兩個門一樣,會先進(jìn)入一個Sigmoid函數(shù)進(jìn)行運算,從而決定需要輸出什么信息.其中傳入的信息先經(jīng)過一個tanh層進(jìn)行“激活”,然后再將激活的信息和Ot進(jìn)行乘法運算,從而得到的信息ht就是LSTM的輸出信息.其輸出門公式為:
Ot=δ(w0xt+u0ht-1)
(4)
ht=Ot°tanh(Ct)
(5)
本實驗在Ubuntu系統(tǒng)下進(jìn)行創(chuàng)建,首先在Python編程環(huán)境中應(yīng)用命令行pip引入keras框架.其中核心采用Model模型,因為Model模型更適合于復(fù)雜環(huán)境下創(chuàng)建LSTM網(wǎng)絡(luò).對于網(wǎng)絡(luò)流量這種大數(shù)據(jù)規(guī)模,采用LSTM與全連接層連接的方法,對未來網(wǎng)絡(luò)流量進(jìn)行短期的預(yù)測.如圖3 Ubuntu導(dǎo)入keras.
圖3 Ubuntu導(dǎo)入keras
其中,應(yīng)用時間序列中最后一天數(shù)據(jù)進(jìn)行預(yù)分析,分析其數(shù)據(jù)是否具有周期性、平穩(wěn)性和可預(yù)測性.如圖4中prophet簡易效果圖可得:數(shù)據(jù)周期性高有可預(yù)測性.
圖4 prophet效果圖
應(yīng)用LSTM神經(jīng)網(wǎng)路進(jìn)行以后20天流量預(yù)測,如圖5,其中藍(lán)色為預(yù)測流量走勢,橘色為實現(xiàn)20天流量走勢.其中預(yù)測趨勢大體上和實際趨勢重合,說明此研究成功.
圖5 LSTM預(yù)測和實際走勢對比圖
本文應(yīng)用LSTM神經(jīng)網(wǎng)絡(luò)對某網(wǎng)站流量數(shù)據(jù)進(jìn)行剖析和預(yù)測,其預(yù)測結(jié)果和實際中結(jié)果差距不到10%,即表明本次研究中所提出的LSTM預(yù)測模型是真實有效的,并且具有較為良好的預(yù)測能力.但美中不足的是,LSTM模型在高預(yù)測能力的同時也需要更多的運行時間,其運行效率有待進(jìn)一步研究.