劉 曉
(暨南大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州510000)
神經(jīng)網(wǎng)絡(luò)對(duì)非線性函數(shù)關(guān)系具有良好的逼近能力,所以本文提出了一種基于RBF函數(shù)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量模型。RBF神經(jīng)網(wǎng)絡(luò)為局部神經(jīng)網(wǎng)絡(luò)模型,計(jì)算速度快、實(shí)時(shí)性好,相對(duì)于傳統(tǒng)的線性流量模型具有更高的逼近能力和良好的自適應(yīng)性,并可克服基于BP神經(jīng)網(wǎng)絡(luò)的流量模型訓(xùn)練時(shí)間長(zhǎng)及計(jì)算復(fù)雜度高的不足。
RBF神經(jīng)網(wǎng)絡(luò)是20世紀(jì)80年代由MOODY J和DARKEN C提出的一種神經(jīng)網(wǎng)絡(luò)模型,是具有單隱層的前饋網(wǎng)絡(luò),屬于局部逼近網(wǎng)絡(luò),已證明能以任意精度逼近任一連續(xù)函數(shù)。RBF神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。
網(wǎng)絡(luò)由輸入層、徑向基函數(shù)隱含層、輸出層三層構(gòu)成。低維空間非線性可分的問(wèn)題總可以映射到一個(gè)高維空間,使其在此高維空間中為線性可分[1]。RBF的輸出單元部分構(gòu)成一個(gè)單層感知機(jī),只要合理選擇隱單元數(shù)(高維空間的維數(shù))和作用函數(shù),就可以把原來(lái)的問(wèn)題映射為一個(gè)線性可分問(wèn)題[2]。RBF網(wǎng)絡(luò)中輸入到隱含層的映射是非線性的,而隱含層到輸出的映射是線性的。隱含層的節(jié)點(diǎn)數(shù)與實(shí)際問(wèn)題的要求有直接的關(guān)聯(lián),過(guò)多的節(jié)點(diǎn)數(shù)會(huì)導(dǎo)致學(xué)習(xí)時(shí)間過(guò)長(zhǎng)和低容錯(cuò)率,所以必須優(yōu)化隱含層的節(jié)點(diǎn)數(shù)。隱含層的節(jié)點(diǎn)數(shù)可以采用式(1)計(jì)算:
其中n是輸入層的節(jié)點(diǎn)數(shù),m是輸出層的節(jié)點(diǎn)數(shù),a是1~10 的常數(shù)[3]。
隱含層基函數(shù)采用高斯函數(shù):
隱節(jié)點(diǎn)的輸出加權(quán)后進(jìn)入輸出層,輸出層是其隱含層的線性組合[4-5],即:
其中 x∈Rn為輸入向量,Φ(·)是高斯核函數(shù),‖·‖是歐幾里德范數(shù),ci∈Rn為第 i個(gè)隱節(jié)點(diǎn)的場(chǎng)中心,σi∈R為第i個(gè)隱節(jié)點(diǎn)的場(chǎng)域?qū)挾?,n是隱含層節(jié)點(diǎn)數(shù),wi為第i個(gè)隱節(jié)點(diǎn)的基函數(shù)與輸出節(jié)點(diǎn)的連接權(quán)值,w0為調(diào)整輸出的偏移量。
(1)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行聚類,把基函數(shù)分別分配給每一個(gè)聚類。 選擇一 組初始的中心值{μ?1,μ?2,…,μ?K},用 K-均值聚類算法計(jì)算出中心值μ?k(1≤k≤K)和寬度σ?j:
選入“少兒萬(wàn)有經(jīng)典文庫(kù)”的原典在人類科學(xué)史上的重要性和經(jīng)典性不容置疑,但其厚重的篇幅和深邃的理論體系,讓一般讀者都可能望而卻步,更不要說(shuō)理解能力有限的少年兒童。而在這套文庫(kù)里,少兒彩繪版呈現(xiàn)出生機(jī)勃勃的氣息,吸引著小讀者從容地走進(jìn)經(jīng)典。
(2)計(jì)算隱含層的輸出。
(3)實(shí)際輸出與期望輸出進(jìn)行比較,應(yīng)用梯度下降法訓(xùn)練權(quán)重,使得均方最小更新權(quán)重。
權(quán)重的改變值:
如果是線性的則為:
(4)對(duì)輸入的N組數(shù)據(jù)重復(fù)步驟(2)~步驟(3)N次。
(5)重復(fù)步驟(2)~步驟(4),直至誤差小到可接受的程度。
流量識(shí)別過(guò)程分為四個(gè)部分:數(shù)據(jù)獲取過(guò)程、數(shù)據(jù)預(yù)處理過(guò)程、數(shù)據(jù)訓(xùn)練過(guò)程和測(cè)試數(shù)據(jù)分類過(guò)程。重點(diǎn)在于建立一個(gè)RBF神經(jīng)網(wǎng)絡(luò)模型對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。
(1)數(shù)據(jù)獲取過(guò)程是通過(guò)數(shù)據(jù)獲取模塊提取網(wǎng)絡(luò)連接記錄和分析特征,以選擇合適的網(wǎng)絡(luò)特征屬性作為原始的輸入值。選擇一組最合適的特征子集作為RBF神經(jīng)網(wǎng)絡(luò)的原始輸入值。
(2)數(shù)據(jù)預(yù)處理過(guò)程是將特征子集映射到[-1,1]的范圍[4]。
(3)數(shù)據(jù)訓(xùn)練過(guò)程是將經(jīng)過(guò)預(yù)處理后的網(wǎng)絡(luò)流量特征子集作為RBF神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練集。
(4)根據(jù)RBF神經(jīng)網(wǎng)絡(luò)的輸出對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。
本文選用流量文庫(kù)http://newsfeed.ntcu.net/中給出的兩組實(shí)際數(shù)據(jù)進(jìn)行實(shí)驗(yàn),兩組數(shù)據(jù)分別如表1、表2所示。
表1 實(shí)際數(shù)據(jù)一
表2 實(shí)際數(shù)據(jù)二
RBF網(wǎng)絡(luò)在數(shù)據(jù)一中采用248個(gè)輸入層節(jié)點(diǎn)、262個(gè)隱含層節(jié)點(diǎn)和11個(gè)輸出層節(jié)點(diǎn)的結(jié)構(gòu);在數(shù)據(jù)二中采用248個(gè)輸入節(jié)點(diǎn)、260個(gè)隱含層節(jié)點(diǎn)和8個(gè)輸出層節(jié)點(diǎn)的結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果如表3所示。
本文提出了一種基于RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量識(shí)別方法。通過(guò)測(cè)試兩組開發(fā)的網(wǎng)絡(luò)流量數(shù)據(jù)集,證明該方法具有較高的準(zhǔn)確度、低復(fù)雜性和良好的自適應(yīng)性。
表3 實(shí)驗(yàn)結(jié)果
[1]Shi Zhongzhi.Neural Network[M].Beijing:Higher Education Press,2009.
[2]COVER T M.Geometrical and statistical properties of system of linear inequalities with applications in pattern recognition[J].IEEE Transactions on Electronic Computer,1965(14):326-334.
[3]Fei Sike Technology R&D Center.Matlab Application[M].Beijing:Electronic Industry Press,2005.
[4]MOORE A W,ZUEV D.Discriminators for use in flowbased classification[A].Intel Research,Cambridge,2005.
[5]王俊松.基于Elman神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量建模及預(yù)測(cè)[J].計(jì)算機(jī)工程,2009(9):190-191.