国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息熵和K均值的船舶網(wǎng)絡(luò)入侵檢測方法

2019-11-14 08:17:47肖鵬博閔紹榮羅威
軟件 2019年9期
關(guān)鍵詞:信息熵均值聚類

肖鵬博 閔紹榮 羅威

摘 ?要: 船舶網(wǎng)絡(luò)是維護船舶正常功能的重要結(jié)構(gòu),當船舶網(wǎng)絡(luò)被入侵時,網(wǎng)絡(luò)流量會呈現(xiàn)異常狀態(tài),嚴重影響船舶功能。而當前的船舶網(wǎng)絡(luò)入侵檢測方法不能兼顧檢測速度和準確度,無法滿足入侵檢測要求。為了克服目前船舶網(wǎng)絡(luò)入侵檢測方法存在的不足,以改善船舶入侵檢測方法的性能,提出基于信息熵和K均值算法的船舶網(wǎng)絡(luò)入侵檢測方法,通過信息熵理論找到最優(yōu)特征子集,然后利用K均值算法實現(xiàn)入侵檢測,并與普通K均值算法進行對比測試。結(jié)果表明:本文方法可以有效檢測出船舶網(wǎng)絡(luò)入侵狀況,并且在保證準確性的同時極大的縮短了檢測時間,是一種高效的入侵檢測方法。

關(guān)鍵詞?船舶網(wǎng)絡(luò);入侵檢測;信息熵;聚類算法

中圖分類號: TP309????文獻標識碼?A????DOI:10.3969/j.issn.1003-6970.2019.09.008

本文著錄格式:肖鵬博,閔紹榮,羅威. 基于信息熵和K均值的船舶網(wǎng)絡(luò)入侵檢測方法[J]. 軟件,2019,40(9):36-39

Research on Ship Network Intrusion Detection Based on Information Entropy and K-means Algorithm

XIAO Peng-bo, MIN Shao-rong, LUO Wei

China Ship Development and Design Center, Wuhan 430064)

Abstract: Ship network is an important structure to maintain the normal function of ships. When the ship network??is intruded, the network flow will be abnormal, which will seriously affect the ship function. However, the current methods of ship network intrusion detection can not give consideration to both detection speed and accuracy, and can not meet the requirements of intrusion detection. In order to overcome the current ship the deficiency existing in network intrusion detection methods, to improve the performance of ship's intrusion detection method, based on information entropy and shipping network intrusion detection method of k-means algorithm, through the information entropy theory to find the optimal data subset, then using k-means algorithm to detect network intrusion, and compared with ordinary k-means algorithm. The results show that this method can effectively detect the ship network intrusion, and not only ensure the accuracy but also greatly shorten the detection time, It is an efficient intrusion detection method.

Key words: Ship network; Intrusion detection; Information entropy; Clustering algorithm

0??引言

現(xiàn)代船舶網(wǎng)絡(luò)是為船舶內(nèi)部多個功能子系統(tǒng)之間建立連接,并為終端用戶提供信息交互、安全監(jiān)控、資源共享等信息服務(wù)的多媒體通信網(wǎng)絡(luò)。船舶網(wǎng)絡(luò)的特點主要表現(xiàn)在通信模式繁多、終端節(jié)點類型豐富、各類業(yè)務(wù)QoS需求差異較大[1]。當船舶網(wǎng)絡(luò)出現(xiàn)入侵異常時,網(wǎng)絡(luò)流量會出現(xiàn)異常,嚴重影響網(wǎng)絡(luò)性能,進而影響船舶正常功能。對入侵異常的檢測對于維護船舶網(wǎng)絡(luò)正常狀態(tài)十分重要,因此設(shè)計性能優(yōu)異的船舶網(wǎng)絡(luò)入侵異常檢測方法具有十分重要的意義。

船舶網(wǎng)絡(luò)入侵檢測實際上是對船舶網(wǎng)絡(luò)的流量數(shù)據(jù)報文進行分類,當前船舶網(wǎng)絡(luò)入侵檢測主要有四大類[2-5]:基于特征庫的檢測、基于統(tǒng)計的檢測、基于信息論的檢測和基于數(shù)據(jù)挖掘技術(shù)的檢測?;谔卣鞯臋z測需要預(yù)先建立入侵異常數(shù)據(jù)庫,不能檢測出未知的異常;基于統(tǒng)計的檢測通過歷史正常網(wǎng)絡(luò)數(shù)據(jù)來檢測異常,然而一旦歷史數(shù)據(jù)過期,檢測結(jié)果會有很大偏差;使用信息論[6-7]為原理的檢測方法通過觀測網(wǎng)絡(luò)流量數(shù)據(jù)的信息熵變化來判斷入侵異常,但其不能保證檢測精度;基于數(shù)據(jù)挖掘[8]的檢測方法隨著機器學(xué)習,大數(shù)據(jù)處理技術(shù)的進步也越來越多的被用在了船舶網(wǎng)絡(luò)入侵檢測中,并且達到了較好的效果。

本文提出一種船舶網(wǎng)絡(luò)入侵檢測方法,以信息熵相關(guān)理論結(jié)合K均值算法[9-10]實現(xiàn)。K均值聚類算法是無需監(jiān)督的算法,其通過將類似屬性數(shù)據(jù)聚類成簇來進行數(shù)據(jù)的分類,為了解決船舶網(wǎng)絡(luò)數(shù)據(jù)流中特征屬性維度過高對聚類檢測準確率和及時性的負面影響,提出基于信息熵的特征維度縮減流程,通過縮減特征維度提高K均值算法的效率。

1??基于信息熵的特征篩選

信息熵的概念來源于信息論,用信息熵的概念來表示所含信息量的大小,從而描述系統(tǒng)信息的無序度。數(shù)據(jù)集的信息熵越大,其包含的信息量就越大。在多維特征數(shù)據(jù)集中,條件熵表示某一維特征對整體信息不確定性的影響,信息增益表示某一維特征為系統(tǒng)信息帶來的信息量的大小。

計算出多維特征數(shù)據(jù)集中每一維特征的信息增益,比較大小之后可以得到該維特征對數(shù)據(jù)集的信息重要程度。信息熵的各個概念定義如下:

信息熵值計算公式:

(1)

其中Y是特征數(shù)據(jù)集合,n為特征中不同數(shù)值個數(shù),即Y={},表示某個數(shù)值在集合中出現(xiàn)的概率。

條件熵計算公式:

(2)

其中p(y|x)表示在已知X發(fā)生的條件下Y的數(shù)值概率,條件熵表示在X發(fā)生條件下的Y的信息復(fù)雜程度。

在細分條件之后,數(shù)據(jù)集的信息復(fù)雜度勢必會降低,這個差值表明了該條件對系統(tǒng)的重要程度,即信息增益:

(3)

2??K均值聚類算法

K均值算法是一種非監(jiān)督算法,無需提前訓(xùn)練數(shù)據(jù)集,其基本思想是將數(shù)據(jù)劃分進指定數(shù)目的簇中,并且使最終迭代結(jié)果中的每個樣本點到其所在簇的歐式距離最小。其實現(xiàn)步驟如下:

步驟1輸入數(shù)據(jù)集S,聚類中心個數(shù)k,隨機從數(shù)據(jù)集中選取k個點作為簇的中心;

步驟2計算其他點到每個中心的歐式距離,把數(shù)據(jù)點劃分到距離最近的中心形成點簇。

(4)

其中:分別表示第ij條數(shù)據(jù)的第k個維度數(shù)值,表示第i,j條數(shù)據(jù)間的歐式距離;

步驟3根據(jù)歐式距離公式,計算每個點簇中所有點的均值,,將作為新的點簇中心;

步驟4若新的點簇中心與上次一致,則停止迭代,否則轉(zhuǎn)到步驟2。在實際實驗中,設(shè)立停止條件避免迭代次數(shù)過多:

(5)

其中:是由用戶設(shè)定的一個較小閾值,是點簇中心組成的矩陣。滿足迭代停止條件則結(jié)束算法,否則轉(zhuǎn)到步驟2。

K均值算法原理簡單,其時間復(fù)雜度為,其中n是數(shù)據(jù)項的個數(shù),k是聚類中心個數(shù),t是結(jié)束迭代的總共迭代次數(shù)。在算法計算過程中,歐式距離的計算需要計算每一個特征維度的數(shù)據(jù),數(shù)據(jù)源的特征屬性越多,算法的計算量越大。本文為了縮減K均值算法的計算量,同時保證算法準確性,結(jié)合信息熵理論實現(xiàn)特征的降維篩選,從數(shù)據(jù)集中選取最優(yōu)特征子集作為K均值算法的輸入數(shù)據(jù)。

3??K均值++算法

K均值算法中,初始的k個聚類簇中心是隨機選取的,若隨機選取的聚類中心距離很近,可能導(dǎo)致算法迭代結(jié)果局部最優(yōu)而無法得到全局最優(yōu)解。對于比較直觀的數(shù)據(jù)集,可以由人工指定初始的k個簇中心點,而對于特征屬性多、數(shù)據(jù)量大的網(wǎng)絡(luò)數(shù)據(jù)集來說,人工觀測出合適的初始聚類中心是不可能的。因此,可以采用K均值++算法。步驟如下:

步驟1從數(shù)據(jù)集中隨機選取一個數(shù)據(jù)點作為第一個聚類簇中心;

步驟2計算每一個數(shù)據(jù)點與當前已選取的聚類簇中心之間的最短歐式距離,用表示,其中x表示第x個數(shù)據(jù)點。將每個數(shù)據(jù)點被選為下一個聚類簇中心的概率用公式表示:

(6)

最后,將所有數(shù)據(jù)點的概率劃分成概率區(qū)間,隨機生成一個0-1之間的隨機數(shù),這個隨機數(shù)屬于哪個區(qū)間,那么就取該區(qū)間序號對應(yīng)的數(shù)據(jù)點為下一個聚類簇中心。

步驟3重復(fù)步驟2直到選擇出k個聚類簇中心;

之后的步驟和經(jīng)典K均值算法中的第2步到第4步相同。

利用K均值++算法,可以讓初始的k個聚類簇中心盡可能的均勻分布,由于初始聚類簇中心分布合理,可以大大減小K均值算法的迭代次數(shù),縮短算法時間,并且能大幅度提高聚類結(jié)果的準確性,解決了經(jīng)典K均值算法出現(xiàn)局部收斂導(dǎo)致結(jié)果準確性差的問題。

4??實驗與結(jié)果

4.1實驗環(huán)境與數(shù)據(jù)集

本文的實驗過程在Windows操作系統(tǒng)環(huán)境下實現(xiàn),CPU為英特爾酷睿i7-7700HQ,內(nèi)存為32GB。實驗使用python 3編寫算法代碼。采用1999年數(shù)據(jù)和知識挖掘比賽數(shù)據(jù)(KDD Cup99)作為本文的實驗數(shù)據(jù)集,該數(shù)據(jù)集是公認的網(wǎng)絡(luò)異常檢測實驗數(shù)據(jù)集。其包含約50萬條數(shù)據(jù)記錄,每條數(shù)據(jù)記錄由41個特征屬性數(shù)據(jù)組成,數(shù)據(jù)集組成比例見表1。

4.2數(shù)據(jù)預(yù)處理

KDD99數(shù)據(jù)集是模擬真實網(wǎng)絡(luò)環(huán)境收集到的數(shù)據(jù)集,其有數(shù)據(jù)量大,特征屬性多的特點。在對數(shù)據(jù)集進行處理之前,有必要進行數(shù)據(jù)預(yù)處理工作:

(1)數(shù)據(jù)集中存在很多攻擊類型的子類型,將這些子類型劃分進它們的父類中。

(2)數(shù)據(jù)集中存在非數(shù)值特征屬性,無法應(yīng)用歐式距離進行計算,因此需要將這些非數(shù)值特征轉(zhuǎn)化成數(shù)值特征,使數(shù)據(jù)數(shù)值化從而參與計算。

(3)數(shù)據(jù)集中存在多維特征,并且每一維特征都采用歐式距離進行距離計算。但是在數(shù)據(jù)集中每個維度的數(shù)值存在巨大的差異,這種差異對距離計算的影響是十分大的,因此有必要對每個維度的數(shù)據(jù)進行數(shù)據(jù)歸一化的處理。

(7)

其中:X表示某一維屬性中要進行歸一化的數(shù)值,分別代表該維數(shù)據(jù)的最小和最大值。為了使歸一化得到的數(shù)據(jù)可觀性和精確度更高,將結(jié)果數(shù)據(jù)放大十倍處理。

猜你喜歡
信息熵均值聚類
基于信息熵可信度的測試點選擇方法研究
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于信息熵的實驗教學(xué)量化研究
電子測試(2017年12期)2017-12-18 06:35:48
一種基于信息熵的雷達動態(tài)自適應(yīng)選擇跟蹤方法
均值不等式失效時的解決方法
均值與方差在生活中的應(yīng)用
基于信息熵的IITFN多屬性決策方法
基于改進的遺傳算法的模糊聚類算法
關(guān)于均值有界變差函數(shù)的重要不等式
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
孟州市| 房产| 铁力市| 金山区| 安福县| 滕州市| 无极县| 砚山县| 天门市| 武隆县| 鄢陵县| 绵阳市| 竹山县| 静宁县| 揭西县| 昌江| 长子县| 商河县| 赤壁市| 什邡市| 琼海市| 长春市| 永州市| 华蓥市| 湘乡市| 湖南省| 乐昌市| 新乡县| 桐城市| 宝山区| 额尔古纳市| 古交市| 永德县| 固镇县| 巨鹿县| 彭泽县| 施秉县| 视频| 淮南市| 上栗县| 常熟市|