楊 宏
(武漢鐵路職業(yè)技術學院 湖北·武漢 430205)
網(wǎng)絡用戶使用不同網(wǎng)絡的頻率不同,產(chǎn)生的流量也就具有了多類不平衡的特征。而根據(jù)網(wǎng)絡流量使用率對流量進行分類處理,能夠有效保障網(wǎng)絡QoS值,維護網(wǎng)絡的健康安全。由于當前端口號分類計數(shù)在對使用不固定端口的流量進行特征分類時,存在準確率偏低的現(xiàn)狀,如何通過機器學習的特征分類技術提高此項數(shù)據(jù)的準確率成為計算機領域的研究熱點。本文將對比不同的特征選擇方法,通過實驗數(shù)據(jù),找出平均整體準確率最高的特征選擇方法。
由于互聯(lián)網(wǎng)應用中對不同的應用程序有不同的使用率,從而所得到的服務中存在著多種類別的不均勻特性。多類型均衡特征是指在數(shù)據(jù)集,某個類型(大類別)的比例大于其他類別(小類別),大規(guī)模收集率高,小類別收集率低。例如,大類別(WWW類別)對應于劍橋大學IP數(shù)據(jù)集所有樣本的百分之八十五以上,而小類別(ATAA類別FTP-P類別等)則相對于不足百分之一。
在對數(shù)據(jù)集的直接分類中,WWW類型平均召回事件發(fā)生率接近為百分之一百,而atta類型的召回率則大致為百分之五十。而小類的比例則非常低,但對正確鑒別它們卻十分關鍵。也因此,正確鑒別付費電話對檢測互聯(lián)網(wǎng)攻擊和保障安全都十分關鍵。所以,很有必要增加小分類模型的可見性。為降低分類平衡的不利因素和增加小類的收集量,數(shù)據(jù)收集通常確保了特征的總體準確性。而因為重抽樣往往破壞了樣本的初始分布,所以選擇特征的技術也被普遍采用。
選取正確的小類特征不但能夠降低分析的時間和空間損耗,同時也能夠增加分析的整體精確度。所以,我們提出了一種基于相對不確定性和對稱不確定性的混合特征選擇方法。首先,由于各種類型的相對不確定性,選擇相關性強的特征形成候選集。然后,基于對稱性的不確定性,對每個候選特征進行過濾,以保持強分辨率的特征,并去除其他特征。最后,從每個候選特征集中選擇特征以形成新的特征集。作為分類器,使用C4.5確定樹來評估其效果,并選擇最佳的特征排序集。為了過濾特征,F(xiàn)SMID方法為每個類指定候選項選擇最佳特征子組后,從這些特征集中選擇特征以形成一組新的功能并對其進行評估。因此,F(xiàn)SMID可以確認所選特征集包含與各種類型具有強相關性的功能。將FSMID方法與以前的方法進行比較表明,該方法可以減少多重不平衡對網(wǎng)絡流量分類的負面影響。
FSMID方法進行特征選擇通常需要兩個步驟。首先將關聯(lián)性較強且具有明顯特征的候選特征選擇為一個類的集合。然后再將每個候選特征集合中選擇一個新的特征,以新的特征為區(qū)分,構成一個新的集合。并利用C4.5決策樹對數(shù)據(jù)集進行分類,將分類的結(jié)果和數(shù)據(jù)記錄下來,從中選取和確定出最優(yōu)特征子集。
確定候選特征集合偽代碼的算法主要包括三個部分。第1部分是采用FSMID相對不確定性選出RU(fi,cj),利用對稱不確定性選出SU(fi,c)子集集合,第2個部分是根據(jù)RU(fi,cj)選取出來的子集,為每個類選擇與其相關性較強的特征,從而得到多個特征結(jié)合。第3部分是根據(jù)su值,對特征集合進行挑選過濾,保留其中區(qū)分能力較強的特征,同時保證特征集合之間不會存在交集。
搜索最優(yōu)特征子集過程偽代碼主要包括兩個部分。第一部分是從Fj的每個集合中找到一個特征來構成新的特征集合,同時通過數(shù)據(jù)處理清楚的其他特征。第2個步驟是利用分類器對處理后的數(shù)據(jù)進行整理分類,并將結(jié)果記錄下來。通過不斷重復1、2兩個步驟,保證整個特征空間被完全搜索,然后在其中選擇一個分類效果最好的特征合集作為最優(yōu)特征子集。
劍橋大學曾經(jīng)提供過一份公開數(shù)據(jù)(Moore數(shù)據(jù)集),在網(wǎng)絡流量特征選擇中得到較為廣泛的應用。這項數(shù)據(jù)是由1000人左右的研究人員,通過捕捉網(wǎng)絡出口處的三次握手 TCP數(shù)據(jù)得到的10個原始數(shù)據(jù)集。然后采取特征提取的方法,整理出248個不同特征的數(shù)據(jù)集。在對這些數(shù)據(jù)集進行分類標記時,劍橋大學采用了以內(nèi)容檢測為基本方法的人工標記手段。
在劍橋大學的這份數(shù)據(jù)中,一共包含12個類別,為了方便實驗對比,這些數(shù)據(jù)集進行了預先處理。去除掉games等四個類樣本個數(shù)為0的所有樣本,每個子數(shù)據(jù)集仍然包括8個類別,且每個子數(shù)據(jù)集包含的樣板類別數(shù)量和占比各不相同。在這項數(shù)據(jù)集中共有332,554個樣本數(shù)量。其中,www類型樣本占到87.88%,而ftp-p.atta等類別所占比例不足1%。
實驗釆用劍橋大學Moore數(shù)據(jù)集。在子集10數(shù)據(jù)集(dataset1、dataset2、…、dataset10)中,dataset1加速函數(shù)用作訓練集,其他子集9數(shù)據(jù)集用作測試集。在資源選擇過程中,將FSMID與非資源選擇數(shù)據(jù)集(完整集)、BFS方法和對稱不確定性過濾方法(su-f)進行比較。決策樹C4.5對網(wǎng)絡流量分類有影響,因此被選為分類器。
實驗利用4種方法將得到的特征進行分類,數(shù)據(jù)表明,各個子數(shù)據(jù)集上的準確率都能夠達到98%以上。使用Fu-Dset進行分類時,平均整體正確率還要提高,達到99.1%。當使用BFS和SU-F進行特征選擇時,會將其中大量不相關的特征剔除,導致平均整體正確率相對于FuHset提高了0.3%;其中,F(xiàn)SMID方法在絕大多數(shù)子數(shù)據(jù)集上是平均準確率最高的方法,其準確率高達99.6%,探究其原因主要是因為FSMID方法所選擇的特征是與每個類具有相關性的特征。
在上一章中,atta類和ftp-p類的入住率分別為0.44%和0.79%。通過比較四個方法作為子類的準確性發(fā)現(xiàn),在atta類中,兩個個數(shù)據(jù)集的召回率都非常不穩(wěn)定。由于Atta類是網(wǎng)絡攻擊服務的流量,它通常偽裝成其他類型的服務,以規(guī)避入侵檢測系統(tǒng)的檢測。此外,WWW類的網(wǎng)絡服務比例較大,在構建決策樹C4.5時形成的節(jié)點往往對WWW類有利,對其他類不利,導致其他類標準分類錯誤。根據(jù)FSMID方法,由于與子類在選擇相關上的強大功能,錯誤分類為WWW類的子類數(shù)量減少,WWW類的誤報率降低。在atta類中,平均召回率提高了.5%。在ftp-p水平,與fulset相比,平均召回率增加了25.7%。
實驗結(jié)果顯示,特征1/95/96幾乎能夠被 SU-F BFS FSMID3種方式進行良好的區(qū)分和選取,且按照這三種方法所選的特征基本上都和數(shù)據(jù)流的空間特征有關,核數(shù)據(jù)流的時間特征關聯(lián)性相對較小。
將利用4種方法實驗得出的特征進行分類發(fā)現(xiàn)整體準確率都在95%以上,且平均整體準確率高達98%。使用Fullset來分類的話,平均整體準確率高達99%以上。而使用其他兩種方式進行特征選擇時,由于去除了過多不相關的特征,導致其相較于Fullset高出0.3個百分點。FSMID方法在大多數(shù)子數(shù)據(jù)的采集和分類中準確率最高,平均整體準確率高達99.6%。這正是因為FSMID在選擇特征時會包含每個類相關的特征。
除此之外,F(xiàn)SMID方法在小內(nèi)選擇上傾向于選擇與其相關性較強的特征,這在很大程度上減少了錯誤分類為WWW類的子類數(shù)量減少,WWW類的假正率降低,小類召回率也就隨之提升。與Fullset相比,F(xiàn)SMID對于atta類的平均召回率提高了1.5個百分點。同時,F(xiàn)SMID方法的平均g-mean值最高,與Fullset相比,提高了4.9個百分點。
網(wǎng)絡用戶使用不同網(wǎng)絡的頻率不同,產(chǎn)生的流量也就具有了多類不平衡的特征。而根據(jù)網(wǎng)絡流量使用率對流量進行分類處理,能夠有效保障網(wǎng)絡QoS值,維護網(wǎng)絡的健康安全。首先,通過利用相對的不確定性在每個類中選擇候選集。接著,在各種聯(lián)合候選資源中,保留了高度對稱的不確定特性,而去掉了其他特性。最后,采用了基于決策樹C四點五的包裝功能選擇方式,來判斷功能良序子集的最理想數(shù)量。實驗表明該方法具有更高的總體準確率、小類召回率和g-mean值,可以減少多分類不平衡的負面影響,是未來的研究方向。