梁嚶尹
摘要:數(shù)據(jù)挖掘是一個(gè)知識發(fā)現(xiàn)的過程,具體是指通過各種算法在現(xiàn)有信息當(dāng)中發(fā)現(xiàn)規(guī)律或找到有用信息。運(yùn)營商的網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)分析工作從本質(zhì)上來講也是一個(gè)數(shù)據(jù)挖掘的過程,數(shù)據(jù)挖掘技術(shù)的應(yīng)用使網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)分析工作更加準(zhǔn)確、高效。該文先對數(shù)據(jù)挖掘進(jìn)行介紹,然后講數(shù)據(jù)挖掘在網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)分析中的具體應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;網(wǎng)絡(luò)運(yùn)維;數(shù)據(jù)分析
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)18-0027-02
網(wǎng)絡(luò)運(yùn)維是網(wǎng)絡(luò)通信穩(wěn)定和高效運(yùn)營的基礎(chǔ)以及重要保障。近些年來,隨著通信網(wǎng)絡(luò)工程的高速發(fā)展以及技術(shù)的日趨成熟,尤其是移動網(wǎng)絡(luò)的寬度提速、網(wǎng)絡(luò)升級以及終端職能的普及等,極大地改變著網(wǎng)絡(luò)運(yùn)行的支撐手段和功能。運(yùn)行商在網(wǎng)絡(luò)運(yùn)維中,面對大量的網(wǎng)絡(luò)運(yùn)行信息要及時(shí)準(zhǔn)確的進(jìn)行分析;目前,隨著信息化的快速發(fā)展,運(yùn)營商獲取網(wǎng)絡(luò)技術(shù)及信息信息量越來越大、能力越來越強(qiáng),但目前信息化呈現(xiàn)膨脹趨勢,復(fù)雜度也大大增加,僅靠傳統(tǒng)的網(wǎng)絡(luò)運(yùn)行人工分析已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足人類的需要,而數(shù)據(jù)挖掘技術(shù),則是將數(shù)據(jù)從紛繁蕪雜的網(wǎng)絡(luò)信息中將人類有用的信息挖掘出來供人類使用,是一種智能數(shù)據(jù)信息技術(shù)。
1數(shù)據(jù)挖掘簡介
當(dāng)今社會是一個(gè)信息充分發(fā)展和信息爆炸的社會,各行各業(yè)都需要用到大量數(shù)據(jù),人類對信息也越來越重視。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)在一些領(lǐng)域得到技術(shù)推廣和應(yīng)用。如在炒股軟件、氣象信息分析、醫(yī)療診斷、統(tǒng)計(jì)數(shù)據(jù)分析、審計(jì)審查等方面,數(shù)據(jù)挖掘技術(shù)的應(yīng)用都已經(jīng)展開和應(yīng)用。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)在一些有需求的企事業(yè)單位得到應(yīng)用。
1.1數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘技術(shù),就是從大量雜亂無章的數(shù)據(jù)中,找到某些有用信息或者規(guī)律的運(yùn)算過程。數(shù)據(jù)挖掘技術(shù)涉及的計(jì)算方法較多,如統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫等多個(gè)領(lǐng)域的人工智能知識和技術(shù)理論,展開工作是依靠的各種運(yùn)算方法。數(shù)據(jù)挖掘主要是利用了以下思想:來自統(tǒng)計(jì)學(xué)領(lǐng)域的假設(shè)估計(jì)和抽樣檢測,來自人工智能領(lǐng)域的建模技術(shù)、搜索算法、進(jìn)化計(jì)算、可視化信息檢索等,這些方法在處理海量信息時(shí)的作用是非常關(guān)鍵的。
1.2數(shù)據(jù)挖掘的流程
步驟有以下四步:一是信息收集。信息收集就是在海量的數(shù)據(jù)源中,根據(jù)確定的數(shù)據(jù)對象,抽象出某個(gè)信息的特征,然后選擇信息收集策略對數(shù)據(jù)進(jìn)行廣泛的搜集整理,存入數(shù)據(jù)中。對于眾多的數(shù)據(jù)來說,選擇一個(gè)合適的數(shù)據(jù)儲存辦法是非常關(guān)鍵的。第二步是數(shù)據(jù)的集成。把得到的不同來源和特征的數(shù)據(jù)利用邏輯或者物理的關(guān)系進(jìn)行有效的集中,從而為數(shù)據(jù)挖掘開展提供符合決策者要求的各類信息和數(shù)據(jù)。第三步,數(shù)據(jù)挖掘。選擇合適的工具,利用規(guī)則推理、決策樹、統(tǒng)計(jì)方法等,得出對人類有用的分析信息。第四步,結(jié)果展示。聘請專家對挖掘出的數(shù)據(jù)進(jìn)行驗(yàn)證正確性,然后將數(shù)據(jù)挖掘得來的信息和結(jié)果,通過某些傳輸渠道,以可視化的形式展示給用戶。
1.3數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘技術(shù)的功能有五個(gè)方面的作用。一是趨勢和行為預(yù)測,對某一信息、事件或者行為的數(shù)據(jù)進(jìn)行充分的挖掘和分析,可以對這個(gè)事件或者信息發(fā)展趨勢作出科學(xué)的預(yù)測。如一些證券公司的軟件就是如此。二是關(guān)聯(lián)分析,是指可以讓每個(gè)學(xué)員在自己的電腦上建立虛擬處理系統(tǒng),并聯(lián)系硬盤分區(qū)、格式化以及安裝程序等,以便讓每個(gè)學(xué)員的母機(jī)硬件系統(tǒng)與其他學(xué)員之間的軟硬件系統(tǒng)分割開來,以防治病毒感染等。
2數(shù)據(jù)挖掘在網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)分析中的應(yīng)用
從某種意義上來說,數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)網(wǎng)絡(luò)運(yùn)營技術(shù)的本質(zhì)類似,因此在現(xiàn)有網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)基礎(chǔ)上拓展和建立數(shù)據(jù)挖掘技術(shù)的一件可行性強(qiáng)且難度較小的事情,但從網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)到數(shù)據(jù)挖掘技術(shù)的改變則需要更加注意數(shù)據(jù)的運(yùn)用。數(shù)據(jù)挖掘的算法多種多樣,每一種算法則對應(yīng)一種數(shù)據(jù)類型,目前為止還沒有適應(yīng)性很廣的算法問世。在數(shù)據(jù)挖掘?qū)嶋H應(yīng)用中,由于數(shù)據(jù)類型有多種,因此我們需要根據(jù)數(shù)據(jù)類型進(jìn)行綜合選擇,采樣多種多樣的方法對數(shù)據(jù)進(jìn)行分析和挖掘。為了追求數(shù)據(jù)挖掘的可靠性和準(zhǔn)確性,需要對現(xiàn)有的挖掘技術(shù)算法進(jìn)行改進(jìn),甚至創(chuàng)造出更多的算法,來適應(yīng)不同的數(shù)據(jù)類型。目前在網(wǎng)絡(luò)運(yùn)維中,數(shù)據(jù)挖掘分析技術(shù)經(jīng)常使用的算法主要有兩種:關(guān)聯(lián)規(guī)則算法和決策樹算法。
2.1決策樹算法
決策樹在機(jī)器學(xué)習(xí)中是一種數(shù)據(jù)模型,是利用樹形結(jié)構(gòu)來表示一些決策的附加概率結(jié)果,是直觀的展示統(tǒng)計(jì)概率的分析辦法,是代表這兩個(gè)對象之間的相互對應(yīng)和映射關(guān)系。決策樹中的每個(gè)節(jié)點(diǎn)表示要計(jì)算的對象,每個(gè)分叉表示一個(gè)對象潛在或者可能的屬性值;而每個(gè)節(jié)點(diǎn)則表示從根節(jié)點(diǎn)到葉節(jié)點(diǎn)中對象路徑的值。決策樹一般包含決策、機(jī)會和總結(jié)點(diǎn)三個(gè)節(jié)點(diǎn)。
決策樹生成需要分三個(gè)步驟。第一步,特征選擇。從眾多數(shù)據(jù)中選擇一個(gè)特征作為當(dāng)前對象的節(jié)點(diǎn)分裂標(biāo)準(zhǔn),這些選擇特征有著不同的評估方式,從而產(chǎn)生了各不相同的決策樹算法。第二步,決策樹生成。根據(jù)特征評估標(biāo)準(zhǔn)從上至下生成子節(jié)點(diǎn)直到?jīng)Q策樹停止增長位置。第三步,剪枝。決策樹容易生成過多過繁,需要通過技術(shù)手段去除掉多余的部分,縮小決策樹的規(guī)模,精簡流程等。決策樹最重要的作用就是預(yù)判,根據(jù)數(shù)據(jù)樹決策模型進(jìn)行可能表現(xiàn)形式和發(fā)展趨勢的預(yù)判。得出的預(yù)判,各種相關(guān)部門或者運(yùn)營商就可以根據(jù)預(yù)判結(jié)果做好風(fēng)險(xiǎn)防范工作。決策樹算法具有以下優(yōu)點(diǎn):適合用于離散型的數(shù)據(jù),即數(shù)值型數(shù)據(jù),從而提出一些蘊(yùn)含的規(guī)則和算法。決策樹計(jì)算簡單、使用效率高、很容易根據(jù)算法特征構(gòu)造出容易理解的規(guī)則。但決策樹算法也存在處理缺失數(shù)據(jù)難度大、數(shù)據(jù)集中性屬性易忽略、過多擬合等問題,值得高度重視。
2.2關(guān)聯(lián)規(guī)則算法應(yīng)用
關(guān)聯(lián)規(guī)則是指多個(gè)數(shù)據(jù)庫變量之間取值蘊(yùn)含的一些潛在規(guī)律性,目前多應(yīng)用在網(wǎng)絡(luò)故障分析上。網(wǎng)絡(luò)故障包含很多計(jì)算機(jī)學(xué)科知識,數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則正是在網(wǎng)絡(luò)故障規(guī)律性出現(xiàn)的基礎(chǔ)上進(jìn)行的挖掘。使用關(guān)聯(lián)規(guī)則進(jìn)行挖掘時(shí),可以選擇故障信息處理數(shù)據(jù)庫、網(wǎng)絡(luò)運(yùn)行信息數(shù)據(jù)庫等為挖掘?qū)ο?,結(jié)合要達(dá)到的任務(wù)目標(biāo),改進(jìn)挖掘辦法,在充分分析規(guī)律的基礎(chǔ)上,就有可能發(fā)現(xiàn)故障發(fā)生時(shí)的數(shù)據(jù)網(wǎng)絡(luò)參數(shù)、網(wǎng)絡(luò)設(shè)備型號以及故障發(fā)生的地點(diǎn)和時(shí)間等某些相關(guān)性的規(guī)律性,以便為及時(shí)迅速有效的排除故障提供技術(shù)指導(dǎo)。另外,關(guān)聯(lián)規(guī)則還在故障預(yù)警機(jī)制上有廣泛的應(yīng)用,尤其是對未知的故障,能夠預(yù)測故障發(fā)展趨勢,做出科學(xué)的預(yù)測,從而找到內(nèi)在規(guī)律性,以便提前遏制或者在其達(dá)到最大危害性之前制定相應(yīng)的防控機(jī)制,以便減少網(wǎng)絡(luò)故障的危害性和發(fā)生率。
3結(jié)束語
數(shù)據(jù)挖掘技術(shù)可以解決網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)分析中的信息數(shù)量大、實(shí)效高等要求,可以在有效的時(shí)間內(nèi),為決策者得到可靠性強(qiáng)的信息數(shù)據(jù)提供支持,并作出科學(xué)的決策。同時(shí),數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)分析工作有著交高的契合度,是網(wǎng)絡(luò)數(shù)據(jù)運(yùn)維分析的一種高效補(bǔ)充和運(yùn)用。因此,將數(shù)據(jù)挖掘運(yùn)用到網(wǎng)絡(luò)運(yùn)維數(shù)分析中,是方便、快捷和高效的。隨著社會計(jì)算機(jī)技術(shù)的不斷進(jìn)步以及信息的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)也將會不斷成熟并在網(wǎng)絡(luò)運(yùn)維數(shù)據(jù)分析中得到更大的應(yīng)用和發(fā)揮,現(xiàn)代網(wǎng)絡(luò)將會更加穩(wěn)定和安全。endprint