顏 博(北京鳳凰匯通科技有限公司,北京100028)
近年來(lái),云計(jì)算、大數(shù)據(jù)、深度學(xué)習(xí)技術(shù)的發(fā)展推動(dòng)人工智能產(chǎn)業(yè)的進(jìn)步,尤其是2016、2017年AlphaGo橫掃中日韓頂級(jí)圍棋高手在人工智能產(chǎn)業(yè)界引起了極大反響??梢钥吹剑斯ぶ悄苷谕苿?dòng)工業(yè)進(jìn)入第4次發(fā)展浪潮,并逐步開始在農(nóng)業(yè)生產(chǎn)、工業(yè)制造、交通駕駛、醫(yī)療健康、文化傳播、投資金融等各個(gè)領(lǐng)域進(jìn)入商用化階段,推動(dòng)人類生產(chǎn)、生活的革命性變化。不論是政府、企業(yè)還是用戶,都期待人工智能技術(shù)的標(biāo)準(zhǔn)化應(yīng)用。
人工智能在不同的發(fā)展階段被賦予了不同的內(nèi)涵。在1956年的達(dá)特茅斯會(huì)議上,麥卡錫首次提出人工智能概念。百度百科中對(duì)人工智能的定義是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器。
人工智能已經(jīng)開始在智能制造、智慧醫(yī)療、智能家居等各行各業(yè)的產(chǎn)品中得到了應(yīng)用。我國(guó)發(fā)布的《新一代人工智能發(fā)展規(guī)劃》中提出,要加強(qiáng)人工智能標(biāo)準(zhǔn)框架體系研究,到2020年初步建成人工智能技術(shù)標(biāo)準(zhǔn)體系,包括人工智能基礎(chǔ)共性、互聯(lián)互通、行業(yè)應(yīng)用、網(wǎng)絡(luò)安全、隱私保護(hù)等技術(shù)標(biāo)準(zhǔn),以及無(wú)人駕駛、服務(wù)機(jī)器人等細(xì)分應(yīng)用領(lǐng)域標(biāo)準(zhǔn),鼓勵(lì)參與或主導(dǎo)制定國(guó)際標(biāo)準(zhǔn),以技術(shù)標(biāo)準(zhǔn)“走出去”帶動(dòng)產(chǎn)品和服務(wù)“走出去”。工信部正在編寫的通信行業(yè)《“十三五”技術(shù)標(biāo)準(zhǔn)體系建設(shè)方案》中,已經(jīng)提出建立人工智能標(biāo)準(zhǔn)體系,研制網(wǎng)絡(luò)、平臺(tái)、終端、安全、智能化水平等關(guān)鍵標(biāo)準(zhǔn)。
在通信網(wǎng)和人工智能融合這一大趨勢(shì)下,各個(gè)標(biāo)準(zhǔn)化組織已紛紛開展行動(dòng)。2017年10月,ISO/IEC JTC1正式成立新的人工智能分技術(shù)委員會(huì),進(jìn)行人工智能相關(guān)的標(biāo)準(zhǔn)研究工作。目前包括中國(guó)、加拿大、德國(guó)、法國(guó)、俄羅斯、英國(guó)、美國(guó)等18個(gè)全權(quán)成員國(guó),以及澳大利亞、荷蘭等5個(gè)觀察成員國(guó)。2018年4月18—20日,人工智能分技術(shù)委員會(huì)第1次全會(huì)在北京成功召開,會(huì)議討論確定了組織架構(gòu),下設(shè)基礎(chǔ)工作組、計(jì)算方法與AI系統(tǒng)特征研究組、可信研究組、用例與應(yīng)用研究組,重點(diǎn)在術(shù)語(yǔ)、參考框架、算法模型和計(jì)算方法、安全及可信、用例和應(yīng)用分析等方面開展標(biāo)準(zhǔn)化研究。而在此之前ISO/IEC JTC1已經(jīng)發(fā)布了100余項(xiàng)人工智能相關(guān)的標(biāo)準(zhǔn),基本形成了較為完備的標(biāo)準(zhǔn)體系。
歐洲電信標(biāo)準(zhǔn)協(xié)會(huì)于2017年2月成立了ISGENI,期望通過人工智能提高運(yùn)營(yíng)商在網(wǎng)絡(luò)部署和操作方面的體驗(yàn),同時(shí),根據(jù)用戶需求和環(huán)境條件變化等,自適應(yīng)地調(diào)整網(wǎng)絡(luò)服務(wù)。2018年1月,ETSI又建立了ISG-ZSM,囊括了40多個(gè)單位或組織,最初將專注于網(wǎng)絡(luò)切片管理等研究。隨后,ETSI發(fā)布了《自動(dòng)化下一代網(wǎng)絡(luò)中的網(wǎng)絡(luò)和服務(wù)操作的必要性和益處》白皮書,強(qiáng)調(diào)5G網(wǎng)絡(luò)中服務(wù)管理、運(yùn)營(yíng)自動(dòng)化的目標(biāo)。
國(guó)際電信聯(lián)盟-電信標(biāo)準(zhǔn)化部門在2017年11月成立了未來(lái)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)焦點(diǎn)組(FG-ML5G),具體包括3個(gè)工作組,分別關(guān)注服務(wù)和需求、數(shù)據(jù)格式和機(jī)器學(xué)習(xí)技術(shù)、機(jī)器學(xué)習(xí)感知網(wǎng)絡(luò)架構(gòu)。重點(diǎn)研究機(jī)器學(xué)習(xí)、人工智能在包含5G系統(tǒng)的未來(lái)網(wǎng)絡(luò)中的應(yīng)用。FG-ML5G第1次會(huì)議于2018年1月29日—2月3日在瑞士日內(nèi)瓦舉行,就組織架構(gòu)、工作組設(shè)置、相關(guān)工作內(nèi)容等達(dá)成了一致。會(huì)議決議成立用例與需求工作組、數(shù)據(jù)格式與安全工作組、網(wǎng)絡(luò)架構(gòu)組3個(gè)工作組來(lái)推動(dòng)網(wǎng)絡(luò)智能化的工作。會(huì)議就通信網(wǎng)絡(luò)基礎(chǔ)設(shè)施無(wú)法有效滿足機(jī)器學(xué)習(xí)技術(shù)使用條件現(xiàn)狀、焦點(diǎn)組聚焦研究?jī)?nèi)容范疇、數(shù)據(jù)在機(jī)器學(xué)習(xí)應(yīng)用中的重要性以及標(biāo)準(zhǔn)化缺失阻礙機(jī)器學(xué)習(xí)技術(shù)應(yīng)用等方面的判斷和需求達(dá)成共識(shí),同時(shí)決定焦點(diǎn)組將致力于解決工業(yè)界使用人工智能技術(shù)遇到的技術(shù)及數(shù)據(jù)障礙,進(jìn)行相關(guān)標(biāo)準(zhǔn)制定,并針對(duì)不同案例應(yīng)用輸出技術(shù)報(bào)告以起到規(guī)范行業(yè)、引領(lǐng)發(fā)展的作用。
IEEE在2017年11月下旬,發(fā)布了3項(xiàng)人工智能領(lǐng)域標(biāo)準(zhǔn)。包括“機(jī)器化系統(tǒng)、智能系統(tǒng)和自動(dòng)系統(tǒng)的倫理推動(dòng)標(biāo)準(zhǔn)”“自動(dòng)和半自動(dòng)系統(tǒng)的故障安全設(shè)計(jì)標(biāo)準(zhǔn)”和“道德化的人工智能和自動(dòng)系統(tǒng)的福祉衡量標(biāo)準(zhǔn)”。
2017年5月3GPP SA2#121會(huì)議上,基于Big Data/AI的FS-eNA立項(xiàng)通過,2018年6月中國(guó)移動(dòng)牽頭立項(xiàng)3GPP RAN大數(shù)據(jù)應(yīng)用研究。前者主要關(guān)注用于網(wǎng)絡(luò)數(shù)據(jù)分析的必要數(shù)據(jù)以及必要的輸出數(shù)據(jù),后者則面向無(wú)線大數(shù)據(jù)的采集與應(yīng)用。
目前主流的人工智能應(yīng)用中,最主要的是機(jī)器學(xué)習(xí)和深度學(xué)習(xí),它們專門研究計(jì)算機(jī)怎樣模擬人類的學(xué)習(xí)行為獲取新的知識(shí)或技能,從而不斷改善自身的性能。
在監(jiān)督學(xué)習(xí)中,每個(gè)訓(xùn)練數(shù)據(jù)組都是由一個(gè)輸入對(duì)象和一個(gè)期望的輸出值組成的,目標(biāo)是得出輸入和輸出數(shù)據(jù)的函數(shù)關(guān)系,并推斷其他輸入數(shù)據(jù)可能的輸出值。函數(shù)的輸出可以是一個(gè)連續(xù)的值或是預(yù)測(cè)一個(gè)分類標(biāo)簽。監(jiān)督學(xué)習(xí)中常見的算法有K-鄰近、決策樹、樸素貝葉斯、邏輯回歸、支持向量機(jī)等。
半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法,輸入數(shù)據(jù)包括有標(biāo)簽樣本數(shù)據(jù)和無(wú)標(biāo)簽樣本數(shù)據(jù),根據(jù)這些數(shù)據(jù)集訓(xùn)練習(xí),輸出一個(gè)學(xué)習(xí)機(jī),對(duì)數(shù)據(jù)集或者外界的無(wú)標(biāo)簽樣本進(jìn)行預(yù)測(cè),以便大幅度降低標(biāo)記成本。其中包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸,如圖論推理算法、拉普拉斯支持向量機(jī)等。半監(jiān)督學(xué)習(xí)既減少了獲取大量樣本標(biāo)簽的代價(jià),又能夠帶來(lái)比較高的準(zhǔn)確性,因此越來(lái)越受到人們的重視。
無(wú)監(jiān)督式學(xué)習(xí)輸入無(wú)標(biāo)簽數(shù)據(jù),學(xué)習(xí)模型推斷出數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)、聚類和降維等。常見算法包括Apriori算法、K均值聚類、主成分分析降維以及神經(jīng)網(wǎng)絡(luò)中的自組織映射聚類等。
強(qiáng)化學(xué)習(xí)基于智能實(shí)體與環(huán)境之間的動(dòng)態(tài)交互。當(dāng)智能實(shí)體感知到環(huán)境信息后,依據(jù)自己采取動(dòng)作可能帶來(lái)的獎(jiǎng)賞或懲罰確定策略,并進(jìn)一步觀察環(huán)境的反應(yīng),循環(huán)往復(fù),直至收斂至某一穩(wěn)態(tài)狀態(tài)。常見的強(qiáng)化學(xué)習(xí)應(yīng)用場(chǎng)景包括調(diào)度管理、信息檢索、過程控制、動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制等。常見算法包括Q學(xué)習(xí)以及時(shí)序差分。
神經(jīng)網(wǎng)絡(luò)也叫人工神經(jīng)網(wǎng)絡(luò),是受生物神經(jīng)網(wǎng)絡(luò)啟發(fā)而構(gòu)建的算法模型,常用于解決非線性回歸和分類問題。一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)包括輸入層、隱藏層和輸出層。輸入層負(fù)責(zé)接收信號(hào),隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解和處理,輸出層輸出整合結(jié)果。
早先的神經(jīng)網(wǎng)絡(luò)算法比較容易過度訓(xùn)練,準(zhǔn)確率依賴于龐大的訓(xùn)練集,訓(xùn)練速度受限于計(jì)算機(jī),分類效果并不優(yōu)于其他方法。深度學(xué)習(xí)算法可通過多隱層的神經(jīng)網(wǎng)絡(luò)逐層預(yù)訓(xùn)練進(jìn)行特征學(xué)習(xí),具有自學(xué)習(xí)功能、聯(lián)想存儲(chǔ)功能和高速尋找優(yōu)化解的能力,適用于模式識(shí)別、信號(hào)處理、優(yōu)化組合、異常探測(cè)、文本到語(yǔ)音轉(zhuǎn)錄等數(shù)據(jù)量龐大、參數(shù)之間存在內(nèi)在聯(lián)系的場(chǎng)景。神經(jīng)網(wǎng)絡(luò)也從單純的監(jiān)督學(xué)習(xí)轉(zhuǎn)向半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域,并且可以實(shí)現(xiàn)分類器、生成數(shù)據(jù)、降維等多種功能。
隨著因特網(wǎng)規(guī)模的不斷擴(kuò)大和迅速發(fā)展,網(wǎng)絡(luò)用戶在得到了極大的便利的同時(shí)也受到了一系列的攻擊。近幾年來(lái)大規(guī)模的流量攻擊事件層出不窮,給各國(guó)經(jīng)濟(jì)都帶來(lái)了巨大的損失,網(wǎng)絡(luò)安全已經(jīng)引起了人們的高度重視。當(dāng)用戶在請(qǐng)求網(wǎng)絡(luò)服務(wù)時(shí),會(huì)產(chǎn)生相應(yīng)的網(wǎng)絡(luò)流量,而流量的監(jiān)測(cè)是網(wǎng)絡(luò)管理的重要組成部分,網(wǎng)絡(luò)流量數(shù)據(jù)為網(wǎng)絡(luò)的運(yùn)行和維護(hù)提供了極其重要的信息,這些數(shù)據(jù)反映出了網(wǎng)絡(luò)的資源分布情況和容量劃分情況,能夠?qū)W(wǎng)絡(luò)服務(wù)質(zhì)量進(jìn)行分析,對(duì)網(wǎng)絡(luò)發(fā)生的錯(cuò)誤和攻擊進(jìn)行監(jiān)測(cè)和隔離,從而為網(wǎng)絡(luò)用戶提供安全可靠的服務(wù)。
針對(duì)異常流量的檢測(cè)主要分為基于特征的檢測(cè)和基于異常的檢測(cè)。目前,各網(wǎng)絡(luò)采取最多的入侵檢測(cè)技術(shù)是特征檢測(cè)技術(shù)。它通過匹配已經(jīng)建立的規(guī)則和模型來(lái)檢測(cè)已知的攻擊,然而在對(duì)未知的攻擊檢測(cè)時(shí),很難將未知的攻擊與正常行為區(qū)分開來(lái),往往需要不斷更新規(guī)則庫(kù)。新攻擊的海量流量數(shù)據(jù)的不斷增加給網(wǎng)絡(luò)安全帶來(lái)了極大的挑戰(zhàn),因此,基于特征檢測(cè)的技術(shù)已經(jīng)不適用于當(dāng)前網(wǎng)絡(luò)對(duì)攻擊行為進(jìn)行實(shí)時(shí)檢測(cè)?;诋惓5娜肭謾z測(cè),不需要建立規(guī)則庫(kù),但是由于傳統(tǒng)的入侵檢測(cè)系統(tǒng)無(wú)法有效地對(duì)零日攻擊進(jìn)行檢測(cè),網(wǎng)絡(luò)安全面臨的挑戰(zhàn)依然嚴(yán)峻。
以上網(wǎng)絡(luò)安全問題,在工業(yè)界和學(xué)術(shù)界都引起了廣泛的重視,各國(guó)政府機(jī)構(gòu)出臺(tái)了一系列政策,大力改善網(wǎng)絡(luò)安全問題。入侵檢測(cè)概念最早于1980年提出,并提出利用審計(jì)信息跟蹤用戶可疑行為的入侵檢測(cè)方法。接下來(lái)的20年間,又陸續(xù)提出了各種入侵檢測(cè)模型。近2年我國(guó)政府將“維護(hù)網(wǎng)絡(luò)安全”寫進(jìn)政府工作報(bào)告,將這一計(jì)劃上升到國(guó)家戰(zhàn)略,根據(jù)360公司在2016年底的中國(guó)互聯(lián)網(wǎng)政企安全報(bào)告顯示:全球化的網(wǎng)絡(luò)安全領(lǐng)域各項(xiàng)技術(shù)正在全面加速推進(jìn),在安全防御方面以開放數(shù)據(jù)挖掘?yàn)榇淼耐{新動(dòng)向是未來(lái)安全研究的新趨勢(shì)。進(jìn)入21世紀(jì)以來(lái),隨著人工智能和大數(shù)據(jù)分析的快速發(fā)展,國(guó)內(nèi)外應(yīng)用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法對(duì)入侵檢測(cè)的研究開辟了新的研究道路。
目前網(wǎng)絡(luò)異常流量檢測(cè)所面臨的主要問題包括:
a)高速網(wǎng)絡(luò)環(huán)境的性能改善問題。高速網(wǎng)絡(luò)環(huán)境下,網(wǎng)絡(luò)的吞吐量非常大,需要從大量的流量數(shù)據(jù)中檢測(cè)出網(wǎng)絡(luò)入侵的具體類別,同時(shí)提高檢測(cè)速度和準(zhǔn)確率,降低網(wǎng)絡(luò)的誤報(bào)率和漏報(bào)率,把入侵造成的損失控制在最小限度內(nèi)。
b)入侵檢測(cè)系統(tǒng)主動(dòng)防御能力不足。大部分入侵檢測(cè)系統(tǒng)是以檢測(cè)漏洞為主,依靠漏洞庫(kù)實(shí)現(xiàn)入侵檢測(cè),對(duì)于漏洞庫(kù)中不存在的攻擊,很難實(shí)現(xiàn)檢測(cè),一般只有在攻擊發(fā)生后,才添加到庫(kù),這樣無(wú)法做到提前防御未知攻擊,只能依賴漏洞庫(kù)的更新。
c)入侵檢測(cè)系統(tǒng)體系結(jié)構(gòu)問題。集中式的入侵檢測(cè)無(wú)法適應(yīng)分布式攻擊的檢測(cè),需要采用中央代理以及大量分布在各地的本地代理組成分布式入侵檢測(cè)系統(tǒng)進(jìn)行檢測(cè)。
根據(jù)以上異常流量檢測(cè)所面臨的問題以及人工智能和大數(shù)據(jù)分析的優(yōu)勢(shì),有必要研究基于人工智能和大數(shù)據(jù)的互聯(lián)網(wǎng)異常流量檢測(cè)技術(shù)。利用網(wǎng)絡(luò)產(chǎn)生的大量流量數(shù)據(jù)進(jìn)行分析,及時(shí)發(fā)現(xiàn)檢測(cè)可疑的用戶和攻擊行為,維護(hù)網(wǎng)絡(luò)安全,為用戶提供安全可靠的服務(wù)。
機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘處理,用于運(yùn)維中的隱患預(yù)測(cè)和動(dòng)態(tài)巡檢。通過同步運(yùn)維數(shù)據(jù),集中優(yōu)化平臺(tái)數(shù)據(jù),實(shí)現(xiàn)動(dòng)態(tài)監(jiān)控,從多個(gè)維度對(duì)現(xiàn)場(chǎng)操作和維護(hù)指標(biāo)進(jìn)行特征畫像,使用人工智能技術(shù)實(shí)時(shí)預(yù)測(cè)重要警報(bào),找到關(guān)鍵監(jiān)測(cè)點(diǎn)并制定動(dòng)態(tài)檢查計(jì)劃。通過關(guān)聯(lián)工單系統(tǒng),自動(dòng)輸出診斷計(jì)劃,提高工單派單準(zhǔn)確性,實(shí)現(xiàn)智能化的運(yùn)維。利用數(shù)據(jù)挖掘技術(shù),早發(fā)現(xiàn)問題,從被動(dòng)處理問題到主動(dòng)預(yù)防問題,提升運(yùn)維效率。
隨著創(chuàng)新型技術(shù)的迅速發(fā)展,電信網(wǎng)絡(luò)設(shè)備日趨虛擬化、自動(dòng)化和智能化。電信網(wǎng)絡(luò)系統(tǒng)的規(guī)模和復(fù)雜度的不斷增加,維護(hù)變得越來(lái)越繁雜,運(yùn)維人員還必須面對(duì)各種高度集成的設(shè)備產(chǎn)生的大量實(shí)時(shí)信息。當(dāng)異常情況發(fā)生時(shí),現(xiàn)有系統(tǒng)無(wú)法為運(yùn)維人員提供足夠支持,導(dǎo)致許多問題無(wú)法及時(shí)發(fā)現(xiàn),且不斷傳播和升級(jí),進(jìn)而影響所有業(yè)務(wù)。如果發(fā)生異常警報(bào)時(shí)需要花費(fèi)大量時(shí)間查找問題的根源并分析得出解決方案,小問題也會(huì)被升級(jí)?;谌斯ぶ悄芗夹g(shù),可實(shí)現(xiàn)通信網(wǎng)絡(luò)中的告警全局監(jiān)控和處理,實(shí)時(shí)采集告警數(shù)據(jù),實(shí)現(xiàn)靈活的過濾和可追溯性,可適當(dāng)?shù)胤治龊吞幚懋?dāng)前警報(bào)中的關(guān)鍵信息。通過對(duì)告警信息進(jìn)行過濾、匹配,確定并分類告警信息,同時(shí)關(guān)聯(lián)告警信息,實(shí)現(xiàn)溯源,從而屏蔽低級(jí)別告警,實(shí)現(xiàn)網(wǎng)絡(luò)故障的快速診斷,并協(xié)調(diào)相應(yīng)的通信業(yè)務(wù)模型和網(wǎng)絡(luò)拓?fù)?,?shí)現(xiàn)準(zhǔn)確的故障定位。為了實(shí)現(xiàn)可追溯性,需要建立故障分析模型,實(shí)現(xiàn)智能識(shí)別。關(guān)聯(lián)規(guī)則算法定義為從一個(gè)數(shù)據(jù)集中發(fā)現(xiàn)項(xiàng)之間的隱藏關(guān)系。在大量的告警數(shù)據(jù)中,需要識(shí)別出告警間關(guān)聯(lián)關(guān)系根故障分析模型,通過多個(gè)不同的維度進(jìn)行識(shí)別,如發(fā)生模式或規(guī)律,這些固有發(fā)生模式或規(guī)律就是根故障分析模型。
因此,基于人工智能的故障診斷和可追溯性,在分析大數(shù)據(jù)關(guān)聯(lián)規(guī)則和人工智能技術(shù)的基礎(chǔ)上,綜合網(wǎng)絡(luò)和業(yè)務(wù)數(shù)據(jù),對(duì)所有報(bào)警和性能監(jiān)控?cái)?shù)據(jù)以及日志進(jìn)行綜合分析,從而發(fā)現(xiàn)故障特征和故障原因的規(guī)則。在實(shí)際的網(wǎng)絡(luò)運(yùn)行和維護(hù)中,根據(jù)發(fā)現(xiàn)的故障特征自動(dòng)匹配診斷規(guī)則,從而智能化地發(fā)現(xiàn)故障點(diǎn),并且給出處理建議。