相旭東,趙 璇
(滁州學(xué)院,安徽 滁州 239000)
如今社會(huì)的高速發(fā)展,導(dǎo)致數(shù)據(jù)呈爆炸式增長,需求不斷增加,數(shù)據(jù)量也在增加,加速了大數(shù)據(jù)時(shí)代的形成。 大數(shù)據(jù)時(shí)代人們的生活更加便捷,但是給人們的信息安全甚至生命安全也帶來了巨大的威脅。 趙旭等[1]對(duì)大數(shù)據(jù)時(shí)代下個(gè)人信息面臨的威脅做出分析:大數(shù)據(jù)時(shí)代技術(shù)更加先進(jìn),個(gè)人信息更容易泄露,可能是由于自我疏忽導(dǎo)致信息外露,也可能是不法分子的入侵,還有可能是部分企業(yè)強(qiáng)制對(duì)個(gè)人信息的收集等;朝魯門[2]提出的預(yù)防策略是物理防御、防火墻技術(shù)和網(wǎng)絡(luò)完全漏洞掃描技術(shù);林麗星[3]采用K-mean 聚類算法判別其屬于安全數(shù)據(jù)還是異常數(shù)據(jù),最終完成Spark 環(huán)境下網(wǎng)絡(luò)數(shù)據(jù)安全監(jiān)測(cè);張濱[4]提出5G 數(shù)據(jù)安全整體防護(hù)方案,助力5G 數(shù)據(jù)安全發(fā)展與治理。 但是,現(xiàn)如今的預(yù)防策略依舊需要改進(jìn),技術(shù)需要不斷更新,將更多更先進(jìn)的技術(shù)應(yīng)用于信息安全,才可能在極大程度上避免信息泄露。
要想知道數(shù)據(jù)的重要性,首先得知道數(shù)據(jù)能干什么? 有什么價(jià)值? 凡是發(fā)生過的必然留有痕跡,數(shù)據(jù)的作用就是記錄這些痕跡,將其存儲(chǔ)起來,便于以后的查閱或?qū)W習(xí),或者將相關(guān)的數(shù)據(jù)收集統(tǒng)計(jì)進(jìn)行分析,從而解決、驗(yàn)證相關(guān)問題。
數(shù)據(jù)存在的價(jià)值,究其根本就是為人們對(duì)事物的觀察和做出正確的決策提供科學(xué)幫助,用數(shù)據(jù)刻畫出信息,例如冬奧會(huì)人們最關(guān)注的項(xiàng)目,數(shù)據(jù)顯示是短道速滑,其次是冰壺、花樣滑冰和冰球。
幫助人們形成正確的決策。 以冬奧會(huì)的跳臺(tái)滑雪項(xiàng)目為例,將多個(gè)測(cè)風(fēng)氣象站建設(shè)在場(chǎng)館周圍,跳臺(tái)上安裝超聲風(fēng)傳感器,最大可能地對(duì)風(fēng)向、風(fēng)速進(jìn)行精準(zhǔn)測(cè)量,什么方位的風(fēng)向和風(fēng)速適合出發(fā),這些數(shù)據(jù)給參賽運(yùn)動(dòng)員和教練提供了較好的判斷標(biāo)準(zhǔn)。
2008 年,各種網(wǎng)絡(luò)泄密事件相繼出現(xiàn),“3·15” 晚會(huì)暴露出大量的垃圾短信和個(gè)人隱私泄露問題,此后的十幾年,信息安全的話題一直是“3·15”晚會(huì)的“??汀?如圖1 所示是近10 年來 “3·15”晚會(huì)涉及的信息安全問題的相關(guān)案件。
圖1 信息泄露案例
為什么侵犯?jìng)€(gè)人信息的行為被嚴(yán)令禁止卻依舊猖獗? 究其原因,信息給不法分子帶來的利益是巨大的,竊取的個(gè)人信息可能被轉(zhuǎn)賣給企業(yè),企業(yè)會(huì)通過數(shù)據(jù)分析篩選出對(duì)其有益的人群推銷產(chǎn)品,最終目的是獲利;還可能被詐騙集團(tuán)利用,通過掌握的信息實(shí)施詐騙。
個(gè)人信息為何會(huì)被不法分子掌握。 經(jīng)調(diào)查發(fā)現(xiàn),信息泄露的原因主要有兩個(gè)方面,一是用戶的個(gè)人安全意識(shí)薄弱,不夠注重信息安全問題,例如在社交網(wǎng)站上公開自己的定位、狀態(tài)等個(gè)人信息,很容易被居心叵測(cè)的人利用;二是企業(yè)自律意識(shí)薄弱,監(jiān)管混亂,管理制度不完善,由于監(jiān)管不到位導(dǎo)致信息被盜取并倒賣,甚至一些企業(yè)網(wǎng)站或App 對(duì)用戶信息進(jìn)行強(qiáng)制收集。信息泄露很容易造成網(wǎng)絡(luò)犯罪,如網(wǎng)絡(luò)詐騙、被“人肉”、被網(wǎng)暴,關(guān)乎每一個(gè)用戶的人身安全。
如何預(yù)防信息被不法分子獲取,政府要完善法律法規(guī),加強(qiáng)監(jiān)管力度,企業(yè)更應(yīng)該自律守法,個(gè)人要提高防護(hù)意識(shí)。 除此之外,技術(shù)層面的防護(hù)更是時(shí)時(shí)被需要。
機(jī)器學(xué)習(xí)可以應(yīng)用在信息科技風(fēng)險(xiǎn)識(shí)別、風(fēng)險(xiǎn)評(píng)估、風(fēng)險(xiǎn)監(jiān)測(cè)和風(fēng)險(xiǎn)控制等整個(gè)科技風(fēng)險(xiǎn)管理過程,利用機(jī)器學(xué)習(xí)方法可感知風(fēng)險(xiǎn),分析風(fēng)險(xiǎn)規(guī)律和風(fēng)險(xiǎn)行為,評(píng)估風(fēng)險(xiǎn)影響,進(jìn)行風(fēng)險(xiǎn)量化等,而風(fēng)險(xiǎn)識(shí)別是風(fēng)險(xiǎn)管理的第一步,只有識(shí)別出風(fēng)險(xiǎn)才能有效地進(jìn)行風(fēng)險(xiǎn)管理,因此要先研究機(jī)器學(xué)習(xí)技術(shù)在風(fēng)險(xiǎn)識(shí)別方面的應(yīng)用[5]。
引入數(shù)據(jù)預(yù)處理,分析數(shù)據(jù)之間的相關(guān)關(guān)系,對(duì)數(shù)據(jù)進(jìn)行深入地理解然后提取特征,通過轉(zhuǎn)換構(gòu)建特征工程,對(duì)模型進(jìn)行訓(xùn)練,優(yōu)化參數(shù)算法,對(duì)模型進(jìn)行評(píng)估,選出最合適的模型,然后進(jìn)行部署。
將DBSCAN 聚類算法應(yīng)用到風(fēng)險(xiǎn)識(shí)別系統(tǒng)中,通過模型學(xué)習(xí)和訓(xùn)練后的系統(tǒng),可以分析用戶的行為,識(shí)別其風(fēng)險(xiǎn)性,監(jiān)測(cè)其動(dòng)向,發(fā)現(xiàn)“危險(xiǎn)行為”及時(shí)阻斷其與服務(wù)器的連接。
2.2.1 算法簡介
DBSCAN 是一種將兩個(gè)足夠接近的核心點(diǎn)分成在相同的集群中的密度聚類算法。 足夠接近指的是兩個(gè)核心點(diǎn)的歐式距離小于等于半徑。
定義1 密度:在數(shù)據(jù)集中指定點(diǎn)的密度根據(jù)該點(diǎn)Eps 半徑內(nèi)的點(diǎn)數(shù)(點(diǎn)的自身也被涵蓋在內(nèi))來估計(jì)。
定義2 核心點(diǎn):假定有一個(gè)點(diǎn)作為一個(gè)核心,在這個(gè)中心附近的點(diǎn)數(shù)不低于一個(gè)給定的閾值MinPts,而MinPts的值是由使用者規(guī)定的。
定義3 邊界點(diǎn):邊界點(diǎn)不是核心點(diǎn),但可能會(huì)落在某一個(gè)或多個(gè)核心點(diǎn)的鄰域內(nèi)。
定義4 噪聲點(diǎn):噪聲點(diǎn)不會(huì)落在任何一個(gè)核心點(diǎn)的領(lǐng)域內(nèi),不是核心點(diǎn)同時(shí)也不是邊界點(diǎn)。定義5ε領(lǐng)域:以核心點(diǎn)為圓心半徑ε內(nèi)的區(qū)域。定義6 直接密度可達(dá):點(diǎn)q在核心點(diǎn)p的ε鄰域內(nèi),這樣的兩個(gè)點(diǎn)就稱p直接密度可達(dá)q。
定義7 密度可達(dá):在某個(gè)樣本集合內(nèi),有樣本點(diǎn)p1,p2,p3,…,pn,其中p=p1,q=pn;若pi到pi-1直接密度可達(dá),那么p密度可達(dá)q。
定義8 密度相連:在某樣本集合中有一點(diǎn)o,假設(shè)o到p和q密度可達(dá),則稱q與p密度相連。
2.2.2 算法步驟
在數(shù)據(jù)集中任選一點(diǎn)作為核心點(diǎn),以該核心點(diǎn)為圓心找出與該核心點(diǎn)的距離不大于Eps 的所有點(diǎn);判斷該ε鄰域內(nèi)點(diǎn)的個(gè)數(shù),若該領(lǐng)域內(nèi)的點(diǎn)的個(gè)數(shù)沒有達(dá)到最小閾值MinPts,那么該點(diǎn)就會(huì)被標(biāo)記為噪聲點(diǎn);如果其ε領(lǐng)域內(nèi)的點(diǎn)個(gè)數(shù)不小于MinPts,則將這點(diǎn)作為核心樣本點(diǎn)標(biāo)記,并為其分配一個(gè)標(biāo)簽。 隨后遍歷該核心點(diǎn)直接密度相連的點(diǎn),如果這些點(diǎn)尚未被分配到任意一個(gè)簇,那么就給這些點(diǎn)分配到上述核心點(diǎn)的標(biāo)簽。 若它們是核心樣本,那么就依次訪問其直接密度相連點(diǎn)。 以此類推,簇的集群會(huì)逐漸壯大,如果在簇的Eps 距離內(nèi)無法找到更多的核心樣本,則選擇另一個(gè)未被訪問過的點(diǎn),并重復(fù)同樣的步驟。
2.2.3 算法實(shí)現(xiàn)
(1)數(shù)據(jù)來源:問卷收集。
(2)聚類過程:使用Python 語言實(shí)現(xiàn)對(duì)問卷數(shù)據(jù)處理。
使用pd.read_exce()方法讀取數(shù)據(jù)。
使用切片的方式選取部分特征:“所用時(shí)間”“總分”。
利用Z-score 標(biāo)準(zhǔn)化方式(x-μ)/σ對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將不在同一量級(jí)的數(shù)據(jù)轉(zhuǎn)化成相同量級(jí)。x代表觀測(cè)值,μ作為總體平均值,σ作為總體標(biāo)準(zhǔn)差。 標(biāo)準(zhǔn)化的結(jié)果是沒有任何實(shí)用價(jià)值的,只能用來做相對(duì)的比較,如圖2 所示為標(biāo)準(zhǔn)化后的數(shù)據(jù)。
圖2 歸一化數(shù)據(jù)
建立DBCSCAN 模型,將聚類結(jié)果可視化,如圖3所示,異常數(shù)據(jù)由“●”“■”“+”表示。
圖3 聚類結(jié)果
(3)對(duì)聚類結(jié)果進(jìn)行分析。
將聚類結(jié)果與原數(shù)據(jù)對(duì)比可知,DBSCAN 算法將異常的數(shù)據(jù)識(shí)別為噪聲點(diǎn),并將其標(biāo)記為-1,1,2,如表1 所示,在可視化窗口中用不同于非異常點(diǎn)的標(biāo)識(shí)來標(biāo)記。
表1 部分原數(shù)據(jù)
對(duì)用戶的行為進(jìn)行分析,將用戶的異常行為識(shí)別為噪聲點(diǎn),實(shí)時(shí)監(jiān)控其操作,及時(shí)阻斷其與服務(wù)器的連接,防止用戶信息的強(qiáng)制泄露,從根本上保障用戶的信息安全。
隨著新技術(shù)的出現(xiàn)和應(yīng)用,用戶信息泄露的方式越來越多,要從海量數(shù)據(jù)中檢測(cè)有危險(xiǎn)的信息十分困難,因此,需要進(jìn)一步完善法律規(guī)定,加強(qiáng)執(zhí)行力度,更需要用戶提高自我保護(hù)意識(shí),從根本上預(yù)防信息泄露,同時(shí)需要更新的技術(shù)手段阻止信息泄露,本文利用了DBSCAN 聚類算法對(duì)用戶行為進(jìn)行分析,將用戶分類,規(guī)避風(fēng)險(xiǎn)。
除了技術(shù)上的防護(hù),更重要的是政府、企業(yè)和個(gè)人等各方面都要加強(qiáng)對(duì)個(gè)人信息的安全保障。 從個(gè)人方面來看,要提高安全意識(shí),及時(shí)銷毀或收好有個(gè)人信息的各種單據(jù)票據(jù),如火車票、快遞單以及銀行業(yè)務(wù)的單據(jù)等。 不貪圖小便宜,不隨意掃碼,不給陌生人提供驗(yàn)證碼、ID 碼,不輕易相信短信及郵件中的任何網(wǎng)頁鏈接。從政府方面來看,要加大網(wǎng)絡(luò)違法犯罪的懲罰力度,推行更健全的法例和規(guī)例,鼓勵(lì)開發(fā)信息安全系統(tǒng),建立信息監(jiān)管體系。 從企業(yè)方面來看,要強(qiáng)化行業(yè)自律機(jī)制,樹立社會(huì)責(zé)任意識(shí),絕不能知法犯法,對(duì)涉及個(gè)人信息安全的工作加強(qiáng)監(jiān)督,提高員工的職業(yè)道德素養(yǎng)。