賴清楠, 郭 強(qiáng)
(北京大學(xué) 計(jì)算中心, 北京 100871)
新型冠狀病毒肺炎是近百年來(lái)人類遭遇的影響范圍最廣的全球性大流行病, 對(duì)全世界是一次嚴(yán)重危機(jī)和嚴(yán)峻考驗(yàn).人類生命安全和健康面臨重大威脅[1].2020年1月下旬, 新冠疫情在國(guó)內(nèi)暴發(fā), 為了保障人民的生命安全, 人員流動(dòng)受到限制.雖然目前國(guó)內(nèi)新冠疫情趨于緩和, 各地逐步復(fù)工復(fù)產(chǎn), 但國(guó)外依然緊張, 仍然不能放松警惕.
在這期間, 高校正常的教學(xué)科研受到影響, 教師學(xué)生在無(wú)法返回學(xué)校的情況下, 只能居家進(jìn)行遠(yuǎn)程學(xué)習(xí)和科研.VPN能夠極大地方便高校師生校內(nèi)資源、電子期刊、學(xué)術(shù)資源的獲取, 滿足遠(yuǎn)程學(xué)習(xí)和科研的需求.VPN的使用分為客戶端和服務(wù)器, 用戶使用學(xué)校統(tǒng)一身份認(rèn)證登錄VPN客戶端后, 服務(wù)器會(huì)隨機(jī)分配VPN地址池的某一IP給用戶, 再去訪問(wèn)資源的時(shí)候就和校內(nèi)用戶沒(méi)有任何差別.本文通過(guò)采集VPN系統(tǒng)的日志,分析新冠疫情期間師生的遠(yuǎn)程學(xué)習(xí)和科研的情況.
新冠疫情暴發(fā)后, 為了防止大范圍的擴(kuò)散, 一線二線城市提倡高校遠(yuǎn)程學(xué)習(xí)和科研, 這使得遠(yuǎn)程學(xué)習(xí)和科研在國(guó)內(nèi)普及開(kāi)來(lái).從全世界來(lái)看, 遠(yuǎn)程學(xué)習(xí)和科研在歐美國(guó)家普及率較高[2], 在中國(guó), 更多的只是作為日常學(xué)習(xí)和科研的輔助手段.雖然遠(yuǎn)程學(xué)習(xí)和科研保障了正常的學(xué)習(xí)科研工作, 但也會(huì)帶來(lái)網(wǎng)絡(luò)安全問(wèn)題.與校內(nèi)場(chǎng)景相比, 遠(yuǎn)程學(xué)習(xí)和科研的硬件設(shè)備、網(wǎng)絡(luò)環(huán)境均不同于內(nèi)網(wǎng), 防護(hù)做得不足[3].使用VPN技術(shù), 身份安全以及訪問(wèn)權(quán)限可能會(huì)成為其弱點(diǎn).黑客通過(guò)盜用身份登錄VPN, 完全有可能利用VPN進(jìn)入網(wǎng)絡(luò)內(nèi)部并進(jìn)行大肆搜掠[4].但是如果能夠給VPN增加雙因素認(rèn)證, 如移動(dòng)電話或者軟令牌, 將會(huì)提高VPN使用上的安全性[5].我們?cè)谑褂肰PN提供的便利的同時(shí), 也不能忽略VPN帶來(lái)的安全問(wèn)題.
為了了解師生在線學(xué)習(xí)和遠(yuǎn)程辦公情況, 分析了新冠疫情期間北京大學(xué)VPN日志.在網(wǎng)絡(luò)日志分析及VPN日志分析方面很多學(xué)者也做了一些相關(guān)的研究.余慧佳等[6]對(duì)搜狗引擎在一個(gè)月內(nèi)的查詢?nèi)罩具M(jìn)行了分析, 從獨(dú)立查詢?cè)~分布、同一session內(nèi)的用戶查詢習(xí)慣及用戶是否使用高級(jí)檢索功能等方面對(duì)用戶行為進(jìn)行了分析.Mat-Hassan等[7]基于AutoDoc搜索和導(dǎo)航文檔系統(tǒng)的日志數(shù)據(jù), 提出了一個(gè)用戶搜索會(huì)話模型, 并對(duì)用戶的鏈接或點(diǎn)擊選擇行為和搜索策略模式進(jìn)行了分析.Lu等[8]為了從日志中統(tǒng)計(jì)出真實(shí)的VPN用戶數(shù), 使用特征提取和日志分析方法, 提出了一種新的VPN用戶識(shí)別算法, 論文提取了用戶的基本信息、源IP地址、賬號(hào)名稱等特征來(lái)區(qū)分不同的用戶, 最后用2個(gè)月的VPN日志驗(yàn)證了算法的有效性和準(zhǔn)確性.武凌等[9]設(shè)計(jì)了一個(gè)基于Hadoop的VPN訪問(wèn)日志分析平臺(tái), 將VPN日志與流量關(guān)聯(lián), 產(chǎn)生用戶的軌跡追蹤報(bào)表, 找出資源濫用者和潛在的安全威脅.本文采用了基于日志特征的分析方法, 根據(jù)VPN日志的類別對(duì)日志進(jìn)行特征提取, 將源VPN日志分解成數(shù)據(jù)量較小的特征日志, 最后對(duì)特征進(jìn)行匯總, 得到所需要的分析結(jié)果.
本文研究對(duì)象為新冠疫情期間北京大學(xué)VPN服務(wù)器產(chǎn)生的日志, 為了緩解壓力, 學(xué)校部署了多臺(tái)VPN服務(wù)器, 從這些服務(wù)器上采集了2020年2月20日到2020年9月20日, 共7個(gè)月的VPN日志, 大小約為21 GB, 日志條數(shù)約103 989 852條.
初步分析后, 日志大概可以分為L(zhǎng)ogin、System、VPN Tunneling、WebRequest 4大類, 如表1所示.Login記錄用戶登錄過(guò)程中產(chǎn)生的日志; System記錄用戶認(rèn)證成功后, 系統(tǒng)對(duì)用戶權(quán)限的分配日志; VPN Tunneling記錄的是VPN通道的建立日志; WebRequest記錄的是用戶使用Web方式連接VPN訪問(wèn)資源的請(qǐng)求, 目前只有極少用戶采用此方式, 因此絕大部分用戶資源獲取的流量日志并未記錄在WebRequest中.
表1 VPN日志分類
本文提出了基于特征的VPN日志分析方法, 從VPN服務(wù)器上采集的源日志是以日期命名, 以天為單位生成的, 每天日志大約為25 MB.VPN日志具有很明確的日志類別以及格式規(guī)則, 日志里帶有源IP地址、用戶登錄賬號(hào)、客戶端類型等信息.截取了一段真實(shí)的VPN日志, 如下所示, 其中部分敏感信息采用xxxx代替.
2020 -03-10 00:01:06 - vpn_D - [xxxx] xxxx(pku's users)[標(biāo)準(zhǔn)用戶角色] - VPN Tunneling: Session started for user with IPv4 address xxxx, IPv6 address xxxx,hostname xxxx
2020 -03-10 00:01:07 - vpn_D - [xxxx] xxxx (pku's users)[標(biāo)準(zhǔn)用戶角色] - Closed connection to xxxx after 1874 seconds, with 4402960 bytes read and 24096373bytes written
日志里各個(gè)字段的含義如下:
時(shí)間-VPN服務(wù)器標(biāo)識(shí)-[源IP地址]用戶賬號(hào)(pku’s users)[角色分組 ]-日志內(nèi)容
不同類別的日志, 日志內(nèi)容格式是固定的, 例如Session started日志格式固定為:
VPN Tunneling: Session started for user with IPv4 address xxxx, IPv6 address xxxx, hostname xxxx
里面包含了登錄后分配的IPv4地址和IPv6地址,用戶的hostname信息.根據(jù)VPN日志的類別以及格式規(guī)則, 把時(shí)間、賬號(hào)、源IP地址、連接時(shí)長(zhǎng)等信息作為日志的特征, 以這些特征對(duì)日志進(jìn)行分類, 分析方法如圖1所示.
圖1 基于特征的日志分析方法
(1) 日志分塊.源日志按照登錄用戶賬號(hào)進(jìn)行分類,為每個(gè)用戶賬號(hào)建立一個(gè)日志文件存儲(chǔ)這個(gè)賬號(hào)相關(guān)的所有日志.
(2) 排序.同一賬號(hào)不同時(shí)間段的登錄可能會(huì)分配到不同VPN服務(wù)器上, 分塊后的日志時(shí)間上有可能是錯(cuò)亂的, 為了不影響后續(xù)處理, 需要對(duì)日志按時(shí)間進(jìn)行排序.
(3)特征提取.以統(tǒng)計(jì)用戶VPN使用時(shí)長(zhǎng)為例,逐個(gè)讀取分塊后的日志文件, 提取出Closed connection日志, 按照Closed connection日志規(guī)則匹配出使用時(shí)長(zhǎng), 為每個(gè)用戶生成一個(gè)只包含時(shí)間、賬號(hào)、使用時(shí)長(zhǎng)的用戶特征日志.
(4) 統(tǒng)計(jì)匯總.將用戶特征日志進(jìn)行匯總.
本文分析了新冠疫情期間學(xué)生和教工遠(yuǎn)程學(xué)習(xí)和科研時(shí)VPN的使用情況, 從使用人數(shù)、登錄登出時(shí)間、使用時(shí)長(zhǎng)、聚類分析、用戶類別5個(gè)方面進(jìn)行討論.
VPN日志里記錄了賬號(hào)信息, 在校園網(wǎng)的場(chǎng)景下可以用賬號(hào)來(lái)代表用戶, 雖然存在一些公共賬號(hào), 但仍可以用賬號(hào)數(shù)量近似的表示用戶數(shù)量.VPN日志Closed connection類別, 如下所示, 包含賬號(hào)信息、VPN使用時(shí)長(zhǎng)等, 加上日志的時(shí)間戳可以推算出用戶登錄VPN、登出VPN、以及在線時(shí)間段.
2020 -03-15 00:01:47 - vpn_C - [xxxx] xxxx(pku's users)[標(biāo)準(zhǔn)用戶角色] - Closed connection to xxxx after 27485 seconds, with 13847842 bytes read and 45740435 bytes written.
圖2為從2月20日到9月20日, VPN使用人數(shù)以及同時(shí)在線人數(shù)變化情況, 整體上看使用人數(shù)和同時(shí)在線人數(shù)處于下降趨勢(shì).圖3為2月20日到9月20日全國(guó)新增確診人數(shù)變化情況, 數(shù)據(jù)來(lái)自中華人民共和國(guó)國(guó)家衛(wèi)生健康委員會(huì)(http://www.nhc.gov.cn).4月份開(kāi)始疫情趨于緩和, 6月份和7月份小規(guī)模的復(fù)發(fā), 8月份開(kāi)始逐漸又呈現(xiàn)緩和趨勢(shì).
圖2 使用人數(shù)和同時(shí)在線人數(shù)
圖3 全國(guó)新增確診人數(shù)
兩者對(duì)比來(lái)看, 2月份到6月份春節(jié)學(xué)期期間疫情較為嚴(yán)重, 師生遠(yuǎn)程學(xué)習(xí)和科研, VPN使用人數(shù)有所波動(dòng)但保持在較高的水平, 周末和假期休息時(shí)間段人數(shù)下降明顯.7月、8月暑假開(kāi)始后, 使用人數(shù)下降到之前的一半左右, 9月份秋季學(xué)期開(kāi)學(xué)后, 疫情逐漸平穩(wěn),學(xué)生和教工返校, 不再依賴VPN, 使用人數(shù)再次下降.
表2統(tǒng)計(jì)了2月到9月平均在線人數(shù)的情況, 2月到4月每天的平均使用人數(shù)突破1萬(wàn), 最高使用人數(shù)接近1.5萬(wàn)一天, 同時(shí)在線人數(shù)在3800左右, 最高同時(shí)在線人數(shù)達(dá)到0.5萬(wàn).5月份開(kāi)始使用人數(shù)和同時(shí)在線人數(shù)開(kāi)始下降, 9月份下降到2月到4月的1/4水平.
表2 使用人數(shù)和同時(shí)在線人數(shù)統(tǒng)計(jì)
圖4是2月20日到9月20日按照時(shí)間段統(tǒng)計(jì)的用戶登錄和登出VPN人次, 橫軸為時(shí)間段, 0表示0點(diǎn)到1點(diǎn)之間, 以此類推, 縱軸表示人次.從圖中可以看出登錄人次和登出人次曲線趨勢(shì)是一致的, 夜晚少白天多, 7點(diǎn)后學(xué)生進(jìn)入學(xué)習(xí)狀態(tài), 教工進(jìn)入科研狀態(tài), 因此登錄VPN人次逐步上升, 9點(diǎn)后登錄人次趨于穩(wěn)定.10點(diǎn)、15點(diǎn)、21點(diǎn)出現(xiàn)峰值, 10點(diǎn)、15點(diǎn)正好是開(kāi)始上課的時(shí)間, 21點(diǎn)是學(xué)生最活躍的查資料以及做實(shí)驗(yàn)時(shí)間, 因此這幾個(gè)時(shí)間點(diǎn)VPN使用人數(shù)較多.22點(diǎn)登錄人次逐漸下降, 12點(diǎn)、17點(diǎn)、22點(diǎn)登出人次出現(xiàn)峰值, 12點(diǎn)、17點(diǎn)為下課時(shí)間, 22點(diǎn)為用戶休息時(shí)間.登錄和登出時(shí)間, 基本上與學(xué)生教工的學(xué)習(xí)科研規(guī)律符合.
圖4 登錄登出人次統(tǒng)計(jì)
與往常不同, 新冠疫情期間, 學(xué)生需要進(jìn)行長(zhǎng)時(shí)間的遠(yuǎn)程學(xué)習(xí), 教工需要進(jìn)行長(zhǎng)時(shí)間的科研活動(dòng), 因此大量VPN用戶的使用時(shí)長(zhǎng)要比往常高.圖5表示的是2月20日到9月20日VPN用戶的平均使用時(shí)長(zhǎng).平均使用時(shí)長(zhǎng)計(jì)算方法如下:
圖5 平均使用時(shí)長(zhǎng)
平均使用時(shí)長(zhǎng)從2月份到8月份并沒(méi)有明顯的變化, 約為250 min, 9月份平均使用時(shí)長(zhǎng)有所下降, 約為200 min, 期間周末和假期平均使用時(shí)長(zhǎng)下降明顯.2月份到6月份的使用人數(shù)上是7月份到9月份的3-4倍,雖然平均使用時(shí)長(zhǎng)相差不大, 但是總的使用時(shí)長(zhǎng)要高很多, 說(shuō)明了新冠疫情期間VPN為學(xué)生教工遠(yuǎn)程學(xué)習(xí)和科研提供了很好的支持.9月份之后, 有一些常駐校外的教工需要連接VPN進(jìn)行科研活動(dòng), 因此平均時(shí)長(zhǎng)趨于穩(wěn)定.
再對(duì)每小時(shí)的平均使用時(shí)長(zhǎng)進(jìn)行分析, 每小時(shí)的平均使用時(shí)長(zhǎng)計(jì)算方式如下:將2月20日到9月20日每天每小時(shí)的平均使用時(shí)長(zhǎng)匯總再平均后結(jié)果如圖6所示, 0表示0點(diǎn)到1點(diǎn)之間, 以此類推.白天時(shí)間段平均使用時(shí)長(zhǎng)大約在40min左右, 8點(diǎn)達(dá)到最低值, 晚上平均使用時(shí)長(zhǎng)較長(zhǎng),凌晨5點(diǎn)達(dá)到峰值, 約為50 min.白天6點(diǎn)鐘開(kāi)始登錄VPN人數(shù)逐漸增加, 使得平均使用時(shí)長(zhǎng)逐漸降低, 當(dāng)人數(shù)增加到一定數(shù)量后, 8點(diǎn)鐘開(kāi)始, 平均使用時(shí)長(zhǎng)開(kāi)始回升, 但白天使用人數(shù)多, 頻繁有人登錄登出VPN,因此白天平均使用時(shí)長(zhǎng)整體要比晚上低.晚上因?yàn)閂PN使用人少, 加上部分用戶夜晚期間使用VPN進(jìn)行長(zhǎng)時(shí)間的數(shù)據(jù)傳輸和計(jì)算等, 因此平均使用時(shí)長(zhǎng)較白天要長(zhǎng).
圖6 每小時(shí)平均使用時(shí)長(zhǎng)
從另一個(gè)角度來(lái)看, 白天時(shí)間段使用人數(shù)多, 登錄登出VPN人數(shù)也多, 也可能是人數(shù)太多VPN服務(wù)器壓力較大, 穩(wěn)定性不夠好, VPN會(huì)有自動(dòng)斷開(kāi)的現(xiàn)象,而夜晚使用人數(shù)少, VPN穩(wěn)定性較好, 使得平均使用時(shí)長(zhǎng)夜晚比白天要高.
根據(jù)每個(gè)用戶的每日平均使用時(shí)長(zhǎng)(使用總時(shí)長(zhǎng)除以使用天數(shù))和使用天數(shù)對(duì)用戶進(jìn)行聚類分析, 了解VPN用戶的分布情況, 聚類算法采用的是K-means方法.將每日平均使用時(shí)長(zhǎng)和使用天數(shù)作為K-means的輸入, 對(duì)于K值的選擇, 采用手肘法進(jìn)行確定, 如圖7所示為不同K值取值, 聚類誤差(各個(gè)點(diǎn)到其中心點(diǎn)的距離的平方和)的變化情況,K<4時(shí)聚類誤差下降較快,K>4時(shí)聚類誤差下降緩慢, 因此可以取K=4.
圖7 不同K值聚類誤差的變化情況
聚類后的結(jié)果如表3所示, 第1類中接近45%的VPN用戶在統(tǒng)計(jì)期間每日平均使用時(shí)長(zhǎng)和使用天數(shù)均不高, 這部分用戶(例如學(xué)校本科生用戶)不需要長(zhǎng)時(shí)間使用VPN進(jìn)行校內(nèi)資源的訪問(wèn)和獲取.第2類、第3類、第4類每日平均使用時(shí)長(zhǎng)和使用天數(shù)逐步增加,不同程度的依賴VPN進(jìn)行遠(yuǎn)程學(xué)習(xí)和科研.
表3 聚類結(jié)果
聚類結(jié)果可以讓學(xué)校了解VPN用戶的分布情況,并以此為依據(jù)進(jìn)行VPN資源的劃分及調(diào)整.例如, 對(duì)于每日平均使用時(shí)長(zhǎng)和使用天數(shù)較長(zhǎng)的用戶, 需要?jiǎng)澐值腣PN服務(wù)器資源較多, 而第1類用戶, 雖然賬號(hào)數(shù)量多, 但是由于每日平均使用時(shí)長(zhǎng)和使用天數(shù)都較少, 所以資源并不需要太多.如果僅僅是按照用戶數(shù)量來(lái)劃分資源的話, 就可能會(huì)造成服務(wù)器資源的浪費(fèi).
根據(jù)用戶賬號(hào)查詢出用戶所屬院系, 如表4所示,大致將用戶分為文科院系、理工科院系、教工、其他、未知5類, 由于VPN用戶數(shù)量較多, 情況復(fù)雜, 無(wú)法做到精確劃分.
表4 用戶類別統(tǒng)計(jì)
從平均使用時(shí)長(zhǎng)和每小時(shí)平均使用時(shí)長(zhǎng)對(duì)比理工科院系和文理科院系的VPN使用情況, 分別如圖8和圖9所示, 兩者變化趨勢(shì)基本一致, 但理工科要比文科略高, 平均使用時(shí)長(zhǎng)整體高約40 min, 每小時(shí)平均使用時(shí)長(zhǎng)整體高約3 min.
圖8 文科和理工科用戶平均使用時(shí)長(zhǎng)
圖9 文科和理工科每小時(shí)平均使用時(shí)長(zhǎng)
校園網(wǎng)是一個(gè)相對(duì)封閉的環(huán)境, VPN提供了一個(gè)進(jìn)入校園網(wǎng)的通道, 在為用戶訪問(wèn)校內(nèi)資源提供便利的同時(shí), 也帶來(lái)了安全隱患, 比如永恒之藍(lán)、挖礦病毒等, 都有可能通過(guò)VPN而進(jìn)入校園內(nèi)部.弱密碼和撞庫(kù)攻擊會(huì)導(dǎo)致用戶賬號(hào)被不法分子利用, 進(jìn)入到校園內(nèi)部, 對(duì)校內(nèi)資源進(jìn)行竊取或者攻擊.
在對(duì)VPN日志分析的過(guò)程中, 發(fā)現(xiàn)存在同一個(gè)源IP地址對(duì)應(yīng)多個(gè)賬號(hào), 同一個(gè)賬號(hào)對(duì)應(yīng)多個(gè)地理位置的情況.IP對(duì)應(yīng)的地理位置信息來(lái)自IP2Location?LITE IP-COUNTRY-REGION-CITY Database (https://lite.ip2location.com/database/ip-country-region-city).經(jīng)分析, 11.13%的源IP地址對(duì)應(yīng)了兩個(gè)及以上的賬號(hào), 原因在于運(yùn)行商為用戶提供網(wǎng)絡(luò)服務(wù)的時(shí)候使用的是動(dòng)態(tài)IP地址, 不同的時(shí)間不同的用戶可能拿到相同的IP地址, 再登錄VPN時(shí), 就出現(xiàn)了同一個(gè)源IP地址對(duì)應(yīng)了不同的賬號(hào)的情況.56.63%的賬號(hào)對(duì)應(yīng)了2個(gè)及以上的地理位置, 考慮到大部分師生會(huì)往返家鄉(xiāng)及北京, 因此2個(gè)地理位置也是正?,F(xiàn)象.
換個(gè)角度來(lái)看, 同一個(gè)源IP地址對(duì)應(yīng)多個(gè)賬號(hào),同一個(gè)賬號(hào)對(duì)應(yīng)多個(gè)地理位置還有可能是賬號(hào)被盜用了.盜用者在同一個(gè)網(wǎng)絡(luò)環(huán)境下使用不同賬號(hào)來(lái)登錄VPN, 以及盜用者與正常用戶在不同地點(diǎn)登錄VPN也會(huì)出現(xiàn)上述現(xiàn)象.如表5所示, 為同一非公共賬號(hào)地理位置變化情況.3月28日當(dāng)天出現(xiàn)在了浙江和山東,3月31日和4月1日頻繁出現(xiàn)在山東和內(nèi)蒙古, 因此極有可能該賬號(hào)已被盜用.
表5 某賬號(hào)地理位置變化情況
以時(shí)間間隔為1天, 地理位置跨越省份為原則, 找出疑似盜用的賬號(hào), 將這些賬號(hào)提交VPN管理員, 并且結(jié)合賬號(hào)的身份、賬號(hào)在其他系統(tǒng)中的使用情況等信息, 考慮是否對(duì)賬號(hào)進(jìn)行封禁處理.
以一周時(shí)間為例, 從學(xué)校部署的安全態(tài)勢(shì)感知設(shè)備里面統(tǒng)計(jì)了2020年6月15日至2020年6月21日的告警類型來(lái)源地址分布情況, 如圖10所示, 共有12 339條告警信息.來(lái)源IP中47.14%的地址是VPN地址池中的IP, VPN IP告警數(shù)量占總告警的54.46%.
圖10 安全態(tài)勢(shì)感知告警類型來(lái)源地址分布
VPN IP告警數(shù)量前10的IP中, 排行第一的IP告警次數(shù)達(dá)到3930次, 告警內(nèi)容包括頻繁訪問(wèn)445端口(每分鐘超過(guò)100次)、MS17-010永恒之藍(lán)漏洞探測(cè)等.通過(guò)VPN IP以及VPN日志找到告警時(shí)間段該VPN IP對(duì)應(yīng)的賬號(hào)信息, 如表6所示, 這些賬號(hào)使用過(guò)的終端極有可能感染了病毒或者木馬.
表6 告警數(shù)量前10的VPN IP及其賬號(hào)
對(duì)于學(xué)校校園網(wǎng)來(lái)說(shuō), 校園網(wǎng)用戶設(shè)備終端類型復(fù)雜, 操作系統(tǒng)繁多, 大多數(shù)缺少專人維護(hù), 并且安全防護(hù)措施缺乏, 因此一些簡(jiǎn)單的病毒或者木馬極容易通過(guò)常見(jiàn)的系統(tǒng)漏洞進(jìn)入到校園網(wǎng)內(nèi)部進(jìn)行擴(kuò)散.雖然能確定用戶的賬號(hào), 但也無(wú)法對(duì)用戶進(jìn)行封禁處理,因此VPN在保障正常的遠(yuǎn)程學(xué)習(xí)和科研的同時(shí), 帶來(lái)的安全隱患也不容忽視.
新冠疫情的暴發(fā), 學(xué)生教工無(wú)法返校的情況下, 絕大多數(shù)高校采用VPN的方式保證遠(yuǎn)程學(xué)習(xí)和科研.為了解具體情況, 采集了2020年2月至2020年9月疫情期間的VPN日志, 從使用人數(shù)、登錄登出時(shí)間、使用時(shí)長(zhǎng)、聚類分析、用戶類別5個(gè)方面進(jìn)行討論.新冠疫情期間, VPN在線人數(shù)達(dá)到一個(gè)較高的水平, 最高使用人數(shù)接近1.5萬(wàn)一天, 最高同時(shí)在線人數(shù)達(dá)到0.5萬(wàn).從登錄登出時(shí)間來(lái)看基本符合學(xué)生教工的學(xué)習(xí)和科研規(guī)律, 10點(diǎn)、15點(diǎn)、21點(diǎn)出現(xiàn)登錄峰值,12點(diǎn)、17點(diǎn)、22點(diǎn)出現(xiàn)登出峰值.平均使用時(shí)長(zhǎng)從2月份到8月份并沒(méi)有明顯的變化, 約為250 min, 9月份有所下降, 約為200 min.根據(jù)用戶的每日平均使用時(shí)長(zhǎng)和使用天數(shù)對(duì)用戶進(jìn)行聚類分析, 大致將用戶分為4類.對(duì)用戶類別進(jìn)行分析, 理工科用戶VPN使用時(shí)間比文科用戶略長(zhǎng), 但變化趨勢(shì)基本一致.以上這些數(shù)據(jù), 可為VPN設(shè)備的負(fù)載優(yōu)化、鏈路調(diào)整、資源分配提供指導(dǎo), 對(duì)VPN設(shè)備選型也具有參考意義.
新冠疫情的暴發(fā)使得遠(yuǎn)程學(xué)習(xí)和科研普及開(kāi)來(lái),但也伴隨著一些問(wèn)題的產(chǎn)生.由于家庭環(huán)境和個(gè)人的電子設(shè)備安全防護(hù)措施做得不夠, 同時(shí)用戶對(duì)于電子郵件、視頻會(huì)議等“虛擬”通信的依賴, 使得用戶的終端更容易受到黑客的攻擊, 如果攻擊成功, 黑客就可以利用用戶終端作為跳板竊取校內(nèi)資源或者進(jìn)行下一步的攻擊.弱密碼和撞庫(kù)攻擊會(huì)導(dǎo)致用戶賬號(hào)被不法分子利用, 對(duì)校內(nèi)資源造成威脅.通過(guò)分析同一個(gè)源IP地址對(duì)應(yīng)多個(gè)賬號(hào), 同一個(gè)賬號(hào)對(duì)應(yīng)多個(gè)地理位置的情況, 可以找到一些疑似被盜用的賬號(hào), 再結(jié)合學(xué)校部署的安全態(tài)勢(shì)感知設(shè)備的數(shù)據(jù)來(lái)看, VPN帶來(lái)的安全隱患不容忽視.
總之, 疫情下的遠(yuǎn)程學(xué)習(xí)和科研非??简?yàn)高校的信息化水平, 而在遠(yuǎn)程學(xué)習(xí)和科研將成為新常態(tài)的趨勢(shì)下, 是“甘飴”還是“毒藥”? 高校都應(yīng)該做好充足的準(zhǔn)備來(lái)應(yīng)對(duì).
本文的不足之處在于, 僅分析了北京大學(xué)的VPN日志數(shù)據(jù), 得出的結(jié)論有限; 分析過(guò)程中沒(méi)有建立完善的數(shù)據(jù)分析模型, 分析數(shù)據(jù)之間的關(guān)聯(lián)性; 提出了VPN的安全問(wèn)題, 但并未做更深入的分析, 這些將是本文需要進(jìn)一步研究的地方.