摘要:本文介紹了一種基于動態(tài)應用防護平臺的業(yè)務爬蟲防護管控方案,通過該方案提供面向Web系統(tǒng)和數(shù)據(jù)接口層面的主動防御,甄別假冒正常行為的各類爬蟲,實現(xiàn)對爬蟲全自動安全檢測、預警與防護,保障業(yè)務數(shù)據(jù)在共享、流動、公開過程處于保護和合法利用的狀態(tài),避免信息泄露、提升業(yè)務可用性,該方案在安徽移動實現(xiàn)和推廣后取得了預期的效果。
關鍵詞:主動防御;爬蟲;數(shù)據(jù)安全;應用安全
爬蟲是一種通過自動化程序獲取網(wǎng)絡資源的技術。爬蟲通過模擬瀏覽器行為,向目標業(yè)務網(wǎng)站或接口發(fā)送請求,獲取業(yè)務網(wǎng)頁內容,并進行解析、存儲等操作。爬蟲技術廣泛應用于搜索引擎、數(shù)據(jù)分析等領域。但也有部分不法分子會利用爬蟲技術進行惡意攻擊,如數(shù)據(jù)竊取、服務器攻擊等。
一、當前爬蟲技術的問題
當前,業(yè)務數(shù)據(jù)受到空前關注,對數(shù)據(jù)爭奪引發(fā)的安全對抗也愈加激烈,運營商承載全網(wǎng)核心高價值數(shù)據(jù)而遭到海量爬蟲攻擊,被爬取后的數(shù)據(jù)會在互聯(lián)網(wǎng)上泛濫,用于非正常的數(shù)據(jù)應用服務以及線下非法數(shù)據(jù)售賣,或者經(jīng)二次分析、加工后對外提供有償服務。隨著爬蟲技術的不斷發(fā)展,傳統(tǒng)利用惡意IP地址庫、限制訪問頻率的反爬技術已經(jīng)無法達到反爬效果,爬取運營商數(shù)據(jù)對網(wǎng)站、接口和公民個人信息造成了安全威脅。
(一)權益侵占和業(yè)務欺詐
攻擊者利用爬蟲獲取業(yè)務信息,使用外掛工具,模擬人工業(yè)務使用的過程。例如,通過自動化工具,模擬注冊、登錄、搶靚號、養(yǎng)號等行為,不僅侵害正常用戶權益,且會對業(yè)務運營產(chǎn)生影響。例如,批量注冊的賬號從事刷留言、搶拍、破壞生態(tài)等。高頻率的快速業(yè)務辦理對服務器也構成CC拒絕服務攻擊,大量消耗服務器的性能,使系統(tǒng)服務無法響應正常請求,或使查詢服務體驗下降[1]。
(二)數(shù)據(jù)批量爬取管控困難
爬蟲技術正在利用 AI技術進行快速演變和升級,可以模擬正常業(yè)務操作邏輯,并繞過現(xiàn)有處理JavaScript、解析驗證碼、模擬用戶代理,使信安部門傳統(tǒng)的基于規(guī)則的爬蟲檢測方法變得不夠有效,因為這些智能爬蟲可以繞過簡單的檢測機制。為了防止和檢測爬蟲程序,需要不斷更新和改進防護機制。
(三)社會影響惡劣
黑產(chǎn)利用從運營商網(wǎng)站系統(tǒng)爬取的信息進行對外收費查詢業(yè)務,造成不良的社會影響。
(四)國家級數(shù)據(jù)泄露
部分營利機構、國內團體、國外研究機構對開放的運營商數(shù)據(jù)進行拖庫式爬取,從而實時掌握國家級數(shù)據(jù)。
為了應對智能爬蟲和反爬蟲技術發(fā)展,運營商需要采取更高級的防護措施,包括使用機器學習和人工智能技術識別異常行為模式,建立行為分析模型,從而區(qū)分真實用戶和爬蟲程序。此外,持續(xù)地研究和更新防護機制,以跟上新興的爬蟲和反爬蟲技術也至關重要。
二、基于動態(tài)應用防護平臺的業(yè)務防爬蟲安全體系
動態(tài)應用防護平臺以動態(tài)技術為核心,通過對訪問客戶端環(huán)境的采集和全訪問記錄實現(xiàn)對各類接入客戶端數(shù)據(jù)的融合,并通過來源IP、賬號信息對各平臺訪問數(shù)據(jù)進行關聯(lián)與信譽評分,實現(xiàn)多平臺業(yè)務信息聯(lián)動與威脅感知,達到精準識別與攔截惡意自動化非法爬蟲請求的目的,對網(wǎng)站和數(shù)據(jù)接口業(yè)務層面的主動防御,甄別偽裝和假冒正常行為的已知和未知自動化爬蟲攻擊,保護運營商和用戶個人數(shù)據(jù)。
(一)動態(tài)應用防護平臺主要功能
動態(tài)安全防護平臺功能分為動態(tài)技術、數(shù)據(jù)分析和動態(tài)響應三部分。首先,動態(tài)技術。針對爬蟲攻擊防護。提供針對網(wǎng)站和訪問的保護,采用動態(tài)安全技術,可以通過動態(tài)封裝、動態(tài)驗證、動態(tài)混淆、動態(tài)令牌四大核心動態(tài)技術實現(xiàn)對訪問客戶端的人機識別,并且形成設備指紋和唯一標識。其次,業(yè)務威脅感知。通過對客戶端訪問日志的記錄,客戶端數(shù)據(jù)的精準采集,將海量數(shù)據(jù)進行大數(shù)據(jù)爬蟲分析、威脅建模、機器學習,透視用戶的異常行為,輸出威脅評分、業(yè)務威脅呈現(xiàn)和攻擊畫像。最后,動態(tài)響應。針對數(shù)據(jù)分析輸出的爬蟲威脅打分,可以采用不同的響應技術,實現(xiàn)對爬蟲的延時、導入特定頁面、動態(tài)挑戰(zhàn)等攔截。
(二)爬蟲對抗策略設計
從海量事例中爬蟲手法上分析得知,攻擊者依托自動化工具發(fā)起爬蟲攻擊,業(yè)界將自動化工具劃分為5個級別,每個級別的工具具有不同的特點,防護難度也層層提升,如圖1所示。
利用動態(tài)應用防護平臺的動態(tài)技術與AI智能分析技術集合對5個級別的自動化工具進行防護,實現(xiàn)防爬蟲攻擊,以下是對抗思路:
第一級:簡單腳本和工具
描述:該類工具是自動化工具中使用最廣泛的一種,特點是運行效率高、對資源的占用較低,該類工具不具備JS解析能力,如Sqmap、Python等。
對抗策略:采用動態(tài)應用防護平臺對網(wǎng)站進行保護,驗證每個訪問請求是否攜帶了動態(tài)令牌,該類工具無JS解析能力,無法生成令牌。因此,所有采用該類工具生成的訪問請求都被攔截,工具發(fā)起爬蟲訪問失敗。
第二級:具備JS解析能力的工具
描述:該類工具如AWVS、Appscan、CasperJS等具備JS解析能力,具有基本瀏覽器的能力,它們可以生成動態(tài)應用防護平臺動態(tài)令牌。
對抗策略:該類工具可以執(zhí)行動態(tài)應用防護平臺下發(fā)的JS腳本生成令牌,通過動態(tài)令牌驗證。但動態(tài)應用防護平臺會對請求方的客戶端環(huán)境進行動態(tài)驗證,驗證客戶端請求環(huán)境是否真實,從而識別來自該類工具的訪問請求,并進行實時攔截,使攻擊者的攻擊行為失效,保證業(yè)務系統(tǒng)正常運行。
第三級:腳本驅動瀏覽器
描述:該類工具如WebDriver、瀏覽器插件是真實的瀏覽器環(huán)境,可以生成動態(tài)應用防護平臺動態(tài)令牌,并通過環(huán)境驗證。
對抗策略:該類工具的攻擊方式對攻擊效率具有較大影響,動態(tài)應用防護平臺對客戶端進行行為驗證,能夠識別WebDrive等工具訪問行為并進行攔截,使攻擊者的攻擊行為受阻。
第四級:錄屏操作
描述:該類工具如Sikuli、按鍵精靈等是真實的瀏覽器環(huán)境,并能夠模擬人的動作,可以生成Botgat動態(tài)令牌,通過環(huán)境驗證和用戶行為驗證。
對抗策略:針對該層級的動態(tài)防護技術已經(jīng)無法直接防護,需要采用行為分析技術對海量訪問數(shù)據(jù)進行AI智能分析,對威脅打分,再通過可編程對抗功能實現(xiàn)動態(tài)對抗。
第五級:真人操作
描述:真人操作主要有群控和真人操作2個種類。
對抗策略:該層級完全依靠真人操作,一般稱為“群控”,因此不能簡單通過對工具的識別判斷攻擊行為,但動態(tài)應用防護平臺可以利用前端精準采集、后端行為分析發(fā)現(xiàn)“群控”類攻擊行為,通過可編程對抗功能實現(xiàn)動態(tài)響應對抗。
三、基于動態(tài)應用防護平臺的業(yè)務反爬蟲應用場景
(一)漏洞合規(guī)
集團總部和通管局的安全工作中,漏洞合規(guī)是重點檢查目標,其業(yè)務的安全性將直接影響用戶的總體考評。動態(tài)應用防護平臺針對自動化攻擊的防護和未知安全威脅的防護,包含自動化攻擊、賬號盜用、漏洞掃描、越權訪問及網(wǎng)頁后門,避免被因漏洞而扣分[2]。
(二)賬戶安全
防撞庫:防止利用已泄露的用戶名口令進行批量登錄,嘗試獲取可登錄賬號。
防暴破:防止利用工具對密碼實施暴力破解,以獲得可登錄賬號。
防掃號:防止利用已知弱密碼庫,遍歷用戶名(號段),獲得可登錄賬號。
(三)防范業(yè)務欺詐
防“薅流量”:防止對贈送流量方式的促銷業(yè)務,通過自動化工具批量爬取促銷流量。
防靚號搶占:防止通過工具模擬業(yè)務辦理操作,搶占靚號資源,非法高價出售獲利。
防模擬繳費:防止通過工具模擬繳費業(yè)務,批量繳費。
防越權受理:防止利用業(yè)務邏輯漏洞,越權辦理業(yè)務。
防權益搶占:防止利用工具采用“薅羊毛”的方式非法搶占正常用戶合法權益。
防止查詢不辦理:防止通過工具方式模擬查詢,占用業(yè)務帶寬降低查詢接口性能。
(四)防數(shù)據(jù)泄露風險
防掃描:防止黑客通過漏掃工具掃描網(wǎng)站結構和應用漏洞,爬蟲爬取網(wǎng)站結構信息、業(yè)務和商品等信息。
防零日攻擊:防止利用web零日漏洞的命令腳本攻擊。
防批量話費查詢:防止利用邏輯漏洞或者合法身份,通過工具批量查詢和導出用戶話費、業(yè)務詳單。
防客戶數(shù)據(jù)遍歷:防止利用漏洞或者合法身份,通過工具批量查詢導出客戶資料。
(五)護網(wǎng)重保運營場景
在護網(wǎng)、重保期間的封網(wǎng)前后,與日常運營不同的是用戶不會有新安全策略定制,也不會有新的業(yè)務集群增加,用戶主要需要關注運行時的安全,只需要重點關注所有防護節(jié)點運行的異常,而不用重復調整動態(tài)應用防護平臺,依靠其動態(tài)技術防護海量爬蟲嗅探攻擊等0day攻擊和加密攻擊。
四、基于動態(tài)應用防護平臺的業(yè)務反爬蟲安全建設效果
根據(jù)安徽移動業(yè)務動態(tài)安全能力建設項目要求,安徽公司安全室組織了動態(tài)應用防護平臺工程建設工作,動態(tài)應用防護平臺集群部署于黃山路2號樓503云機房,于2023年12月正式上線運行,上線滿足“三同步”及業(yè)務安全管控要求,動態(tài)應用防護平臺具有動態(tài)防護、數(shù)據(jù)分析、爬蟲威脅模型和動態(tài)響應等功能。上線后系統(tǒng)運行穩(wěn)定,已經(jīng)監(jiān)控M域整個集群中網(wǎng)格通、行銷和管家、集團管家等6個系統(tǒng)的防護,對外提供了爬蟲攻擊防護、漏洞掃描等自動化攻擊阻斷,新集群新節(jié)點配置便捷,具有線上業(yè)務防止違規(guī)操作、防營銷活動業(yè)務接口惡意爬取、護網(wǎng)重保等能力[3]。動態(tài)應用防護平臺的建設和投入使用,解決了原應用類安全設備與業(yè)務高效防護不匹配的現(xiàn)狀。在安徽移動業(yè)務動態(tài)安全能力建設項目建設剛啟動時,對于安全上線、安全需求和設計方案進行調研,對現(xiàn)運行業(yè)務系統(tǒng)及用戶端不進行改造和侵入前提下,提升反爬蟲機制,降低了安全運營成本,達到了如下預期:
第一,不采用驗證碼,不影響用戶的前提下進行爬蟲訪問的識別攔截。對爬蟲識別攔截過程中,無驗證碼出現(xiàn),提升了用戶體驗。
第二,可以識別多IP源低頻率的爬蟲訪問。通過瀏覽器指紋技術,可以對爬蟲客戶端進行標識,并對爬蟲更換IP的行為進行溯源分析,識別此類型爬蟲的訪問。
第三,可以防護模擬合法業(yè)務邏輯的批量信息拖取,對于黑客在竊取賬號后,以合法身份登錄系統(tǒng)后進行越權、信息批量拖取等攻擊的防護能力。對于登錄過程進行動態(tài)安全防護,防止撞庫、密碼破解、登錄后批量信息拖取的行為,保障系統(tǒng)安全。
第四,利用JS代碼獲取瀏覽器信息的能力,除常規(guī)User-Agent信息外,通過JS獲取瀏覽器指紋信息、真實版本、操作系統(tǒng)版本,為安全態(tài)勢感知系統(tǒng)數(shù)據(jù)支撐。相關數(shù)據(jù)已經(jīng)全量保存,為分析業(yè)務提供了基礎數(shù)據(jù)支撐。
第五,系統(tǒng)具備完善的訪問日志記錄,日志包括訪問客戶端信息、查詢目標信息,并提供相應的日志分析。訪問日志采用全量記錄方式,即記錄異常請求,也記錄正常請求,同時還可以根據(jù)需求,定制采集需要的參數(shù)、字段,為溯源分析提供數(shù)據(jù)[4]。
系統(tǒng)上線后監(jiān)測安徽移動網(wǎng)格通、行銷和管家、集團管家業(yè)務一個月(以2024-02-01到2024-03-01數(shù)據(jù)為例)內訪問量超過24億次,月均攔截異常請求超過35萬次,其中全網(wǎng)站平均爬蟲訪問21萬次。剔除白名單后,對其中的8026萬次請求進行了防護,異常占比達到 4.4%。對防護系統(tǒng)開啟攔截模式后,異常請求被阻斷,提升了業(yè)務可能性和用戶體驗。如表1所示。
安徽移動動態(tài)應用防護平臺的建設為網(wǎng)格通、行銷和管家、集團管家業(yè)務提供了自主可控業(yè)務安全防護產(chǎn)品,用于應對業(yè)務系統(tǒng)遭受爬蟲攻擊的安全風險。任務包括防爬規(guī)范制定、系統(tǒng)建設與推廣,建設內容立足于M域業(yè)務安全,從動態(tài)安全模塊建立、反爬蟲威脅模型、可編程對抗響應等多個維度多種手段,提升了業(yè)業(yè)務支撐系統(tǒng)的自動化爬蟲防護能力,為業(yè)務支撐系統(tǒng)運行保駕護航。
作者單位:肖銘遠 澳門科技大學
王歡 中國移動通信集團安徽有限公司
參考文獻
[1]陳頊顥,王志英,任江春,鄭重,黃訸.一種新型病毒主動防御技術與檢測算法[J].計算機應用研究,2010,27(06):2338-2340.
[2]馬蔚彥,動態(tài)變換技術防御Struts2 S2-032零日攻擊研究[J].信息安全研究,2016,2(8):747-753
[3]曾小斌.對外網(wǎng)站的安全設計[J].信息安全與技術,2014,5(03):69-71.
[4]張煥國,韓文報,來學嘉,林東岱,馬建峰,李建華.網(wǎng)絡空間安全綜述[J].中國科學:信息科學,2016,46(02):125-164.