米沃奇
2018年春節(jié)假期即將來臨,出行需求隨之增大,不論你是旅游,還是回家,買票都是不可避免的一部分。其中,低價機票尤其受旅客青睞,但不少人都有這樣的苦惱:低價機票總是買不到,真的只是網(wǎng)速原因嗎?其實和你搶票的是網(wǎng)絡爬蟲。
據(jù)媒體報道,“機票代理”行業(yè)中,不少公司正利用爬蟲技術(shù)搶占航企官網(wǎng)放出的低價票,利用航企允許的賬期反復訂票、退訂,直至將票加價賣出,全程操作中爬蟲可替代95%的人工操作量。據(jù)業(yè)內(nèi)人士估計80%以上的低價機票是被票務公司的爬蟲搶走的。
一、爬蟲為訂票網(wǎng)站產(chǎn)生90%虛假流量
什么是爬蟲?網(wǎng)絡爬蟲又被稱為網(wǎng)頁蜘蛛,是一種按照一定的規(guī)則,自動抓取萬維網(wǎng)信息的程序或者腳本。百度、搜狗等搜索引擎,依靠巨大的爬蟲集群每天抓取數(shù)百億網(wǎng)頁。
目前爬蟲被廣泛用于互聯(lián)網(wǎng)金融、電商、社交等領(lǐng)域;在機票領(lǐng)域,爬蟲可以抓取機票價格,發(fā)現(xiàn)超值機票后,爬蟲還可以模擬真人用戶搶先預訂。
攜程的反爬蟲專家在技術(shù)分享中舉例:某網(wǎng)站的一個頁面,每分鐘的瀏覽量是1.2萬,真實用戶只有500個,爬蟲流量比例是95.8%。業(yè)內(nèi)人士表示,爬蟲所帶來的虛假流量占訂票網(wǎng)站總流量的50%,高峰期可達到90%以上。
二、利益鏈:低價機票去哪了?
爬蟲利用買來的身份信息或虛假客戶信息訂票,之后黃牛再將搶來的票高價賣出,黃金周、春節(jié)長假一張票甚至會加價1000元。
為了應對這種虛假搶票、占座的情況,有些航空公司不得不采取潛規(guī)則:每架飛機要多賣5%至10%的票,這被稱之為“超售”,這給真實用戶帶來了問題,有的用戶會因為“超售”嚴重無法登機。
三、”反爬蟲“之戰(zhàn)打響
網(wǎng)絡爬蟲被用來搶票,不僅侵犯了人們的權(quán)益、影響人們的日常出行,航空公司也將蒙受損失。就爬蟲生存時間的關(guān)鍵在于,在訪問網(wǎng)頁爬取數(shù)據(jù)的過程中,要盡量模擬真實用戶的行為,使服務端無法分辨是爬蟲還是用戶;如何進行“反爬蟲”? ISEC實驗室專家來支招:
1)根據(jù)訪問數(shù)量來“反爬蟲”。爬蟲的訪問總數(shù)遠高于人類,且訪問數(shù)量隨時間增長而表現(xiàn)出一定的線性增長規(guī)律,但大部分的真實用戶不會長時間持續(xù)訪問同一個網(wǎng)站;
2)在網(wǎng)站設置偽造的釣魚鏈接。正常情況下真實用戶不會訪問這些鏈接,-旦被訪問,則存在爬蟲的可能性就比較高;
3)進行IP地址的分析統(tǒng)計.絕大部分爬蟲為了長時間爬取數(shù)據(jù),不會選擇在個人電腦上運行,一般放到云服務器或者VPS?!胺磁老x”可根據(jù)來訪的IP進行風險屬性的細分,對IP地址進行標記;例如對單個IP訪問設置一個閾值,如果在—定時間超過閾值,則進行封鎖或禁用。需要注意的是,該舉措容易誤傷真實用戶;
4)驗證碼校驗是反爬蟲的一個重要環(huán)節(jié)。爬蟲是按照預先設定好的流程,是無法變通的;而驗證碼需要基于人的主觀陛去判斷,如若在驗證過程中加入隨機陛,爬蟲繞過驗證的過程就相對復雜。行為驗證碼是當下流行的一種驗證碼,采用了多種圖像技術(shù),能有效防止OCR的識別,防止暴力破解。如12306,就是采用點觸式行為驗證碼。
有效反擊“機票代理”公司的爬蟲戰(zhàn)術(shù),除技術(shù)手段外,航空公司可從內(nèi)部完善各項管理制度,勿給爬蟲留下可乘之機。此外,旅客盡可能選擇航空公司的官方網(wǎng)站購買飛機票,避免通過微信朋友圈等渠道購買低價票而上當受騙。網(wǎng)絡爬蟲技術(shù)在提供高效搜索的同時,也帶來了安全挑戰(zhàn),相信在相關(guān)技術(shù)、法律制度的不斷發(fā)展完善下,在各相關(guān)職能部門的共同努力下,購票機制將日益完善、旅客的合法權(quán)益將得到更好的保障。
電腦知識與技術(shù)·經(jīng)驗技巧2018年1期