引言
如果您仔細分析過任何一個網站的請求日志,您肯定會發現一些可疑的流量,那可能就是爬蟲流量。根據 Imperva 發布的《2023 Imperva Bad Bot Report》在 2022 年的所有互聯網流量中,47.4% 是爬蟲流量。與 2021 年的 42.3% 相比,增長了 5.1%。在這些爬蟲流量中,30.2% 是惡意爬蟲,比 2021 年的 27.7% 增長了 2.5%。
從國內外公開的數據中可以得出,惡意爬蟲幾乎出現在各個行業,無論是傳統行業、泛互聯網,還是政企、金融等,都各種程度遭受著爬蟲的攻擊,并且爬蟲流量還在逐年增長。
大部分正常的爬蟲可以幫助我們提高生產力,而惡意的爬蟲不僅會造成數據泄漏還會影響正常用戶體驗。合適的反爬服務可識別惡意爬蟲并攔截,京東云 WAF 的 BOT 管理提供了多種爬蟲防護功能。
惡意爬蟲的危害
爬蟲(Web Crawler),又稱網絡爬蟲、網絡蜘蛛、網頁蜘蛛,是一種自動化程序或腳本,用于在互聯網上自動地獲取網頁內容,并從中提取信息。
爬蟲分為合法爬蟲和非法爬蟲或惡意爬蟲。合法爬蟲是遵守網絡道德和法律規定,以合法、合規和友好的方式運行的網絡爬蟲。這些爬蟲在進行數據采集和信息獲取時,遵循網站的 robots.txt 協議,尊重網站的隱私政策和使用條款,以及遵守相關的法律法規。合法爬蟲的目的通常是為了收集網站上公開可見的信息,并且爬取的頻率和速率是合理且可控的。這些爬蟲的使用符合網站的訪問規則,不會對網站造成嚴重的帶寬壓力或資源浪費。例如平時我們用的百度、必應等搜索引擎就離不開爬蟲,搜索引擎爬蟲每天會在網絡上爬取大量的網頁進行分析處理收收錄,當用戶通過關鍵詞搜索時,就會按照一定的排序把相關的網頁快照展現給用戶。
惡意爬蟲是一類不遵守網絡道德和法律規定,以非法、破壞性或有害的方式運行的網絡爬蟲。這些爬蟲通常不遵循網站的 robots.txt 協議、不尊重網站的隱私政策,以及不遵守網站的使用條款和服務協議。惡意爬蟲的目的可能包括但不限于:
- 漏洞探測:攻擊者利用爬蟲程序掃描網站尋找漏洞,利用漏洞可實現網站提權安裝后門等。
- 數據盜取:攻擊者部署爬蟲非法的方式獲取網站的敏感數據、個人信息、商業機密等,可用于欺詐、垃圾郵件、身份盜竊等不良用途。
- 刷票、薅羊毛:攻擊者通過爬蟲程序搶優惠券、秒殺商品等,影響活動效果。密碼撞庫:大規模暴力破解或撞擊密碼,獲取用戶賬戶的訪問權限,對網站用戶的賬戶安全造成嚴重威脅。
- 暴力破解:攻擊者利用大規模僵死網絡,高速、大規模攻擊網站,導致服務器過載、帶寬浪費,影響網站的正常運行。
綜上,惡意爬蟲對網站和企業影響嚴重,輕則影響網站正常運行重則影響企業正常運營。因此,通過部署反爬服務阻止惡意爬蟲請求,保護網站免受威脅非常重要。京東云 WAF Bot 管理提供了多種爬蟲防護手段,可有效幫你應對各種爬蟲。
惡意爬蟲防護 —— 京東云 WAF Bot 管理
京東云 WAF Bot 管理支持對爬蟲程序進行甄別分類,并采取針對性的流量管理策略,例如,放行搜索引擎蜘蛛流量,對惡意爬取商品信息、秒殺價格、庫存信息等核心數據進行阻斷,還可以應對惡意機器人程序爬取帶來的資源消耗、查詢業務數據等問題。
京東云 WAF 提供了常見爬蟲 UA 庫,提供 11 大類上百種商業爬蟲防護,可快速高效攔截這類爬蟲。
京東云 WAF 提供了惡意 IP 懲罰,結合 Web 攻擊防護利用大數據算法,可及時識別并攔截惡意 IP 掃描行為,有效防護漏掃描、文件遍歷等爬蟲行為。
京東云 WAF 反爬蟲引擎利用算法和模型自動學習并分析網站請求流量,提供了寬松、正常、嚴格 3 種等級的防護模式,并支持配置配置觀察、人機交互、攔截返回自定義頁面等,可有效防護數據類爬蟲和刷券類爬蟲。
京東云 WAF 提供了賬戶安全,通過提取請求中的賬號和密碼自動分析,可有效防護弱密碼探測、暴力破解和撞庫攻擊。
京東云 WAF 提供了 IDC 威脅情報,可攔截云上有過惡意行為的 IP 訪問;偽造蜘蛛情報,可攔截偽裝成搜索引擎蜘蛛的爬蟲請求。
京東云 WAF 提供了偽造 UA 評分,可識別惡意爬蟲偽裝成瀏覽器的請求行為。
京東云 WAF 提供了自定義 BOT 規則,支持多種條件疊加、同時還可以疊加前端技術、疊加威脅情報,結合多維度頻次統計,可靈活支持多種業務場景下的爬蟲行為,為攻防對抗提供了可配性。
2023 年 H1,京東云 WAF 幫助云上多個客戶防護了上億次爬蟲攻擊,攻擊的峰值 QPS 達到 20W+/s。攻擊的手段和目的也多種多樣,有掛小區基站 IP 池的、有偽裝成正常用戶的、有常態化掃描探測的、有刷優惠券的、有刷特價商品的、有爬商品價格的。
前段時間云 WAF 有個客戶發優惠券,剛開始的時候刷子利用公有云的函數服務和云主機刷券,客戶開啟云 WAF 的 IDC 威脅情報輕松應對;刷子升級了策略使用了小區基站 IP 池偽裝成 Chrome 瀏覽器用戶大量的請求優惠券接口,指導客戶開啟了反爬蟲引擎并配置了自定義 Bot 規則,平時的峰值 QPS 只有 2K,發券時候峰值 QPS 打到了 11W。5 分鐘進來 1405W 請求,云 WAF 攔截了 1401W。其中被反爬蟲引擎識別了 59%,被自定義 BOT 規則攔截了 38%,被威脅情報攔截了 3%,識別并攔截惡意爬蟲率達到 99.7%。
總結
互聯網上一半的流量來自于爬蟲,如果您的網站沒發現爬蟲行為或者您的網站正遭受惡意爬蟲攻擊,那么您可以試試云 WAF 的爬蟲管理,不僅可以幫您發現爬蟲行為還可以幫您防護爬蟲攻擊。詳細可以參考:官網文檔。
作者:京東科技 李文強
來源:京東云開發者社區 轉載請注明來源