引言

如果您仔細分析過任何一個網站的請求日志，您肯定會發現一些可疑的流量，那可能就是爬蟲流量。根據 Imperva 發布的《2023 Imperva Bad Bot Report》在 2022 年的所有互聯網流量中，47.4% 是爬蟲流量。與 2021 年的 42.3% 相比，增長了 5.1%。在這些爬蟲流量中，30.2% 是惡意爬蟲，比 2021 年的 27.7% 增長了 2.5%。

從國內外公開的數據中可以得出，惡意爬蟲幾乎出現在各個行業，無論是傳統行業、泛互聯網，還是政企、金融等，都各種程度遭受著爬蟲的攻擊，并且爬蟲流量還在逐年增長。

大部分正常的爬蟲可以幫助我們提高生產力，而惡意的爬蟲不僅會造成數據泄漏還會影響正常用戶體驗。合適的反爬服務可識別惡意爬蟲并攔截，京東云 WAF 的 BOT 管理提供了多種爬蟲防護功能。

惡意爬蟲的危害

爬蟲（Web Crawler），又稱網絡爬蟲、網絡蜘蛛、網頁蜘蛛，是一種自動化程序或腳本，用于在互聯網上自動地獲取網頁內容，并從中提取信息。

爬蟲分為合法爬蟲和非法爬蟲或惡意爬蟲。合法爬蟲是遵守網絡道德和法律規定，以合法、合規和友好的方式運行的網絡爬蟲。這些爬蟲在進行數據采集和信息獲取時，遵循網站的 robots.txt 協議，尊重網站的隱私政策和使用條款，以及遵守相關的法律法規。合法爬蟲的目的通常是為了收集網站上公開可見的信息，并且爬取的頻率和速率是合理且可控的。這些爬蟲的使用符合網站的訪問規則，不會對網站造成嚴重的帶寬壓力或資源浪費。例如平時我們用的百度、必應等搜索引擎就離不開爬蟲，搜索引擎爬蟲每天會在網絡上爬取大量的網頁進行分析處理收收錄，當用戶通過關鍵詞搜索時，就會按照一定的排序把相關的網頁快照展現給用戶。

惡意爬蟲是一類不遵守網絡道德和法律規定，以非法、破壞性或有害的方式運行的網絡爬蟲。這些爬蟲通常不遵循網站的 robots.txt 協議、不尊重網站的隱私政策，以及不遵守網站的使用條款和服務協議。惡意爬蟲的目的可能包括但不限于：

漏洞探測：攻擊者利用爬蟲程序掃描網站尋找漏洞，利用漏洞可實現網站提權安裝后門等。
數據盜取：攻擊者部署爬蟲非法的方式獲取網站的敏感數據、個人信息、商業機密等，可用于欺詐、垃圾郵件、身份盜竊等不良用途。
刷票、薅羊毛：攻擊者通過爬蟲程序搶優惠券、秒殺商品等，影響活動效果。密碼撞庫：大規模暴力破解或撞擊密碼，獲取用戶賬戶的訪問權限，對網站用戶的賬戶安全造成嚴重威脅。
暴力破解：攻擊者利用大規模僵死網絡，高速、大規模攻擊網站，導致服務器過載、帶寬浪費，影響網站的正常運行。

綜上，惡意爬蟲對網站和企業影響嚴重，輕則影響網站正常運行重則影響企業正常運營。因此，通過部署反爬服務阻止惡意爬蟲請求，保護網站免受威脅非常重要。京東云 WAF Bot 管理提供了多種爬蟲防護手段，可有效幫你應對各種爬蟲。

惡意爬蟲防護 —— 京東云 WAF Bot 管理

京東云 WAF Bot 管理支持對爬蟲程序進行甄別分類，并采取針對性的流量管理策略，例如，放行搜索引擎蜘蛛流量，對惡意爬取商品信息、秒殺價格、庫存信息等核心數據進行阻斷，還可以應對惡意機器人程序爬取帶來的資源消耗、查詢業務數據等問題。

京東云 WAF 提供了常見爬蟲 UA 庫，提供 11 大類上百種商業爬蟲防護，可快速高效攔截這類爬蟲。

京東云 WAF 提供了惡意 IP 懲罰，結合 Web 攻擊防護利用大數據算法，可及時識別并攔截惡意 IP 掃描行為，有效防護漏掃描、文件遍歷等爬蟲行為。

京東云 WAF 反爬蟲引擎利用算法和模型自動學習并分析網站請求流量，提供了寬松、正常、嚴格 3 種等級的防護模式，并支持配置配置觀察、人機交互、攔截返回自定義頁面等，可有效防護數據類爬蟲和刷券類爬蟲。

京東云 WAF 提供了賬戶安全，通過提取請求中的賬號和密碼自動分析，可有效防護弱密碼探測、暴力破解和撞庫攻擊。

京東云 WAF 提供了 IDC 威脅情報，可攔截云上有過惡意行為的 IP 訪問；偽造蜘蛛情報，可攔截偽裝成搜索引擎蜘蛛的爬蟲請求。

京東云 WAF 提供了偽造 UA 評分，可識別惡意爬蟲偽裝成瀏覽器的請求行為。

京東云 WAF 提供了自定義 BOT 規則，支持多種條件疊加、同時還可以疊加前端技術、疊加威脅情報，結合多維度頻次統計，可靈活支持多種業務場景下的爬蟲行為，為攻防對抗提供了可配性。

2023 年 H1，京東云 WAF 幫助云上多個客戶防護了上億次爬蟲攻擊，攻擊的峰值 QPS 達到 20W+/s。攻擊的手段和目的也多種多樣，有掛小區基站 IP 池的、有偽裝成正常用戶的、有常態化掃描探測的、有刷優惠券的、有刷特價商品的、有爬商品價格的。

前段時間云 WAF 有個客戶發優惠券，剛開始的時候刷子利用公有云的函數服務和云主機刷券，客戶開啟云 WAF 的 IDC 威脅情報輕松應對；刷子升級了策略使用了小區基站 IP 池偽裝成 Chrome 瀏覽器用戶大量的請求優惠券接口，指導客戶開啟了反爬蟲引擎并配置了自定義 Bot 規則，平時的峰值 QPS 只有 2K，發券時候峰值 QPS 打到了 11W。5 分鐘進來 1405W 請求，云 WAF 攔截了 1401W。其中被反爬蟲引擎識別了 59%，被自定義 BOT 規則攔截了 38%，被威脅情報攔截了 3%，識別并攔截惡意爬蟲率達到 99.7%。