拉勾網(wǎng)這個網(wǎng)頁的反爬機制:
保持cookie與網(wǎng)頁來源的說明,如果不加網(wǎng)頁的來源會造成一個IP頻繁的假象。
為什么說是假象呢?因為當(dāng)你用瀏覽器再次訪問是可以正常訪問的,自行測試即可。
不建議小白閱讀此文,不建議不喜歡動手的人閱讀此文,因為不做的話,永遠不知道事情的真相。
由于網(wǎng)頁源代碼中并沒有我們需要的信息:

那么我們進行抓包測試:

發(fā)現(xiàn)此包中的確包含了我們想要的信息。
注意:
這個post請求當(dāng)中 表單數(shù)據(jù)first 是不變的,pn代表頁碼,當(dāng)然kd代表我們需要查找的關(guān)鍵詞。
請求這個url必須帶上referer,這個報文代表我們的url來源。還有我們的瀏覽器來源user-agent用戶代理也要添加!

這樣請求,你會發(fā)現(xiàn)還是無法正常的獲取到數(shù)據(jù),那么別忘記我前面說的,保持cookie。在此處有人會直接復(fù)制cookie報文,但是別忘了cookie是有時效性的,所以怎么辦?
最好的辦法就是 提前訪問此url的來源,從來源中把cookie取下來,添加到這個請求當(dāng)中。
最好篩選數(shù)據(jù)即可:
