爬蟲入門必學(xué)——常見的幾種網(wǎng)站類型-魔扣目錄

在學(xué)習(xí)爬蟲前，我們需要先掌握網(wǎng)站類型，才能根據(jù)網(wǎng)站類型，使用適用的方法來編寫爬蟲獲取數(shù)據(jù)。

今天小編就以國(guó)內(nèi)知名的ForeSpider爬蟲軟件能夠采集的網(wǎng)站類型為例，來為大家盤點(diǎn)一下數(shù)據(jù)采集常見的幾種網(wǎng)站類型。

l常見網(wǎng)站類型

1.js頁(yè)面

JAVAScript是一種屬于網(wǎng)絡(luò)的腳本語言,被廣泛用于Web應(yīng)用開發(fā),常用來為網(wǎng)頁(yè)添加各式各樣的動(dòng)態(tài)功能,為用戶提供更流暢美觀的瀏覽效果。通常JavaScript腳本是通過嵌入在html中來實(shí)現(xiàn)自身的功能的。

ForeSpider數(shù)據(jù)抓取工具可自動(dòng)解析JS，采集基于js頁(yè)面中的數(shù)據(jù)，即可采集頁(yè)面中包含JS的數(shù)據(jù)。

Ajax即異步的JavaScript和XML，它不是一門編程語言，而是利用JavaScript在保證頁(yè)面不被刷新、頁(yè)面鏈接不改變的情況下與服務(wù)器交換數(shù)據(jù)并更新部分網(wǎng)頁(yè)的技術(shù)。

我們?yōu)g覽網(wǎng)頁(yè)的時(shí)候，經(jīng)常會(huì)遇到這樣的情況，瀏覽某頁(yè)面時(shí)，往后拉頁(yè)面，頁(yè)面鏈接并沒有變化，但是網(wǎng)頁(yè)中卻多了新內(nèi)容，這就是通過Ajax獲取新數(shù)據(jù)并呈現(xiàn)出來的過程。

ForeSpider數(shù)據(jù)采集系統(tǒng)支持Ajax技術(shù),可采集Ajax網(wǎng)頁(yè)中的內(nèi)容。

2.post/get請(qǐng)求

在html語言中，有兩種方式給服務(wù)器發(fā)送表單（你在網(wǎng)頁(yè)中填寫的一些數(shù)據(jù)）。一種是POST一種是GET。POST把表單打包后隱藏在后臺(tái)發(fā)送給服務(wù)器；GET把表單打包發(fā)送前，附加到URL（網(wǎng)址）的后面。

ForeSpider采集器可采集數(shù)據(jù)在post/get請(qǐng)求中的網(wǎng)頁(yè)內(nèi)容，即采集post/get請(qǐng)求中的數(shù)據(jù)。

3.需要Cookie的網(wǎng)站

Cookie指某些網(wǎng)站為了辨別用戶身份、進(jìn)行session跟蹤而儲(chǔ)存在用戶本地終端上的數(shù)據(jù)。Cookie基于 Internet的各種服務(wù)系統(tǒng)應(yīng)運(yùn)而生，是由 Web 服務(wù)器保存在用戶瀏覽器上的小文本文件，它可以包含有關(guān)用戶的信息，是用戶獲取、交流、傳遞信息的主要場(chǎng)所之一，無論何時(shí)用戶鏈接到服務(wù)器，Web 站點(diǎn)都可以訪問 Cookie 信息。

一般用戶的賬號(hào)信息記錄在cookie中，爬蟲爬取數(shù)據(jù)的時(shí)候，可以使用cookie模擬登錄狀態(tài)，從而獲取到數(shù)據(jù)。

ForeSpider數(shù)據(jù)采集分析引擎可設(shè)置cookie來模擬登陸，從而采集需要用到cookie的網(wǎng)站內(nèi)容。

4. 采集需要OAuth認(rèn)證的網(wǎng)頁(yè)數(shù)據(jù)

OAUTH協(xié)議為用戶資源的授權(quán)提供了一個(gè)安全的、開放而又簡(jiǎn)易的標(biāo)準(zhǔn)。同時(shí)，任何第三方都可以使用OAUTH認(rèn)證服務(wù)，任何服務(wù)提供商都可以實(shí)現(xiàn)自身的OAUTH認(rèn)證服務(wù)，因而OAUTH是開放的。

業(yè)界提供了OAUTH的多種實(shí)現(xiàn)如php、Java Script，Java，Ruby等各種語言開發(fā)包，大大節(jié)約了程序員的時(shí)間，因而OAUTH是簡(jiǎn)易的。互聯(lián)網(wǎng)很多服務(wù)如Open API，很多大公司如google，Yahoo，Microsoft等都提供了OAUTH認(rèn)證服務(wù)，這些都足以說明OAUTH標(biāo)準(zhǔn)逐漸成為開放資源授權(quán)的標(biāo)準(zhǔn)。

ForeSpider爬蟲軟件支持OAuth認(rèn)證，可以采集需要OAuth認(rèn)證的頁(yè)面中的數(shù)據(jù)。

l 前嗅簡(jiǎn)介

前嗅大數(shù)據(jù)，國(guó)內(nèi)領(lǐng)先的研發(fā)型大數(shù)據(jù)專家，多年來致力于為大數(shù)據(jù)技術(shù)的研究與開發(fā)，自主研發(fā)了一整套從數(shù)據(jù)采集、分析、處理、管理到應(yīng)用、營(yíng)銷的大數(shù)據(jù)產(chǎn)品。前嗅致力于打造國(guó)內(nèi)第一家深度大數(shù)據(jù)平臺(tái)！

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

爬蟲入門必學(xué)——常見的幾種網(wǎng)站類型

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03