爬蟲入門——原來爬蟲這么簡單-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

爬蟲入門——原來爬蟲這么簡單

發(fā)布時間：2023-07-03 12:50:44 作者：網(wǎng)友整理

爬蟲入門——原來爬蟲這么簡單

今天我們來介紹近年大火的爬蟲工具，需要說明的是，我們今天將主要介紹基于Python的專業(yè)工具——requests第三方軟件包的基本使用，并且有兩個實戰(zhàn)例子，其他如八爪魚采集器、后裔采集器等爬蟲軟件的使用大家可通過網(wǎng)頁教程自行探索！

一、什么是Requests軟件包

Requests軟件包是目前公認(rèn)的爬取網(wǎng)頁最好的第三方庫，主要特點在于超簡潔！甚至一行代碼就能從網(wǎng)頁上獲得相關(guān)資源，輕輕松松便可掌握掌握定向網(wǎng)絡(luò)數(shù)據(jù)爬取的方法。

二、Requests安裝

安裝方法：直接以管理者身份運行命令提示符，輸入pip install requests即可，回車即可。如果你的電腦上沒有pip，（嘖嘖），請上官網(wǎng)http://www.python-requests.org獲得幫助。

（emm…開頭表揚(yáng)：我不得不說，這個庫的官網(wǎng)實在是太可愛啦！）

三、基本方法介紹

首先介紹，Requests可以實現(xiàn)兩個功能：

一是自動爬取html頁面

二是自動網(wǎng)絡(luò)請求提交

requests庫主要有7個常用方法：

其中，requests.get() 是獲取HTML網(wǎng)頁的主要方法，也是我們最常用的方法。以下構(gòu)造了一個向服務(wù)器請求資源的Request對象，其中url為擬獲取頁面的url鏈接。

r=requests.get(url)

四、實例演示——爬取百度主頁信息

訪問百度主頁

import requestsr = requests.get(“ http://www.baidu.com”)

檢查狀態(tài)碼，若狀態(tài)碼為200則訪問成功，否則即為失敗

r.status_code

解碼，更改為“utf-8”編碼（針對Unicode的一種可變長度字符編碼）

r.encoding= 'utf-8'

輸出網(wǎng)頁內(nèi)容

r.text

此時，便成功抓取了百度首頁的內(nèi)容！

五、實戰(zhàn)1 ：爬取京東商品信息

在這一例中，我們選擇了華為Mate30這一產(chǎn)品，用try/except格式（主要是用于處理程序正常執(zhí)行過程中出現(xiàn)的一些異常情況），來爬取商品信息。

import request
surl=" https://item.jd.com/100005185603.html"
try:
  r=requests.get(url)   
  r.raise_for_status()   
  r.encoding=r.Apparent_encoding  
  print(r.text[:1000])
except:   
	print ("爬取失敗")

以下就是我們的結(jié)果啦~

運行結(jié)果：

六、實戰(zhàn)2：網(wǎng)絡(luò)圖片的爬取和儲存

在國家地理中文網(wǎng)中我們選擇了如下圖片（這張罕見的照片捕捉到了一只喜馬拉雅旱獺被一只藏狐嚇壞的一幕，照片的拍攝者中國攝影師鮑永清獲得了年度野生生物攝影師大賽的最高榮譽(yù)。

攝影：鮑永清, WILDLIFE PHOTOGRAPHER OF THE YEAR）。

我們復(fù)制了其圖片鏈接，接下來我們將用python將其爬取下來，并保存在C://pics//路徑中。

import requestsimport os
url=" http://image.ngchina.com.cn/2019/1016/20191016034112233.jpg "
root="C://pics//"path=root+url.split('/')[-1]
try:    
	if not os.path.exists(root):        
  	os.mkdir(root)    
	if not os.path.exists(path): 
  	r=requests.get(url)with open(path,'wb') as f:   
			f.write(r.content)f.close()print("文件保存成功")
  else：    
  		print("文件已存在")
except:    
	print("爬取失敗")

分享到：

標(biāo)簽：爬蟲