日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

在我沒接觸這一行時(shí)這個(gè)問題困擾了我很長時(shí)間,讓我十分的不理解到底什么是爬蟲,它難道是一種實(shí)體工具?,直到我學(xué)習(xí)Python 深入分析了解以后才揭開了它神秘的面紗。

爬蟲到底是什么?爬蟲是否違法?簡(jiǎn)談爬蟲概念

 

爬蟲是什么呢?爬蟲有簡(jiǎn)單的爬蟲和復(fù)雜的爬蟲。實(shí)際上簡(jiǎn)單的爬蟲是一種腳本,是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。

腳本就是粗糙的,但往往非常實(shí)用的小程序(一般來說不會(huì)超過幾千行,有時(shí)候也就幾百幾十行的代碼構(gòu)成)。舉個(gè)簡(jiǎn)單的例子,你現(xiàn)在要從一個(gè)學(xué)生租房的網(wǎng)站上讀取關(guān)于出租的學(xué)生公寓的信息。你一條一條去抄寫肯定是不現(xiàn)實(shí)的。所以就要用爬蟲??梢园岩粋€(gè)信息類網(wǎng)站上幾千條信息一次全部扒下來。百度,谷歌這類的搜索引擎你也可以認(rèn)為是一種爬蟲,只不過這類的技術(shù)十分的復(fù)雜,不是簡(jiǎn)單的腳本。

搜索引擎是如何工作的?其實(shí)就是通過網(wǎng)絡(luò)爬蟲技術(shù),將互聯(lián)網(wǎng)中數(shù)以百億計(jì)的網(wǎng)頁信息保存到本地,形成一個(gè)鏡像文件,為整個(gè)搜索引擎提供數(shù)據(jù)支撐。

這樣的技術(shù)首先就會(huì)涉及到一個(gè)十分重要并且人人關(guān)注的問題——是否違法?

爬蟲到底是什么?爬蟲是否違法?簡(jiǎn)談爬蟲概念

 

仔細(xì)探究后總結(jié)出了如下觀點(diǎn):

1.遵守 Robots 協(xié)議,但有沒有 Robots 都不代表可以隨便爬,

2.限制你的爬蟲行為,禁止近乎 DDoS 的請(qǐng)求頻率,一旦造成服務(wù)器癱瘓,約等于網(wǎng)絡(luò)攻擊;

3.對(duì)于明顯反爬,或者正常情況不能到達(dá)的頁面不能強(qiáng)行突破,否則是 Hacker 行為;

4.審視清楚自己爬的內(nèi)容,絕不能觸碰法律的紅線。

至此你應(yīng)該明白,爬蟲本身并不違法,而是要看你使用的方式和目的,還要看其商業(yè)用途。

分享到:
標(biāo)簽:爬蟲
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績?cè)u(píng)定