站長(zhǎng)之家注:死鏈直接關(guān)系到網(wǎng)站的抓取收錄和流量轉(zhuǎn)化,因而對(duì)站長(zhǎng)們而言至關(guān)重要。近日,百度站長(zhǎng)學(xué)院針對(duì)BaiduSpider及站點(diǎn)死鏈的相關(guān)問題做出了一系列的解答……
具體內(nèi)容如下:
問:robots屏蔽對(duì)阻止百度抓取死鏈?zhǔn)欠裼行?/p>
答:當(dāng)然有效,百度嚴(yán)格遵守robots協(xié)議,若發(fā)現(xiàn)百度依然抓取,先確認(rèn)是否為Baiduspider,若確認(rèn),可以通過反饋中心進(jìn)行投訴。
如何正確識(shí)別Baiduspider移動(dòng)ua?
新版移動(dòng)ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;)AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 MobileSafari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
之前通過“+http://www.baidu.com/search/spider.html”進(jìn)行識(shí)別的網(wǎng)站請(qǐng)注意!您需要修改識(shí)別方式,新的正確的識(shí)別Baiduspider移動(dòng)ua的方法如下:
1. 通過關(guān)鍵詞“Android”或者“Mobile”來進(jìn)行識(shí)別,判斷為移動(dòng)訪問或者抓取。
2. 通過關(guān)鍵詞“Baiduspider/2.0”,判斷為百度爬蟲。
另外需要強(qiáng)調(diào)的是,對(duì)于robots封禁,如果封禁的agent是Baiduspider,會(huì)對(duì)PC和移動(dòng)同時(shí)生效。即,無(wú)論是PC還是移動(dòng)Baiduspider,都不會(huì)對(duì)封禁對(duì)象進(jìn)行抓取。之所以要強(qiáng)調(diào)這一點(diǎn),是發(fā)現(xiàn)有些代碼適配站點(diǎn)(同一個(gè)url,PC ua打開的時(shí)候是PC頁(yè),移動(dòng)ua打開的時(shí)候是移動(dòng)頁(yè)),想通過設(shè)置robots的agent封禁達(dá)到只讓移動(dòng)Baiduspider抓取的目的,但由于PC和移動(dòng)Baiduspider的agent都是Baiduspider,這種方法是非常不可取的。
如何識(shí)別為百度spider?
百度蜘蛛對(duì)于站長(zhǎng)來說可謂上賓,可是我們?cè)?jīng)遇到站長(zhǎng)這樣提問:我們?nèi)绾闻袛喁偪褡ノ覀兙W(wǎng)站內(nèi)容的蜘蛛是不是百度的?其實(shí)站長(zhǎng)可以通過DNS反查IP的方式判斷某只spider是否來自百度搜索引擎。根據(jù)平臺(tái)不同驗(yàn)證方法不同,如linux/windows/os三種平臺(tái)下的驗(yàn)證方法分別如下:
1、在linux平臺(tái)下,您可以使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
2、在windows平臺(tái)或者IBM OS/2平臺(tái)下,您可以使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
3、 在mac os平臺(tái)下,您可以使用dig 命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
問:已被百度抓取的死鏈,可以通過robots屏蔽的方式讓百度刪除嗎?
答:不建議你這樣做,最快最有效的方法是通過百度站長(zhǎng)平臺(tái)死鏈提交工具(地址:http://zhanzhang.baidu.com/badlink/)進(jìn)行處理
問:我已經(jīng)通過死鏈工具進(jìn)行提交了,可是通過日志發(fā)現(xiàn)百度還是在抓我們的死鏈
答:您提交規(guī)則后,spider為了驗(yàn)證鏈接是否真的死掉,需要抓一部分回來驗(yàn)證。
問:百度對(duì)死鏈的抓取,對(duì)正常文章抓取的影響會(huì)有多大。
答:這個(gè)沒有統(tǒng)一的標(biāo)準(zhǔn),如果你沒有設(shè)置robots也沒有向百度提交,死鏈量還特別巨大的時(shí)候,有可能會(huì)占用你網(wǎng)站大量抓取配額,導(dǎo)致正常內(nèi)容無(wú)法抓取。如果僅僅是spider為了驗(yàn)證死鏈規(guī)則抓一部分,那么對(duì)正常內(nèi)容不會(huì)造成影響。
問:百度對(duì)死鏈的要求是什么?怎么設(shè)置死鏈效果最好?
答:目前百度支持協(xié)議死鏈、內(nèi)容死鏈和跳轉(zhuǎn)死鏈,其中最效果最好的是協(xié)議死鏈。
百度標(biāo)準(zhǔn)死鏈官方文檔:
幾乎所有網(wǎng)站都會(huì)出現(xiàn)不再需要展現(xiàn)的網(wǎng)頁(yè),如何處理這樣的網(wǎng)頁(yè)也成為站長(zhǎng)經(jīng)常談?wù)摰脑掝}。為此,百度站長(zhǎng)學(xué)院專訪了負(fù)責(zé)死鏈識(shí)別處理的工程師,了解到百度眼中的死鏈其實(shí)包括三種:協(xié)議死鏈、內(nèi)容死鏈、跳轉(zhuǎn)死鏈,每種都有門道哦,同時(shí)了解到目前比較流行的“個(gè)性化死鏈”對(duì)百度并不友好(后面會(huì)有詳細(xì)介紹)。在此我們向各位站長(zhǎng)呼吁,盡可能全面地通過百度站長(zhǎng)平臺(tái)死鏈提交工具提交協(xié)議死鏈、內(nèi)容死鏈和跳轉(zhuǎn)死鏈,網(wǎng)站在百度搜索引擎的可訪性和價(jià)值得到提升,以獲得更高的用戶評(píng)價(jià)。
第一,協(xié)議死鏈:
協(xié)議死鏈?zhǔn)侵竿ㄟ^HTTP協(xié)議狀態(tài)碼明確表示網(wǎng)頁(yè)已無(wú)閱讀價(jià)值。HTTP協(xié)議狀態(tài)碼很多,但百度協(xié)議死鏈?zhǔn)淄?04,即未找到文件。請(qǐng)盡量不要用其它狀態(tài)碼來代表死鏈。
第二,內(nèi)容死鏈:
內(nèi)容死鏈主要是由網(wǎng)站自身變化引起的,網(wǎng)頁(yè)可以正常打開未發(fā)生跳轉(zhuǎn),但頁(yè)面內(nèi)容對(duì)爬蟲來說沒有收錄價(jià)值,對(duì)用戶來說也沒有參考價(jià)值,如帖子被刪除、內(nèi)容已轉(zhuǎn)移、空間被關(guān)閉、信息已過期、交易已關(guān)閉等。在這樣無(wú)有價(jià)值信息的網(wǎng)頁(yè)上,網(wǎng)站應(yīng)該在明顯位置直接給予提示文字,如:
·頁(yè)面不存在(網(wǎng)頁(yè)不存在)
·內(nèi)容已轉(zhuǎn)移
·帖子已刪除
·域名過期或出售
·空間被關(guān)閉
·網(wǎng)站要備案
·信息已過期
·交易已關(guān)閉
在給各位站長(zhǎng)看標(biāo)準(zhǔn)內(nèi)容死鏈的典型范例之前,先說一個(gè)對(duì)百度不友好的做法:現(xiàn)在很多網(wǎng)站追求個(gè)性化和用戶體驗(yàn),在頁(yè)面內(nèi)容失效后并未做協(xié)議死鏈處理,也就是說返回狀態(tài)碼依然是200,僅僅是在頁(yè)面上做了一個(gè)有趣的個(gè)性化圖片,通過圖片告訴用戶這個(gè)頁(yè)面沒有有價(jià)值內(nèi)容——百度不會(huì)認(rèn)為這是一個(gè)內(nèi)容死鏈,不提倡大家這樣做。
典型范例1:
以下便是內(nèi)容死鏈的典型范例,大家感受一下,需要著重強(qiáng)調(diào)的是:站長(zhǎng)在申請(qǐng)取消閉站保護(hù)的時(shí)候,百度除了檢測(cè)站內(nèi)協(xié)議死鏈外,還會(huì)同時(shí)檢查內(nèi)容死鏈的比例和數(shù)量。即使您不使用閉站保護(hù)功能,百度也提倡大家踴躍提交內(nèi)容死鏈,以保證站點(diǎn)評(píng)級(jí)的穩(wěn)定。典型范例2:
典型范例3:
典型范例4:
典型范例5:
典型范例6:
典型范例7:
典型范例:8:
第三,跳轉(zhuǎn)死鏈
跳轉(zhuǎn)死鏈?zhǔn)侵妇W(wǎng)站將無(wú)閱讀價(jià)值的頁(yè)面統(tǒng)一跳轉(zhuǎn)到某一個(gè)頁(yè)面,如前一級(jí)目錄面、首頁(yè)等等,跳轉(zhuǎn)前后的兩個(gè)網(wǎng)頁(yè)主體內(nèi)容不同,不存在可替代的關(guān)系。除了404協(xié)議死鏈和內(nèi)容死鏈外,站長(zhǎng)還需要向百度提交跳轉(zhuǎn)死鏈。典型范例9:
典型范例10:
問:百度站長(zhǎng)平臺(tái)是否有工具幫助我們發(fā)現(xiàn)網(wǎng)站內(nèi)的未知死鏈?
答:可以通過鏈接分析工具中的死鏈分析功能(地址:http://zhanzhang.baidu.com/inbound/deadlink),還有抓取異常工具(地址:http://zhanzhang.baidu.com/crawl/index)進(jìn)行發(fā)現(xiàn)分析
注:相關(guān)網(wǎng)站建設(shè)技巧閱讀請(qǐng)移步到建站教程頻道。