日志文件分析應(yīng)該成為每個(gè)seo專業(yè)人士工具的一部分,但是大多數(shù)SEO從未進(jìn)行過(guò)。這意味著大多數(shù)SEO都缺少常規(guī)爬網(wǎng)工具無(wú)法產(chǎn)生的獨(dú)特而寶貴的見解。
讓我們揭開Log File Analysis的神秘面紗,讓它不再那么令人生畏。如果您對(duì)日志文件的美好世界以及它們可以帶給您的站點(diǎn)審核感興趣,則本指南絕對(duì)適合您。
什么是日志文件?
日志文件是包含有關(guān)誰(shuí)和什么向您的網(wǎng)站服務(wù)器發(fā)出請(qǐng)求的詳細(xì)日志的文件。每次漫游器向您的站點(diǎn)發(fā)出請(qǐng)求時(shí),數(shù)據(jù)(例如時(shí)間,日期IP地址,用戶代理等)都會(huì)存儲(chǔ)在此日志中。這些寶貴的數(shù)據(jù)可讓任何SEO找出googlebot和其他抓取工具在您的網(wǎng)站上正在做什么。與常規(guī)的爬網(wǎng)(例如,Screaming Frog SEO Spider)不同,這是真實(shí)的數(shù)據(jù),而不是對(duì)網(wǎng)站爬網(wǎng)方式的估計(jì)。它是網(wǎng)站爬網(wǎng)的準(zhǔn)確概述。
擁有這些準(zhǔn)確的數(shù)據(jù)可以幫助您確定爬網(wǎng)預(yù)算浪費(fèi)的領(lǐng)域,輕松查找訪問(wèn)錯(cuò)誤,了解您的SEO努力如何影響爬網(wǎng)等等。最好的部分是,在大多數(shù)情況下,您可以使用簡(jiǎn)單的電子表格軟件來(lái)完成此操作。
在本指南中,我們將重點(diǎn)放在Excel上以執(zhí)行日志文件分析,但是我還將討論其他工具,例如Screaming Frog鮮為人知的Log File Analyzer,它可以通過(guò)幫助您管理而使工作變得更加輕松和快捷。更大的數(shù)據(jù)集。
注意:擁有Excel以外的任何其他軟件都無(wú)需遵循本指南,也可以避免使用Log Files。
如何打開日志文件
將.log重命名為.csv
當(dāng)您獲得擴(kuò)展名為.log的日志文件時(shí),實(shí)際上就像重命名文件擴(kuò)展名為.csv并在電子表格軟件中打開文件一樣容易。如果要編輯擴(kuò)展名,請(qǐng)記住將操作系統(tǒng)設(shè)置為顯示文件擴(kuò)展名。
如何打開拆分日志文件
日志文件可以是一個(gè)大日志,也可以是多個(gè)文件,具體取決于站點(diǎn)的服務(wù)器配置。某些服務(wù)器將使用服務(wù)器負(fù)載平衡在服務(wù)器池或服務(wù)器場(chǎng)中分配流量,從而導(dǎo)致日志文件被拆分。好消息是它真的很容易組合,您可以使用以下三種方法之一來(lái)組合它們,然后按常規(guī)打開它們:
- 在windows中使用命令行,方法是Shift +右鍵單擊包含日志文件的文件夾,然后選擇“從此處運(yùn)行Powershell”

然后運(yùn)行以下命令:
復(fù)制* .log mylogfiles.csv
現(xiàn)在,您可以打開mylogfile.csv,它將包含您的所有日志數(shù)據(jù)。
或者,如果您是mac用戶,請(qǐng)首先使用cd命令轉(zhuǎn)到日志文件的目錄:
cd文件/ MyLogFiles /
然后,使用cat或concatenate命令合并文件:
貓* .log> mylogfiles.csv
2)使用免費(fèi)工具“ 日志文件合并”,合并所有日志文件,然后將文件擴(kuò)展名編輯為.csv并正常打開。
3)使用Screaming Frog日志文件分析器打開日志文件,就像拖放日志文件一樣簡(jiǎn)單:

分割字符串
(請(qǐng)注意:如果您使用Screaming Frog的日志文件分析器,則不需要此步驟)
打開日志文件后,您需要將每個(gè)單元格中的繁瑣文本分成幾列,以便以后進(jìn)行排序。
Excel的“文本到列”功能在這里派上用場(chǎng),就像選擇所有填充的單元格(Ctrl / Cmd + A)并轉(zhuǎn)到Excel>“數(shù)據(jù)”>“文本到列”并選擇“定界”選項(xiàng)一樣簡(jiǎn)單,定界符是空格字符。
分離出來(lái)之后,您可能還想按時(shí)間和日期進(jìn)行排序-您可以在“時(shí)間和日期”戳記列中進(jìn)行排序,通常使用“:”冒號(hào)分隔符來(lái)分隔數(shù)據(jù)。
您的文件應(yīng)類似于以下文件:

如前所述,請(qǐng)不要擔(dān)心您的日志文件看起來(lái)并不完全相同-不同的日志文件具有不同的格式。只要那里有基本數(shù)據(jù)(時(shí)間和日期,URL,用戶代理等),您就可以使用它!
了解日志文件
現(xiàn)在您的日志文件已準(zhǔn)備好進(jìn)行分析,我們可以深入了解并開始了解我們的數(shù)據(jù)。日志文件可以采用多種格式處理多個(gè)不同的數(shù)據(jù)點(diǎn),但是它們通常包括以下內(nèi)容:
- 服務(wù)器IP
- 日期和時(shí)間
- 服務(wù)器請(qǐng)求方法(例如GET / POST)
- 要求的網(wǎng)址
- HTTP狀態(tài)碼
- 用戶代理
如果您對(duì)具體細(xì)節(jié)感興趣,可以在下面找到有關(guān)常見格式的更多詳細(xì)信息:
- WC3
- Apache和Nginx
- Amazon Elastic Load Balancing
- HA代理
- JSON格式
如何快速揭示抓取預(yù)算浪費(fèi)
快速回顧一下,抓取預(yù)算是指搜索引擎在您每次訪問(wèn)網(wǎng)站時(shí)抓取的頁(yè)面數(shù)。許多因素會(huì)影響爬網(wǎng)預(yù)算,包括鏈接資產(chǎn)或域權(quán)限,站點(diǎn)速度等。借助日志文件分析,我們將能夠查看您的網(wǎng)站具有哪種爬網(wǎng)預(yù)算,以及在哪里會(huì)導(dǎo)致浪費(fèi)爬網(wǎng)預(yù)算的問(wèn)題。
理想情況下,我們希望為爬蟲提供最有效的爬蟲體驗(yàn)。爬網(wǎng)不應(yīng)浪費(fèi)在低價(jià)值的頁(yè)面和URL上,優(yōu)先級(jí)頁(yè)面(例如產(chǎn)品頁(yè)面)的索引編制和爬網(wǎng)速度也不應(yīng)慢,因?yàn)榫W(wǎng)站的自重頁(yè)面太多。游戲的名稱是抓取預(yù)算節(jié)省,并且具有良好的抓取預(yù)算轉(zhuǎn)換,可以帶來(lái)更好的自然搜索性能。
查看按用戶代理搜尋的URL
了解網(wǎng)站的URL進(jìn)行爬網(wǎng)的頻率可以快速揭示搜索引擎將其時(shí)間投入爬網(wǎng)的位置。
如果您有興趣查看單個(gè)用戶代理的行為,這很容易,因?yàn)榭梢赃^(guò)濾掉excel中的相關(guān)列。在這種情況下,使用WC3格式的日志文件,我通過(guò)Googlebot過(guò)濾了cs(User-Agent)列:

然后過(guò)濾URI列,以顯示Googlebot抓取該示例網(wǎng)站首頁(yè)的次數(shù):

這是通過(guò)URI詞干查看單個(gè)用戶代理是否存在任何問(wèn)題區(qū)域的快速方法。您可以通過(guò)查看URI stem列的過(guò)濾選項(xiàng)來(lái)更進(jìn)一步,在本例中為cs-uri-stem:

從這個(gè)基本菜單中,我們可以看到正在爬網(wǎng)的URL(包括資源文件)以快速識(shí)別任何問(wèn)題URL(例如,不應(yīng)被爬網(wǎng)的參數(shù)化URL)。
您還可以使用數(shù)據(jù)透視表進(jìn)行更廣泛的分析。要獲取特定用戶代理對(duì)特定URL進(jìn)行爬網(wǎng)的次數(shù),請(qǐng)選擇整個(gè)表(Ctrl / cmd + A),轉(zhuǎn)到“插入”>“數(shù)據(jù)透視表”,然后使用以下選項(xiàng):

我們要做的只是通過(guò)用戶代理進(jìn)行過(guò)濾,將URL干作為行,然后計(jì)算每個(gè)用戶代理發(fā)生的次數(shù)。
通過(guò)示例日志文件,我得到了以下內(nèi)容:

然后,要按特定的User-Agent進(jìn)行過(guò)濾,我點(diǎn)擊了包含“(全部)”的單元格上的下拉圖標(biāo),然后選擇了Googlebot:

了解哪些不同的漫游器正在爬網(wǎng),移動(dòng)漫游器如何以與桌面不同的方式爬網(wǎng)以及發(fā)生爬網(wǎng)最多的位置,可以幫助您立即了解哪些地方存在爬網(wǎng)預(yù)算浪費(fèi)以及需要改進(jìn)的站點(diǎn)區(qū)域。
查找低價(jià)值添加網(wǎng)址
爬網(wǎng)預(yù)算不應(yīng)浪費(fèi)在低附加值URL上,這些URL通常是由會(huì)話ID,無(wú)限的爬網(wǎng)空間和多面導(dǎo)航引起的。
為此,請(qǐng)返回您的日志文件,并根據(jù)URL列中包含“?”或問(wèn)號(hào)符號(hào)的URL(包含URL詞干)進(jìn)行過(guò)濾。要在Excel中執(zhí)行此操作,請(qǐng)記住使用“??”或代字號(hào)問(wèn)號(hào),如下所示:

如自動(dòng)過(guò)濾器窗口中所述,單個(gè)“?”或問(wèn)號(hào)表示任何單個(gè)字符,因此添加代字號(hào)就像一個(gè)轉(zhuǎn)義字符,并確保過(guò)濾出問(wèn)號(hào)符號(hào)本身。
那不容易嗎?
查找重復(fù)的URL
重復(fù)的URL可能會(huì)浪費(fèi)抓取預(yù)算并造成很大的SEO問(wèn)題,但是找到它們可能會(huì)很麻煩。有時(shí),URL可能會(huì)有一些細(xì)微的變化(例如URL的斜杠與非斜杠版本)。
最終,查找重復(fù)URL的最佳方法也是最不有趣的方法-您必須按字母順序?qū)φ军c(diǎn)URL進(jìn)行排序,然后手動(dòng)對(duì)其進(jìn)行關(guān)注。
查找相同URL的尾隨和非尾隨斜杠版本的一種方法是,在另一列中使用SUBSTITUTE函數(shù),并使用該函數(shù)刪除所有正斜杠:
= SUBSTITUTE(C2,“ /”,“”)
在我的情況下,目標(biāo)細(xì)胞為C2,因?yàn)榍o數(shù)據(jù)位于第三列。
然后,使用條件格式識(shí)別重復(fù)的值并突出顯示它們。

但是,不幸的是,眼球是目前最好的方法。
查看子目錄的爬網(wǎng)頻率
找出哪些子目錄最常被爬網(wǎng)是揭示爬網(wǎng)預(yù)算浪費(fèi)的另一種快速方法。盡管要牢記,只是因?yàn)榭蛻舻牟┛蛷奈传@得過(guò)一個(gè)反向鏈接,并且每年僅從企業(yè)主的祖母那里獲得3次瀏覽,但這并不意味著您應(yīng)該認(rèn)為它浪費(fèi)了預(yù)算,整個(gè)網(wǎng)站的內(nèi)部鏈接結(jié)構(gòu)應(yīng)該始終保持良好狀態(tài)從客戶的角度來(lái)看,可能很可能需要該內(nèi)容。
要按子目錄級(jí)別查找爬網(wǎng)頻率,您需要主要關(guān)注它,但是以下公式可以幫助您:
= IF(RIGHT(C2,1)=“ /”,SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ /”,“”)))/ LEN(“ /”)+ SUM(LEN(C2) -LEN(SUBSTITUTE(C2,“ =”,“”)))/ LEN(“ =”)-2,SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ /”,“”)))/ LEN (“ /”)+ SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ =”,“”))))/ LEN(“ =”)-1)
上面的公式看起來(lái)有點(diǎn)笨拙,但是它所做的只是檢查是否有斜杠,并根據(jù)答案計(jì)算斜杠的數(shù)目并從該數(shù)目中減去2或1。如果使用RIGHT公式從URL列表中刪除所有結(jié)尾的斜杠,則可以縮短此公式-但是誰(shuí)有時(shí)間。剩下的就是子目錄計(jì)數(shù)(從第一個(gè)子目錄從0開始)。
將C2替換為第一個(gè)URL詞干/ URL單元格,然后將公式復(fù)制到整個(gè)列表中以使其起作用。

確保使用適當(dāng)?shù)钠鹗紗卧裉鎿Q所有C2,然后按最小到最大的順序?qū)π碌淖幽夸浻?jì)數(shù)列進(jìn)行排序,以按邏輯順序獲得良好的文件夾列表,或者輕松地按子目錄級(jí)別進(jìn)行過(guò)濾。例如,如以下屏幕截圖所示:

上圖是按級(jí)別排序的子目錄。

上圖是按深度排序的子目錄。
如果您不處理大量URL,則可以簡(jiǎn)單地按字母順序?qū)RL進(jìn)行排序,但是您將無(wú)法獲得子目錄計(jì)數(shù)過(guò)濾功能,這對(duì)于大型站點(diǎn)可能要快得多。
按內(nèi)容類型查看抓取頻率
找出要爬網(wǎng)的內(nèi)容,或者是否有任何內(nèi)容類型在限制爬網(wǎng)預(yù)算,這是發(fā)現(xiàn)爬網(wǎng)預(yù)算浪費(fèi)的絕佳選擇。使用這種策略可以很容易地發(fā)現(xiàn)對(duì)不必要的或低優(yōu)先級(jí)的css和JS文件的頻繁爬網(wǎng),或者如果您正在嘗試針對(duì)圖像搜索進(jìn)行優(yōu)化,則會(huì)在圖像上進(jìn)行爬網(wǎng)。
在Excel中,按內(nèi)容類型查看爬網(wǎng)頻率就像使用“結(jié)尾為”過(guò)濾選項(xiàng)按URL或URI莖進(jìn)行過(guò)濾一樣容易。

快速提示:您還可以使用“不以...結(jié)尾”過(guò)濾器,并使用.html擴(kuò)展名查看非HTML頁(yè)面文件的爬網(wǎng)方式-始終值得檢查,以防不必要的js或css文件浪費(fèi)爬網(wǎng)預(yù)算,或者甚至圖像和圖像變體(看著您的wordPress/ target=_blank class=infotextkey>WordPress)。另外,請(qǐng)記住,如果您的站點(diǎn)具有尾隨和非尾隨的斜杠URL,則使用帶有過(guò)濾功能的“或”運(yùn)算符將其考慮在內(nèi)。
監(jiān)視機(jī)器人:了解網(wǎng)站爬網(wǎng)行為
日志文件分析使我們能夠了解機(jī)器人的優(yōu)先級(jí),從而了解它們的行為方式。不同的機(jī)器人在不同情況下的表現(xiàn)如何?有了這些知識(shí),您不僅可以加深對(duì)SEO和爬網(wǎng)的理解,還可以使您在了解網(wǎng)站架構(gòu)的有效性方面取得巨大飛躍。
查看最多和最少爬行的URL
以前,通過(guò)查看用戶代理抓取的URL可以完善此策略,但是它甚至更快。
在Excel中,選擇表中的單元格,然后單擊“插入”>“數(shù)據(jù)透視表”,確保所選內(nèi)容包含必要的列(在這種情況下,URL或URI詞干以及用戶代理),然后單擊“確定”。

創(chuàng)建數(shù)據(jù)透視表后,將行設(shè)置為URL或URI詞干,并將總和設(shè)置為用戶代理。

在此處,您可以右鍵單擊“用戶代理”列,然后按爬網(wǎng)計(jì)數(shù)將URL從最大到最小排序:

現(xiàn)在,您將擁有一張不錯(cuò)的桌子,可以根據(jù)它制作圖表或快速查看并查找任何有問(wèn)題的區(qū)域:

在查看此數(shù)據(jù)時(shí)要問(wèn)自己的一個(gè)問(wèn)題是:您或客戶想要爬網(wǎng)的頁(yè)面嗎?多常?頻繁爬網(wǎng)并不一定意味著會(huì)有更好的結(jié)果,但這可能表明Google和其他內(nèi)容用戶代理將哪些內(nèi)容放在了優(yōu)先位置。
每天,每周或每月的抓取頻率
在Google更新或緊急情況下,檢查爬網(wǎng)活動(dòng)以識(shí)別一段時(shí)間內(nèi)可見性下降的問(wèn)題,可以通知您問(wèn)題可能出在哪里。這就像選擇“日期”列,確保該列為“日期”格式類型,然后使用日期列上的日期過(guò)濾選項(xiàng)一樣簡(jiǎn)單。如果您要分析整個(gè)星期,只需選擇具有可用過(guò)濾選項(xiàng)的相應(yīng)日期即可。

通過(guò)指令抓取頻率
了解Google遵循的是什么指令(例如,如果您在robots.txt中使用的是不允許甚至無(wú)索引的指令),對(duì)于任何SEO審核或廣告系列來(lái)說(shuō)都是至關(guān)重要的。舉例來(lái)說(shuō),如果網(wǎng)站使用的導(dǎo)航URL多面,則您需要確保遵守這些URL。如果不是,則推薦更好的解決方案,例如頁(yè)面指令(如meta robots標(biāo)簽)。
要按指令查看抓取頻率,您需要將抓取報(bào)告與日志文件分析結(jié)合起來(lái)。
(警告:我們將使用VLOOKUP,但實(shí)際上并沒有人們想象的那么復(fù)雜)
要獲取合并的數(shù)據(jù),請(qǐng)執(zhí)行以下操作:
- 使用您喜歡的爬網(wǎng)軟件從您的站點(diǎn)進(jìn)行爬網(wǎng)。我可能有偏見,但我是Screaming Frog SEO Spider的忠實(shí)擁護(hù)者,所以我將使用它。
如果您還使用蜘蛛,請(qǐng)按原樣執(zhí)行步驟,否則,請(qǐng)致電以獲取相同的結(jié)果。 - 從SEO Spider導(dǎo)出內(nèi)部HTML報(bào)告(“內(nèi)部標(biāo)簽”>“過(guò)濾器:HTML”),然后打開“ internal_all.xlsx”文件。

在此處,您可以過(guò)濾“可索引性狀態(tài)”列,并刪除所有空白單元格。為此,請(qǐng)使用“不包含”過(guò)濾器,并將其保留為空白。您還可以添加“和”運(yùn)算符,并通過(guò)使過(guò)濾器值等于“不包含”→“重定向”來(lái)過(guò)濾重定向的URL,如下所示:

這將顯示元機(jī)器人的規(guī)范化,無(wú)索引和規(guī)范化URL。
- 復(fù)制該新表(僅包含“地址”和“可索引性狀態(tài)”列),并將其粘貼到日志文件分析導(dǎo)出的另一張表中。
- 現(xiàn)在來(lái)看一些VLOOKUP魔術(shù)。首先,我們需要確保URI或URL列數(shù)據(jù)的格式與抓取數(shù)據(jù)的格式相同。
日志文件通常在URL中沒有根域或協(xié)議,因此我們需要使用新制作的工作表中的“查找和替換”來(lái)刪除URL的開頭,或者在日志文件分析表中添加新列將協(xié)議和根域附加到URI干。我更喜歡這種方法,因?yàn)檫@樣您就可以快速?gòu)?fù)制并粘貼遇到問(wèn)題的URL并進(jìn)行查看。但是,如果您有大量的日志文件,則使用“查找和替換”方法可能會(huì)大大減少CPU占用的資源。
要獲取完整的URL,請(qǐng)使用以下公式,但將URL字段更改為您要分析的任何站點(diǎn)(并確保協(xié)議也正確)。您還需要將D2更改為URL列
=“ https://www.example.com”&D2的第一個(gè)單元格, 將公式向下拖動(dòng)到Log文件表的末尾,并獲得完整URL的漂亮列表:

- 現(xiàn)在,創(chuàng)建另一列,并將其稱為“可索引性狀態(tài)”。在第一個(gè)單元格中,使用類似于以下內(nèi)容的VLOOKUP:= VLOOKUP(E2,CrawlSheet!A $ 1:B $ 1128,2,F(xiàn)ALSE)。將E2替換為“完整URL”列的第一個(gè)單元格,然后將查找表添加到新的表中。檢索表。請(qǐng)記住要起訴美元符號(hào),以使查詢表不會(huì)隨您而改變。將公式應(yīng)用于其他角色。然后,選擇正確的列(1將是索引表的第一列,因此數(shù)字2是我們后面的列)。使用FALSE范圍查找模式進(jìn)行精確匹配。現(xiàn)在,您有了一個(gè)整潔的URL列表,它們的可索引性狀態(tài)與爬網(wǎng)數(shù)據(jù)匹配:

按深度和內(nèi)部鏈接抓取頻率
通過(guò)此分析,我們可以查看網(wǎng)站的體系結(jié)構(gòu)在爬網(wǎng)預(yù)算和爬網(wǎng)能力方面的表現(xiàn)。主要目的是查看URL是否比請(qǐng)求的數(shù)量多得多-如果存在,那么您就會(huì)遇到問(wèn)題。僵尸程序不應(yīng)該“放棄”對(duì)整個(gè)站點(diǎn)的爬網(wǎng),不要發(fā)現(xiàn)重要的內(nèi)容,也不應(yīng)該在不重要的內(nèi)容上浪費(fèi)爬網(wǎng)預(yù)算。
提示:還值得在此分析中使用爬網(wǎng)可視化工具來(lái)查看網(wǎng)站的總體架構(gòu),并查看哪里有“分支”或內(nèi)部鏈接不佳的頁(yè)面。
要獲取所有重要數(shù)據(jù),請(qǐng)執(zhí)行以下操作:
- 使用首選的抓取工具抓取您的網(wǎng)站,并導(dǎo)出每個(gè)報(bào)告的點(diǎn)擊深度和內(nèi)部鏈接數(shù)以及每個(gè)URL。
就我而言,我使用的是Screaming Frog SEO Spider,將導(dǎo)出內(nèi)部報(bào)告:

- 使用VLOOKUP將您的網(wǎng)址與“抓取深度”列和“鏈接數(shù)”進(jìn)行匹配,這將為您提供以下信息:
- 根據(jù)您要查看的數(shù)據(jù)類型,您可能希望僅過(guò)濾掉此時(shí)返回200響應(yīng)代碼的URL,或者在以后創(chuàng)建的數(shù)據(jù)透視表中將其設(shè)為可過(guò)濾的選項(xiàng)。如果要檢查電子商務(wù)網(wǎng)站,則可能只希望關(guān)注產(chǎn)品網(wǎng)址,或者如果要優(yōu)化圖像的爬網(wǎng),則可以通過(guò)使用“內(nèi)容”過(guò)濾日志文件的URI列來(lái)按文件類型過(guò)濾-“類型”列以進(jìn)行抓取導(dǎo)出,并選擇使用數(shù)據(jù)透視表進(jìn)行過(guò)濾。與所有這些檢查一樣,您有很多選擇!

- 使用數(shù)據(jù)透視表,您現(xiàn)在可以使用以下選項(xiàng)按爬網(wǎng)深度(在這種情況下,通過(guò)特定的漫游器進(jìn)行過(guò)濾)來(lái)分析爬網(wǎng)速率:

要獲得如下內(nèi)容:

比Search Console更好的數(shù)據(jù)?識(shí)別爬網(wǎng)問(wèn)題
Search Console可能是每個(gè)SEO的首選,但它肯定有缺陷。歷史數(shù)據(jù)很難獲得,并且可以查看的行數(shù)有限制(在撰寫本文時(shí)為1000)。但是,借助日志文件分析,才是極限。通過(guò)以下檢查,我們將發(fā)現(xiàn)爬網(wǎng)和響應(yīng)錯(cuò)誤,以對(duì)您的網(wǎng)站進(jìn)行全面的運(yùn)行狀況檢查。
發(fā)現(xiàn)抓取錯(cuò)誤
一個(gè)顯而易見且快速的檢查是添加到您的軍械庫(kù),您要做的就是過(guò)濾日志文件的狀態(tài)列(在我的情況下為W3C日志文件類型的“ sc-status”),以查找4xx和5xx錯(cuò)誤:

查找不一致的服務(wù)器響應(yīng)
特定的URL隨時(shí)間變化的服務(wù)器響應(yīng)可能會(huì)有所不同,這可能是正?,F(xiàn)象,例如修復(fù)了斷開的鏈接或出現(xiàn)嚴(yán)重的服務(wù)器問(wèn)題的跡象(例如,網(wǎng)站訪問(wèn)量過(guò)大導(dǎo)致更多內(nèi)部問(wèn)題)。服務(wù)器錯(cuò)誤,并正在影響您網(wǎng)站的可抓取性。
分析服務(wù)器響應(yīng)就像通過(guò)URL和日期進(jìn)行過(guò)濾一樣容易:

另外,如果您想快速查看URL在響應(yīng)代碼中的變化,則可以使用數(shù)據(jù)透視表,其中將行設(shè)置為URL,將列設(shè)置為響應(yīng)代碼,并計(jì)算URL產(chǎn)生響應(yīng)的次數(shù)碼。要實(shí)現(xiàn)此設(shè)置,請(qǐng)使用以下設(shè)置創(chuàng)建數(shù)據(jù)透視表:

這將產(chǎn)生以下結(jié)果:

如上表所示,您可以清楚地看到“ /inconcistent.html”(紅色框中突出顯示)具有不同的響應(yīng)代碼。
按子目錄查看錯(cuò)誤
要查找哪些子目錄產(chǎn)生最多的問(wèn)題,我們只需要執(zhí)行一些簡(jiǎn)單的URL過(guò)濾即可。過(guò)濾掉URI列(在我的情況下為“ cs-uri-stem”),并使用“包含”過(guò)濾選項(xiàng)選擇一個(gè)特定的子目錄以及該子目錄中的任何頁(yè)面(使用通配符*):

對(duì)我來(lái)說(shuō),我簽出了blog子目錄,這產(chǎn)生了以下內(nèi)容:

按用戶代理查看錯(cuò)誤
出于各種原因,找出哪些機(jī)器人在掙扎中可能很有用,包括查看移動(dòng)和桌面機(jī)器人在網(wǎng)站性能方面的差異,或者哪些搜索引擎最能夠抓取您的更多網(wǎng)站。
您可能想查看哪些特定的URL導(dǎo)致特定的漫游器出現(xiàn)問(wèn)題。最簡(jiǎn)單的方法是使用數(shù)據(jù)透視表,該數(shù)據(jù)透視表可以過(guò)濾每個(gè)URI出現(xiàn)特定響應(yīng)代碼的次數(shù)。為此,請(qǐng)使用以下設(shè)置制作數(shù)據(jù)透視表:

在這里,您可以按所選的漫游器和響應(yīng)代碼類型進(jìn)行過(guò)濾,如下圖所示,其中我正在過(guò)濾Googlebot桌面以找出404錯(cuò)誤:

另外,您還可以使用數(shù)據(jù)透視表通過(guò)創(chuàng)建一個(gè)數(shù)據(jù)透視表來(lái)查看特定漫游器在整體上產(chǎn)生不同響應(yīng)代碼的次數(shù),該數(shù)據(jù)透視表按漫游器進(jìn)行過(guò)濾,按URI發(fā)生計(jì)數(shù)并將響應(yīng)代碼用作行。為此,請(qǐng)使用以下設(shè)置:

例如,在數(shù)據(jù)透視表(如下)中,我正在查看Googlebot收到的每個(gè)響應(yīng)代碼有多少:

診斷頁(yè)面問(wèn)題
網(wǎng)站不僅需要為人類設(shè)計(jì),還需要為機(jī)器人設(shè)計(jì)。頁(yè)面不應(yīng)加載緩慢或下載量過(guò)大,并且通過(guò)日志文件分析,您可以從漫游器的角度查看每個(gè)URL的這兩個(gè)指標(biāo)。
查找慢頁(yè)面和大頁(yè)面
雖然您可以按“花費(fèi)的時(shí)間”或“加載時(shí)間”列從最大到最小對(duì)日志文件進(jìn)行排序,以找到最慢的加載頁(yè)面,但最好查看每個(gè)URL的平均加載時(shí)間,因?yàn)榭赡苓€有其他因素導(dǎo)致了除網(wǎng)頁(yè)實(shí)際速度以外的緩慢請(qǐng)求。
為此,請(qǐng)創(chuàng)建一個(gè)數(shù)據(jù)透視表,其中的行設(shè)置為URI詞干或URL,而總和設(shè)置為加載時(shí)間或加載時(shí)間:

然后,在這種情況下,使用下拉箭頭顯示“花費(fèi)的時(shí)間總和”,然后轉(zhuǎn)到“值字段設(shè)置”:

在新窗口中,選擇“平均”,您已經(jīng)設(shè)置完畢:

現(xiàn)在,當(dāng)按最大時(shí)間,最小時(shí)間和平均時(shí)間對(duì)URI詞干進(jìn)行排序時(shí),應(yīng)該具有與以下內(nèi)容類似的內(nèi)容:

查找大頁(yè)面
現(xiàn)在,您可以使用以下所示的設(shè)置添加下載大小列(在我的情況下為“ sc-bytes”)。請(qǐng)記住,將大小設(shè)置為平均值或總和取決于您想要看到的內(nèi)容。對(duì)我來(lái)說(shuō),我已經(jīng)完成了平均:

并且您應(yīng)該得到類似于以下內(nèi)容:

機(jī)器人行為:驗(yàn)證和分析機(jī)器人
了解機(jī)器人和爬網(wǎng)行為的最佳,最簡(jiǎn)單的方法是使用日志文件分析,因?yàn)槟鷮⒃俅潍@得真實(shí)的數(shù)據(jù),并且比其他方法要省時(shí)得多。
查找未爬網(wǎng)的URL
只需使用您選擇的工具對(duì)您的網(wǎng)站進(jìn)行爬網(wǎng),然后將您的日志文件與URL進(jìn)行比較以找到唯一的路徑。您可以使用Excel的“刪除重復(fù)項(xiàng)”功能或條件格式執(zhí)行此操作,盡管前者的CPU占用率要低得多,尤其是對(duì)于較大的日志文件。簡(jiǎn)單!
識(shí)別垃圾郵件機(jī)器人
日志文件和一些基本的命令行操作符很容易識(shí)別垃圾郵件和欺騙性僵尸程序?qū)Ψ?wù)器造成的不必要壓力。大多數(shù)請(qǐng)求還將具有與之關(guān)聯(lián)的IP,因此使用您的IP列(在我的情況下,在W3C格式日志中標(biāo)題為“ c-ip”),刪除所有重復(fù)項(xiàng)以查找每個(gè)單獨(dú)的請(qǐng)求IP。
從那里開始,您應(yīng)該遵循Google文檔中概述的驗(yàn)證IP的過(guò)程(注意:對(duì)于Windows用戶,請(qǐng)使用nslookup命令):
https://support.google.com/webmasters/answer/80553?hl=zh_CN
或者,如果您要驗(yàn)證Bing機(jī)器人,請(qǐng)使用其便捷的工具:
https://www.bing.com/toolbox/verify-bingbot
結(jié)論:日志文件分析-聽起來(lái)并不那么可怕
使用一些簡(jiǎn)單的工具,您可以深入了解Googlebot的行為方式。當(dāng)您了解了網(wǎng)站如何處理爬網(wǎng)時(shí),您可以診斷出的問(wèn)題比咀嚼的多得多-但是日志文件分析的真正功能在于能夠測(cè)試有關(guān)Googlebot的理論并擴(kuò)展上述技術(shù)以收集自己的見解和啟示。
您將使用日志文件分析測(cè)試哪些理論?除了上面列出的日志文件之外,您還可以從日志文件中收集哪些見解?