深圳網(wǎng)站建設設計深圳網(wǎng)站優(yōu)化排名深圳網(wǎng)站設計制作欣賞

分析Googlebot爬行日志文件[案例]

2017-07-17 閱讀：深圳網(wǎng)站建設設計

分析Googlebot爬行日志文件[案例]
深圳網(wǎng)站建設效益分析Googlebot爬行尖峰通過日志文件[案例]沖擊
網(wǎng)站主真的不知道是誰，或是完整的故事，是爬行網(wǎng)站直到他們分析自己的服務器日志。專欄作家Glenn Gabe股份為例，闡述了一些見解，可以從服務器日志文件分析收集到的。

我最近開始幫助一個網(wǎng)站，受到負面影響5月17日更新算法。該網(wǎng)站已經(jīng)很長一段時間的上網(wǎng)質量的灰色地帶，澎湃有質量的更新，有時滴。所以我開始挖掘通過抓取分析和審計的網(wǎng)站。

一旦我開始分析網(wǎng)站，我注意到幾頁奇怪的尖峰爬在谷歌搜索控制臺抓取統(tǒng)計報告（GSC）。例如，谷歌通常會爬行大約每天3000頁，但前兩穗猛增至近20000。然后兩更突破11000。

不用說，我是在發(fā)現(xiàn)為什么那些尖峰發(fā)生興趣。有SEO網(wǎng)站上的技術問題？有引起穗外部因素嗎？或者這是Googlebot異常？我趕緊伸手將我的客戶對我所看到的。

穗狀花序爬行：有時期待，有時不

我問我的客戶，如果他們實施任何大規(guī)模的變化的基礎上，我建議可以在爬行引發(fā)穗。他們還沒。記得，我剛開始幫助他們。

另外，我剛剛完成了兩個大型爬行網(wǎng)站并沒有看到任何奇怪的技術問題可能是導致Googlebot SEO抓取許多額外的頁面或資源：編碼故障可能導致谷歌抓取許多近重復的網(wǎng)頁，拙劣的分頁，分面導航等。我沒有找到任何這些問題在網(wǎng)站上（至少根據(jù)第一套爬）。

現(xiàn)在，值得注意的是，谷歌可以增加爬行，當它看到大規(guī)模的變化在一個網(wǎng)站 -例如，一個站點遷移，重新設計或改變許多網(wǎng)址的網(wǎng)站上。谷歌站長趨勢分析師John Mueller解釋了這幾次。

下面的圖片顯示什么能像。這是從一個網(wǎng)站，我正在幫助一個HTTPS遷移（不是網(wǎng)站我在后覆蓋）。注意在爬行后遷移發(fā)生的穗。這是完全正常的：

但這是不是發(fā)生了什么事，在這種情況下。現(xiàn)場有沒有大規(guī)模的變化，但。在審查的情況，我的決定是明確的：

釋放日志文件！

分析Googlebot爬行日志文件[案例]

服務器電源的日志

日志文件包含了網(wǎng)站活動的原始數(shù)據(jù)，包括從用戶和搜索引擎的訪問。使用日志，你可以挖掘到每個訪問事件看哪些網(wǎng)頁和資源被抓取，響應代碼返回，引薦，IP地址和更多。我很想看看，在爬行了穗。

如果你從未處理的日志文件，你應該知道他們可以得到相當大的。例如，看到是在文件大小幾百兆的日志文件，這是不尋常的（或高容量的網(wǎng)站甚至更大）。這是一個日志文件是我的工作。這是696mb。

在分析日志文件的第一集，在進行儀表板講了一個有趣的故事。響應碼圖顯示404s大幅飆升，Googlebot遇到。這看起來有問題。

我注意到通往陌生網(wǎng)址看起來像拙劣的頁面包含成千上萬的視頻事件，和我的客戶的網(wǎng)站不包含其中的一個URL。在這段時間的404s大部分是由于陌生網(wǎng)址。

但事情看起來并沒有對那些“Googlebot”事件。更多的情況下。

情節(jié)復雜起來：欺騙

我總是告誡人們才挖到自己的日志文件，他們可能會看到一些令人不安的事情。記住，日志包含網(wǎng)站上的所有活動，包括所有機器人的活動。很不幸的是不尋常的看到許多機器人抓取網(wǎng)站獲得英特爾…或者更惡毒的原因。

例如，你可能會看到爬蟲試圖了解更多關于你的網(wǎng)站（一般從競爭對手）。你也可以看到黑客攻擊。例如，從IP地址隨機事件的錘擊你的WordPress的登錄頁面。

分析Googlebot爬行日志文件[案例]

所以，這是在404s穗擦我浮出水面，從“Googlebot”。我很快就注意到許多假冒Googlebot的事件（從幾個不同的IP地址）。尖叫的青蛙日志分析器有一個俏皮的“驗證程序”，我充分利用特征。

它知道真正的Googlebot釘在這段時間內有趣的（通過GSC報告），而偽造的Googlebots也擊網(wǎng)站的那段時間。但我不能在日志文件中發(fā)現(xiàn)任何驗證Googlebot尖峰。

所以我們研究和收集的一些壞演員IPS 和看到他們是不是從谷歌。我的客戶現(xiàn)在是處理這些IPS。這是一個聰明的做法，特別是如果你看到來自特定IP地址欺騙Googlebot回訪。我們經(jīng)歷了這個過程的第二穗以及。

這是提升你的發(fā)動機罩和一些瘋狂的問題找到一個很好的例子（或燃料被添加到您的引擎）。你可以接近休克誓要永遠再看看引擎蓋，或者你可以解決問題的長期。清掃地毯下的問題在這里永遠不可能是真正的解決方案。

分析Googlebot爬行日志文件[案例]
將真正的Googlebot的請站起來？

在分析前兩個尖峰，我還沒有看到任何驗證Googlebot的問題。（我指的是谷歌真正的爬行網(wǎng)站并沒有不同的爬蟲欺騙Googlebot的。）所以，在GSC抓取統(tǒng)計并秒殺，但服務器日志顯示Googlebot適當正?；顒印＿@是偽造的Googlebots似乎引起的問題。

檢查驗證Googlebot的活動與欺騙下活動：

抓取數(shù)據(jù)恢復正常，然后再次上漲

我們已檢查抓取統(tǒng)計報告在GSC經(jīng)常監(jiān)測情況（對于房Googlebot）。抓取數(shù)據(jù)恢復正常了，但添加第三和第四的時間（在第一個屏幕截圖看到我分享以上）。最近的上漲是超過11000頁的爬行。

檢查記錄揭示了很多的網(wǎng)址，不要在網(wǎng)站上存在（而不是視頻網(wǎng)址之前）。這是由Googlebot適當?shù)脑L問（驗證）。我很高興看到我們終于抓住了一些真正的Googlebot問題（而不只是欺騙Googlebot的問題）。

這些URL看起來完全搞砸，有時長幾百字。它看起來像一個編碼錯誤，不斷添加更多的人物和目錄的每個URL連接。我發(fā)信息給我的客戶，他們轉發(fā)信息到他們的領先開發(fā)商。他們一開始不知道谷歌會發(fā)現(xiàn)這些網(wǎng)址。我會掩護下。
Googlebot和404s：微妙的形勢對于SEO

需要明確的是，404s不是問題，如果頁面應該是404。谷歌的John Mueller解釋了很多次。404s是完全自然的在網(wǎng)絡上，而不影響質量的一個網(wǎng)站。

谷歌也寫了一篇文章對404s網(wǎng)站管理員中心博客，如果他們可以傷害你的網(wǎng)站?？娎盏脑u論之間，支持DOC和博客后，你可以放心，404s本身不會引起質量問題。但是，為了確保邪惡是很重要的，不是你偽造的Googlebots錘服務器嘗試影響正常運行時間（和SEO長期）。

我問我的客戶，如果網(wǎng)站有任何性能問題的基礎上，我們看到了爬行的尖峰，并聽到他們根本沒有看到任何問題。網(wǎng)站運行在一個非常強大的服務器，連眼睛都沒有眨一下，當“Googlebot”添加在爬行。

谷歌是如何找到這些長的網(wǎng)址嗎？

在爬這些長URL的分析，我可以看到破碎的URL和一些JavaScript文件之間的連接。我相信谷歌是尋找URL（或形成URL）基于JavaScript代碼。

你會發(fā)現(xiàn)，谷歌提到的可能性，這發(fā)生在我上面列出的支持文件。所以如果你看到URL被抓取谷歌，并在您的網(wǎng)站上目前沒有，那么Googlebot可以找到那些網(wǎng)址通過JavaScript或其他嵌入式內容。這也是重要的是要知道。

我們學到了什么（不知道）

正如我前面所說，挖掘服務器日志可以是有益的和令人不安的。另一方面，你可以發(fā)現(xiàn)問題，Googlebot的遭遇，然后解決這些問題。另一方面，你可以看到邪惡的東西，如黑客攻擊、偽造Googlebots抓取您的網(wǎng)站獲得英特爾，或其他試圖錘服務器。

這里有一些我們學到的東西通過這個練習：

    我們可以清楚地看到偽造的Googlebots爬行網(wǎng)站，許多人打怪404s。我的客戶能夠解決那些流氓IPS，錘擊服務器。
    我們看到了一個真正的Googlebot（驗證）爬行看起來是拙劣的URL（基于發(fā)現(xiàn)通過JavaScript鏈接）。利用這些數(shù)據(jù)，我的客戶可以挖掘到的技術問題，可以得到那些長長的，拙劣的URL。
    我們發(fā)現(xiàn)所有的尖刺從Googlebot也<strong>不會</strong>被顯示在GSC。這很奇怪，我不知道如果這是一個報告的問題在谷歌的結束或者別的什么。但是，我們也發(fā)現(xiàn)了一些真正從Googlebot尖峰，我們解決了。
    也許最重要的是，我的客戶可以清楚地看到，例如SEO的軟肋，許多偽造的Googlebots爬行網(wǎng)站獲得英特爾，或者更惡毒的原因。但至少我的客戶都知道這是現(xiàn)在正在發(fā)生的（通過數(shù)據(jù)）?，F(xiàn)在他們要形成一種處理流氓機器人計劃。

總結：日志文件可以揭示表面之下的險惡的問題

當你打破它，網(wǎng)站所有者，真的不知道是誰，或是完整的故事，是爬行網(wǎng)站直到他們分析自己的服務器日志。谷歌分析將不提供此數(shù)據(jù)。你必須了解你的日志表面機器人訪問你的網(wǎng)站。

所以，如果你能找到一個尖峰在爬行，你在想什么，別忘了你的日志！他們可以是一個寶貴的數(shù)據(jù)，可以幫助揭開SEO神秘源（可能是陰險的問題亟待解決）。不要害怕去挖掘尋找答案。記住，你可能需要準備好。

將文章分享到..

上一篇使用20個CSS來解決常見錯誤和修復

下一篇搜索引擎優(yōu)化最佳實踐規(guī)范的網(wǎng)址+標準標簽

性少妇MDMS丰满HDFLLM,苍井空女教师未删减MP4,免费无码又爽又黄又刺激网站,色婷婷小说

專注于深圳網(wǎng)站制作網(wǎng)站設計，專業(yè)的深圳建站公司供應商！

首頁

建站服務

網(wǎng)站制作案例

解決方案

網(wǎng)站設計報價

網(wǎng)站制作動態(tài)

關于我們

聯(lián)系我們

深圳網(wǎng)站優(yōu)化排名將想法與焦點和您一起共享

分析Googlebot爬行日志文件[案例]

推薦新聞

互聯(lián)網(wǎng)非法內容的版權侵權

搜索引擎優(yōu)化技術應該發(fā)揮的作用

谷歌搜索現(xiàn)在對應是用戶的位置

反向鏈接任何網(wǎng)站都需要知道

搜索引擎優(yōu)化最佳實踐規(guī)范的網(wǎng)址+標準標簽

專注于深圳網(wǎng)站制作網(wǎng)站設計，專業(yè)的深圳建站公司供應商！

深圳網(wǎng)站優(yōu)化排名 將想法與焦點和您一起共享

分析Googlebot爬行日志文件[案例]

推薦新聞

互聯(lián)網(wǎng)非法內容的版權侵權

搜索引擎優(yōu)化技術應該發(fā)揮的作用

谷歌搜索現(xiàn)在對應是用戶的位置

反向鏈接任何網(wǎng)站都需要知道

搜索引擎優(yōu)化最佳實踐規(guī)范的網(wǎng)址+標準標簽

專注于深圳網(wǎng)站制作網(wǎng)站設計，專業(yè)的深圳建站公司供應商！

深圳網(wǎng)站優(yōu)化排名將想法與焦點和您一起共享