性少妇MDMS丰满HDFLLM,苍井空女教师未删减MP4,免费无码又爽又黄又刺激网站,色婷婷小说

 
深圳網(wǎng)站優(yōu)化排名

將想法與焦點和您一起共享

深圳網(wǎng)站建設設計 深圳網(wǎng)站優(yōu)化排名 深圳網(wǎng)站設計制作欣賞

分析Googlebot爬行日志文件[案例]

2017-07-17  閱讀: 深圳網(wǎng)站建設設計

分析Googlebot爬行日志文件[案例]
深圳網(wǎng)站建設效益分析Googlebot爬行尖峰通過日志文件[案例]沖擊
網(wǎng)站主真的不知道是誰,或是完整的故事,是爬行網(wǎng)站直到他們分析自己的服務器日志。專欄作家Glenn Gabe股份為例,闡述了一些見解,可以從服務器日志文件分析收集到的。


我最近開始幫助一個網(wǎng)站,受到負面影響5月17日更新算法。該網(wǎng)站已經(jīng)很長一段時間的上網(wǎng)質量的灰色地帶,澎湃有質量的更新,有時滴。所以我開始挖掘通過抓取分析和審計的網(wǎng)站。

一旦我開始分析網(wǎng)站,我注意到幾頁奇怪的尖峰爬在谷歌搜索控制臺抓取統(tǒng)計報告(GSC)。例如,谷歌通常會爬行大約每天3000頁,但前兩穗猛增至近20000。然后兩更突破11000。

不用說,我是在發(fā)現(xiàn)為什么那些尖峰發(fā)生興趣。有SEO網(wǎng)站上的技術問題?有引起穗外部因素嗎?或者這是Googlebot異常?我趕緊伸手將我的客戶對我所看到的。


穗狀花序爬行:有時期待,有時不

我問我的客戶,如果他們實施任何大規(guī)模的變化的基礎上,我建議可以在爬行引發(fā)穗。他們還沒。記得,我剛開始幫助他們。

另外,我剛剛完成了兩個大型爬行網(wǎng)站并沒有看到任何奇怪的技術問題可能是導致Googlebot SEO抓取許多額外的頁面或資源:編碼故障可能導致谷歌抓取許多近重復的網(wǎng)頁,拙劣的分頁,分面導航等。我沒有找到任何這些問題在網(wǎng)站上(至少根據(jù)第一套爬)。

現(xiàn)在,值得注意的是,谷歌可以增加爬行,當它看到大規(guī)模的變化在一個網(wǎng)站 -例如,一個站點遷移,重新設計或改變許多網(wǎng)址的網(wǎng)站上。谷歌 站長趨勢分析師John Mueller解釋了這幾次。

下面的圖片顯示 什么能像。這是從一個網(wǎng)站,我正在幫助一個HTTPS遷移(不是網(wǎng)站我在后覆蓋)。注意在爬行后遷移發(fā)生的穗。這是完全正常的:

但這是不是發(fā)生了什么事,在這種情況下。現(xiàn)場有沒有大規(guī)模的變化,但。在審查的情況,我的決定是明確的:

釋放日志文件!

分析Googlebot爬行日志文件[案例]

服務器電源的日志

日志文件包含了網(wǎng)站活動的原始數(shù)據(jù),包括從用戶和搜索引擎的訪問。使用日志,你可以挖掘到每個訪問事件看哪些網(wǎng)頁和資源被抓取,響應代碼返回,引薦,IP地址和更多。我很想看看,在爬行了穗。

如果你從未處理的日志文件,你應該知道他們可以得到相當大的。例如,看到是在文件大小幾百兆的日志文件,這是不尋常的(或高容量的網(wǎng)站甚至更大)。這是一個日志文件是我的工作。這是696mb。

在分析日志文件的第一集,在進行儀表板講了一個有趣的故事。響應碼圖顯示404s大幅飆升,Googlebot遇到。這看起來有問題。

我注意到通往陌生網(wǎng)址看起來像拙劣的頁面包含成千上萬的視頻事件,和我的客戶的網(wǎng)站不包含其中的一個URL。在這段時間的404s大部分是由于陌生網(wǎng)址。

但事情看起來并沒有對那些“Googlebot”事件。更多的情況下。

 

情節(jié)復雜起來:欺騙

我總是告誡人們才挖到自己的日志文件,他們可能會看到一些令人不安的事情。記住,日志包含網(wǎng)站上的所有活動,包括所有機器人的活動。很不幸的是不尋常的看到許多機器人抓取網(wǎng)站獲得英特爾…或者更惡毒的原因。

例如,你可能會看到爬蟲試圖了解更多關于你的網(wǎng)站(一般從競爭對手)。你也可以看到黑客攻擊。例如,從IP地址隨機事件的錘擊你的WordPress的登錄頁面。

分析Googlebot爬行日志文件[案例]

所以,這是在404s穗擦我浮出水面,從“Googlebot”。我很快就注意到許多假冒Googlebot的事件(從幾個不同的IP地址)。尖叫的青蛙日志分析器有一個俏皮的“驗證程序”,我充分利用特征。

它知道真正的Googlebot釘在這段時間內有趣的(通過GSC報告),而偽造的Googlebots也擊網(wǎng)站的那段時間。但我不能在日志文件中發(fā)現(xiàn)任何驗證Googlebot尖峰。

所以我們研究和收集的一些壞演員IPS 和看到他們是不是從谷歌。我的客戶現(xiàn)在是處理這些IPS。這是一個聰明的做法,特別是如果你看到來自特定IP地址欺騙Googlebot回訪。我們經(jīng)歷了這個過程的第二穗以及。

這是提升你的發(fā)動機罩和一些瘋狂的問題找到一個很好的例子(或燃料被添加到您的引擎)。你可以接近休克誓要永遠再看看引擎蓋,或者你可以解決問題的長期。清掃地毯下的問題在這里永遠不可能是真正的解決方案。

分析Googlebot爬行日志文件[案例]
將真正的Googlebot的請站起來?

在分析前兩個尖峰,我還沒有看到任何驗證Googlebot的問題。(我指的是谷歌真正的爬行網(wǎng)站并沒有不同的爬蟲欺騙Googlebot的。)所以,在GSC抓取統(tǒng)計并秒殺,但服務器日志顯示Googlebot適當正?;顒印_@是偽造的Googlebots似乎引起的問題。

檢查驗證Googlebot的活動與欺騙下活動:

 

抓取數(shù)據(jù)恢復正常,然后再次上漲

我們已檢查抓取統(tǒng)計報告在GSC經(jīng)常監(jiān)測情況(對于房Googlebot)。抓取數(shù)據(jù)恢復正常了,但添加第三和第四的時間(在第一個屏幕截圖看到我分享以上)。最近的上漲是超過11000頁的爬行。

檢查記錄揭示了很多的網(wǎng)址,不要在網(wǎng)站上存在(而不是視頻網(wǎng)址之前)。這是由Googlebot適當?shù)脑L問(驗證)。我很高興看到我們終于抓住了一些真正的Googlebot問題(而不只是欺騙Googlebot的問題)。

這些URL看起來完全搞砸,有時長幾百字。它看起來像一個編碼錯誤,不斷添加更多的人物和目錄的每個URL連接。 我發(fā)信息給我的客戶,他們轉發(fā)信息到他們的領先開發(fā)商。他們一開始不知道谷歌會發(fā)現(xiàn)這些網(wǎng)址。我會掩護下。
Googlebot和404s:微妙的形勢對于SEO

需要明確的是,404s不是問題,如果頁面應該是404。谷歌的John Mueller解釋了很多次。404s是完全自然的在網(wǎng)絡上,而不影響質量的一個網(wǎng)站。

谷歌也寫了一篇文章對404s網(wǎng)站管理員中心博客,如果他們可以傷害你的網(wǎng)站??娎盏脑u論之間,支持DOC和博客后,你可以放心,404s本身不會引起質量問題。但是,為了確保邪惡是很重要的,不是你偽造的Googlebots錘服務器嘗試影響正常運行時間(和SEO長期)。

我問我的客戶,如果網(wǎng)站有任何性能問題的基礎上,我們看到了爬行的尖峰,并聽到他們根本沒有看到任何問題。網(wǎng)站運行在一個非常強大的服務器,連眼睛都沒有眨一下,當“Googlebot”添加在爬行。


谷歌是如何找到這些長的網(wǎng)址嗎?

在爬這些長URL的分析,我可以看到破碎的URL和一些JavaScript文件之間的連接。我相信谷歌是尋找URL(或形成URL)基于JavaScript代碼。

你會發(fā)現(xiàn),谷歌提到的可能性,這發(fā)生在我上面列出的支持文件。所以如果你看到URL被抓取谷歌,并在您的網(wǎng)站上目前沒有,那么Googlebot可以找到那些網(wǎng)址通過JavaScript或其他嵌入式內容。這也是重要的是要知道。


我們學到了什么(不知道)

正如我前面所說,挖掘服務器日志可以是有益的和令人不安的。另一方面,你可以發(fā)現(xiàn)問題,Googlebot的遭遇,然后解決這些問題。另一方面,你可以看到邪惡的東西,如黑客攻擊、偽造Googlebots抓取您的網(wǎng)站獲得英特爾,或其他試圖錘服務器。

這里有一些我們學到的東西通過這個練習:

    我們可以清楚地看到偽造的Googlebots爬行網(wǎng)站,許多人打怪404s。我的客戶能夠解決那些流氓IPS,錘擊服務器。
    我們看到了一個真正的Googlebot(驗證)爬行看起來是拙劣的URL(基于發(fā)現(xiàn)通過JavaScript鏈接)。利用這些數(shù)據(jù),我的客戶可以挖掘到的技術問題,可以得到那些長長的,拙劣的URL。
    我們發(fā)現(xiàn)所有的尖刺從Googlebot也<strong>不會</strong>被顯示在GSC。這很奇怪,我不知道如果這是一個報告的問題在谷歌的結束或者別的什么。但是,我們也發(fā)現(xiàn)了一些真正從Googlebot尖峰,我們解決了。
    也許最重要的是,我的客戶可以清楚地看到,例如SEO的軟肋,許多偽造的Googlebots爬行網(wǎng)站獲得英特爾,或者更惡毒的原因。但至少我的客戶都知道這是現(xiàn)在正在發(fā)生的(通過數(shù)據(jù))?,F(xiàn)在他們要形成一種處理流氓機器人計劃。


總結:日志文件可以揭示表面之下的險惡的問題

當你打破它,網(wǎng)站所有者,真的不知道是誰,或是完整的故事,是爬行網(wǎng)站直到他們分析自己的服務器日志。谷歌分析將不提供此數(shù)據(jù)。你必須了解你的日志表面機器人訪問你的網(wǎng)站。

所以,如果你能找到一個尖峰在爬行,你在想什么,別忘了你的日志!他們可以是一個寶貴的數(shù)據(jù),可以幫助揭開SEO神秘源(可能是陰險的問題亟待解決)。不要害怕去挖掘尋找答案。記住,你可能需要準備好。

 

將文章分享到..