• <ul id="mayc0"></ul>
    <ul id="mayc0"><center id="mayc0"></center></ul>
    <strike id="mayc0"><input id="mayc0"></input></strike>
    <ul id="mayc0"></ul>
  • 始創于2000年 股票代碼:831685
    咨詢熱線:0371-60135900 注冊有禮 登錄
    • 掛牌上市企業
    • 60秒人工響應
    • 99.99%連通率
    • 7*24h人工
    • 故障100倍補償
    您的位置: 網站首頁 > 幫助中心>文章內容

    關于網站日志中的不完整url或莫名其妙的url抓取

    發布時間:  2012/9/14 10:53:31
     在分析日志的過程中,往往會發現404狀態下有一些或者很多的不完整的url或者比原url多出字段的莫名其妙的網站本身不存在的url的抓取。在群里面也見有人問過類似的情況,覺得這是一個大家普遍都會遇見的問題,有猜測過有可能是被別人采集才導致這樣的問題出現,在上課的時候問過國平老大,當時國平老大說有可能是爬蟲在抓取url的時候下載不完整,但是這都沒有一個具體的數據來支撐,總是覺得很朦朧沒把握。

    現在,google管理員工具可以很清晰的用數據為你揭曉這其中的詫異了,google管理員工具是國平老大非常推崇的一個seo工具,有人覺得做百度的人不需要google的東西,因為百度和google的算法有差別,那下面介紹google管理員的這個功能可以告訴你這樣的想法是大錯特錯的,管理員工具是一個按照網站seo各項考核標準制定的一個最最權威的seo工具,做seo需要的數據,絕大部分都可以從這里面獲取,下面就來介紹管理員工具的這個功能(好像是最近更新的,以前不是這樣子)。

    首頁看下百度日志里面的怪異404

    1.png

    這些url的入口在哪里呢?搜索引擎是從什么地方獲取這些url的?

    Google告訴你

    首先介紹下google管理員工具關于抓取錯誤的功能

    2.png

    下面是另一個網站由于改版問題沒做跳轉和抓取攔截所造成的找不到抓取錯誤,有一很完整的曲線可以讓你很清晰的看見網站存在的這方面的問題的變化趨勢

    3.png

    和服務器問題造成的抓取錯誤

    5.png

    接第一張圖(同一個網站)

    一開始從日志中觀察到這些錯誤,但是不知道這些錯誤的來源

    7.png

    現在可以知道這些錯誤的url是從何而來

    點擊第102條,彈出下面的框,url不在sitemap中,但是在自己的其他網站里面出現,說明網址是網站自身存在的但是已經被刪除了

    8.png

    點擊第110條,彈出下面的框,可以看到搜索引擎是從其他網站過來的(或是采集站,或是其他)

    9.png

    點擊進入具體的來源頁面可以看到

    至此,可以很明確的知道,到底網站日志里面的出現的那些莫名其妙的url到底是怎么回事了,是自己站內存在的還是站外錯誤構成的。最近更新的還有其他的功能,感興趣的朋友可以親自用用體驗下。 
    本文出自:億恩科技【www.vbseamall.com】

    服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線