百度竟然采集搜狐的內容 |
發布時間: 2012/9/5 12:02:01 |
劉秀高今天在搜索的時候,無意中發現"小說"這個詞排名第8的站,網站描述非常簡單:“含各類小說作品,包括武俠、言情、玄幻等作品。” 按常理來說,這種超級熱門的詞,站長應該懂點seo和簡單的優化,不應該連網站的描述標簽都寫不好,這么簡單。于是,我想是不是百度采用了DMOZ的網站描述,大家都知道Dmoz被多數主要搜索引擎所采用。但是到dmoz搜索了一下2100book.com,發現這個網站并沒有被收錄。 然后我打開這個網站看了下,其主要標簽寫法如下: <meta name="ROBOTS" content="NOODP"> 描述標簽并不是百度采用描述那樣,有<meta name="ROBOTS" content="NOODP">這個標簽,說明站長也以為百度是采用的ODP描述,所以加了這個代碼,但是事實上卻不是。然后我查看源文件,搜索了下 含各類小說作品,包括武俠、言情、玄幻等作品 這句話,發現頁面上并沒有。 既然百度既沒有采用網站寫的描述,也沒有抓取頁面上的內容作描述,更不是dmoz的描述,那這句網站描述是怎么來的呢。 于是,我到技術最強大的google搜索,google了一把, 搜索 "含各類小說作品,包括武俠、言情、玄幻等作品。",注意帶雙引號,意思是完整匹配,發現第一個結果就是小說文學搜狐分類目錄,其他的就是一些小網站和個人博客了。百度當然不可能去采用哪些小網站的內容,唯一的可能就是采用了搜狐的分類目錄。 我再從這里選取了一些網站來百度搜索網站名字,發現百度的描述果然用的搜狐的。有個別不一樣的,我推測可能是這個原因,百度只是一次抓取了搜狐的分類目錄內容,并沒有隨之更新,而搜狐的分類是不斷添加內容的,也就是說,描述不相同的網站是百度抓取搜狐分類目錄的時候,還沒有登陸進來。 大家可以來測試下,看看我的推斷是否準確。 劉秀高原創,首發于上海seo,轉載必須以鏈接形式注明出處。本文出自:億恩科技【www.vbseamall.com】 |