<ul id="mayc0"></ul>

<ul id="mayc0"></ul>

百度竟然采集搜狐的內容

發布時間: 2012/9/5 12:02:01

劉秀高今天在搜索的時候，無意中發現"小說"這個詞排名第8的站，網站描述非常簡單：“含各類小說作品,包括武俠、言情、玄幻等作品。”

按常理來說，這種超級熱門的詞，站長應該懂點seo和簡單的優化，不應該連網站的描述標簽都寫不好，這么簡單。于是，我想是不是百度采用了DMOZ的網站描述，大家都知道Dmoz被多數主要搜索引擎所采用。但是到dmoz搜索了一下2100book.com，發現這個網站并沒有被收錄。

然后我打開這個網站看了下，其主要標簽寫法如下：

描述標簽并不是百度采用描述那樣，有<meta name="ROBOTS" content="NOODP">這個標簽，說明站長也以為百度是采用的ODP描述，所以加了這個代碼，但是事實上卻不是。然后我查看源文件，搜索了下含各類小說作品,包括武俠、言情、玄幻等作品這句話，發現頁面上并沒有。

既然百度既沒有采用網站寫的描述，也沒有抓取頁面上的內容作描述，更不是dmoz的描述，那這句網站描述是怎么來的呢。

于是，我到技術最強大的google搜索，google了一把，搜索 "含各類小說作品,包括武俠、言情、玄幻等作品。"，注意帶雙引號，意思是完整匹配，發現第一個結果就是小說文學搜狐分類目錄，其他的就是一些小網站和個人博客了。百度當然不可能去采用哪些小網站的內容，唯一的可能就是采用了搜狐的分類目錄。

我再從這里選取了一些網站來百度搜索網站名字，發現百度的描述果然用的搜狐的。有個別不一樣的，我推測可能是這個原因，百度只是一次抓取了搜狐的分類目錄內容，并沒有隨之更新，而搜狐的分類是不斷添加內容的，也就是說，描述不相同的網站是百度抓取搜狐分類目錄的時候，還沒有登陸進來。

大家可以來測試下，看看我的推斷是否準確。

劉秀高原創，首發于上海seo，轉載必須以鏈接形式注明出處。
本文出自：億恩科技【www.vbseamall.com】

億恩北京公司：

經營性ICP/ISP證：京B2-20150015

億恩鄭州公司：

經營性ICP/ISP/IDC證：豫B1.B2-20060070

億恩南昌公司：

經營性ICP/ISP證：贛B2-20080012

服務器/云主機 24小時售后服務電話：0371-60135900

虛擬主機/智能建站 24小時售后服務電話：0371-60135900

掃掃關注-微信公眾號

0371-60135900

服務器租用