百度工程師Lee關于百度優化的問答整理 |
發布時間: 2012/9/5 11:27:46 |
在8月10日的“站長門診開放日”活動中Lee為站長們答疑。Lee這個帳號是來自百度網頁搜索產品市場部。
百度網頁搜索產品市場部對外界而言,這個團隊就是個傳說,在百度內部,這個團隊也同樣帶著極其濃郁的神秘色彩,也因神秘,外界對他們充滿了好奇和猜測,甚至還有一些誤解。 下面為百度站長門診開放日問答整理: keywords(關鍵詞)還有用嗎? meta keywords早就進歷史的垃圾堆了,我們會直接忽略。 網站快照一直停留不動是什么原因? 關于快照的更新時間,尤其是首頁的更新時間,我一直建議不要參考,這個時間跟網站的價值沒有任何的關系。 在百度眼中什么是高質量的站點? 關于這個問題,請大家換位思考一下,作用一個搜索引擎,所追求的最終目標是為用戶提供最有價值的信息,我們希望大家有一個最低限度的判斷,那就是將自己作為一個普通的用戶,通過搜索引擎搜索到自己的網站時,自己相不相信自己網站上的信息,自己覺不覺得這是互聯網上最好的信息。 我們通過反饋渠道收集到聲稱自己網站是原創、高質量網站的反饋,其中80%多都是無效的,甚至大量聲稱老中醫3-5天治愈絕癥的網站,通篇內容讀不通,聲稱自己是高質量的網站。 如果互聯網非常純潔,那我們也不會花費大量人力去識別網站的質量,也就不會有誤傷。 但互聯網越來越不保險,我們的策略也越來越復雜,只要對技術有一定了解的人,都應該知道誤傷是無法避免的,我們也盡最大的努力將誤傷降到最低限度。 搜索引擎對網頁價值的判斷,不是從字數出發的,而是從其資源質量出發的,只要是對用戶有價值的內容,不論長短,我們都會給一個合理的評價,如果這個網站上提供的內容或者服務非常有價值,無可替代,那對搜索引擎來講,就是一個高質量的網站。 link標簽 rel=canonical 屬性百度支持嗎? 這個問題很關鍵,我們有大量同質的內容。 canonical 目前不支持,不過已計劃要支持了。(注:canonical 標簽可以為搜索引擎指明當前頁面權重的側重點在于哪個鏈接,從而有助于 SEO。) 我有一個商城類網站,因為會經常產生大量下架商品,產生下架商品后,程序會返回一個只有模板的空頁面,沒有任何具體商品信息。以前我把這些下架商品所在的頁面設置為404,在日志里看到大量的404狀態碼,請問這樣會不會影響我網站的質量,長期下去造成收錄和排名下降? 我們鼓勵站長為死鏈返回規范的404代碼,不歡迎給死鏈返回200代碼。只要是正確的返回404,對網站沒有任何影響,還可以減少baiduspider抓取給服務器造成的負擔。如果死鏈數量較多,建議通過站長平臺提交死鏈列表,更高效一些。 雖然百度的官方不承認有降權蜘蛛的說法,但是例如:123.125.*段的蜘蛛出現,網站在排名、收錄上快照、都會存在異常,是否可以理解為這段IP的蜘蛛雖然不是降權蜘蛛,但可以認為是自身網站出現了問題,百度對于網站的考察和警示呢?是百度對網站所提出的警告呢? Baiduspider只有一種,不存在什么降權蜘蛛。不過你所提到的對網站的警示,我們會在站長平臺中考慮。(終于知道可能有降權蜘蛛的存在。) 一個專題專欄,里面大都是一些靜態頁面,但是百度一直不收錄,是什么原因? 根據你提供的query,我找出這個欄目隨便看了幾個網頁,都收錄了,貴站犯了一個非常常見的錯誤,同一個網頁,有兩種以上的url形式,我們收錄的,是不帶index.aspx的那種。建議參考《百度搜索引擎優化指南》中關于url規范的部分。 為什么帶www的網站不穩定,有時候被收錄,有時候又找不到了。 看不到實例的話,誰也說不準到底是什么原因,建議你到http://tousu.baidu.com/webmaster/suggest 給一下具體的實例,應該是一種異常現象 百度對于一篇原創文章的判斷到底是怎樣的標準?現在憑借發布時間來判斷兩篇相同文章哪篇是原創還無法實現,這一點百度說明過,但是現在的情況是很多新站,權重低的網站站長自己辛辛苦苦一點點碼字寫出來 的原創文章,被高權重網站轉載,雖然注明了出處,但是對于百度來說,如果僅僅因為轉載網站權重高就判斷為原創文章,那就意味著低權重網站被誤判為抄襲或轉 載,這樣顯然很不公平,請問對于判斷文章原創問題,百度搜索團隊是否有解決方案,或者直接回答我們“百度是否能判斷出哪篇文章才是原創的”。 我們正在計劃在原創方面做一些改進。原創識別是一個很有技術含量的話題,不是簡單的幾種規則就能做好的,互聯網很復雜,人心更復雜,不過我們有信心逐步的去解決這個問題,其中也需要站長朋友多提供相關的問題和建議。 被誤傷的網站有沒有恢復的期限,是半年,還是一年?或者更長? 我們的策略都會定期的review/改進,不同的策略有不同的周期,天級到月級不等,我們會持續的改進策略,以減少誤傷。 百度對于網站分隔符、網站結構是否有自己的標準? 網站的結構在保證用戶體驗的前提下,適當的做一些對spider的優化會有助于收錄,我們推薦扁平的樹型結構。《百度搜索引擎優化指南》中有詳細的說明。 目前醫療網站內容同質化嚴重,請問百度是如何來判定。 關于同質內容,先透露一下,我們正在設計一套較完善的原創識別算法,不久之后也會邀請站長朋友給我們一些建議及抄襲的實例用做算法調整之用。 一個網頁多大合適,有的頁面大小過200k,我一般都注意在110k以內,這個有數字標準嗎? 網頁大小建議以用戶能接受的程度為準,對百度來講,我們能接受的網頁大小肯定已經超出普通網頁平均大小的數十倍,完全不用擔心。 寫在最后: 還是引用Lee的一句話作為結束語:“我每天為了迎合你不惜犧牲自己的休息時間手工外鏈到凌晨三點”,這不是百度倡導的運營行為,我們倡導優質內容,大量發外鏈很可能被判為超鏈作弊,請好好運營優質原創內容,謝謝! 本文出自:億恩科技【www.vbseamall.com】 |