盡可能的節(jié)省爬蟲(chóng)的抓取時(shí)間 |
發(fā)布時(shí)間: 2012/7/29 23:57:12 |
好幾天沒(méi)有更新文章了,不知道該寫(xiě)一些什么了。后知在這段時(shí)間里,發(fā)現(xiàn)自己是越來(lái)越菜了,好多東西掌握的不夠踏實(shí)。后知的這個(gè)河北SEO博客,起初就是為了做好排名,之后又覺(jué)得沒(méi)有什么意義,就直接是和大家分享東西的了。把排名沒(méi)有放在心上了,Seo外包反而石家莊SEO、石家莊優(yōu)化這兩個(gè)關(guān)鍵詞倒是上去了。這一段時(shí)間內(nèi),發(fā)現(xiàn)用數(shù)據(jù)分析來(lái)做SEO是越來(lái)越重要了,同樣也感覺(jué)到做SEO要基于了解搜索引擎的基礎(chǔ)上來(lái)做,這里后知和大家說(shuō)下搜索引擎爬蟲(chóng)抓取的兩種方式,希望哪里不對(duì)的地方進(jìn)行拍磚。 首先,搜索引擎爬蟲(chóng)在進(jìn)行抓取的時(shí)候,會(huì)采取兩種方式來(lái)抓取:新聞稿發(fā)布深度優(yōu)先和寬度優(yōu)先的方式進(jìn)行爬取。 第一種,深度優(yōu)先遍歷抓取。深度優(yōu)先抓取就類(lèi)似后知博客這樣的,關(guān)鍵詞排名石家莊SEO首頁(yè)>石家莊網(wǎng)站優(yōu)化基礎(chǔ)>下級(jí)欄目,首選抓取是以這樣的方式來(lái)抓取的,等到抓取完畢這些欄目之后,在進(jìn)行抓“石家莊網(wǎng)站優(yōu)化基礎(chǔ)”欄目下的文章,這樣就是深度優(yōu)先策略,類(lèi)似于家庭關(guān)系一樣。長(zhǎng)子、次子然后是長(zhǎng)孫等這樣的關(guān)系,后知博客沒(méi)有那么深的欄目,所以看不到這樣的效果。 第二種,就是寬度優(yōu)先的遍歷抓取。這種方式的抓取,深度是不斷的在增加的。類(lèi)似于這樣的“首頁(yè) > SEO技術(shù) > 網(wǎng)站日志如何分析”爬蟲(chóng)來(lái)的你網(wǎng)站,會(huì)順著一個(gè)欄目一級(jí)級(jí)向下抓取,等這個(gè)“SEO技術(shù)”欄目下被抓取完畢后,在進(jìn)行其子下一個(gè)欄目。這樣的寬度抓取是有一定的原因的,基于網(wǎng)站布局的問(wèn)題,往往是重要的頁(yè)面距離種子站點(diǎn)(種子站點(diǎn)是爬蟲(chóng)開(kāi)始抓取癿起點(diǎn))是比較近的,這樣符合習(xí)慣。所以,你可以看到一個(gè)大型門(mén)戶(hù)站點(diǎn),最容易看到的是一些實(shí)事新聞,這點(diǎn)是距離種子站點(diǎn)越近可以理解為越重要的頁(yè)面;其次,中文萬(wàn)維網(wǎng)的深度沒(méi)有我們想象的那么深,到達(dá)一個(gè)網(wǎng)頁(yè)路徑不僅僅是一個(gè),所以爬蟲(chóng)總能找到最近的路徑到達(dá)當(dāng)前頁(yè)面,據(jù)相關(guān)數(shù)據(jù)表明中文萬(wàn)維網(wǎng)的深度為17;還有一點(diǎn)就是,多爬蟲(chóng)的合作策略,基于這個(gè)規(guī)則大部分的抓取的起始網(wǎng)頁(yè)為站內(nèi)的,逐漸的才會(huì)轉(zhuǎn)向站外的鏈接,抓取的封閉性是比較強(qiáng)的。 基于上述的兩種抓取方式,我們可以看出,我們盡可能的節(jié)省爬蟲(chóng)的抓取時(shí)間,因?yàn)榕老x(chóng)到你網(wǎng)站的時(shí)間是一定的,縮短其單頁(yè)面的抓取時(shí)間會(huì)提高你網(wǎng)站的抓取量,進(jìn)而會(huì)影響你網(wǎng)站的收錄量,最終能夠影響到你網(wǎng)站的SEO流量。根據(jù)以上兩種方式,來(lái)合理布局你網(wǎng)站的內(nèi)容,讓爬蟲(chóng)能夠很容易的抓取到你想要被抓取的東西,這樣合理的布局好內(nèi)容,讓網(wǎng)站的seo流量有一個(gè)突破瓶頸的提升。 本文出自:億恩科技【www.vbseamall.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |