搜索蜘蛛抓取網(wǎng)站頁面的流程介紹

作者：billionnet 發(fā)布于:2012/4/29 20:34:06 點擊量：

搜索引擎的蜘蛛抓取網(wǎng)站頁面的一般過程是這樣的。

首先，收集待索引網(wǎng)站網(wǎng)頁的url。

搜索引擎的蜘蛛一般分為兩類，這第一類的主要工作就是收集網(wǎng)頁的中有效的URL。它們的任務是一刻不停地掃描Internet資源，以隨時更新其搜索引擎龐大的url列表以供它的第二類蜘蛛使用。也就是說，當這一類蜘蛛訪問我們網(wǎng)頁的時候，并不在于索引我們的網(wǎng)頁，而是在尋找網(wǎng)頁中的所有有效鏈接。

關于有的站長在自己的訪問日志中發(fā)現(xiàn)多個蜘蛛IP爬自己站的情況。

我們常用的搜索引擎每天要處理數(shù)以億計的信息，沒有一個大型的搜索引擎公司（GOOGLE或百度之類）不配備上萬臺服務器來共同執(zhí)行這個工作，因此搜索引擎都擁有不同的數(shù)據(jù)中心，也就是說有多個robots來檢索你的站是很正常的事情。

不過這也僅限于第一類蜘蛛，在索引頁面的時候，搜索引擎會限制某個特定的數(shù)據(jù)中心來讓專門索引頁面的蜘蛛檢索你的站。

因此朋友們從服務器訪問日志中時常可以看到源自不同IP的蜘蛛，在很短的時間內頻繁訪問網(wǎng)站。不過千萬不要高興得太早，也許其根本不是在索引你的網(wǎng)頁而只是在掃描url。

補充一下，第一類蜘蛛索引時記錄的信息主要包括網(wǎng)頁的url、最終修改時間等

至于網(wǎng)頁的Head信息是第一類蜘蛛來獲取還是第二類來獲取，很多人都有不同的看法，但我還是比較贊成第一類蜘蛛訪問時就能索取這個信息。

本文地址：http://www.achat-haute-saone.com/c/201241105.html

分享到：

【刷新頁面】【加入收藏】【打印此文】【關閉窗口】

上一篇：企業(yè)網(wǎng)絡視頻廣告的應用分析
下一篇：網(wǎng)站關鍵字優(yōu)化須用好title等三個標簽

公司地址：大連市沙河口區(qū)中山路692號辰熙星海國際2317 客服電話：0411-39943997 QQ：2088827823 37482752

法律聲明：未經(jīng)許可，任何模仿本站模板、轉載本站內容等行為者，本站保留追究其法律責任的權利！隱私權政策聲明

日韩精品免费在线_含咬她的花蒂高潮h|HD中文字幕在线播放,国产精品久久久久久久久久妇女,精品国产乱码久久久久久蜜臀,风流少妇被粗大爽

搜索蜘蛛抓取網(wǎng)站頁面的流程介紹

作者：billionnet 發(fā)布于:2012/4/29 20:34:06 點擊量：