複製鏈接
請複製以下鏈接發送給好友

爬行器

鎖定
爬行器(Spider)指在 Web 上漫遊,尋找要添加進搜索引擎索引中的列表。爬行器有時也稱為 Web 爬行榜(Webcrawler)或機器人。針對有機列表優化頁面也就是為了吸引爬行器的注意。
中文名
爬行器
外文名
Crawler

爬行器基本介紹

網絡爬蟲,也稱為蜘蛛程序(Spider)。網絡爬蟲是一個自動提取網頁的程序,是搜索引擎的重要組成部分。作為爬蟲來講,就是儘可能多和快的給搜索引擎輸送網頁,實現強大的數據支持。
網絡爬蟲是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其他鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。
如果把整個互聯網當成一個網站,那麼網絡爬蟲就可以用這個原理把互聯網上所有的網頁都抓取下來。

爬行器爬行系統

Google為了獲取上億的網頁,設計了一個分佈式的爬行系統。一個URL服務器將URL列表提供給網絡爬行器。每個爬行器同時保持大約300個網絡連接。在最高速度的時候,通過4個爬行器,該系統可以每秒鐘獲取超過100個網頁。

爬行器影響爬行速度原因

影響爬行速度的一個重要因素是DNS查詢,為此每個爬行器都要維護一個自己的DNS緩衝。這樣每個連接都處於不同的狀態,包括DNS查詢、連到主機、發送請求、得到響應。這些因素綜合起來使得爬行器變成一個非常複雜的系統。它通過異步輸入/輸出來管理事件,通過一定數量的隊列來管理獲取網頁過程中的狀態遷移。