-
爬行器
鎖定
- 中文名
- 爬行器
- 外文名
- Crawler
爬行器基本介紹
網絡爬蟲是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其他鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。
如果把整個互聯網當成一個網站,那麼網絡爬蟲就可以用這個原理把互聯網上所有的網頁都抓取下來。
爬行器爬行系統
Google為了獲取上億的網頁,設計了一個分佈式的爬行系統。一個URL服務器將URL列表提供給網絡爬行器。每個爬行器同時保持大約300個網絡連接。在最高速度的時候,通過4個爬行器,該系統可以每秒鐘獲取超過100個網頁。
爬行器影響爬行速度原因
- 詞條統計
-
- 瀏覽次數:次
- 編輯次數:12次歷史版本
- 最近更新: shanzjiz6086