反饋

深度優先策略

深度優先策略，網絡蜘蛛，學名Spider,又叫網絡爬蟲! 關於網絡蜘蛛的概述這裏就不多講了今天我主要想説的是關於蜘蛛的爬行設計的方式與方法。

深度優先策略簡介

"網絡蜘蛛" 學名Spider,又叫"網絡爬蟲"! 關於網絡蜘蛛的概述這裏就不多講了今天我主要想説的是關於蜘蛛的爬行設計的方式與方法

我們可以分為2種:

一種是深度優先策略一種是廣度優先策略! 以下我們就圍繞這2點進行分析 SWJ 非常歡迎大家一起交流學習與探討!

深度優先顧名思義就是讓網絡蜘蛛儘量的在抓取網頁時往網頁更深層次的挖掘進去講究的是深度!

也泛指: 網絡蜘蛛將會從起始頁開始，一個鏈接一個鏈接跟蹤下去，處理完這條線路之後再轉入下一個起始頁，繼續跟蹤鏈接!

以下我發張圖大家看下: (下面這張是簡單化的網頁連接模型圖其中A為起點也就是蜘蛛索引的起點!)

總共分了5條路徑供蜘蛛爬行! 講究的是深度!

(下面這張是經過優化的網頁連接模型圖! 也就是改進過的蜘蛛深度爬行策略圖!)

根據以上2個表格我們可以得出以下結論:

圖1:

路徑1 ==> A --> B --> E --> H

路徑2 ==> A --> B --> E --> i

路徑3 ==> A --> C

路徑4 ==> A --> D --> F --> K --> L

路徑5 ==> A --> D --> G --> K --> L

經過優化後

圖2: (圖片已經幫大家標上方向了!)

路徑1 ==> A --> B --> E --> H

路徑2 ==> i

路徑3 ==> C

路徑4 ==> D --> F --> K --> L

路徑5 ==> G

詞條統計