-
深度優先策略
鎖定
深度優先策略,網絡蜘蛛,學名Spider,又叫網絡爬蟲! 關於網絡蜘蛛的概述這裏就不多講了 今天我主要想説的是關於蜘蛛的爬行設計的方式與方法。
- 中文名
- 深度優先策略
- 類 型
- 策略
- 缺 點
- 增加了系統數據的複雜度
- 優 點
- 設計的時候相對比較容易些
深度優先策略簡介
"網絡蜘蛛" 學名Spider,又叫"網絡爬蟲"! 關於網絡蜘蛛的概述這裏就不多講了 今天我主要想説的是 關於 蜘蛛的爬行設計的方式與方法
深度優先策略詳情
我們可以分為2種:
一種是 深度優先策略 一種是 廣度優先策略! 以下我們就圍繞這2點進行分析 SWJ 非常歡迎大家一起交流 學習與探討!
深度優先 顧名思義就是 讓 網絡蜘蛛 儘量的在抓取網頁時 往網頁更深層次的挖掘進去 講究的是深度!
也泛指: 網絡蜘蛛將會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤鏈接!
以下我發張圖 大家看下: (下面這張是 簡單化的網頁連接模型圖 其中A為起點 也就是蜘蛛索引的起點!)
總共分了5條路徑 供蜘蛛爬行! 講究的是深度!
(下面這張是 經過優化的網頁連接模型圖! 也就是改進過的蜘蛛深度爬行策略圖!)
根據以上2個表格 我們可以得出以下結論:
圖1:
路徑1 ==> A --> B --> E --> H
路徑2 ==> A --> B --> E --> i
路徑3 ==> A --> C
路徑4 ==> A --> D --> F --> K --> L
路徑5 ==> A --> D --> G --> K --> L
經過優化後
圖2: (圖片已經幫大家標上方向了!)
路徑1 ==> A --> B --> E --> H
路徑2 ==> i
路徑3 ==> C
路徑4 ==> D --> F --> K --> L
路徑5 ==> G
- 詞條統計
-
- 瀏覽次數:次
- 編輯次數:11次歷史版本
- 最近更新: 阿妧云