複製鏈接
請複製以下鏈接發送給好友

百度蜘蛛

鎖定
百度蜘蛛,是百度搜索引擎的一個自動程序。它的作用是訪問收集整理互聯網上的網頁圖片視頻等內容,然後分門別類建立索引數據庫,使用户能在百度搜索引擎中搜索到您網站的網頁、圖片、視頻等內容。
中文名
百度蜘蛛
外文名
Baidu Spider
程序性質
自動程序
作    用
抓取整理數據

百度蜘蛛工作機制

  1. 百度蜘蛛的構建的原理。搜索引擎構建一個調度程序,來調度百度蜘蛛的工作,讓百度蜘蛛去和服務器建立連接下載網頁,計算的過程都是通過調度來計算的,百度蜘蛛只是負責下載網頁,目前的搜索引擎普遍使用廣佈式多服務器多線程的百度蜘蛛來達到多線程的目的。
  2. 百度蜘蛛的運行原理。
百度蜘蛛程序 百度蜘蛛程序
(1)通過百度蜘蛛下載回來的網頁放到補充數據區,通過各種程序計算過後才放到檢索區,才會形成穩定的排名,所以説只要下載回來的東西都可以通過指令找到,補充數據是不穩定的,有可能在各種計算的過程中給k掉,檢索區的數據排名是相對比較穩定的,百度目前是緩存機制和補充數據相結合的,正在向補充數據轉變,這也是目前百度收錄困難的原因,也是很多站點今天給k了明天又放出來的原因。
(2)深度優先和權重優先,百度蜘蛛抓頁面的時候從起始站點(即種子站點指的是一些門户站點)是百度優先抓取是為了抓取更多的網址,深度優先抓取的目的是為了抓取高質量的網頁,這個策略是由調度來計算和分配的,百度蜘蛛只負責抓取,權重優先是指反向連接較多的頁面的優先抓取,這也是調度的一種策略,一般情況下網頁抓取抓到40%是正常範圍,60%算很好,100%是不可能的,當然抓取的越多越好。
百度蜘蛛的工作要素。
百度蜘蛛在從首頁登陸後抓取首頁後調度會計算其中所有的連接,返回給百度蜘蛛進行下一步的抓取連接列表,百度蜘蛛再進行下一步的抓取,網址地圖的作用是為了給百度蜘蛛提供一個抓取的方向,來左右百度蜘蛛去抓取重要頁面,如何讓百度蜘蛛知道哪個頁面是重要頁面?可以通過連接的構建來達到這個目的,越多的頁面指向該頁,網址首頁的指向,副頁面的指向等等都能提高該頁的權重,地圖的另外一個作用是給百度蜘蛛提供更多的連接來達到抓去更多頁面的目的,地圖其實就是一個連接的列表提供給百度蜘蛛,來計算你的目錄結構,找到通過站內連接來構建的重要頁面。
百度蜘蛛原理的應用。
補充數據到主檢索區的轉變:在不改變板塊結構的情況下,增加相關連接來提高網頁質量,通過增加其他頁面對該頁的反向連接來提高權重,通過外部連接增加權重。如果改變了板塊結構將導致seo的重新計算,所以一定不能改變板塊結構的情況下來操作,增加連接要注意一個連接的質量和反向連接的數量的關係,短時間內增加大量的反向連接將導致k站,連接的相關性越高,對排名越有利。

百度蜘蛛狀態代碼

百度蜘蛛成功

200 正常;請求已完成。
201 正常;緊接POST命令。
202 正常;已接受用於處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。

百度蜘蛛重定向

301 永久重定向 — 請求的數據具有新的位置且更改是永久的。
302 暫時重定向 — 請求的數據臨時具有不同URI。
303 請參閲其它 — 可在另一URI下找到對請求的響應,且應使用 GET方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。

百度蜘蛛代碼中的錯誤

400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客户機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止— 即使有授權也不需要訪問。
404 找不到—服務器找不到給予的資源;文檔不存在。
406 不可接受 — 根據此請求中所發送的“接受”標題,此請求所標識的資源只能生成內容特徵為“不可接受”的響應實體。
407 代理認證請求 — 客户機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 —服務器拒絕服務請求,因為不支持請求實體的格式。
500 內部錯誤 — 因為意外情況,服務器不能完成請求。
501 未執行 —服務器不支持請求的工具。
502 錯誤網關—服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由於臨時過載或維護,服務器無法處理請求。

百度蜘蛛問題解答

Baiduspider對一個網站服務器造成的訪問壓力如何?
答:Baiduspider會自動根據服務器的負載能力調節訪問密度。在連續訪問一段時間後,Baiduspider會暫停一會,以防止增大服務器的訪問壓力。所以在一般情況下,Baiduspider對您網站的服務器不會造成過大的壓力。
為什麼Baiduspider不停的抓取我的網站?
百度蜘蛛工作圖 百度蜘蛛工作圖
答:或許您的網站權重高或者對於您網站上新產生的或者持續、有規律更新的頁面,Baiduspider會持續抓取。此外,您也可以檢查網站訪問日誌中Baiduspider的訪問是否正常,以防止有人惡意冒充Baiduspider來頻繁抓取您的網站。 如果您發現Baiduspider非正常抓取您的網站,請反饋至,並請儘量給出Baiduspider對貴站的訪問日誌,以便於我們跟蹤處理。
我不想我的網站被Baiduspider訪問,我該怎麼做?
答:Baiduspider遵守互聯網robots協議。您可以利用robots.txt文件完全禁止Baiduspider訪問您的網站,或者禁止Baiduspider訪問您網站上的部分文件。 注意:禁止Baiduspider訪問您的網站,將使您的網站上的網頁,在百度搜索引擎以及所有百度提供搜索引擎服務的搜索引擎中無法被搜索到。
ps:關於robots.txt的寫作方法,請參看我們的介紹:robots.txt寫作方法
為什麼我的網站已經加了robots.txt,還能在百度搜索出來?
答:因為搜索引擎索引數據庫的更新需要時間。雖然Baiduspider已經停止訪問您網站上的網頁,但百度搜索引擎數據庫中已經建立的網頁索引信息,可能需要二至四周才會清除。 另外也請檢查您的robots配置是否正確。
我希望我的網站內容被百度索引但不被保存快照,我該怎麼做?
答:Baiduspider遵守互聯網metarobots協議。您可以利用網頁meta的設置,使百度顯示只對該網頁建索引,但並不在搜索結果中顯示該網頁的快照。
和robots的更新一樣,因為搜索引擎索引數據庫的更新需要時間,所以雖然您已經在網頁中通過meta禁止了百度在搜索結果中顯示該網頁的快照,但百度搜索引擎數據庫中如果已經建立了網頁索引信息,可能需要二至四周才會在線上生效。
百度蜘蛛在robots.txt中的名字是什麼?
答:“Baiduspider” 首字母B大寫,其餘為小寫。
Baiduspider多長時間之後會重新抓取我的網頁
答:百度搜索引擎每週更新,網頁視重要性有不同的更新率,頻率在幾天至一月之間,Baiduspider會重新訪問和更新一個網頁。
Baiduspider抓取造成的帶寬堵塞?
答:Baiduspider的正常抓取並不會造成您網站的帶寬堵塞,造成此現象可能是由於有人冒充baidu的spider惡意抓取。如果您發現有名為Baiduspider的agent抓取並且造成帶寬堵塞,請儘快和我們聯繫。您可以將信息反饋至百度網頁投訴中心,如果能夠提供您網站該時段的訪問日誌將更加有利於我們的分析。

百度蜘蛛應用提示

第一,要想排名靠前,目標關鍵詞應該完整匹配地出現在網頁的前面。
第二,百度蜘蛛似乎更注重網站頁面的層次結構。與Google相比,百度蜘蛛更加重視網站內部頁面結構的層次,有點爬蟲類的味道,越黑越深,它越是喜歡往裏鑽,不相信你做100個頁面,做得再漂亮,只要鏈接沒有層次,你最多就孤零零的被收錄可憐的一點點東西。
第三,百度蜘蛛極為活躍,抓取網頁的頻率和數量都非常大。百度蜘蛛幾乎每天都會訪問你的新站,並且至少抓取幾十個網頁。大量捕獲是百度的強項,其他任何搜索引擎都沒辦法相比。但是百度中文網頁數目並不是最大的,百度蜘蛛抓取的頻率和網頁更新情況有關。天天更新的網站一定會吸引百度蜘蛛更頻繁的訪問,百度對天天更新的站最敏感,徹底換內容更敏感。
第四,百度並不被所謂的優化迷惑,Google對優化好像遠遠沒有百度敏感,百度尤其反感所謂的優化,不知道百度是用什麼方法識別網站優化的。我的看法是目前最”先進“ 的優化方法,好像對百度沒什麼大的作用,大家都這麼幹了,機器人是有點死腦筋,但是百度那些IT也不是吃白飯的哈,要知道他是全球最先進的中文搜索老大,Google在中文搜索這塊畢竟與百度還沒得比。
第五,百度排名算法是以網頁為基礎,比較少關注整個網站的主題。聯繫到上一點,這説明百度排名算法中比較注重內部結構缺少完整的語義分析。所以一些目 前比較認同的關於“site:”之間那幾個所謂關係到搜索質量的東西,並不是百度蜘蛛所最敏感的。
第六,充分利用百度的一個最大的優勢——收錄速度快。
影響因素
  1. 採集內容、複製內容
  2. 網站標題頻繁更改
  3. 服務器或者空間不穩定
  4. 域名DNS解析不穩定
  5. 羣發外鏈
對應名稱
產品名稱 對應user-agent
網頁搜索 Baiduspider
無線搜索 Baiduspider
圖片搜索 Baiduspider-image
視頻搜索 Baiduspider-video
新聞搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度聯盟Baiduspider-cpro
競價蜘蛛Baiduspider-sfkr