複製鏈接
請複製以下鏈接發送給好友

google機器人

鎖定
google機器人是Googleweb 抓取漫遊器。它從web上收集文檔,為Google搜索引擎建立可搜索的索引。 Googlebot是google的機器人的意思,俗稱google爬蟲。
中文名
google機器人
類    型
web 抓取漫遊器
所屬公司
Google
俗    稱
google爬蟲

目錄

google機器人好處

google機器人的作用 google機器人的作用
火狐偽裝成爬蟲有什麼好處呢?對經常光顧verycd的朋友們非常有用。可以免登錄看貼。首先我們用火狐測試一下:打開這裏是不是要求你登錄?
繼續,設置方法,打開火狐,Ctrl+T新建一個瀏覽標籤,輸入:about:config,打開配置頁面,右鍵點擊頁面選擇“新建→字符串”,在彈出的窗口中輸入:general.useragent.override,確定之後,輸入:Googlebot/2.1 (+http://www.googlebot.com/bot.html),繼續確定,關閉窗口。
其實上次Matt所透露的僅僅是其中一方面的內容。今天,Matt再次寫了一篇非常詳細的文章,解釋了Google的各種bot是怎樣抓取網頁的,以及Google最新的BigDaddy在抓取網頁方面有什麼新的變化等等,內容非常的精彩,所以和大家分享一下。
首先要介紹的是Google的"crawl caching proxy"(爬行緩存代理)。Matt舉了一個ISP與用户的例子來説明它。用户上網時,總是先通過ISP獲取網頁內容,然後ISP就會把用户訪問過的網頁緩存起來備用。比如説,當用户A訪問了www.kenwong.cn,那麼中國電信(或網通等)就會把"幻滅的麥克風"發送給用户A,然後將"幻滅的麥克風"緩存起來,當用户B在下一秒鐘裏再訪問www.kenwong.cn,那麼中國電信就會把緩存裏的"幻滅的麥克風"發送給用户B,這樣就能節省了帶寬。
google機器人的作用 google機器人的作用
正如本站之前所報道的那樣,Google最新的軟件層面的升級(轉移至BigDaddy)已經接近完成,因此升級後的Google各方面的能力都將得到加強。這些加強包括了更智能化的googlebot爬行、改良的規範性以及更好的收錄網頁能力。而在Googlebot爬行抓取網頁方面,Google也採取了節省帶寬的方法。Googlebot也隨着BigDaddy的升級而得到了升級。新的Googlebot已經正式支持了gzip編碼,所以如果你的網站開啓了gzip編碼功能,那麼就能節省Googlebot爬行你的網頁時所佔的帶寬。
除了改良的Googlebot外,升級後的Google將會採用上面所説到的crawl caching proxy來抓取網頁,以進一步節省帶寬。下面是一個示意圖,顯示了傳統的Googlebot是怎樣爬行一個網站的:

google機器人拒絕資助

2014年3月28日,雖然美國國防部高等研究計劃署曾經是人形機器人的主要資助機構,但谷歌旗下Google X實驗室卻拒絕了該機構的資金。 [1] 
參考資料