複製鏈接
請複製以下鏈接發送給好友

蜘蛛陷阱

(阻止蜘蛛程序爬行網站的障礙物)

鎖定
“蜘蛛陷阱”是阻止蜘蛛程序爬行網站的障礙物,通常是那些顯示網頁的技術方法,很多瀏覽器在設計的時候考慮過這些因素,所以可能網頁界面看起來非常正常,但這些蜘蛛陷阱會對蜘蛛程序造成障礙,如果消除這些蜘蛛陷阱,可以使蜘蛛程序收錄更多的網頁。SEO工作中,網頁被收錄是基礎工作,但對於搜索引擎來講,極少情況會100%收錄你網站的所有網頁,搜索引擎的爬蟲程序設計的再精巧,也難以逾越所謂的蜘蛛陷阱。
中文名
蜘蛛陷阱
外文名
Spider trap
別    名
阻止蜘蛛程序爬行網站的障礙物
提出時間
1956年
適用領域
互聯網
應用學科
瀏覽器

蜘蛛陷阱主要類別

1、登錄要求
有些企業站和個人站的設置一定要註冊登錄後才能看到相關的文章內容,這種對蜘蛛不是很友好,蜘蛛不會註冊、也不會登錄。
2、動態URL
什麼叫動態URL、什麼叫靜態URL,簡單的説就是帶有問號、等號及參數的網址就是動態URL,動態URL不利於搜索引擎蜘蛛的爬行和抓取。
3、強制用Cookies
部分站長為了讓用户記住登陸信息,強迫用户使用Cookies如果未開啓,則無法進行訪問,訪問頁面顯示的也不會正常,這種方式會讓蜘蛛無法進行訪問。
4、框架結構
首先各位站長你知道什麼叫框架結構的世界嗎?如果你不知道恭喜你,這個蜘蛛陷阱你已經躲避了,也不要去了解,所以有關框架結構的設計不做任何的介紹。
5、各種跳轉
對搜素引擎來説只對301跳轉相對來説比較友好,對其他形式的跳轉都是比較敏感,例如:JavaScrit跳轉、MetaRefresh跳轉、Flash跳轉、302跳轉。
有些網站的做法很讓人無奈,當你打開網頁後會自動轉向其他頁面,就算打開的頁面和你要找的頁面主體相關也算過得去。但是很大部分的網站轉向讓你無任何理由和目的這種轉向不推薦大家使用,如果你非要做轉向,只推薦用301永久跳轉,可以將權重進行傳遞,除了此轉向其他都不推薦,因為很多的佔用其他轉向欺騙用户和搜索引擎,也是heimao的一種手段,所以建議大家不要使用,以免網站被K。
6、Flash
有的網站頁面使用Flash視覺效果是很正常的,比如用Flash做的Logo、廣告、圖表等,這些對搜索引擎抓取和收錄是沒有問題的,很多網站的首頁是一個大的Flash文件,這種就叫蜘蛛陷阱,在蜘蛛抓取時HTML代碼中只是一個鏈接,並沒有文字,雖然大的Flash效果看上去很好,外觀看着也很漂亮,但可惜搜索引擎看不到,無法讀取任何內容所以為了能體現網站優化的最好效果,不提倡這種Flash做首頁圖片。

蜘蛛陷阱避免方式

1:採用session id的頁面,有的銷售類站點為了分析用户的某些信息會採用會話ID來跟蹤用户,訪問站點的時候每個用户訪問都會增加一次session id而加入到URL中,同樣蜘蛛的每一次訪問也會被當做為一個新用户,每次蜘蛛來訪問的URL中都會加入一個session id,這樣就會產生了同一個頁面但URL不同的情況,這種的一來會產生複製內容頁面,造成了高度重複的內容頁,同時也是最常見的蜘蛛陷阱之一。比如説有的網站的為了提高銷售業績,而進行彈窗會話等,比如説您好來自XXX地的朋友等。
2:常識性的蜘蛛陷阱,採用強制註冊或登錄才能訪問的頁面,這種的對於蜘蛛來説就相當為難了,因為蜘蛛無法提交註冊,更無法輸入用户名和密碼登錄查看內容,對於蜘蛛來説我們直接點擊查看到的內容也是蜘蛛所能看到的內容。
3:喜歡採用flash的站點,之所以説是喜歡採用flash的站點是因為對於一些中小型企業來説,因為flash本身可以做很多種效果,尤其是放在導航上視覺效果強,所以不少企業站喜歡弄個flash來展示自己公司的實力,文化,產品等,甚至一些企業站點的網站首頁就是一個flash,要麼是在多長時間後通過flash跳轉到另外一個頁面,要麼就是通過flash上的鏈接讓用户自己點擊後進入一個新的頁面,但是對於蜘蛛來説一來是很難讀取flash中的內容,所以蜘蛛也很難點擊flash上的鏈接。
4:動態URL,在url中加入過多的符號或者網址參數等,這種蜘蛛陷阱我在url優化中曾經有提到,雖然説隨着搜索引擎的的技術發展,動態url對於蜘蛛的抓取已經越來越不是問題了,但是從搜索引擎友好度上來講,靜態哪怕是偽靜態url相對來説都比動態url要好,可以看下很多SEO同行對於url中的處理方式。
5:框架,在早期框架到處被氾濫使用,而框架網頁很多網站已經很少使用了,一是因為隨着各大CMS系統的開發問世,網站維護相對也越來越簡單了,早期網站使用框架是因為對網站頁面的維護有一定的便利性了,已經大可不必了,而且不利於搜索引擎收錄也是框架越來越少被使用的原因之一。
6:JS,雖然搜索引擎對於javascript裏的鏈接是可以跟蹤甚至在嘗試拆解分析的,但是我們最好不要寄望於搜索引擎自己克服困難,雖然説通過js可以做一些效果不錯的導航,但是css同樣可以做到;為了提高網站對搜索引擎的友好度建議使網頁能夠更好的蜘蛛爬行,就儘量不要採用js,當然在seo中,js有一個好處就是站長不希望被收錄的頁面或者友情鏈接可以採用js。還有一種方法可以消除JavaScript 蜘蛛程序陷阱,即使用<noscript>標籤。<noscript>標籤是為不支持JavaScript 的瀏覽器提供備選的代碼。蜘蛛程序不會執行JavaScript, 因此他們通過處理<noscript>代碼來代替。
7:深層次的網頁,有的網頁沒有入口,而且距離網站的首頁又很遠,這種頁面就相對較難被蜘蛛爬行到,當然對於那些權重高的網站可能會另當別論了。網站的頁面要被收錄,首先要需要基本的權重,首頁的權重一般是最高的,然後首頁的權重是可以傳遞到內頁的,當內部頁面的權重上升到可以被收錄的門檻,頁面就會被收錄,按照這種理論,頁面之間的權重傳遞是會遞減的,因此,內頁和首頁的點擊距離越近,越容易得到更多的首頁權重傳遞。良好的網站結構可以讓網站更多的頁面被收錄。
8:強制使用cookies,對於搜索引擎來説是相當於直接禁用了cookies的,而有些網站為了實現某些功能會採取強制cookies,比如説跟蹤用户訪問路徑,記住用户信息,甚至是盜取用户隱私等,如果用户在訪問這類站點時沒有啓用cookies,所顯示的頁面就會不正常,所以對於蜘蛛來講同樣的網頁無法正常訪問。
9:各種形式的跳轉,對於301重定向相信很多seo童鞋已經非常熟悉了,但是對於其他302,或者meta refresh,javascript,flash等跳轉,蜘蛛是很反感的,而且301也是不到萬不得已的時候採用,任何跳轉都會在一定程度上給蜘蛛的爬行帶來障礙,所以你懂得。
10:robots.txt書寫錯誤和各種各樣的作弊手法,比如説隱藏文字,隱藏鏈接等,採用偽裝網頁在判斷來訪者是蜘蛛還是普通瀏覽器者而顯示不同的網頁,使用默認錯誤的404頁面等,同樣會給蜘蛛帶來爬行障礙。
11:要求登錄:有些網站內容放在需要用户登錄之後才能看到的會員區域,這部分內容搜索引擎無法看到。蜘蛛不能填寫用户名、密碼,也不會註冊。