複製鏈接
請複製以下鏈接發送給好友

搜索引擎算法

鎖定
搜索引擎算法:獲得網站網頁資料,建立數據庫並提供查詢的系統,我們都可以把它叫做搜索引擎。搜索引擎的數據庫是依靠一個叫“網絡機器人(crawlers)”或叫“網絡蜘蛛(Spider)”的軟件,通過網絡上的各種鏈接自動獲取大量網頁信息內容,並按一定的規則分析整理形成的。Google、百度都是比較典型的搜索引擎系統。 為了更好的服務網絡搜索,搜索引擎的分析整理規則---即搜索引擎算法是變化的。搜索引擎算法的變革將引領第四代搜索引擎的升級。
中文名
搜索引擎算法
搜索引擎舉例
Google、百度
變革意義
引領第四代搜索引擎的升級
依賴軟件
網絡機器人或叫網絡蜘蛛

搜索引擎算法公式

GoogleScore = (KW Usage Score * 0.3) + (Domain Strength * 0.25) +(Inbound Link Score * 0.25) + (User Data * 0.1) + (Content QualityScore * 0.1) + (Manual Boosts) – (Automated & Manual Penalties)
翻譯:
Google分數=(相關關鍵詞分數X0.3)+(域名權重X0.25)+(外鏈分數X0.25)+(用户數據X0.1)+(內容質量分數X0.1)+(人工加分)-(自動或人工降分)

搜索引擎算法因子分析

從公式中我們可以清楚的知道,影響pagerank分數的因素依次是“相關關鍵詞”、“域名”、“外鏈”、“用户數據”、“內容質量”以及“人工干預”六個方面。那麼又是哪些因素影響到了這幾個方面呢?

搜索引擎算法關鍵詞分數

1.網頁title中關鍵詞的處理
2.H標籤(h1-h6)中關鍵詞的處理
3.文本內容中關鍵詞的密度
4.外鏈中關鍵詞的選擇
5.域名中的關鍵詞

搜索引擎算法域名權重

1.域名註冊前的歷史問題
2.域名註冊時間的長短
3.外鏈網站的權重
4.外鏈、給出鏈接的相關度
5.是否使用歷史、鏈接形式

搜索引擎算法外鏈分數

1.鏈接域名權重
2.是否錨文本
3.鏈接數量/鏈接權重(PR或其他參數)
4.外鏈網頁的主題相關度
5.鏈接的時間

搜索引擎算法用户數據

1.搜索引擎結果頁面(SERPs)的點擊率
2.用户在網頁上呆的時間
3.域名或URL搜索量
4.訪問量及其他*可以監測到的數據(工具條、GA等)

搜索引擎算法內容質量分數

1.內容的相關度
2.內容的原創性
3.內容的獨特性
4.內容的搶先性和長效性

搜索引擎算法人工干預

1.投票人員干預
2.關鍵詞人工加(扣)分
3.機器算法干預

搜索引擎算法搜索引擎

搜索引擎工作內容
1、收錄頁面:
一般收錄頁面需要有百度蜘蛛抓取完成,通過抓取算法來決定收錄那些頁面,在百度的算法調整後,對於偽原創、採集站點予以強烈的打擊,所以百度在收錄頁面方面變得更加的嚴格了,高質量內容頁面以及權重高的站點一般收錄頁面的幾率會高很多。對於收錄頁面這方面相信很多的站長都是很清楚,每天百度蜘蛛都在分分秒秒不停地收錄着,但是你會發現其實大部分的站點的收錄都減少了,這是為什麼呢?因為百度需要過濾頁面。
2、過濾頁面:
很多頁面被百度收錄之後,百度認為該頁面對用户沒有太大的價值,或者是質量度比較低的頁面,百度必然就會過濾,這也是用户體驗好的一種表現,很多站點以優化為目的,絲毫不考慮用户的體驗,例如一些橋頁、跳轉頁面這些就是典型,百度的k站就是一種過濾頁面的表現,把那些作弊的站點的頁面全部的過濾掉。很多人抱怨6.22和6.28百度k站事件,尤其是那些屌絲站長們整天在論壇抱怨這個抱怨那個,為什麼k你的站,很顯然你的站點真的是以用户體驗為核心運營站嗎?做SEO的人大多都是為了優化而運營站點,每天寫的站內的更新、做外鏈肯定一部分是為了優化而優化,百度k你的站是犧牲少部分人的利益,更多的用户是從中獲益的,要知道多少人在使用百度,如果搜索出來的信息是你為了優化而運營的站點,低質量的頁面,那百度其實是拿自己未來的前途給你優化站點做鋪墊的。所以過濾頁面這方面百度非常的嚴格,大家也不要使用seo作弊技術了。
3、建立索引:
經過了收錄頁面以及過濾頁面的工作之後,百度會對這些頁面逐一進行標記和識別,並將這信息進行儲存為結構化的數據,儲存到百度的搜索的服務器中,這些儲存的數據有網頁的信息、網頁的標題關鍵詞頁面描述等標籤、網頁外鏈及描述、抓取記錄。還會將網頁中的關鍵詞信息進行識別和儲存,以便與用户搜索的內容進行匹配。建立完善的索引數據庫,方便呈現出最佳的顯示信息
4、顯示信息:
用户輸入的關鍵詞,百度會對其進行一系列複雜的分析,並根據分析的結論在索引庫中尋找與之最為匹配的一系列網頁,按照用户輸入的關鍵詞所體現的需求強弱和網頁的優劣進行打分,並按照最終的分數進行排列,展現給用户。一般顯示出最佳信息需要是最適合匹配關鍵詞相關的頁面,包括站內優化站外優化的因素。

搜索引擎算法搜索引擎蜘蛛

搜索引擎算法基本概述

搜索引擎蜘蛛即Search Engine Spider,是一個很形象的名字。把互聯網比喻成一張蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。搜索引擎蜘蛛是通過網頁的鏈接地址來尋找網頁,從 網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網,那麼搜索引擎蜘蛛就可以用這個原理把互聯網上所有節點的網頁都抓取下來。
由於互聯網上無數的網站頁面,搜索引擎蜘蛛無法將所有的頁面都下載保存到服務器。因此,許多搜索引擎的網絡蜘 蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接廣泛度(及外部鏈接的數量與質量)。

搜索引擎算法抓取網頁策略

在抓取網頁的時候,搜索引擎蜘蛛一般有兩種策略:廣度優先和深度優先(如下圖所示)。廣度優先是指搜索引擎蜘蛛會先抓取起始網頁中鏈接的所有網頁,然後再選擇其中 的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓搜索引擎蜘蛛並行處理,提高其抓取速度。深度優先是指搜索引擎蜘蛛會從 起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是搜索引擎蜘蛛在設計的時候比較容易。兩種策略的區別,下圖的説明會更加明確。由於不可能抓取所有的網頁,有些搜索引擎蜘蛛對一些不太重要的網站,設置了訪問的層數。例如,在上圖中,A為起始網頁,屬於0層,B、C、D、E、F屬於第1 層,G、H屬於第2層,I屬於第3層。如果搜索引擎蜘蛛設置的訪問層數為2的話,網頁I是不會被訪問到的。這也讓有些網站上一部分網頁能夠在搜索引擎上搜索 到,另外一部分不能被搜索到。 對於網站設計者來説,扁平化的網站結構設計有助於搜索引擎抓取其更多的網頁。

搜索引擎算法訪問網站權限

搜索引擎蜘蛛在訪問網站網頁的時候,經常會遇到加密數據和網頁權限的問題,有些網頁是需要會員權限才能訪問。當然,網站的所有者可以通過協議讓搜索引擎蜘蛛不去抓取,但對於一些出售報告的網站,他們希望搜索引擎能搜索到他們的報告,但又不能完全免費的讓搜索者查看,這樣就需要給搜索引擎蜘蛛提供相應的 用户名和密碼。搜索引擎蜘蛛可以通過所給的權限對這些網頁進行網頁抓取,從而提供搜索。而當搜索者點擊查看該網頁的時候,同樣需要搜索者提供相應的權限驗證。

搜索引擎算法常見的算法

百度的石榴算法,綠蘿算法,綠蘿算法2.0,颶風算法、原創星火計劃、白楊算法、輕舟算法,驚雷算法、
天網算法、烽火算法、細雨算法、石榴算法、極光算法、閃電算法、藍天算法、冰桶算法。
谷歌的熊貓算法,企鵝算法