複製鏈接
請複製以下鏈接發送給好友

網上檢索引擎

鎖定
網上檢索引擎即我們常説的“搜索引擎”,根據工作原理和搜索範圍又分為全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
中文名
網上檢索引擎
工作方式
全文搜索引擎

網上檢索引擎基本定義

網上檢索引擎,也就是我們所説的搜索引擎。

網上檢索引擎分類

搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用户查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用户,因此他們是真正的搜索引擎。
從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,並自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的數據庫,並按自定的格式排列搜索結果,如Lycos引擎。
目錄索引
目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用户完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬於這一類。
元搜索引擎(META Search Engine)
元搜索引擎在接受用户查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由用户從提供的4個引擎當中選擇,因此叫它“集合式”搜索引擎更確切些。
門户搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他引擎。
免費鏈接列表(Free For All Links,簡稱FFA):這類網站一般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
由於上述網站都為用户提供搜索查詢服務,為方便起見,我們通常將其統稱為搜索引擎。

網上檢索引擎工作原理

瞭解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。
全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息蒐集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址範圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。
另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站並將有關信息存入數據庫,以備用户查詢。由於近年來搜索引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜索引擎數據庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你並自動將你的網站收錄。
當用户以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,如果找到與用户要求內容相符的網站,便採用特殊的算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁鏈接返回給用户。
目錄索引
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用户提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由於登錄Yahoo!的難度最大,而它又是商家網絡營銷必爭之地,所以我們會在後面用專門的篇幅介紹登錄Yahoo雅虎的技巧)
此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜索引擎中各網站的有關信息都是從用户網頁中自動提取的,所以用户的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用户在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索範圍。在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜索,如Yahoo。

網上檢索引擎起源

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用文件名查找文件的系統,於是便有了Archie。Archie是第一個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用户必須輸入精確的文件名搜索,然後Archie會告訴用户哪一個FTP地址可以下載該文件。 由於Archie深受歡迎,受其啓發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜索工具。