複製鏈接
請複製以下鏈接發送給好友

目錄搜索引擎

鎖定
目錄搜索引擎是以人工方式或半自動方式蒐集信息,由編輯員查看信息之後,人工形成信息摘要,並將信息置於事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務
中文名
目錄搜索引擎
外文名
Directory search engine
應    用
人工方式或半自動方式蒐集信息
面向對象
網站
本    質
按目錄分類的網站鏈接列表

目錄搜索引擎功能

目錄搜索引擎雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用户完全可以按照分類目錄找到所需要的信息。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。

目錄搜索引擎主要技術

一個搜索引擎由搜索器、索引器、檢索器和用户接口等四個部分組成。

目錄搜索引擎搜索器

搜索器的功能是在互聯網中漫遊,發現和蒐集信息。它常常是一個計算機程序,日夜不停地運行。它要儘可能多、儘可能快地蒐集各種類型的新信息,同時因為互聯網上的信息更新很快,所以還要定期更新已經蒐集過的舊信息,以避免死連接和無效連接。有兩種蒐集信息的策略:
● 從一個起始URL集合開始,順着這些URL中的超鏈Hyperlink),以寬度優先、深度優先或啓發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如雅虎)。
● 將Web空間按照域名、IP地址國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。
搜索器蒐集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息
搜索器的實現常常用分佈式、並行計算技術,以提高信息發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。

目錄搜索引擎索引器

索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、信息論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關係(proximity)。
索引器可以使用集中式索引算法或分佈式索引算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規模峯值查詢時的響應速度)有很大的影響。一個搜索引擎有效性在很大程度上取決於索引的質量。

目錄搜索引擎檢索器

檢索器的功能是根據用户的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用户相關性反饋機制
檢索器常用的信息檢索模型有集合理論模型代數模型概率模型混合模型四種。

目錄搜索引擎用户接口

用户接口的作用是輸入用户查詢、顯示查詢結果、提供用户相關性反饋機制。主要的目的是方便用户使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用户接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。 用户輸入接口可以分為簡單接口和複雜接口兩種。
簡單接口只提供用户輸入查詢串的文本框;複雜接口可以讓用户對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關係(相鄰、NEAR)、域名範圍(如.edu.com)、出現位置(如標題、內容)、信息時間、長度等等。一些公司和機構正在考慮制定查詢選項的標準。

目錄搜索引擎技術特點

首先,搜索引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用户提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。
此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜索引擎中各網站的有關信息都是從用户網頁中自動提取的,所以用户的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用户在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。

目錄搜索引擎發展趨勢

目錄搜索引擎相互滲透

搜索引擎與目錄搜索引擎有相互融合滲透的趨勢。一些純粹的全文搜索引擎也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而像 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索範圍(注)。在默認搜索模式下,一些目錄搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐新浪網易等;而另外一些則默認的是網頁搜索,如Yahoo。

目錄搜索引擎應用趨減

分類目錄的信息有效性下降意味着其網絡營銷價值的降低,登錄分類目錄的網站難以獲得有效的訪問量。與技術型的搜索引擎自動收錄網站、自動更新網站索引信息相比,網站信息不能及時更新正是分類目錄的致命缺陷 。由於已經收錄的網站信息無法自動更新,即使分類目錄中的一些網站已經關閉,或者域名被用於其他完全無關的領域,但顯示在分類目錄網站上的信息仍然是最初登錄的內容。即使分類目錄網站提供了用户自行修改網站信息的功能,但有些網站因關閉或者其他原因,通常也不會主動更新信息,因此結果造成分類目錄網站信息有效性降低,使得用户查找信息非常不便,最終影響了分類目錄作為網站推廣方法的效果。

目錄搜索引擎網絡營銷

1、通常只能收錄網站首頁(或者若干頻道),而不能將大量網頁都提交給分類目錄;
2、網站一旦被收錄將在一定時期內保持穩定,有些分類目錄允許用户自行修改網站介紹等部分信息
3、無法通過“搜索引擎優化”等手段提高網站在分類目錄中的排名;
4、對於付費分類目錄登錄,通常需要交納年度費用;
5、在高質量的分類目錄登錄,對於提高網站在搜索引擎檢索結果中的排名有一定價值;
6、由於分類目錄收錄大量同類網站,並且多數用户更習慣於用搜索引擎直接檢索,因此僅靠分類目錄被用户發現的機會相對較小,難以帶來很高的訪問量,通常還需要與其他網站推廣手段共同使用。