-
目錄搜索引擎
鎖定
- 中文名
- 目錄搜索引擎
- 外文名
- Directory search engine
- 應 用
- 人工方式或半自動方式蒐集信息
- 面向對象
- 網站
- 本 質
- 按目錄分類的網站鏈接列表
目錄搜索引擎功能
目錄搜索引擎雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用户完全可以按照分類目錄找到所需要的信息。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。
目錄搜索引擎主要技術
目錄搜索引擎搜索器
搜索器的功能是在互聯網中漫遊,發現和蒐集信息。它常常是一個計算機程序,日夜不停地運行。它要儘可能多、儘可能快地蒐集各種類型的新信息,同時因為互聯網上的信息更新很快,所以還要定期更新已經蒐集過的舊信息,以避免死連接和無效連接。有兩種蒐集信息的策略:
● 從一個起始URL集合開始,順着這些URL中的超鏈(Hyperlink),以寬度優先、深度優先或啓發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如雅虎)。
目錄搜索引擎索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關係(proximity)。
索引器可以使用集中式索引算法或分佈式索引算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規模峯值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決於索引的質量。
目錄搜索引擎檢索器
目錄搜索引擎用户接口
用户接口的作用是輸入用户查詢、顯示查詢結果、提供用户相關性反饋機制。主要的目的是方便用户使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用户接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。 用户輸入接口可以分為簡單接口和複雜接口兩種。
簡單接口只提供用户輸入查詢串的文本框;複雜接口可以讓用户對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關係(相鄰、NEAR)、域名範圍(如.edu、.com)、出現位置(如標題、內容)、信息時間、長度等等。一些公司和機構正在考慮制定查詢選項的標準。
目錄搜索引擎技術特點
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。
此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜索引擎中各網站的有關信息都是從用户網頁中自動提取的,所以用户的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用户在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
目錄搜索引擎發展趨勢
目錄搜索引擎相互滲透
搜索引擎與目錄搜索引擎有相互融合滲透的趨勢。一些純粹的全文搜索引擎也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而像 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索範圍(注)。在默認搜索模式下,一些目錄搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜索,如Yahoo。
目錄搜索引擎應用趨減
分類目錄的信息有效性下降意味着其網絡營銷價值的降低,登錄分類目錄的網站難以獲得有效的訪問量。與技術型的搜索引擎自動收錄網站、自動更新網站索引信息相比,網站信息不能及時更新正是分類目錄的致命缺陷 。由於已經收錄的網站信息無法自動更新,即使分類目錄中的一些網站已經關閉,或者域名被用於其他完全無關的領域,但顯示在分類目錄網站上的信息仍然是最初登錄的內容。即使分類目錄網站提供了用户自行修改網站信息的功能,但有些網站因關閉或者其他原因,通常也不會主動更新信息,因此結果造成分類目錄網站信息有效性降低,使得用户查找信息非常不便,最終影響了分類目錄作為網站推廣方法的效果。
目錄搜索引擎網絡營銷
1、通常只能收錄網站首頁(或者若干頻道),而不能將大量網頁都提交給分類目錄;
2、網站一旦被收錄將在一定時期內保持穩定,有些分類目錄允許用户自行修改網站介紹等部分信息;
3、無法通過“搜索引擎優化”等手段提高網站在分類目錄中的排名;
4、對於付費分類目錄登錄,通常需要交納年度費用;
6、由於分類目錄收錄大量同類網站,並且多數用户更習慣於用搜索引擎直接檢索,因此僅靠分類目錄被用户發現的機會相對較小,難以帶來很高的訪問量,通常還需要與其他網站推廣手段共同使用。