複製鏈接
請複製以下鏈接發送給好友

元搜索

鎖定
搜索引擎稱多搜索引擎,通過一個統一的用户界面幫助用户在多個搜索引擎中選擇和利用合適的(甚至是同時利用若干個)搜索引擎來實現檢索操作,是對分佈於網絡的多種檢索工具的全局控制機制。(搜索引擎分類:全文搜索引擎目錄索引元搜索引擎
中文名
元搜索
又    稱
搜索引擎
通    過
一個統一的用户界面
包    括
全文搜索引擎、目錄索引

元搜索簡介

元搜索引擎的另外一個定義:元搜索引擎(Meta-search Engine),是一種調用其它獨立搜索引擎的引擎,亦稱“搜索引擎之母(The mother of searching engines)”。在這裏,“元”(Meta)為“總的”、“超越”之意,元搜索引擎就是對多個獨立搜索引擎的整合、調用、控制和優化利用。相對元搜索引擎,可被利用的獨立搜索引擎稱為“源搜索引擎”(source searching Engine),或“搜索資源”(searching resources),整合、調用、控制和優化利用源搜索引擎的技術,稱為“元搜索技術”(Meta-searching technique),元搜索技術是元搜索引擎的核心。

元搜索起源

世界上最早的元搜索是metacrawler,它是infospaceinc.的一部分,初始網上運行時間為 1995年,是由華盛頓大學的學生Erik和教授Oren etzin共同開發研製的。它是萬維網搜索引擎metacrawler的姐妹引擎,是一個並行式的元搜索引擎。具有同時調用Google、Yahoo、Ask Jeeves About、LookSmart、TeomaOverture、FindWhat等搜索引擎的功能,然後按相關度給出精確,詳細的結果。它可以對網頁、圖像、音頻、多媒體、新聞、購物等進行選擇檢索,還提供瞭如下高級檢索功能:
提高你檢索的品質(Qualify Your Search):你可以創建一個特定的檢索,查詢一個精確的字段,或者排除包含特定詞的頁面。
使用布爾邏輯符檢索(Use Boolean Terms):在關鍵詞中使用and,or和not布爾邏輯檢索符,使得檢索結果更精確。
最後更新頁面(Last Page Update):使用After來查詢特定日期後更新的結果,使用Before來查詢在特定日期前更新的結果。同時選擇After和Before,將檢索出兩個日期之間的結果。
域名過濾(Domain Filter):可以排除以.com.gov.edu結尾的域名,你也可以包括一個特殊的包含.com的域名。
成人過濾(Adult Filter):可以包含或者過濾掉Web檢索結果中的成人內容。
語言選擇(Language Selection):可以選擇返回結果所用的語言。
結果展示(Results Display):可以選擇檢索結果排序的方式,按與檢索詞相關性排序或者按搜索引擎展示結果的順序排序。

元搜索組成

一個真正的元搜索引擎由三部分組成,即:檢索請求提交機制、檢索接口代理機制、檢索結果顯示機制。"請求提交"負責實現用户"個性化"的檢索設置要求,包括調用哪些搜索引擎、檢索時間限制、結果數量限制等。"接口代理"負責將用户的檢索請求"翻譯"成滿足不同搜索引擎"本地化"要求的格式。"結果顯示"負責所有源搜索引擎檢索結果的去重、合併、輸出處理等元搜索引擎的出現,對於那些需要連續地使用不同的搜索引擎重複相同的檢索的人來説,是一個福音。使用元搜索引擎同時對幾個搜索引擎進行檢索,獲得分級編排的檢索結果。

元搜索原理

元搜索引擎的工作原理 元搜索引擎的工作原理
我們可將元搜索引擎看成具有雙層客户機/服務器結構的系統。用户向元搜索引擎發出檢索請求,元搜索引擎再根據該請求向多個搜索引擎發出實際檢索請求,搜索引擎執行元搜索引擎檢索請求後將檢索結果以應答形式傳送給元搜索引擎,元搜索引擎將從多個搜索引擎獲得的檢索結果經過整理再以應答形式傳送給實際用户。當然,某些元搜索引擎具有略微不同的機制。

元搜索相關術語

簡單搜索(Simple Search)指輸入一個單詞(關鍵詞),提交搜索引擎查詢,這是最基本的搜索方式。
詞組搜索(Phrase Search)指輸入兩個單詞以上的詞組(短語),提交搜索引擎查詢,也叫短語搜索。現有的搜索引擎一般都約定把詞組或短語放在引號“”內表示。
語句搜索(Sentence Search)指輸入一個多詞的任意語句,提交搜索引擎查詢,這種方式也叫任意查詢。不同搜索引擎對語句中詞與詞之間的關係的處理方式不同。
目錄搜索(Catalog Search)指按搜索引擎提供的分類目錄逐級查詢,用户一般不需要輸入查詢詞,而是按照查詢系統所給的幾種分類項目,選擇類別進行搜索,也叫分類搜索(Classified SearCh)。
高級搜索(Advance Search)指用布爾邏輯組配方式查詢,也叫定製搜索。常用的邏輯運算為AND(和)、 OR(或)和NOT(非)。
上述前3種搜索方式可以合稱為詞語搜索(Word Search),與高級搜索和目錄搜索一起構成3類常見搜索方式。
在所有搜索方式中,還可使用通配符,就像DOS文件系統用“*”作為通配符一樣,通配符用於指代一個串字符,不過,每個搜索引擎所用的通配符不完全相同,大多用“*”或“?”,少數用“$”。
不少搜索引擎還支持加(+)、減(-)詞操作。 元搜索引擎(Meta-search engine) 其英文原意是搜索引擎之後或之上的搜索引擎,即可以同時查詢多個搜索引擎的WWW站點。雖然元搜索引擎依賴其他獨立搜索引擎而存在,但它們集成了不同性能和不同獨立的搜索引擎並發展了一些新的查詢功能,查一個元搜索引擎就相當於查多個獨立搜索引擎,可以收到事半功倍的效果,故值得選用。

元搜索引擎網站

元搜索引擎在接受用户查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用户。著名的國外元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有比比貓搜索引擎、搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
國外對元搜索的開發應用很早,在美國使用元搜索引擎和使用Google一樣普遍,當然Google仍然佔據美國絕對市場,但元搜索引擎也一樣生機勃勃,財源滾滾。相比國內,起步很晚,中國首家元搜索引擎比比貓(bbmao),於2005年成立,在2006年獲得Red Herring 亞洲100強獎,從而拉開國內對元搜索的真正關注和探索。比較優秀的元搜索引擎有搜魅網(someta),整合了百度、谷歌、雅虎等多家主流搜索引擎的結果,並且獨創網站查詢。
整體來講,國外元搜索引擎已自成體系,而國內真正長期堅持致力於開發獨特用户體驗的元搜索網站並不多。
主要元搜索引擎列表
國內: ·搜魅網(someta)
集合了百度、google、搜狗、雅虎多家主流搜索引擎的結果,提供網頁、資訊、網址導航等聚合查詢。另外,搜魅網突破了元搜索引擎沒有自己的蜘蛛的瓶頸,提供了網站查詢的功能。
·比比貓(Bbmao)
獨創國際領先的聚類和去重技術。搜索結果彙集各大搜索引擎結果,搜索結果智能分類整理,去掉重複搜索結果,並擁有直接搜尋文檔和強大網絡收藏夾等多元功能。對於記者、教授、高管等知性、高端且惜時如金的人羣比較適用,支持中英文搜索。
·全博元搜索(QOOPOO)
聚合搜索的力量,已經運行多年,2006年格林斯潘曾接觸這家公司,後勁比較強勁。
·Xooda元搜索引擎
支持本地搜索,一次輸入,返回多個搜索引擎結果,並對結果進行重新的優化排序。
·佐意綜合搜索(Chinazss)
集主流搜索引擎為一體,分類詳細,強大的搜索功能。讓搜索變得更方便!國外: Vivisimo:是美國Vivisimo公司最新開發的一個具有對搜索結果自動進行分類功能的搜索引擎!它能非常快速地將不同類型的網站進行分類整理並將結果呈現在你眼前! 它在搜索結果頁面左側增加了一個搜索結果目錄欄。不足之處在於搜索結果精準度不是很高。
ProFusionProFusion:是並行式元搜索引擎,擁有智能化的搜索技術、對查詢的實用提示和非常寶貴的個人化搜索服務,它是很優秀的元搜索引擎,可同時調用9個獨立萬維網搜索引擎—AltaVista、Excite、HotBot、InfoSeek、Lycos、Magellan、OpenText、Webcrawler和Yahoo。
MetaCrawlerMetaCrawler:是獨立萬維網搜索引擎WebCrawler的姐妹引擎,也是一個並行式元搜索引擎,它條理清晰,組織結構完美,可以同時調用AltaVista、Excite、Infoseek、Lycos、WebCrawler和Yahoo 6個獨立引擎,是簡單搜索或中度複雜搜索的最佳網點。
DogpileDogPile:是性能較好的並行式元搜索引擎之一,它可以同時調用Web搜索引擎、Usenet搜索引擎和FTP搜索引擎等25個搜索引擎,其中,Web搜索引擎14個。
DigisearchDigisearch:是能同時調用獨立搜索引擎較多的並行式元搜索引擎,它可以同時調用AltaVista、 Excite、 Infoseek、 Lycos、 WebCrawler、 Yahoo、OpenText和 Magellen等 18個獨立萬維網搜索引擎,DejaNews等3個Usenet搜索引擎和Fourll等3個個人信息和商界信息搜索引擎。
Highway61Highway61:是並行式元搜索引擎,可以同時調用AltaVista、Excite、 Infoseek、 Lycos、WebCrawler和Yahoo等6個獨立引擎,並將它們傳回的結果進行排序,顯示給用户。
MammaMamma:是並行式元搜索引擎,它自稱是所有搜索引擎之母(Mother of all Search Engines),它可以同時調用AltaVista、Excite、Infoseek、Lycos、WebCrawler和Yahoo等獨立引擎,並且可以查新聞組、商業黃負和發佈新聞

元搜索運行流程

用户通過統一的查詢界面輸入查詢請求,元搜索引擎對查詢進行一定的預處理。
元搜索引擎根據成員搜索引擎調度機制,選擇若干成員搜索引擎。
元搜索引擎根據選擇的成員搜索引擎的查詢格式,對原始查詢請就進行本地化處理,轉換為成員搜索引擎要求的查詢格式串。
向各個成員搜索引擎發送經過格式化的查詢請求,等待返回結果。
收集各個獨立搜索引擎的返回結果。
對返回結果進行綜合處理,例如,消除重複鏈接,死鏈接等,形成最終結果。
以一定的格式將最終結果返回給用户。

元搜索主要特點

沒有獨立的網頁數據庫。
能夠根據用户的需求綜合特定的搜索引擎的搜索結果。
能夠索引特定類型的搜索,例如圖片、文檔、網頁、視頻等等。

元搜索發展趨勢

元搜索引擎是為彌補傳統搜索引擎的不足而出現的一種輔助檢索工具,有着傳統搜索引擎所不具備的許多優勢。但是,元搜索引擎依賴於數據庫選擇技術、文本選擇技術、查詢分派技術和結果綜合技術等。用户界面的改進、調用策略的完善、返回信息的整合以及最終檢索結果的排序,仍然是未來元搜索引擎研究的重點。
元搜索引擎的技術研發的研究需要用到了信息檢索、人工智能、數據庫、數據挖掘自然語言理解等領域的理論和技術,具有綜合性和挑戰性。
一個理想的元搜索引擎應該具備以下功能要求:
涵蓋較多的搜索資源,可隨意選擇和調用獨立搜索引擎,還可根據一定調度策略進行自動調度。
具備儘可能多的可選擇功能,如資源類型(網站、網頁、新聞、軟件、FTP、MP3、Flash、圖像、影視等)選擇、等待時間控制、返回結果數量控制、結果時段選擇、過濾功能選擇、結果顯示方式選擇等。
強大的檢索請求處理功能(如支持邏輯匹配檢索、短語檢索自然語言檢索等)和不同搜索引擎間檢索語法規則、字符的轉換功能(如對不支持“NEAR”算符的搜索引擎,可自動實現由“NEAR”向“AND”算符的轉換等)。
詳盡全面的檢索結果信息描述(如網頁名稱、URL、文摘、源搜索引擎、結果與用户檢索需求的相關度等)。
支持多種語言檢索,比如提供中英文搜索等。
可對結果進行自動分類,如按照域名、國別、資源類型、區域等進行分類整理。
可以針對不同用户提供個性化服務
在已有的獨立搜索引擎的基礎上建立一個高效的元搜索引擎能夠擴展獨立搜索引擎的處理能力,提高檢索的查全率,並且有可能進一步提高查準率
但是各個成員搜索引擎的自治性引起了集成的困難,困難主要來自:檢索界面的差異、文檔索引方法的不同、相關函數的差異、查詢參數的不同、檢索功能的強弱等。對搜索引擎檢索效果的評價機制;成員搜索引擎的自動調度機制;設計了搜索引擎描述文件方法,使系統具有良好的可擴展性;給出了自己的結果融合算法;可以更蹤用户的使用,接受用户反饋進行自主學習和調整,使系統具有自適應性
看了上面的介紹是不是對於元搜索有一定了解,國內做比較好的元搜索只有比比貓,綜合了包括百度、谷歌、雅虎搜狗中搜、有道、Live在內的眾多中文搜索引擎;國外的元搜索引擎我推薦大家可以看下DogpileClusty