複製鏈接
請複製以下鏈接發送給好友

並行搜索

鎖定
並行搜索引擎(又稱集成搜索引擎元搜索引擎、大型搜索引擎)是一種可同時檢索多個搜索引擎,並以統一的檢索界面返回檢索結果的檢索工具。
中文名
並行搜索技術
外文名
Parallel search technique

並行搜索簡單解説

Metacrawler 是世界上第1個並行搜索引擎,它使用幾大頂級搜索引擎(Google, hoo, About等)進行並行搜索,返回最相關的檢索結果,從而使網頁檢索更容易。並行搜索引擎通過其轉換功能,將檢索用詞轉換為搜索引擎可接受的形式,並提交給搜索引擎,用於查找匹配記錄、進行記錄去重及檢索結果整合。由於並行搜索引擎能協同檢索多個搜索引擎,忽略其數據來源的結構差異,剔除相互之間的重複記錄,並檢驗檢索結果信息的有效性,因此可獲得高質量的檢索效果。

並行搜索內容提要

搜索是諸多計算任務中最基本的操作之一,通常是指從內存(或外存)的一批記錄中按鍵找出所需的記錄。搜索的目的是對所獲得的鍵記錄進行某種處理。所討論的搜索是對詞典(Dictionary)(一種能支持插入、刪除、檢索等的數據結構)和鏈表(List)(一種線性數據結構,其中各節點間以指針相連)施行操作。首先從單處理機上的串行搜索談起;接着討論SIMD共享存儲模型上的有序表的搜索(從而導出並行搜索的時間下界)和隨機序列的搜索;然後討論SIMD互連網絡模型上的詞典操作(Dictionary Operation)。 [1] 

並行搜索優勢

(1)檢索信息擴大對Internet 的覆蓋範圍。研究表明,Internet 數據增長速度比獨立引擎索引網絡數據的速度快很多,導致主流的獨立搜索引擎對Internet 的覆蓋範圍逐步下降,而並行搜索引擎可以緩解該矛盾。
(2)提高信息檢索的擴展性。使用並行搜索引擎檢索網絡信息比使用集中化的獨立搜索引擎更容易得到擴展。
(3)並行檢索可以同時使用多個搜索引擎。用户只需要提交一次查詢就可以使用多個獨立引擎,不必熟悉每個獨立引擎的檢索界面,且並行搜索引擎可以對檢索結果進行排序和冗餘處理。
(4)提高檢索效率。有時並行搜索的檢索速度低於單個獨立搜索引擎,但並行檢索可以獲得較大的結果集,為用户提供更有效的檢索信息。一些學者認為未來的網絡檢索服務將由許多各自覆蓋的小部分互連網的專業引擎協同提供。通用大型檢索系統的任務將由並行搜索引擎代替。相對一些成熟的獨立搜索引擎而言,並行搜索引擎仍然

並行搜索存在缺陷

由於並行搜索引擎基本沒有自己管理的檢索信息,因此無法獲得檢索信息的描述信息,且其檢索質量還部分依賴於為其提供服務的獨立搜索引擎,具體體現 在:
(1)並行搜索引擎可能不支持某些高級檢索功能,比如高級布爾檢索等。
(2)並行搜索引擎不會返回所有檢索結果,例如,它只是將每個搜索引擎最相關的檢索結果返回給用户,若某個獨立搜索引擎在規定時間內沒有響應,則忽略它的檢索結果。
(3)因為獨立搜索引擎之間一般都有重複紀錄出現,所以並行搜索引擎必須面對信息冗餘問題。文獻[4]提出基於Agent的方法,包含自然語言分析器、查詢定製、網頁收回、網頁過濾、網頁排序和用户選項Agent來解決上述問題。本文基於網格的並行搜索引擎,參考文獻的思想來解決並行搜索引擎的一些問題。 [2] 
參考資料
  • 1.    陳國良編著,並行算法的設計與分析,高等教育出版社,2009.08,第228頁
  • 2.    什麼是並行搜索技術  .電子發燒友.2009-3-30[引用日期2017-01-12]