複製鏈接
請複製以下鏈接發送給好友

檢索速度

鎖定
互聯網時代的到來開啓了信息革命,掌握了大量信息就能在日常、商務生活中處於不敗之地,但是信息量是如此巨大,如何甄選出有用的關鍵信息就成為了人們一直以來討論的焦點。在用户的信息處理中,普遍會用到檢索技術來獲取關鍵信息。檢索速度是衡量一個檢索技術好壞最重要的指標之一。
中文名
檢索速度
外文名
Retrieval speed
學    科
計算機科學
應    用
信息檢索
指    標
響應快慢
定    義
檢索信息的快慢

檢索速度簡介

檢索速度簡單地來説就是人們檢索相關信息的的快慢(時間消耗)。互聯網時代的到來開啓了信息革命,隨着大數據時代到來,我們要面對的信息量達到一個我們無法想象的量級。但是在這些信息中快速找出個人或者公司所需要的一直都是我們所期望的。檢索在計算機的應用中無所不在。檢索速度是衡量一個檢索技術最重要的指標之一。檢索速度主要受檢索算法和硬件影響。

檢索速度檢索技術的主要內容

將索引和檢索放到一個進程中。由於二者在一個進程中同時存在,未剝離各·自的處理,因此,會互相影響彼此的性能。也就是説,在索引時由於佔用較多的CPU,會導致檢索性能存在瓶頸。
一個檢索只唯一對應一個索引庫。由於索引和檢索不分離,並且沒有同步切換機制,因此,在同步索引時,當前的檢索不能進行服務,即:索引時會導致檢索服務中斷;並且每次哪怕只更新一篇數據,也需要對整個索引進行重建、更新,會對數據更新的速度有所限制。
單線程檢索一個數據量較大的索引庫或多個索引庫。由於倒排表過大會導致運算量的增加,因此,導致單次檢索的響應時間相應增加,從而導致整體檢索性能不高。

檢索速度檢索算法

檢索算法一般分為傳統的搜索算法和搜索引擎算法
搜索算法是利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況,從而求出問題的解的一種方法。現階段一般有枚舉算法、深度優先搜索、廣度優先搜索、A*算法回溯算法、蒙特卡洛樹搜索、散列函數等算法。在大規模實驗環境中,通常通過在搜索前,根據條件降低搜索規模;根據問題的約束條件進行剪枝;利用搜索過程中的中間解,避免重複計算這幾種方法進行優化。例如散列函數(或散列算法,又稱哈希函數,英語:Hash Function)是一種從任何一種數據中創建小的數字“指紋”的方法。散列函數把消息或數據壓縮成摘要,使得數據量變小,將數據的格式固定下來。該函數將數據打亂混合,重新創建一個叫做散列值(hash values,hash codes,hash sums,或hashes)的指紋。散列值通常用一個短的隨機字母和數字組成的字符串來代表。好的散列函數在輸入域中很少出現散列衝突。在散列表和數據處理中,不抑制衝突來區別數據,會使得數據庫記錄更難找到。
搜索引擎算法: 獲得網站網頁資料,建立數據庫並提供查詢的系統,我們都可以把它叫做搜索引擎。搜索引擎的數據庫是依靠一個叫“網絡機器人(crawlers)”或叫“網絡蜘蛛(Spider)”的軟件,通過網絡上的各種鏈接自動獲取大量網頁信息內容,並按一定的規則分析整理形成的。Google、百度都是比較典型的搜索引擎系統。 為了更好的服務網絡搜索,搜索引擎的分析整理規則---即搜索引擎算法是變化的。

檢索速度應用

現代互聯網的使用已經離不開搜索引擎,而搜索引擎的使用會消耗大量能源,造成巨大的碳排放量。運行用户計算機需要電力,運行遍佈世界各地的服務器和控制龐大的數據中心的温度更要消耗大量的電力。谷歌稱,通過谷歌搜索引擎的每一次搜索會產生0.2克的二氧化碳排放量,而美國哈佛大學的物理學家阿歷克斯·維茲納爾-格羅斯則稱,每一次搜索所產生的二氧化碳排放量高達7克。信息和通信技術領域造成的二氧化碳排放量已佔全球二氧化碳排放總量的大約2%。因此,世界各信息技術公司都在研究如何減少信息處理技術對環境的影響。
格拉斯哥大學科學家將研究目標放在了提高搜索速度上,希望通過提升速度來減少耗能。研究小組的維姆·範德鮑維德博士指出,人們會思考運行信息技術的碳成本,他們可能對使用計算機的耗電量很清楚,但未必會留意使用網絡搜索時所消耗的能源。雖然有很多方式可以降低數據中心的能耗,減少搜索所需時間則是他們的關注重點。通過提高搜索速度,服務器在等量工作中消耗的能源就會減少。
研究小組使用雙賽靈思現場可編程邏輯門陣列(Xilinx FPGAs),執行信息檢索和數據庫文檔過濾算法。結果發現,FPGA系統的搜索速度比英特爾安騰-2雙核處理器要快20倍。不僅如此,FPGA芯片所耗電能也很小,每個芯片只需要消耗1.25瓦特的電能,而安騰處理器則需消耗130瓦特。
研究小組的另一位成員阿茲沃帕迪博士表示,FPGAs能夠降低能耗,提升運行速度,極具潛力,有望帶來巨大的經濟效益。如果將幾個FPGAs連接到一個處理器上,將會極大提升運算速度,而只留下很少的碳足跡。
科學家希望能進一步發展該系統,並將其最終應用到網絡服務器上,以加快網絡搜索速度,從而降低搜索引擎工作所需的能源和碳成本。他們正致力於進一步提高原型機的表現,進行數據中心環境測試。 [1] 
參考資料