複製鏈接
請複製以下鏈接發送給好友

範圍搜索

鎖定
搜索問題就是找出與給定關鍵字值相對應的記錄,或者説是確定在數據結構中不存在這樣的記錄。如果數據是自然的線性順序(例如,字典中字的順序),這就使研究相關的問題非常有意義,我們稱之為範圍搜索。 [1] 
中文名
範圍搜索
外文名
range searching
範圍搜索
找出與給定關鍵字值相對應的記錄
條    件
關鍵字指定要檢索的包括範圍
應用學科
計算機原理
應    用
字典中字的順序等

目錄

範圍搜索定義

搜索問題就是找出與給定關鍵字值相對應的記錄,或者説是確定在數據結構中不存在這樣的記錄。如果數據是自然的線性順序(例如,字典中字的順序),這就使研究相關的問題非常有意義,我們稱之為範圍搜索(range searching)。
這個問題是定位的問題,並不是搜索規定關鍵字值的單一記錄,而是搜索位於兩個具體關鍵字限值之間的所有記錄。
為了抽象地描述這個問題,我們假設想要表示的有序對
由key值和info值組成,我們希望在info值上實現任意操作Op:
RangeSearch(L,U,S,Op):在每個info I 上執行Op操作,當
在普通的二分搜索樹中很容易實現範圍搜索。其基本的思想就是,從樹中的一個節點開始,對存儲在節點上的信息執行相應的操作,如果節點的關鍵字K在這個範圍內;如果
就在左子樹中遞歸搜索(因為在左子樹中可能有該範圍內的附加元素),如果
就在右子樹中遞歸搜索。 [1] 

範圍搜索搜索引擎

範圍搜索定義

搜索引擎是指根據一定的策略,運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理後,為用户提供檢索服務,將用户檢索的相關信息傳輸到用户的系統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門户楷索引擎與免費鏈接列表等。

範圍搜索工作原理

第一步:爬行:搜索引擎是通過運行一種特定規律的軟件來跟蹤網頁的鏈接,從一個鏈接追蹤到另外一個鏈接,就像蜘蛛在蜘蛛網上爬行一樣,所以被稱為“蜘蛛”,也被稱為“機器人”。搜索引擎“蜘蛛”在互聯網爬行時,它被設置了一定的規則,需要遵守某些命令或文本的規則。
第二步,抓取存儲:搜索引擎是通過“蜘蛛”跟蹤鏈接爬行到網頁,並將爬行得來的數據存入原始頁面數據庫。其中的頁面數據與用户瀏覽器得到的HTMI。是完全一樣的。搜索引擎“蜘蛛”在抓取頁面時,也對內容做一定的重複性檢測,一旦遇到權重很低的網站上有大量抄襲、採集或者複製的內容,很可能就不再爬行。
第三步,預處理:這是指搜索引擎將“蜘蛛”抓取回來的頁面進行各種步驟的預處理。
(1)提取文字;
(2)中文分詞;
(3)去停詞;
(4)消除嗓音;
(5)去重;
(6)正向索引;
(7)倒排索引;
(8)鏈接關係計算;
(9)特殊文件處理。
第四步,排名:用户在搜索框輸入關鍵詞後,排名程序調用索引庫數據,計算排名顯示給用户,排名過程是與用户直接互動的。由於搜索引擎獲取的數據量龐大,搜索引擎的排名規則通常根據日、周、月屬性進行更新。 [2] 
參考資料
  • 1.    (美)路易斯,(美)丹尼伯格.數據結構與算法:中國電力出版社,2012-04
  • 2.    覃豔.常用軟件基礎:四川大學出版社,2014-03:28