複製鏈接
請複製以下鏈接發送給好友

全文搜索引擎

鎖定
全文搜索引擎就是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用户查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用户。
中文名
全文搜索引擎
外文名
Full Text Retrieval
組    成
下載系統、分析系統等
檢索對象
文本、聲音等
典型產品
WiseNut、百度等
所屬領域
信息技術

目錄

全文搜索引擎簡介

全文檢索技術,尤其是中文全文檢索技術的研究始於1987年左右,已經有一些商品化的軟件。Internet的普及使得全文檢索技術日益成熟起來,其應用已突破傳統的情報部門和信息中心的侷限性,使該技術的最廣大用户變成互聯網的用户和桌面用户,而不再僅侷限於情報檢索專家。
全文檢索技術以各類數據如文本、聲音、圖像等為對象,提供按數據的內容而不是外在特徵來進行的信息檢索,其特點是能對海量的數據進行有效管理和快速檢索。它是搜索引擎的核心技術,同時也是電子商務網站的支撐技術。全文檢索技術可應用於企業信息網站、媒體網站、政府站點、商業網站數字圖書館和搜索引擎中。我們知道,企業信息化是電子商務的基礎,企業建立自己的商務站點,構建企業內部信息發佈平台,並與其他網站間建立安全的信息發佈通道和交換通道,建立電子商務的應用並以數據為中心建立應用平台等方面都離不開全文檢索。該檢索技術可跨越所有的數據源,支持多種數據和信息格式,對檢索結果可按商業分類規則進行排列,也能滿足用户特定的知識檢索請求,將所有不同信息查詢中的命中結果按相關性或分類排列,提供不同格式的信息瀏覽功能。 [1] 
從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,並自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等;另一種則是租用其他引擎的數據庫,並按自定的格式排列搜索結果,如Lycos引擎。

全文搜索引擎原理

全文搜索引擎的“網絡機器人”或“網絡蜘蛛”是一種網絡上的軟件,它遍歷Web空間,能夠掃描一定IP地址範圍內的網站,並沿着網絡上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站採集網頁資料。它為保證採集的資料最新,還會回訪已抓取過的網頁。網絡機器人或網絡蜘蛛採集的網頁,還要有其他程序進行分析,根據一定的相關度算法進行大量的計算建立網頁索引,才能添加到索引數據庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統的檢索界面,當你輸入關鍵詞進行查詢時,搜索引擎會從龐大的數據庫中找到符合該關鍵詞的所有相關網頁的索引,並按一定的排名規則呈現給我們。不同的搜索引擎,網頁索引數據庫不同,排名規則也不盡相同,所以,當我們以同一關鍵詞用不同的搜索引擎查詢時,搜索結果也就不盡相同。 [2] 

全文搜索引擎組成

全文搜索引擎主要由四大系統構成。
(1)下載系統,用於從Web上採集各種類型的網頁信息,並保持對Web變化的同步。
(2)分析系統,用於對下載系統採集的信息進行PageRank和分詞計算。
(3)索引系統,用於將分析系統處理後的網頁對象索引入庫。
(4)查詢系統,用於分析用户提交的查詢請求,然後從索引庫中檢索出相關網頁並將網頁排序後,以查詢結果的形式返回給用户。 [3] 
參考資料
  • 1.    肖偉民主編.電子商務網站建設與管理 第2版:東北財經大學出版社,2011.03
  • 2.    劉雙魁主編.信息檢索與利用:東南大學出版社,2010.08
  • 3.    鄧安遠主編;張海副主編;譚旭傑,於林峯,郭景娟,許志國參編.電子商務技術:中國商務出版社,2015.06