複製鏈接
請複製以下鏈接發送給好友

全文檢索技術

鎖定
全文檢索技術,就是以數據諸如文字,聲音,圖像等為主要內容,以檢索文獻資料的內容而不是外表特徵的一種檢索技術·
主要全文檢索系統有TRS系統·天宇系統·等
與其他搜索引擎相比,全文搜索引擎的顯著特點是它能夠以文中任何一個有檢索意義的詞作為檢索入口,而且取得的檢索結果是原始文獻,而不是文獻線索·
中文名
全文檢索技術
外文名
full-text search
別    名
全文搜索引擎
原    理
計算機存儲設備為載體
分    類
結構化數據和非結構化數據
包    括
TRS系統·天宇系統
技術實現
Lucene,Solr,ElasticSearch等

目錄

全文檢索技術簡介

隨着計算機產業的發展,以計算機存儲設備為載體的電子信息愈來愈多,這些信息大致可分為兩類:結構化數據和非結構化數據,結構化數據指的是諸如企業財務帳目和生產數據、學生的分數數據等等,非結構化數據的則是一些文本數據、圖象聲音等多媒體數據等等。據統計,非結構化數據佔有整個信息量的80%以上。

全文檢索技術特徵

對於結構化數據,用RDBMS(關係數據庫管理系統)技術來管理是目前最好的一種方式。但是由於RDBMS自身底層結構的緣故使得它管理大量非結構化數據顯得有些先天不足,特別是查詢這些海量非結構化數據的速度較慢。而通過全文檢索技術就能高效地管理這些非結構化數據。
經過幾年的發展,全文檢索從最初的字符串匹配程序已經演進到能對超大文本、語音、圖像、活動影像等非結構化數據進行綜合管理的大型軟件。由於內涵和外延的深刻變化,全文檢索系統已成為新一代管理信息系統的代名詞,衡量全文檢索系統的基本指標也逐漸形成規範。
首先,我們關注的是查全率,即系統在進行某一檢索時,檢索出的相關資料量與系統資料庫中相關資料總量的比率。查準率則是保證我們找到最有用資料的一個關鍵,是系統在進行某一檢索時,檢索出的有用資料數量與檢索出資料總量的比率。檢索速度或者説響應時間是提高工作效率的保障,指的是從提交檢索課題到查出資料結果所需的時間。最基本的檢索速度是應該達“千萬漢字,秒級響應"。還有諸如收錄範圍(所查找的範圍)、用户負擔(用户在檢索過程中付出精力的總和)、輸出形式 (輸出信息表現形式)等指標也是衡量全文檢索系統優劣的要素。
搜索引擎應該是全文檢索技術最主要的一個應用。目前,搜索引擎的使用已成為排在收發電子郵件之後的第二大互聯網應用技術。搜索引擎起源於傳統的信息全文檢索理論,即計算機程序通過掃描每一篇文章中的每一個詞,建立以詞為單位的倒排文件,檢索程序根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的概率,對包含這些檢索詞的文章進行排序,最後輸出排序的結果。全文檢索技術是搜索引擎的核心支撐技術。
一個好的檢索引擎是一個理想站點的關鍵。很多人在訪問一個站點時喜歡使用站點檢索,站點檢索應是分類目錄導航和全文檢索的完美結合,具體包括以下幾個方面:
分類目錄導航的關鍵是檢索範圍,檢索範圍的限制能使得檢索結果不會太多、太濫;
全文檢索對於站點檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網頁;
有時利用分類目錄導航和全文檢索還很難定位到所要的信息,這時就要組合檢索輔助;
必須有相關排序功能,因為當檢索結果太多時,用户不可能一一瀏覽,大多數用户只瀏覽前面幾條,沒有相關排序,可能準確的檢索結果排在後面,用户不能瀏覽到,而排在前面的檢索結果卻相關性很少,造成用户的錯覺。
此外,我們還要考慮HTML/XML的特殊性、支持大量併發用户突發訪問、Web站點的動態特性、要求索引維護效率很高等方面。

全文檢索技術技術實現

目前的技術實現有Lucene,Solr,ElasticSearch等。全文檢索過程分為索引、搜索兩個過程:
  • 索引(Indexing)
    1. 從關係數據庫中、互聯網上、文件系統採集源數據(要搜索的目標信息),源數據的來源是非常廣泛的。
    2. 將源數據採集到一個統一的地方,例如存儲系統,要創建索引,將索引創建到一個索引庫(文件系統)中,從源數據庫中提取關鍵信息,從關鍵信息中抽取一個一個詞,詞和源數據是有關聯的。也即創建索引時,詞和源數據有關聯,索引庫中記錄了這個關聯,如果找到了詞就説明找到了源數據(http的網頁、電子書、新聞等……)。
  • 搜索(Search)
    1. 用户執行搜索(全文檢索)編寫查詢關鍵字。
    2. 從索引庫中搜索索引,根據查詢關鍵字搜索索引庫中的一個一個詞。
    3. 展示搜索的結果。