複製鏈接
請複製以下鏈接發送給好友

全文檢索

鎖定
全文數據庫是全文檢索系統的主要構成部分。所謂全文數據庫是將一個完整的信息源的全部內容轉化為計算機可以識別、處理的信息單元而形成的數據集合。全文數據庫不僅存儲了信息,而且還有對全文數據進行詞、字、段落等更深層次的編輯、加工的功能,而且所有全文數據庫無一不是海量信息數據庫。
中文名
全文檢索
外文名
full-text search
定 義
一種新的信息檢索技術
應用學科
計算機技術方法術語

全文檢索概念

全文檢索發展歷史

全文檢索是20世紀末產生的一種新的信息檢索技術。經過幾十年的發展,特別是以計算機技術為代表的新一代信息技術應用,使全文檢索從最初的字符串匹配和簡單的布爾邏輯檢索技術演進到能對超大文本、語音、圖像、活動影像等非結構化數據進行綜合管理的複合技術。由於內涵和外延的深刻變化,全文檢索系統已成為新一代管理系統的代名詞,衡量全文檢索系統的基本指標和全文檢索的內涵也發生巨大變化。

全文檢索系統及功能

全文數據庫是全文檢索系統的主要構成部分。所謂全文數據庫是將一個完整的信息源的全部內容轉化為計算機可以識別、處理的信息單元而形成的數據集合。全文數據庫不僅存儲了信息,而且還有對全文數據進行詞、字、段落等更深層次的編輯、加工的功能,而且所有全文數據庫無一不是海量信息數據庫。對於全文數據庫這種比較非結構化的數據,用RDBMS(關係數據庫管理系統)技術來管理是最好的一種方式。但是由於RDBMS底層結構的緣故使得它管理大量非結構化數據顯得有些先天不足,特別是查詢這些海量非結構化數據的速度較慢,而通過全文檢索技術就能高效地管理這些非結構化數據。
關於全文數據庫的特點,空軍政治學院計算機中心王蘭成副教授認為全文數據庫與書目數據庫、事實數據庫相比較主要有如下特點:(1)全文數據庫包含信息的原始性 庫中信息基本上是未經信息加工的原始文本,具有客觀性。(2)信息檢索的徹底性 可對文中任何字、詞、句進行檢索,還可表示檢索之間的複雜位置關係(3)所用檢索語言的自然性 不做人工標引,藉助截詞、鄰接等匹配方法,以自然語言檢索所需文獻。這是與傳統主題詞檢索方法的根本區別。(4)數據相對的穩定性 全文數據庫基本上是封閉的,一般不需更新。(5)檢索結果的準確性(6)數據結構的非結構性

全文檢索實現技術

全文檢索系統的實現技術分為三個方面:關係型全文檢索系統、層次型全文檢索系統、面向對象的全文檢索系統及自動標引技術。
針對全文數據系統的構建,提出全文檢索系統的實現技術,主要分為5個步驟。
(1)數據準備:它是指針對計劃加載到全文數據庫中的數據進行收集、整理、歸類等預先處理的過程。加載到全文數據中的數據可以從多種途徑獲得,常見的數據來源有:電腦打字產生的文件,電子印刷產生的文稿,計算機網上傳送的文件,電子出版物,圖文處理產生的文件,專門組織人力錄入建庫。
(2)文本預處理:包括規範格式,當格式多種多樣時,應加以整理,使文獻的格式規範化;批式標引,文本預處理階段完成的批式標引,不受全文數據庫結構的限制,效率較高。
(3)數據加載:數據準備好以後,便可以加載(拷入、輸入)到數據庫文件中去了。加載數據可有單篇方式或批量方式。單篇方式一次加載一篇,適於平時文獻隨時加載的情況。批量方式一次加載多篇,適於集中大量加載的情況。
(4)數據檢索:數據庫建立起來之後,便可根據全文檢索系統提供的檢索功能對數據庫進行檢索。
(5)數據維護:全文數據建立以後,需要經常對數據庫的內容進行索引、更新、追加和清理。 [1] 
參考資料
  • 1.    焦玉英主編.信息檢索進展:人民郵電出版社,2003.08