複製鏈接
請複製以下鏈接發送給好友

計算機信息檢索

(計算機應用技術)

鎖定
計算機信息檢索(computer information retrieval)利用計算機系統有效存儲和快速查找的能力發展起來的一種計算機應用技術。它與信息的構造、分析、組織、存儲和傳播有關。計算機信息檢索系統是信息檢索所用的硬件資源、系統軟件和檢索軟件的總合。它能存儲大量的信息,並對信息條目(有特定邏輯含義的基本信息單位)進行分類、編目或編制索引。它可以根據用户要求從已存儲的信息集合中抽取出特定的信息,並提供插入、修改和刪除某些信息的能力。
中文名
計算機信息檢索
外文名
computer information retrieval 英文
信息檢索
一次性和二次性信息檢索系統
類    別
計算機理論

計算機信息檢索綜述

計算機信息檢索
(英文computer information retrieval)
計算機信息檢索系統可分為:一次性信息檢索系統和二次性信息檢索系統。前者適合於單個條目,即信息量不大而需要經常修改的情況,如航空公司訂票系統。後者適合於信息條目本身信息量較大而不常修改的情況,如圖書或文獻檢索系統。
計算機信息檢索可以概括為兩個部分:信息存儲和信息檢索。

計算機信息檢索信息分析

目的是確定輸入系統的信息條目的格式和內容,併為建立索引作準備。一次信息檢索系統用於確定邏輯記錄的格式和記錄關鍵字,或記錄之間的關係;二次信息檢索系統用於濃縮原始信息,又稱作標引。這相當於編制題錄或文摘,即找出標識原始信息的一組關鍵詞(稱作主題詞或檢索詞),從而產生一部檢索詞典。在詞典中還可以規定同義詞、近義詞關係和各詞語之間的層次關係。標引工作的一部分可由計算機自動完成。例如,利用題內關鍵詞索引或頻率統計法等技術從原始信息中抽取出關鍵詞。

計算機信息檢索信息存儲

目的是建立信息庫,以備檢索。為了便於查找,需要合理組織信息條目,可以按文件形式組織,也可以按數據庫形式組織。信息檢索系統常用的文件組織形式有:順序文件、索引順序文件倒排文件和聚類文件,其中用得較多的是倒排文件和聚類文件。
倒排文件對每個信息條目給出一個表示主要屬性的唯一的關鍵詞,稱主關鍵詞。所有主關鍵詞和相應信息條目在文件中的地址構成一個索引,稱為主索引。系統還給出允許用户檢索的信息條目中的次要屬性,稱為次關鍵詞。次關鍵詞不是唯一的。通過在每個次關鍵詞後面列出出現該屬性的信息條目的主關鍵詞而構成另一種形式的索引,稱為次索引。從主關鍵詞查主索引可以找到信息條目。從次關鍵詞查次索引可以找到若干主關鍵詞,系統從主索引可以找出若干有關的信息條目。在一次檢索提問中要查找的索引部分是很小的,所以倒排文件結構的查找時間較短。
聚類文件是通過分析信息條目之間的相似性來組織的。檢索時,系統查找出與提問關鍵詞有相似性的聚集類,聚類文件結構特別適合於文獻檢索的情況。

計算機信息檢索信息檢索

脱機處理聯機檢索兩種檢索方式。對於前者,用户提交書面檢索要求,操作員按期打印出結果交付用户。對於後者,用户通過聯機終端打入檢索命令,系統當時給出回答。通過計算機網絡,用户還可以進行遠程脱機處理或遠程聯機檢索
用户與系統的接口是檢索語言,通過它提出檢索要求。檢索語言通常包括檢索命令和提問邏輯表達式兩個部分。命令傳達用户對系統的請示,邏輯表達式則提供執行該命令時的邏輯條件。邏輯表達式邏輯運算符(與、或、非)、邏輯關係符和不同屬性的組合。系統提供一組程序來解釋和執行檢索語言。

計算機信息檢索系統維護

系統提供一組實用程序來進行裝入信息的格式轉換、信息文件的初始化和故障後系統的重新運行等一般性服務。二次信息檢索系統還提供檢索詞典維護程序,以便能增加、刪除、修改和打印出檢索詞。

計算機信息檢索保密性

計算機信息檢索系統的保密性是通過對信息條目的存取控制機構來實現的。對於以文件系統為基礎的信息檢索系統,存取控制一般只能在文件一級,即通過在打開文件時核對口令來控制非授權的用户檢索信息。對於以數據庫技術為基礎的檢索系統,存取控制可以在文件、記錄,甚至在信息條目中某信息項一級,既可以通過核對口令方式,也可以採取調用用户編寫的編碼、譯碼子程序的方式阻止非授權的用户調用保密的信息。

計算機信息檢索可靠性

計算機信息檢索系統的可靠性與計算機系統的可靠性密切相關。它依賴於計算機系統硬件的可靠性、操作系統的故障恢復機構、數據庫管理系統的恢復機構和應用軟件採取的故障處理措施。任何計算機信息檢索系統都不能保證信息不受到破壞,但是它必須具有從破壞中得以恢復的能力。

計算機信息檢索效能評價

計算機信息檢索系統的效能通常根據漏檢索、誤檢率、檢全率、檢準率和響應時間(對聯機檢索)等來衡量。關鍵詞本身錯誤或使用的查找算法不對會引起漏檢。關鍵詞的二義性會造成誤檢。檢全率和檢準率主要針對二次信息檢索系統而言的。檢全率指檢出的相關信息條目數與信息庫中的相關條目數之比。檢準率指檢出的相關條目數與所有檢出的條目數之比。這二者是相互制約的。一般認為一個系統檢全率在60%~70%,檢準率在40%~50%即能滿足需要。響應時間的快慢不僅與軟件設計的好壞有關,而且與硬件的性能有關。

計算機信息檢索應用範圍

計算機信息檢索最初用於圖書、文獻檢索方面,後已用在軍事、工業、醫療、航空、政府機關等各個方面。有的只作信息檢索用,有的則是將信息檢索技術應用在其他綜合的管理信息系統之中,如用於輔助決策的軍事情報檢索系統;航空公司自動訂票系統,醫療情報系統(包括病歷管理、預約登記、通知、病名檢索、病牀管理等);旅館牀位管理系統;檢索型的輔助設計系統等。此外,政府部門或企業的檔案管理、科研或工程項目管理、基本建設投資管理等都可應用信息檢索技術。