複製鏈接
請複製以下鏈接發送給好友

文檔查詢

鎖定
文檔查詢是指用户提供查找文件的主題字,在Internet上千個FTP服務器涉及的上億個題目中找到所需要的文件。Internet上有上千個FTP服務器,涉及上億個題目,要在這麼多的資源中找到所需要的文件,並非是一件容易的事。為了幫助用户在遍及全球的FTP服務器上找到所需要的文件,Internet提供了文檔查詢服務,只要提供要查找文件的主題字,Archie便會在Internet上查找包含有該主題字的文件或目錄,並一一列出FTP主機名。
中文名
文檔查詢
外文名
Document query
Archie
檢索匿名FTP資源的工具
WAIS
一種數據庫索引查詢服務
關    鍵
知道要查找的文件名或部分文件名
應用學科
信息資源檢索

文檔查詢基本信息

Internet上有上千個FTP服務器,涉及上億個題目,要在這麼多的資源中找到所需要的文件,並非是一件容易的事。為了幫助用户在遍及全球的FTP服務器上找到所需要的文件,Internet提供了文檔查詢服務,只要提供要查找文件的主題字,Archie便會在Internet上查找包含有該主題字的文件或目錄,並一一列出FTP主機名。
Archie這個名字來源於“Archieve Server”,即文檔查詢服務器,這個系統現在已經發展成為Internet資源檢索的一種檢索工具,提供以信息查詢為目的的電子目錄服務資源。這個數據庫存有許多匿名FTP主機的公眾文件目錄的完整清單,並定期查閲Internet各個文件庫。大概每個星期都對匿名FTP主機進行一次搜索,更新數據庫的內容,從而確定最新的文件清單提供給Internet用户。這樣,任何一個用户只需要訪問Archie,給出需要查找的文件,就能知道該文件的出處。

文檔查詢文檔查詢服務

Archie:文檔查詢服務,檢索匿名FTP資源的工具。Archie是Internet上用來查找其標題滿足特定條件的所有文檔的自動搜索服務的工具。為了從匿名FTP服務器上下載一個文件,必須知道這個文件的所在地,即必須知道這個匿名FTP服務器的地址以及文件所在的目錄名。Archie就是幫助用户在遍及全世界的千餘個FTP服務器中尋找文件的工具。Archie Server又被稱為文檔查詢服務器,用户只要給出所要查找文件的全名或部分名字,文檔查詢服務器就會指出哪些FTP服務器上存在放着這樣的文件。 [1] 

文檔查詢查詢前提

(1)知道要查找的文件名或者部分文件名;
(2)知道某個或某幾個Archie服務器的地址。 [1] 

文檔查詢查詢方式

Archie服務器支持三種查詢方式:
(1)通過Telnet遠程登錄到公用的Archie服務器上進行查詢;
(2)在本地網絡服務器上使用Archie客户機程序進行查詢;
(3)使用電子郵件進行查詢。
其中最常用的方式是用Telnet登錄到一台公用的Archie服務器上進行查詢。Internet上的Archie服務器較為繁忙,用户要選擇位置近的Archie服務器進行訪問。

文檔查詢廣域信息服務

WAIS(Wide Area Information Service):稱為廣域服務信息服務,是一種數據庫索引查詢服務。Archie所處理的是文件名,不涉及文件的內容;而WAIS則是通過文件內容(而不是文件名)進行查詢。因此,如果打算尋找包含在某個或某些文件中的信息,WAIS便是一個較好的選擇。WAIS是一種分佈式文本搜索服務,它基於Z39.50標準。用户通過給定索引關鍵詞查詢到所需要的文本信息,如文章或圖書等。 [1] 

文檔查詢工作原理

科學家們研究發現,全文檢索是成功率最高的一種檢索方法,但在檢索過程中,僅靠簡單地匹配關鍵詞和文檔全文並不能很準確的找出結果,於是科學家們提出一種計算機和人相結合的兩步檢索方法,這既可以發揮計算機快速、準確的全文檢索和統計能力,又可以發揮人的抽象思維和主觀能動的判斷力。這兩步簡單描述如下:
第一步,用户輸入要檢索的關鍵詞,計算機採用全文檢索方法檢索所有的文檔,將包含關鍵詞的文檔列成一個清單。
第二步,用户選定清單中感興趣的若干文檔(這些文檔被稱為種子文檔),然後計算機以用户選定的文檔為依據,再次檢索所有的文檔,找出內容上和用户選定的文檔相似的文檔。計算機不具備抽象思維和自然語言理解能力,所以在判斷一文檔是否和種子文檔相似的過程中,它採用判斷兩文檔出現相同詞彙的概率是否相近的方法。計算機首先提取種子文檔中最常出現的詞彙,計算它們出現的幾率,並認為高頻相似的文檔內容也越相近。
例如,用户要檢索與計算機硬件有關的文檔,那麼用户可以輸入“computer hardware”作為關鍵詞,計算機通過全文檢索將包含關鍵詞的文檔形成一列表,用户可以瀏覽這些結果後選定其中的若干文檔作為種子,計算機分析用户選定的這些種子文檔,確定出其中的高頻詞如“IRQ”,“DMA”和“card”等,並以此為依據,列出那些含有同樣多的“IRQ”,“DMA”和“card”的文檔作為結果。
上述方法聽起來有點玄妙,但在實際應用中確實發揮了很大的作用。WAIS成功借鑑了這種方法,並將檢索擴展到整個Internet空間。 [2] 

文檔查詢檢索和比較

WAIS的最大計算量是在全文檢索上,如果通過現場匹配用户關鍵詞和每一個文檔全文,WAIS的檢索速度會降得很低,所以為了提高檢索速度,WAIS將許多文檔劃分成一個個稱為資源的集合,它是WAIS進行檢索和比較的基礎。 [2] 

文檔查詢檢索過程

WAIS是基於客户/服務器模式的,服務器除了負責資源數據庫維護工作外,還提供有檢索引擎,負責接受客户端的請求,通過檢索本地數據庫實現全文檢索。客户端則完成用户的接口工作。WAIS客户程序往往在本地保存着許多資源的信息,以便用户檢索時使用。這些信息一般記錄於一個文本文件之中,包括資源所在WAIS服務器的主機名、IP地址端口號、數據庫名和一段簡單的描述。
用户使用WAIS客户程序進行檢索的過程一般分為三步完成:
(1)用户首先選擇進行檢索的資源;
(2)用户輸入檢索的關鍵詞,WAIS通過檢索列出資源中包含關鍵詞的文檔;
(3)用户在這些文檔中選定某些文檔作為種子,並再次要求WAIS檢索相似的文檔,這一步在WAIS中被稱為“relevance feedback”——相關回溯,也是WAIS最關鍵的一步。
用户最終得到結果列表中處於最前面的文檔最接近用户的檢索要求。 [2] 

文檔查詢訪問途徑

訪問WAIS的途徑相當多,比如可以利用遠程登錄Telnet使用公眾WAIS客户程序。但最常見的還是在客户機上安裝WAIS客户程序,用它訪問WAIS系統。這種方法完全按客户機/服務器模式進行工作,速度快,用户界面可以充分利用用户操作系統的特點。WAIS客户程序可以從一些匿名FTP上免費下載,主要有:
ftp.cndir.org:/pub/nidr.tools/freewais-0.1.tar
think.com:/wais/wais-8-b5.1.tar.z
oac.hsc.uth.tmc.edu:/public/dos/misc/oacwais.exe
sunsite.unc.edu:/pub/wais/windows/wwais103.zip
所有客户程序,無論採用何種用户界面或運行於何種環境中,一般都提供三個用户輸入接口:檢索關鍵詞輸入接口,資源選擇接口,種子文檔選擇接口,這其中資源選擇接口最複雜,因為在許許多多的資源中,用户很難判斷哪些資源是和用户檢索有關的,所以,作為WAIS的主要開發商之一的Thinking Machines公司,專門為這些資源製作了一個資源列表,用户只需連接他們的WAIS服務器,輸入要檢索的關鍵詞,便可以得到符合關鍵詞的資源列表,用户可以將這些資源存儲於本地,進而選擇其中若干資源進行下一步檢索。資源列表也可以通過匿名FTP從Think.com的/wais目錄下的wais-sources.tar.z文件中得到。 [2] 
訪問WAIS的另一個捷徑是使用Gopher客户程序,用户通過點取Gopher菜單也能訪問到豐富的WAIS資源。利用Gopher訪問WAIS的過程實際上是選擇資源並輸入關鍵詞的過程,類似於使用Telnet調用公共客户程序,但與WAIS客户程序相比,它僅完成了WAIS用户接口的前兩步,不能同時選擇多個資源進行檢索,更不能進行相關回溯操作。不過這種方法對於大多數情況仍不失為一種快速方便的方法。 [2] 
參考資料
  • 1.    楊雲主編.信息資源檢索 .昆明:雲南大學出版社,2011:84-84
  • 2.    柯宏力等編著.Intranet信息網絡技術與企業信息化 .北京:北京郵電大學出版社,2000:192-195