複製鏈接
請複製以下鏈接發送給好友

截詞檢索

鎖定
截詞檢索是預防漏檢提高查全率的一種常用檢索技術,大多數系統都提供截詞檢索的功能。截詞是指在檢索詞的合適位置進行截斷,然後使用截詞符進行處理,這樣既可節省輸入的字符數目,又可達到較高的查全率。尤其在西文檢索系統中,使用截詞符處理自由詞,對提高查全率的效果非常顯著。 截詞檢索一般是指右截詞,部分支持中間截詞。截詞檢索能夠幫助提高檢索的查全率。
中文名
截詞檢索
應用範圍
計算機
性    質
常用檢索技術
常用方法
後截詞和中截詞

截詞檢索技術分類

在截詞檢索技術中,較常用的是後截詞和中截詞兩種方法。如果按所截斷的字符數目來分,有無限截詞和有限截詞兩種。截詞算符在不同的系統中有不同的表達形式,需要説明的是並不是所有的搜索引擎都支持這種技術。
截詞檢索就是用截斷的詞的一個局部進行的檢索,並認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中的文獻。按截斷的位置來分,截詞可有後截斷、前截斷、中截斷三種類型。
不同的系統所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符只代表一個字符)和無限截詞(一個截詞符可代表多個字符)。下面以無限截詞舉例説明:
(1)後截斷,前方一致。如:comput*表示computer,computers,computing等。
(2)前截斷,後方一致。如:*computer表示minicomputer,microcomputer等。
(3)中截斷,中間一致。如*comput*表示minicomputer,microcomputers等。
截詞檢索也是一種常用的檢索技術,是防止漏檢的有效工具,尤其在西文檢索中,更是廣泛應用。截斷技術可以作為擴大檢索範圍的手段,具有方便用户、增強檢索效果的特點,但一定要合理使用,否則會造成誤檢。

截詞檢索後截詞

是指檢索結果中單詞的前面幾個字符要與關鍵字中截詞符前面的字符相一致的檢索。具體包括:
(1)有限後截詞 主要用於詞的單、複數,動詞的詞尾變化等。如books可用book?代表,其中截詞符?(也稱為通配符)可以用來代替0個或1個字符,因此,book?可檢索出包含有book或books詞的記錄;acid??可檢索出含有acid,acidic 和acids的記錄。
(2)無限後截詞 主要用於同根詞。如solubilit用solub*處理,可檢索出含有solubilize,solubilization,soluble等同根詞的記錄。由此可知,在詞根後加一個"*",表示無限截詞符號。

截詞檢索中截詞

中截詞也稱屏蔽詞。一般來説,中截詞僅允許有限截詞,主要用於英、美拼寫不同的詞和單複數拼寫不同的詞。如organi?ation可檢索出含有organisation和organization的記錄。由此可知,中截詞使用的符號為"?",即用"?"代替那個不同拼寫的字符。
從以上各例可知,使用截詞檢索具有隱含的布爾邏輯或(OR)運算的功能,可簡化檢索過程。

截詞檢索截詞檢索方式

截詞檢索的方式有多種,可以分為有限截詞、無限截詞和中間截詞。

截詞檢索有限截詞

有限後截詞主要用於詞的單、複數,動詞的詞尾變化等。將“n”個截詞符放在檢索詞(關鍵詞、主題詞)的詞幹或詞尾可能變化的位置上。

截詞檢索中間截詞

一般來説,中間截詞僅允許有限截詞,主要用於英、美拼寫不同的詞和單複數拼寫不同的詞。例如:wom?n woman women

截詞檢索無限截詞

截去某個詞的尾部,是詞的前方一致比較,也稱前方一致檢索。在檢索詞(關鍵詞、主題詞)幹後加1個截詞符 “?”或“*”。表示該詞尾允許變化的字符數不受任何限制。例如:comput* 可檢索出 computer、computing、computers、computering、computeriation 等詞的記錄。 任何一種截詞檢索,都隱含着布爾邏輯檢索的“或”運算。採用截詞檢索時,既要靈活、又要謹慎,截詞的部位要適當,如果截得太短(輸入的字符不得少於3個),將影響查準率。另外,不同的檢索系統使用的截詞符不同、各數據庫所支持的截斷類型也不同。

截詞檢索其他檢索方式

布爾邏輯檢索
對於常見的三種布爾邏輯算符AND,OR,NOT,在搜索引擎中,該功能則表現不同。首先是受支持的程度不同,"完全支持"全部三種運算的搜索引擎有InfoSeekAltaVista和Excite等;在其"高級檢索"模式中"完全支持",而在"簡單檢索"模式中"部分支持"的有HotBotLycos等。其次是提供運算的方式不同:大部分搜索引擎採用常規的命令驅動方式,即用布爾算符(AND,OR,NOT)或直接用符號進行邏輯運算,如 AltaVista、Excite;有的用“+”和“-”號替代“ AND/NOT”進行運算;也有部分引擎使用菜單驅動方式,用菜單選項來替代布爾算符或符號進行邏輯運算,如 HotBot,Lycos中均提供了兩個菜單"All the words"和"And of the words"分別代表 AND和OR運算,天網的"精確匹配"、"模糊匹配"原理與此相似。
詞組檢索
詞組檢索是將一個詞組(通常用雙引號""括起)當作一個獨立運算單元,進行嚴格匹配,以提高檢索的精度和準確度,它也是一般數據庫檢索中常用的方法。詞組檢索實際上體現了臨近位置運算(Near運算)的功能,即它不僅規定了檢索式中各個具體的檢索詞及其相互間的邏輯關係,而且規定了檢索詞之間的臨近位置關係。幾乎所有的搜索引擎都支持詞組檢索,並且都採用雙引號來代表詞組,如"信息教育"。但在Infoseek中,除了用雙引號外,還使用了短橫線"-"來代表詞組,如 digital-library-definition,區別在於以"-"表示的詞組不區分大小寫。
截詞檢索
截詞檢索也是一般數據庫檢索中常用的方法。但在一般的數據庫檢索中,截詞法常有左截、右截、中間截斷和中間屏蔽4種形式。而在搜索引擎中,多隻提供右截法。而且搜索引擎中的截詞符則通常採用星號*。如educat*。相當於education+educational+educator。
字段檢索
字段檢索和限制檢索常常結合使用,字段檢索就是限制檢索的一種,因為限制檢索往往是對字段的限制。在搜索引擎中,字段檢索多表現為限制前綴符的形式。如屬於主題字段限制的有:Title,Subject,Keywords,Summary等。屬於非主題字段限制的有:Image,Text等。作為一種網絡檢索工具,搜索引擎提供了許多帶有典型網絡檢索特徵的字段限制類型,如主機名(host);域名(domain);鏈接(link);URL(site);新聞組(newsgroup)和 E-mail限制等。這些字段限制功能限定了檢索詞在數據庫記錄中出現的區域。由於檢索詞出現的區域對檢索結果的相關性有一定的影響,因此,字段限制檢索可以用來控制檢索結果的相關性,以提高檢索效果。在著名的搜索引擎中,能提供較豐富的限制檢索功能的有 AltaVistaLycosHotbot等。
位置檢索
在搜索引擎中,能提供位置檢索的的較少。如AltaVista,而且它能提供的位置運算也只有一種,即臨近位置運算(Near運算),不如常見數據庫檢索豐富。