複製鏈接
請複製以下鏈接發送給好友

自動標引

鎖定
自動標引(英語:Automatic Indexing)包括關鍵詞自動提取(又稱自動抽詞標引)與自動賦詞標引兩種類型。關鍵詞自動提取是一種識別有意義且具有代表性片段或詞彙的自動化技術。 [1]  關鍵詞自動提取在文本挖掘域被稱為關鍵詞抽取(英語:Keyword Extraction),在計算語言學領域通常着眼於術語自動識別(英語:Automatic Term Recognition),在信息檢索領域,就是指自動標引。自動標引屬於文本信息抽取的範疇。文本信息抽取是從文本數據中抽取人們關注的特定的信息。
中文名
自動標引
外文名
Automatic indexing
應用領域
計算機行業

自動標引作用

由於關鍵詞是表達文件主題意義的最小單位,因此大部分對非結構化文件的自動處理,如自動標引、自動文摘、自動分類、自動聚類、相關反饋、自動過濾、事件檢測與跟蹤、知識挖掘、信息可視化、概念檢索、檢索提示、關聯知識分析、自動問答等,都必須先進行關鍵詞提取的動作,再進行其他的處理。可以説,關鍵詞提取是所有文件自動處理的基礎與核心技術。目前大多文檔都不具有關鍵詞,同時手工標引費力費時且主觀性較強, 因此關鍵詞自動標引是一項值得研究的技術。

自動標引發展過程

自動標引研究可以分為三個階段: 從Luhn於1957年開始進行自動標引後開始,到目前為止,自動標引研究經歷了50年的發展歷程。一直到20世紀90年代初,關於關鍵詞自動提取的研究一直就沒有停止過。 20世紀90年代初到90年代末,自動標引研究漸漸冷卻,原因主要包括:全文索引逐漸被人採用,並且基本上能滿足用户需要;傳統的自動標引方法的效率到了極限;網絡興起之初的衝擊與信息需求環境的改變。20世紀90年代末一直到關鍵詞自動提取的研究逐漸升温,尤其是最近幾年,關鍵詞自動提取研究進行的如火如荼,產生該現象的主要原因為:全文索引的功能越來越難以滿足實際需求,用户需要更加精確的結果;另外互聯網的很多服務,例如自動摘要,文檔分類與聚類,文本分析,主題檢索等都要依賴於關鍵詞自動提取的結果,只有這樣才能有希望從根本上提高信息服務質量。

自動標引代表方法

根據見諸於報道的自動標引研究情況,結合自動標引研究領域的影響程度和自動標引方法的創新程度,歸納出1957~2007年五十年時間裏比較有代表性的自動標引方法。
  • 1957年,Luhn開始自動標引研究,首次將計算機技術引入文獻標引領域,開創了以詞頻為特徵的統計標引方法,其理論基礎是Zipf定律,該方法具有一定的客觀性和合理性,並且簡單易行,在自動標引中佔有重要地位
  • 1958年,Luhn提出基於絕對頻率加權法的自動標引方法; P.B.Baxendale提出從論題句和介詞短語中自動提取關鍵詞
  • 1959年,Edmundson與Oswald提出基於相對頻率加權法的自動標引方法
  • 1960年,Maron & Kuhns提出基於相關概率的賦詞標引方法
  • 1969年,H.P.Edmundson提出了一些新的加權方法,如提示詞(預示詞)加權法、題名加權法、位置加權法,並探討了不同加權法的最優組合問題
  • 1970年,Lois L. Earl利用句法分析等語言學方法與詞頻統計方法相結合的方法來提取關鍵詞
  • 1973年,Salton等提出基於詞區分值的自動標引方法
  • 1975年,Salton等將VSM模型用於自動標引中
  • 1983年,Dillon等提出一種基於概念的自動標引方法,研製了FASIT系統
  • 1985年,Devadason提出基於深層結構標引方法
  • 1990年,Deerwester & Dumais等提出潛在語義分析標引法
  • 1993年,Silva & Milidiu提出基於相信函數模型的賦詞標引方法
  • 1995年,Cohen提出N-Gram分析法的自動標引方法
  • 1997年,簡立峯提出基於PAT樹的關鍵詞提取方法
  • 1999年,Frank等人提出基於樸素貝葉斯(Naive Bayes,NB)的關鍵詞提取方法;Turney 利用遺傳算法和C4.5決策樹算法等機器學習方法進行關鍵短語提取的研究
  • 2001年,Anjewierden & Kabel提出基於本體的自動標引方法
  • 2003年,Tomokiyo & Hurst提出了基於語言模型的關鍵詞提取方法;Hulth利用Bagging算法進行了基於集成學習的關鍵詞抽取
  • 2004年,李素建提出基於最大熵模型的關鍵詞提取方法 [2] 
  • 2006年,張闊提出基於支持向量機自動標引模型
  • 2007年,Ercan, G. & Cicekli, I提出基於詞彙鏈的自動標引方法

自動標引典型應用

  1. 漢語自動標引加權方法試驗研究 1994年 史繼紅、賴茂生 北京大學信息管理系
  2. 自動標引“匹配標引法”原理 1994年 袁慶華 總後檔案館
  3. 語義矢量空間模式 (SVSM)及其試驗評價——自然語言處理與文獻自動標引 1996年 Geoffrey Z. Liu 美國加利福尼亞州聖何塞州立大學圖書情報學院
  4. 文書檔案主題自動標引系統的設計與實踐 1996年 蘭生柱、尹秀蘭等 解放軍檔案館
  5. 統計方法結合受限自然語言理解技術用模糊方法抽取關鍵詞 1998年 何新貴、彭甫陽 北京系統工程研究所
  6. 主題轉譯標引技術 1998年 陳光華 台灣大學圖書館和信息科學系
  7. 對規範文本篇章結構 1998年 單永明 山西大學計算機系
  8. 科技文獻主題詞的自動標引法 1998年 石國華 杭州大學
  9. 中文科技文獻題內自動抽詞標引系統 1998年 邵豔秋、劉挺等 黑龍江交通高等專科學校計算中心、哈爾濱工業大學計算機系
  10. 針對生物學文獻 1999年 王永成、韓客松等 上海交通大學
  11. 單漢字標引技術 1999年 胡盈盈 南京大學
  12. 基於《中國分類主題詞表》的WWW科技信息資源自動標引設計方案 1999年 肖明 北京師範大學信息技術與管理學系
  13. 網絡環境下檔案主題自動標引的實現方法 1999年 熊志雲 湖北大學人文學院檔案系
  14. 公安文獻全文著錄、機助標引及檢索系統(PWDBC) 2000年 江蘇公安專科學校
  15. 計算機模糊檢索在圖書自動標引中的應用 2000年 許玲 曲阜師範大學圖書館
  16. 基於中國檔案主題詞表的自動標引控制研究 2002年 王蘭成等 南京政治學院上海分院信息管理系
  17. 基於多詞表的自動標引技術研究——新華社新聞稿自動標引的實驗 2002年 查貴庭、侯漢清 南京農業大學信息管理系
  18. 字面相似聚類法輔助構造詞族表、分面類表和自動標引 2002年 張琪玉 南京政治學院上海分院信息管理系
  19. 網頁自動標引方案的優選及標引性能的測評 2002年 仲云云、侯漢清等 南京農業大學信息管理系
參考資料
  • 1.    曾元顯. 關鍵詞自動提取技術與相關詞反饋. 中國圖書館學會會報, 1997, 59: 59-64.
  • 2.    李素建, 王厚峯, 俞士汶, 辛乘勝.關鍵詞自動標引的最大熵模型應用研究.計算機學報, 2004, 27(9):1192-1197.