反饋

自動標引

自動標引（英語：Automatic Indexing）包括關鍵詞自動提取（又稱自動抽詞標引）與自動賦詞標引兩種類型。關鍵詞自動提取是一種識別有意義且具有代表性片段或詞彙的自動化技術。^[1] 關鍵詞自動提取在文本挖掘域被稱為關鍵詞抽取（英語：Keyword Extraction），在計算語言學領域通常着眼於術語自動識別（英語：Automatic Term Recognition），在信息檢索領域，就是指自動標引。自動標引屬於文本信息抽取的範疇。文本信息抽取是從文本數據中抽取人們關注的特定的信息。

中文名: 自動標引

外文名: Automatic indexing
應用領域: 計算機行業

自動標引作用

由於關鍵詞是表達文件主題意義的最小單位，因此大部分對非結構化文件的自動處理，如自動標引、自動文摘、自動分類、自動聚類、相關反饋、自動過濾、事件檢測與跟蹤、知識挖掘、信息可視化、概念檢索、檢索提示、關聯知識分析、自動問答等，都必須先進行關鍵詞提取的動作，再進行其他的處理。可以説，關鍵詞提取是所有文件自動處理的基礎與核心技術。目前大多文檔都不具有關鍵詞,同時手工標引費力費時且主觀性較強, 因此關鍵詞自動標引是一項值得研究的技術。

自動標引發展過程

自動標引研究可以分為三個階段：從Luhn於1957年開始進行自動標引後開始，到目前為止，自動標引研究經歷了50年的發展歷程。一直到20世紀90年代初，關於關鍵詞自動提取的研究一直就沒有停止過。 20世紀90年代初到90年代末，自動標引研究漸漸冷卻，原因主要包括：全文索引逐漸被人採用，並且基本上能滿足用户需要；傳統的自動標引方法的效率到了極限；網絡興起之初的衝擊與信息需求環境的改變。20世紀90年代末一直到關鍵詞自動提取的研究逐漸升温，尤其是最近幾年，關鍵詞自動提取研究進行的如火如荼，產生該現象的主要原因為：全文索引的功能越來越難以滿足實際需求，用户需要更加精確的結果；另外互聯網的很多服務，例如自動摘要，文檔分類與聚類，文本分析，主題檢索等都要依賴於關鍵詞自動提取的結果，只有這樣才能有希望從根本上提高信息服務質量。

自動標引代表方法

根據見諸於報道的自動標引研究情況，結合自動標引研究領域的影響程度和自動標引方法的創新程度，歸納出1957~2007年五十年時間裏比較有代表性的自動標引方法。

1957年，Luhn開始自動標引研究，首次將計算機技術引入文獻標引領域，開創了以詞頻為特徵的統計標引方法，其理論基礎是Zipf定律，該方法具有一定的客觀性和合理性，並且簡單易行，在自動標引中佔有重要地位
1958年，Luhn提出基於絕對頻率加權法的自動標引方法； P.B.Baxendale提出從論題句和介詞短語中自動提取關鍵詞
1959年，Edmundson與Oswald提出基於相對頻率加權法的自動標引方法
1960年，Maron & Kuhns提出基於相關概率的賦詞標引方法
1969年，H.P.Edmundson提出了一些新的加權方法，如提示詞(預示詞)加權法、題名加權法、位置加權法，並探討了不同加權法的最優組合問題
1970年，Lois L. Earl利用句法分析等語言學方法與詞頻統計方法相結合的方法來提取關鍵詞
1973年，Salton等提出基於詞區分值的自動標引方法
1975年，Salton等將VSM模型用於自動標引中
1983年，Dillon等提出一種基於概念的自動標引方法，研製了FASIT系統
1985年，Devadason提出基於深層結構標引方法
1990年，Deerwester & Dumais等提出潛在語義分析標引法
1993年，Silva & Milidiu提出基於相信函數模型的賦詞標引方法
1995年，Cohen提出N-Gram分析法的自動標引方法
1997年，簡立峯提出基於PAT樹的關鍵詞提取方法
1999年，Frank等人提出基於樸素貝葉斯(Naive Bayes，NB)的關鍵詞提取方法；Turney 利用遺傳算法和C4.5決策樹算法等機器學習方法進行關鍵短語提取的研究
2001年，Anjewierden & Kabel提出基於本體的自動標引方法
2003年，Tomokiyo & Hurst提出了基於語言模型的關鍵詞提取方法；Hulth利用Bagging算法進行了基於集成學習的關鍵詞抽取
2004年，李素建提出基於最大熵模型的關鍵詞提取方法^[2]
2006年，張闊提出基於支持向量機自動標引模型
2007年，Ercan, G. & Cicekli, I提出基於詞彙鏈的自動標引方法

自動標引典型應用

漢語自動標引加權方法試驗研究 1994年史繼紅、賴茂生北京大學信息管理系
自動標引“匹配標引法”原理 1994年袁慶華總後檔案館
語義矢量空間模式 (SVSM)及其試驗評價——自然語言處理與文獻自動標引 1996年 Geoffrey Z. Liu 美國加利福尼亞州聖何塞州立大學圖書情報學院
文書檔案主題自動標引系統的設計與實踐 1996年蘭生柱、尹秀蘭等解放軍檔案館
統計方法結合受限自然語言理解技術用模糊方法抽取關鍵詞 1998年何新貴、彭甫陽北京系統工程研究所
主題轉譯標引技術 1998年陳光華台灣大學圖書館和信息科學系
對規範文本篇章結構 1998年單永明山西大學計算機系
科技文獻主題詞的自動標引法 1998年石國華杭州大學
中文科技文獻題內自動抽詞標引系統 1998年邵豔秋、劉挺等黑龍江交通高等專科學校計算中心、哈爾濱工業大學計算機系
針對生物學文獻 1999年王永成、韓客松等上海交通大學
單漢字標引技術 1999年胡盈盈南京大學
基於《中國分類主題詞表》的WWW科技信息資源自動標引設計方案 1999年肖明北京師範大學信息技術與管理學系
網絡環境下檔案主題自動標引的實現方法 1999年熊志雲湖北大學人文學院檔案系
公安文獻全文著錄、機助標引及檢索系統（PWDBC） 2000年江蘇公安專科學校
計算機模糊檢索在圖書自動標引中的應用 2000年許玲曲阜師範大學圖書館
基於中國檔案主題詞表的自動標引控制研究 2002年王蘭成等南京政治學院上海分院信息管理系
基於多詞表的自動標引技術研究——新華社新聞稿自動標引的實驗 2002年查貴庭、侯漢清南京農業大學信息管理系
字面相似聚類法輔助構造詞族表、分面類表和自動標引 2002年張琪玉南京政治學院上海分院信息管理系
網頁自動標引方案的優選及標引性能的測評 2002年仲云云、侯漢清等南京農業大學信息管理系

參考資料

1. 曾元顯. 關鍵詞自動提取技術與相關詞反饋. 中國圖書館學會會報, 1997, 59: 59-64.
2. 李素建, 王厚峯, 俞士汶, 辛乘勝.關鍵詞自動標引的最大熵模型應用研究.計算機學報, 2004, 27(9):1192-1197.

詞條統計

瀏覽次數：次
編輯次數：10次歷史版本
最近更新：随心的迷惘者（2019-12-19）

1 作用
2 發展過程
3 代表方法
4 典型應用

自動標引

目錄

自動標引作用

自動標引發展過程

自動標引代表方法

自動標引典型應用