-
詞性標註
鎖定
詞性標註(Part-Of-Speech tagging, POS tagging)也被稱為語法標註(grammatical tagging)或詞類消疑(word-category disambiguation),是語料庫語言學(corpus linguistics)中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文本數據處理技術
[1-2]
。
- 中文名
- 詞性標註
- 外文名
- Part-Of-Speech tagging, POS tagging
- 學 科
- 語言學,人工智能
- 應 用
- 文本挖掘,自然語言處理
詞性標註歷史文化
詞性標註是隨着語料庫的建立而提出的,在其發展初期是語料庫中語法分析器(parser)的組件之一,詞性標註的早期工作包括賓夕法尼亞大學(University of Pennsylvania)TDAP(Transformations and Discourse Analysis Project)項目中的語法結構模型
[4]
,以及Sheldon Klein和Robert F. Simmons通過人工指定的上下文規則建立的自動化詞性標註系統CGC(Computational Grammar Coder)
[5]
。1971年,Barbara B. Greene和Gerald M. Rubin以Klein and Simmons (1963)為基礎開發了詞性標註系統TAGGIT,並首次對大規模詞庫Brown Corpus進行了詞性標註
[6-7]
。
1985年,Andrew D. Beale使用統計學習方法為Lancaster-Oslo-Bergen Corpus開發了詞性標註系統CLAWS (Constituent-Likelihood Automatic Word tagging System)
[8]
,1987年,Steven DeRose使用動態規劃方法對Brown Corpus進行了詞性標註
[9]
。統計學習方法的成功和更大規模的語料庫,例如British National Corpus的出現,為詞性標註研究中機器學習方法的引入奠定了基礎。二十世紀80-90年代,學界開始嘗試使用隱馬爾可夫模型(Hidden Markov Model, HMM)進行詞性標註並取得了成功
[10]
,以HMM為代表的詞性標註方法也由此被廣泛應用於各類大規模語料庫的NLP和文本挖掘
[2]
。
詞性標註理論
詞性標註在本質上是分類問題,將語料庫中的單詞按詞性分類。一個詞的詞性由其在所屬語言的含義、形態和語法功能決定。以漢語為例,漢語的詞類系統有18個子類,包括7類體詞,4類謂詞、5類虛詞、代詞和感嘆詞。詞類不是閉合集,而是有兼詞現象,例如“制服”在作為“服裝”和作為“動作”時會被歸入不同的詞類,因此詞性標註與上下文有關
[3]
。對詞類的理論研究可以得到基於人工規則的詞性標註方法,這類方法對句子的形態進行分析並按預先給定的規則賦予詞類
[2]
。
詞性標註算法
詞性標註的機器學習算法主要為序列模型,包括HMM、最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM)、條件隨機場(Conditional random fields,CRFs)等廣義上的馬爾可夫模型成員
[2]
,以及以循環神經網絡(Recurrent Neural Network, RNN)為代表的深度學習算法
[11]
。此外,一些機器學習的常規分類器,例如支持向量機(Support Vector Machine, SVM)在改進後也可用於詞性標註
[12]
。
詞性標註應用
詞性標註是文本數據的預處理環節之一,原始文本在NLP或文本挖掘應用中,首先通過字符分割(word segmentation)和字符嵌入(word embedding)被向量化,隨後通過詞性標註得到高階層特徵,並輸入語法分析器執行語義分析(sentiment analysis)、指代消解(coreference resolution)等任務
[13]
。
- 參考資料
-
- 1. Godayal, D., An introduction to part-of-speech tagging and the Hidden Markov Model .Medium Corporation.2018-6-8[引用日期2019-01-05]
- 2. Jurafsky, D. and Martin, J.H., Part-of-speech tagging. In Speech and language processing, chapter 8 .Standford University.2018[引用日期2019-01-05]
- 3. 詹衞東 自然語言處理導論:第三講 詞性標註 .北京大學中國語言學研究中心.2012[引用日期2019-01-05]
- 4. Harris, Z.S., 1962. String analysis of sentence structure (No. 1). Mouton.
- 5. Klein, S. and Simmons, R.F., 1963. A computational approach to grammatical coding of English words. Journal of the ACM (JACM), 10(3), pp.334-347.
- 6. Francis, W.N., 1965. A standard corpus of edited present-day American English. College English, 26(4), pp.267-273.
- 7. Greene, B.B. and Rubin, G.M., 1971. Automatic grammatical tagging of English. Department of Linguistics, Brown University.
- 8. Beale, A.D., 1985. Grammatical analysis by computer of the Lancaster-Oslo/Bergen (LOB) Corpus of British English texts. Proceedings of the 23rd Annual Meeting of the Association for Computational Linguistics. University of Chicago Press, Chicago, Illinois: 293-298.
- 9. DeRose, S.J., 1988. Grammatical category disambiguation by statistical optimization. Computational linguistics, 14(1), pp.31-39.
- 10. Kupiec, J., 1989, October. Augmenting a hidden Markov model for phrase-dependent word tagging. In Proceedings of the workshop on Speech and Natural Language (pp. 92-98). Association for Computational Linguistics.
- 11. Socher, R., Manning, C.D. and Ng, A.Y., 2010, December. Learning continuous phrase representations and syntactic parsing with recursive neural networks. In Proceedings of the NIPS-2010 Deep Learning and Unsupervised Feature Learning Workshop (Vol. 2010, pp. 1-9).
- 12. Antony, P.J., Mohan, S.P. and Soman, K.P., 2010, March. SVM based part of speech tagger for Malayalam. In Recent Trends in Information, Telecommunication and Computing (ITC), 2010 International Conference on (pp. 339-341). IEEE.
- 13. Pak, A. and Paroubek, P., 2010, May. Twitter as a corpus for sentiment analysis and opinion mining. In LREc (Vol. 10, No. 2010, pp. 1320-1326).
- 收起