複製鏈接
請複製以下鏈接發送給好友

命名實體識別

鎖定
命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。
中文名
命名實體識別
外文名
Named Entity Recognition
別    名
專名識別
簡    稱
NER

目錄

命名實體識別作用

命名實體識別是信息提取問答系統句法分析機器翻譯、面向Semantic Web元數據標註等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中佔有重要地位。一般來説,命名實體識別的任務就是識別出待處理文本中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體

命名實體識別過程組成

通常包括兩部分:(1)實體邊界識別;(2) 確定實體類別(人名、地名、機構名或其他)。英語中的命名實體具有比較明顯的形式標誌(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加複雜,而且相對於實體類別標註子任務,實體邊界的識別更加困難。

命名實體識別難點

(1)漢語文本沒有類似英文文本中空格之類的顯式標示詞的邊界標示符,命名實體識別的第一步就是確定詞的邊界,即分詞;(2)漢語分詞和命名實體識別互相影響;(3)除了英語中定義的實體,外國人名譯名和地名譯名是存在於漢語中的兩類特殊實體類型;(4)現代漢語文本,尤其是網絡漢語文本,常出現中英文交替使用,這時漢語命名實體識別的任務還包括識別其中的英文命名實體;(5)不同的命名實體具有不同的內部特徵,不可能用一個統一的模型來刻畫所有的實體內部特徵。