反饋

中文自動分詞

中文自動分詞指的是使用計算機自動對中文文本進行詞語的切分，即像英文那樣使得中文句子中的詞之間有空格以標識。中文自動分詞被認為是中文自然語言處理中的一個最基本的環節。

中文名: 中文自動分詞

類別: 人工智能
詞性: 名詞

中文自動分詞介紹

何謂自動分詞？自動分詞就是將用自然語言書寫的文章、句段經電子計算機處理後，以詞為單位給以輸出，為後續加工處理提供先決條件。此技術對於信息分析、情報檢索、機器翻譯、自動標引和人工智能等IT應用方面有着關鍵性的作用。^[1]

自動分詞的實現，對於拉丁語系來説並不困難，其語言文字的形成結構中，詞與詞之間本身就有着明顯的間隔符（如：空格、標點符號等），但對於中文來説，就是一個至今仍未能得以很好解決的技術難題，中文詞與詞之間沒有着明顯的間隔符，甚至連標點符號都沒有的古文更是為難了。當今，國內外IT界的一些仁人志士們還在為此技術不懈努力着。

當今世界已經進入大數據時代，縱觀下來中文自動分詞還很落後，還停留在字符串段比較搜索階段。

中文自動分詞自然語言處理

自然語言處理（英語：natural language processing，縮寫作NLP）是人工智能和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言處理包括多方面和步驟，基本有認知、理解、生成等部分。

自然語言認知和理解，讓計算機把輸入的語言變成有意思的符號和關係，然後根據目的再處理。

自然語言生成系統把計算器數據轉化為自然語言。

中文自動分詞現有方法

基於詞典的匹配

前向最大匹配
後向最大匹配

基於字的標註

最大熵模型
條件隨機場模型
感知器模型

其它方法

與詞性標註結合
與句法分析結合

參考資料

1. 奉國和, 鄭偉. 國內中文自動分詞技術研究綜述[J]. 圖書情報工作, 2011, 54(02): 41-45.

詞條統計

瀏覽次數：次
編輯次數：6次歷史版本
最近更新： sunhyuksun （2018-10-14）

1 介紹
2 自然語言處理
3 現有方法

中文自動分詞

目錄

中文自動分詞介紹

中文自動分詞自然語言處理

中文自動分詞現有方法