複製鏈接
請複製以下鏈接發送給好友

分詞技術

鎖定
分詞技術就是搜索引擎針對用户提交查詢的關鍵詞串進行的查詢處理後根據用户的關鍵詞串用各種匹配方法進行分詞的一種技術。
中文名
分詞技術
應用領域
搜索引擎
基本釋義
關鍵詞串用的一種技術
技術數目
3種技術

分詞技術基本介紹

分詞技術概述

分詞技術數據處理

我們要理解分詞技術先要理解一個概念。那就是查詢處理,當用户向搜索引擎提交查詢後,搜索引擎接收到用户的信息要做一系列的處理。步驟如下所示:
1.首先是到數據庫裏面索引相關的信息,這就是查詢處理。
那麼查詢處理又是如何工作的呢?很簡單,把用户提交的字符串沒有超過3個的中文字,就會直接到數據庫索引詞彙。超過4箇中文字的,首先用分隔符比如空格,標點符號,將查詢串分割成若干子查詢串。
舉個例子。“什麼是百度分詞技術” 我們就會把這個詞分割成“ 什麼是,百度,分詞技術。”這種分詞方法叫做反向匹配法。
2.然後再看用户提供的這個詞有沒有重複詞彙
如果有的話,會丟棄掉,默認為一個詞彙。接下來檢查用户提交的字符串,有沒有字母和數字。如果有的話,就把字母和數字認為一個詞。
這就是搜索引擎的查詢處理。

分詞技術分詞的原理

百度是如何來分詞的呢?分詞技術現今非常成熟了。分為3種技術。

分詞技術字符串匹配的分詞方法

這是種常用的分詞法,百度就是用此類分詞。字符串匹配的分詞方法,又分為3種分詞方法。
(1).正向最大匹配法
就是把一個詞從左至右來分詞。
舉個例子:”不知道你在説什麼”
這句話採用正向最大匹配法是如何分的呢?“不知道,你,在,説什麼”。
(2).反向最大匹配法
"不知道你在説什麼"反向最大匹配法來分上面這段是如何分的。“不,知道,你在,説,什麼”,這個就分的比較多了,反向最大匹配法就是從右至左。
(3).就是最短路徑分詞法。
就是説一段話裏面要求切出的詞數是最少的。
“不知道你在説什麼”最短路徑分詞法就是指,把上面那句話分成的詞要是最少的。“不知道,你在,説什麼”,這就是最短路徑分詞法,分出來就只有3個詞了。
(4).雙向最大匹配法。
而有一種特殊的情況,就是關鍵詞前後組合內容被認為粘性相差不大,而搜索結果中也同時包含這兩組詞的話,百度會進行正反向同時進行分詞匹配。

分詞技術詞義分詞法

就是一種機器語音判斷的分詞方法。很簡單,進行句法、語義分析,利用句法信息和語義信息來處理歧義現象來分詞,這種分詞方法,還不成熟,處在測試階段。

分詞技術統計分詞法

根據詞組的統計,就會發現兩個相鄰的字出現的頻率最多,那麼這個詞就很重要。就可以作為用户提供字符串中的分隔符,這樣來分詞。
比如,“我的,你的,許多的,這裏,這一,那裏”等等,這些詞出現的比較多,就從這些詞裏面分開來。