-
分詞技術
鎖定
分詞技術就是搜索引擎針對用户提交查詢的關鍵詞串進行的查詢處理後根據用户的關鍵詞串用各種匹配方法進行分詞的一種技術。
- 中文名
- 分詞技術
- 應用領域
- 搜索引擎
- 基本釋義
- 關鍵詞串用的一種技術
- 技術數目
- 3種技術
分詞技術基本介紹
分詞技術概述
分詞技術數據處理
1.首先是到數據庫裏面索引相關的信息,這就是查詢處理。
舉個例子。“什麼是百度分詞技術” 我們就會把這個詞分割成“ 什麼是,百度,分詞技術。”這種分詞方法叫做反向匹配法。
2.然後再看用户提供的這個詞有沒有重複詞彙
如果有的話,會丟棄掉,默認為一個詞彙。接下來檢查用户提交的字符串,有沒有字母和數字。如果有的話,就把字母和數字認為一個詞。
這就是搜索引擎的查詢處理。
分詞技術分詞的原理
百度是如何來分詞的呢?分詞技術現今非常成熟了。分為3種技術。
分詞技術字符串匹配的分詞方法
這是種常用的分詞法,百度就是用此類分詞。字符串匹配的分詞方法,又分為3種分詞方法。
(1).正向最大匹配法
就是把一個詞從左至右來分詞。
舉個例子:”不知道你在説什麼”
這句話採用正向最大匹配法是如何分的呢?“不知道,你,在,説什麼”。
(2).反向最大匹配法
"不知道你在説什麼"反向最大匹配法來分上面這段是如何分的。“不,知道,你在,説,什麼”,這個就分的比較多了,反向最大匹配法就是從右至左。
(3).就是最短路徑分詞法。
就是説一段話裏面要求切出的詞數是最少的。
“不知道你在説什麼”最短路徑分詞法就是指,把上面那句話分成的詞要是最少的。“不知道,你在,説什麼”,這就是最短路徑分詞法,分出來就只有3個詞了。
(4).雙向最大匹配法。
而有一種特殊的情況,就是關鍵詞前後組合內容被認為粘性相差不大,而搜索結果中也同時包含這兩組詞的話,百度會進行正反向同時進行分詞匹配。
分詞技術詞義分詞法
就是一種機器語音判斷的分詞方法。很簡單,進行句法、語義分析,利用句法信息和語義信息來處理歧義現象來分詞,這種分詞方法,還不成熟,處在測試階段。
分詞技術統計分詞法
根據詞組的統計,就會發現兩個相鄰的字出現的頻率最多,那麼這個詞就很重要。就可以作為用户提供字符串中的分隔符,這樣來分詞。
比如,“我的,你的,許多的,這裏,這一,那裏”等等,這些詞出現的比較多,就從這些詞裏面分開來。
- 詞條統計
-
- 瀏覽次數:次
- 編輯次數:25次歷史版本
- 最近更新: w_ou