複製鏈接
請複製以下鏈接發送給好友

中文知識圖譜

鎖定
中文知識圖譜(Chinese Knowledge Graph) [1]  ,最早起源於Google Knowledge Graph。知識圖譜本質上是一種語義網絡。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係。中文知識圖譜的直接推動力來自於一系列實際應用,包括語義搜索、機器問答、情報檢索、電子閲讀、在線學習等等。百度 [2]  、搜狗以及復旦大學GDM實驗室 [1]  相繼推出了其中文知識圖譜。
中文名
中文知識圖譜
外文名
Chinese Knowledge Graph
本    質
語義網絡
起    源
Google Knowledge Graph

中文知識圖譜什麼是知識圖譜

  • 允許用户搜索搜索引擎知道的所有事物,人物或者地方,包括地標,名人,城市, 球隊,建築,地理特徵,電影,天體,藝術作品等等,而且能夠顯示關於你的查詢的實時信息。它是邁向下一代搜索業務關鍵的第一步,使得搜索智能化,根據用户的意圖給出用户想要的結果。
  • 知識圖譜本質上是一種語義網絡。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係 [3] 
  • 知識圖譜相對於傳統的本體和語義網絡而言,實體覆蓋率更高,語義關係也更加複雜而全面

中文知識圖譜為什麼需要構建中文知識圖譜

  • 互聯網上擁有豐富的資源。但是,大多數的資源都只能被人理解,而機器無法理解,如何讓機器像人一樣理解文本?
  • 現有知識圖譜對中文支持不夠
  • 為此,我們需要構建一個海量的中文知識圖譜,幫助機器理解文本

中文知識圖譜方法

中文知識圖譜分佈式爬蟲

中文知識圖譜研究框架 中文知識圖譜研究框架
  • 互聯網上存在着豐富的資源,選擇合適的資源以及相應的爬取策略至關重要
  • 單台電腦已經無法支持大規模的網頁爬取
  • 網站可能存在着限制訪問次數、訪問出錯等問題
  • 因此,提出了多任務、容錯、平衡、可設置優先級、多樣性的分佈式爬蟲策略

中文知識圖譜知識抽取

  • 數據來源豐富,包括百科全書類網站、地理位置信息(POI)網站、輸入法詞庫、搜索引擎語料庫、音樂視頻小説等門户網站、電子商務網站等
  • 從數據源中抽取出高質量的實體/概念集。包括實體抽取、實體映射(不同詞表達相同含義)、關係抽取以及實體質量評估。

中文知識圖譜知識集成

採用迭代的方式對不同來源的數據進行集成,將相同實體/概念的內容進行融合,特別是多義詞之間的融合。具體方法包括:首先找到明顯相同的實體/概念對,根據其屬性、分類以及相關詞,擴充找到更多的相同實體/概念對。依次循環,直至不能找到新的實體/概念對

中文知識圖譜圖數據管理系統

基於開源的Hadoop分佈式文件系統分佈式數據庫,作為大數據存儲的基礎
所有的操作都建立在HBase之上

中文知識圖譜應用介紹

中文知識圖譜百度知識圖譜

國內搜索巨頭百度近日開始大範圍測試類似谷歌的“知識圖譜”功能 [2] 
此前用户在百度搜索某些公眾人物的關鍵詞時,會出現該人物相關的資料,搜索結果以“百科全書”式的方式顯示。而如今不只是搜索熱門人物,當用户搜索地名、學科名或者流行的“事實“時,百度在左邊的搜索結果裏會給出常規的搜索結果,而搜索結果的右邊則展示跟關鍵詞相關的百度百科內容,以及相關的搜索鏈接。
百度知識圖譜 百度知識圖譜
比如用户搜索“馬雲”時,會在搜索的結果中呈現“馬雲”百度百科詞條、新浪微博地址、相關新聞以及人物圖片。而在右側的“知識圖譜”裏則展示馬雲的簡介、主要成就以及“其他人還搜”的智能推薦。而如果用户搜索“奧巴馬”時,右側的知識圖譜展示得則更多。
同樣,如果用户輸入地名如“松花江”、學科名如“哲學”以及其他名詞性的東西時都會觸發百度的“知識圖譜”功能。
不過百度並非第一家推出“知識圖譜”功能的搜索引擎,去年5月,谷歌就正式推出了Knowledge Graph(知識圖譜)功能,而同樣擁有“知識圖譜”的公司還有2009年創立的搜索引擎Wolfram Alpha。
而相較谷歌的“知識圖譜”而言不同的是,百度的“知識圖譜”搜索結果並沒有完全劃到右側,而是部分內容在搜索結果中全屏幕置頂展現,此外目前右側也僅用來展示百度自家的內容,如相關的百度百科詞條、相關的搜索關鍵詞。
對此有業內人士就表示,百度此次低調推出“知識圖譜”一是進一步改善搜索結果,增強用户粘度,使得百度在和谷歌以及360搜索競爭時更有產品方面的優勢。同時也能借此為百度旗下的產品如百度百科、百度新聞、百度音樂、愛奇藝、百度貼吧、百度圖片增加了海量的流量入口,減少了“肥水”流入外人田的幾率。

中文知識圖譜搜狗知立方

搜狗在其官方微博中宣稱:為了讓用户獲取信息更簡單,搜狗搜索發佈全新的知識庫搜索引擎――“知立方”。這是國內搜索引擎行業中首家知識庫搜索產品。
比如搜索“張學友的電影”,搜狗搜索會在結果上方顯示張學友的所有參演過的影片,右側則展示張學友的人物關係、電視劇、專輯等相關信息,幫助用户更加立體和全面的瞭解張學友。
搜狗知立方 搜狗知立方
再比如搜索“范冰冰的身高”,一般的搜索引擎會給出很多包含“范冰冰身高”的頁面,用户需要逐一點擊尋找答案。搜狗知立方可以直接給出精準答案。
搜狗知立方 搜狗知立方
要做到直接給出答案,除了要有結構化的海量數據知識庫為支撐外,語義理解也是其中重要一環。搜狗憑藉自然語言處理技術的多年積累,能夠更加智能的理解用户的查詢意圖,給出精準的答案。
搜狗知立方 搜狗知立方
據搜狗搜索事業部總經理茹立雲介紹,搜狗知立方已經秘密研發一年有餘,而負責該產品研發的架構師則自博士在讀期間就從事相關領域的研究。目前知立方知識庫涉及實體已達億級,實體間的關係達到十億級,未來會逐漸應用到線上。
茹立雲介紹,搜狗知立方相比之前搜索結果的優勢是:
1.更加精準。知立方可以智能分析用户的查詢意圖,基於推理及計算能力,直接給出用户想要的答案。
2.更加權威。知立方通過對全網頁面的分析和挖掘,保證知識庫數據的準確性,提供比知道類產品更加權威的答案。
3.更加全面。知立方可以給出完整的知識體系,使用户更加全方位的瞭解知識點,同時還可以發現很多不知道的東西。比如搜索“李娜”,可以發現叫“李娜”的除了知名的歌手和網球運動員外,還有演員、擊劍運動員和跳水運動員。
相關業內人士稱,搜狗知立方的上線代表國內搜索引擎在知識庫領域的一次成功探索,是“語義網”自 2001 年提出之後,首次在國內搜索引擎行業的成功應用。搜索引擎誕生十多年來核心機制沒有實質性的變化,搜狗的此次成功突破,相信不久後國內主流搜索引擎會相繼跟進與模仿。

中文知識圖譜復旦GDM中文知識圖譜

[1] 
文本化展示
  • 輸入一個關鍵字後,搜索引擎能夠準備的知道用户搜索的關鍵字含義,並給出相關的知識説明
  • 提供知識查詢、問題查詢、別名搜索、知識源合併等功能
圖形化展示
  • 為了更好的理解知識,採用了圖形化引擎進行展示,更好的表現了語義之間的關係
  • 同時,將相關詞進行聚類,分成若干類,按類展示,併為每個類標註類標籤,這樣能更加清楚、直觀的理解實體
圖形化展示 圖形化展示
深度閲讀
運用知識圖譜,對電子書中出現地詞語進行精確、全面解釋,挖掘詞語背後的知識,改善閲讀體驗
復旦GDM中文知識圖譜 復旦GDM中文知識圖譜
輿情分析
  • 運用知識圖譜,對微博進行數據挖掘分析
  • 傾聽民意,改善民生
  • 研究成果已被解放日報、新民晚報等報紙刊登報道,並被多家網絡媒體轉載
復旦GDM中文知識圖譜 復旦GDM中文知識圖譜
參考資料