複製鏈接
請複製以下鏈接發送給好友

知識搜索引擎

鎖定
知識搜索引擎(Knowledge search engine)並非單純的是一種搜索工具,它首先是知識管理的一種實現理念與工具,承擔了“知識匯聚、知識發現、知識分類、知識聚類、知識門户的構建”,通過搜索引擎技術完成知識管理的使命。知識搜索引擎、知識分類體系、知識專家網絡共同構成了當今世界上先進知識管理系統的主要內涵。
中文名
知識搜索引擎
外文名
Knowledge search engine
特    點
並非單純的是一種搜索工具
性    質
一種實現理念與工具

知識搜索引擎互聯網數據

知識搜索引擎 知識搜索引擎
根據統計,企業數據每年以200%的速度增長,其中80%以上的數據以文件、郵件、圖片等非結構化數據存放在企業內計算機系統中的各個角落。而且這些數據總量遠遠超過了互聯網信息的總量。有數字表明,企業發佈到互聯網的信息只佔到信息量的1%-2%,而98%以上的信息是存儲在企業內部的。

知識搜索引擎缺點問題

互聯網搜索引擎近年來獲得快速發展,以及其覆蓋互聯網人口面積的迅速擴張,使得我們一提起搜索引擎就想到了百度、谷歌這樣的互聯網搜索引擎,有什麼疑難問題在互聯網上就可以找到答案。然而,實際上互聯網搜索引擎不能解決全部的問題,如企業內部的規章制度、項目文檔、工作經驗等,作為企業的知識財富,是不可能通過互聯網獲得完美答案的。

知識搜索引擎核心能力

企業或組織經過多年的運作,積累了大量的運營、工作、生產、研發的經驗與知識,這些信息內容散落在企業的各個服務器、IT系統,甚至個人的電腦中,這些寶貴的知識財富日益成為指導企業員工行動、減少操作失誤、提升工作效率、降低運營成本的重要依託,如何快速、準確的讓員工獲得工作所需知識,已經成為企業是否能夠建立快速響應機制、快捷低成本運作的重要一環。

知識搜索引擎搜索引擎

知識搜索是在搜索引擎發展進入智能化階段的過程,是建立在明確的知識來源基礎上,根據明確的用户身份與訴求,回饋恰當知識結果的搜索引擎,更為強調知識的準確、標準,強調通過互動機制如評價、交流、修改、維護等進行搜索結果的自我學習,以達到知識搜索的智能化。
深藍海域在知識管理和知識管理技術領域擁有多年積累,依據知識管理理念推出的知識搜索引擎正是為了解決“匯聚多類知識源,依據用户身份與訴求,回饋準確知識,指導用户行動”這一命題而生,知識搜索引擎作為搜索引擎的一個分支,在為企業提供準確知識獲取方面將起到不可或缺的作用。
CICADA知識搜索引擎與其他搜索引擎辨析與任何市場和工具一樣,細分是搜索引擎的未來不可避免的趨勢,就目前市場範圍而言,搜索引擎大概可以分為如下幾類:
互聯網搜索引擎:通過索引全球互聯網上的信息,為互聯網用户提供快速檢索、查找、推薦的服務,其核心訴求是為用户提供更全、更快、更準的信息。
垂直搜索引擎:互聯網搜索引擎的一個市場分支,通過索引特定的細分網站類型,為用户提供專業領域的信息查詢服務,其核心訴求是為用户提供專業、全面、快速的信息。
企業搜索引擎:通過索引企業內部的信息源,為企業內部或企業關聯的用户羣提供特定的信息查詢服務,其核心訴求是為用户提供企業內部信息的準確、快速定位。
知識搜索引擎:是企業搜索引擎的一個分支,不僅僅是要實現企業範圍的信息搜索引擎,更重要的是實現企業的知識管理以及知識發現,並將這些知識應用於協助、指導企業運作。
下面我們通過一個對比表格瞭解一下這幾種搜索的特徵區別:
對比項
互聯網搜索
垂直搜索
企業搜索
知識搜索
核心訴求
查全
專業
準確
解決問題
用户分辨率
大部分要自主分辨,對比
專業領域的協助分辨對比
通過數據源減少分辨對比
通過知識源、知識互動、用户身份等減少分辨率
數據源
互聯網上的網頁及特定文檔類型信息
專業領域的網站網頁信息
企業內部各種IT系統的信息。
組織內部IT系統、知識文檔、來源於崗位和部門知識等。
信息類型與接口
互聯網通訊協議
互聯網通訊協議
數據庫、文件系統、oa、ERP等不同類型的接口
數據庫、文件系統、oa、ERP等不同類型的接口
互動性
以搜索引擎方獲取用户行為為主,單項互動。
以搜索引擎方獲取用户行為為主,單項互動。
以獲取用户行為、用户身份為主,單項互動。
以用户身份、行為、知識互動評價等作雙向、多向互動。
安全性
屏蔽部分違法信息外,無安全考慮
屏蔽部分違法信息外,無安全考慮
考慮用户權限、身份等保障信息安全
除權限、身份安全外,要考慮知識應用後的結果安全
決策支持
對信息獲取者提供參考
對信息獲取者提供專業參考
對信息獲取者提供內部參考;對決策者提供基於搜索統計的決策支持
對信息獲取者提供知識級、標準級參考;對決策者提供基於知識用用的決策支持
身份性
弱,通過用户行為或註冊信息獲取部分身份。
弱,通過用户行為或註冊信息獲取部分身份。
強,通過用户的崗位、角色等信息獲取身份。
較強,通過用户的崗位、角色、知識應用經歷等獲取身份。
CICADA知識搜索引擎介紹

知識搜索引擎產品介紹

CICADA,蟬,同“禪”出自佛家,故稱“知了”,意即知道、理解、開悟。對於知識管理或搜索引擎而言,能夠達到讓使用者“知了”的地步是一個最重要、最核心的目的。
CICADA是一款面向企業和組織應用,以知識(knowledge)源、信息(information)源為依據對象,以獲取準確的、具有指導和決策意義知識信息為目的,通過知識搜索結果指導人正確行動(action)的新一代知識搜索引擎。基於CICADA核心引擎構建,由國內著名知識管理軟件企業深藍海域公司耗時3年研發,擁有自主知識產權並取得了國家頒發的軟件著作權(登記號:2009SRBJ0243)。
CICADA系統技術架構採用標準的輕量級J2EE架構,核心引擎採用深藍海域自主開發的企業級多介質搜索引擎。能夠在多種數據媒介中搜索數據,並進行合理比對,篩選,排序,結合我們知識管理方面累積多年的專業詞庫,能為客户定製出更人性化、智能化的搜索引擎。
CICADA已經廣泛應用於金融、銀行、製造、電信、汽車、電子政務、快速消費品、醫藥、能源、化工、房地產、服務業等行業和領域,為客户提供穩定、快速、準確的知識搜索服務。

知識搜索引擎核心理念

知識搜索引擎CICADA的核心理念

CICADA的構建理論基於“全文搜索+數據庫檢索+搜索應用”。全文搜索的誕生和數據庫在大文本檢索時的效率不高有極大的關係,在這個角度全文搜索成為了數據庫搜索的有力補充。但是全文搜索並不能完全代替數據庫檢索在企業級應用裏的作用,比如在準確檢索所屬部門、分佈時間段、作者這樣的精確字段時,或者要求按照某一字段邏輯進行結果的排序,全文搜索的模糊性就會帶來很大的困擾和不精確性。在應用互聯網搜索時,我們可能不存在也不可能做到這樣精準的字段要求,但在企業級應用中這種需求就比比皆是。從理論角度上來説,全文搜索和數據庫搜索兩者在應用條件不同的情況下表現互有優劣,其中一方不會被另一方完全代替,而是應該相輔相成互為補充,為用户呈現最精準的知識和信息獲取。
對於企業級用户而言,僅僅是搜索結果集的呈現還遠遠不夠,因此CICADA提供了豐富的搜索應用,通過豐富多彩的應用形式,為用户提供不同角度、不同體驗的搜索方式,如搜索引擎時光隧道、個人搜索年輪、知識關聯、個性化查詢器等,通過這些應用提升用户感受,強化系統和用户之間的互動關係。
CICADA的搜索流程示意圖
基於以上,CICADA提出並採用了全新的“全文搜索+數據庫檢索+搜索應用”三位一體技術與產品理念,既保證了系統通過全文搜索獲取快速、準確的結果,又通過結合數據庫搜索的方式實現時間、來源、好評度等多種數據庫字段的查詢,這兩者的結合使搜索結果更為符合用户的搜索訴求。同時加入搜索應用的諸多功能從應用的角度為用户提供了更為得心應手的應用,從而讓系統更為智能的為用户提供服務。而這一知識搜索引擎的技術創新,也成為CICADA的產品發展方向與核心能力。

知識搜索引擎可維護、學習式分詞技術

與英文的自然分詞不同,中文分詞存在着眾所周知的難度,把中文的句子切分成有意義的詞,就是中文分詞,也稱切詞。目前還是一個難題———對於需要上下文區別的詞以及新詞(人名、地名等)很難完美的劃分。國際上將同樣存在分詞問題的中國、日本和韓國並稱為CJK(Chinese Japanese Korean)。分詞機制的好壞,直接影響到用户對搜索結果的滿意度,所以如何分詞是搜索引擎的重中之重。
到目前為止,中文分詞包括三種方法:(1)基於字符串匹配的分詞;(2)基於理解的分詞;(3)基於統計的分詞。以下是三種分詞方法的比較:
分詞方法
基於字符串匹配分詞
基於理解的分詞
基於統計的分詞
歧義識別
新詞識別
需要詞典
需要
不需要
不需要
需要語料庫
需要規則庫
算法複雜性
容易
很難
一般
技術成熟度
成熟
不成熟
成熟
實施難度
容易
很難
一般
分詞準確性
一般
準確
較準
分詞速度
一般
Cicada知識搜索引擎系統採用“Cicada's wings knife”作為分詞器,取其分詞快捷、細緻之意。這套分詞系統採用了“基於字符串匹配分詞和統計分詞”相結合的方式。利用統計方法進行詞典的動態擴展,即對搜索的詞彙頻率進行自主的閾值設置,對於超過閾值的詞彙自動加入學習詞庫,從而克服了基於詞典算法對"完全詞典"的依賴,利用詞典對統計的一些參數進行學習評估,避免了以往靠實驗得到這些參數的不確定性,同時將RMM算法與統計算法結合起來。除了通過自主學習獲得新詞以外,也可以通過手工維護的方式對專業詞庫進行維護。目前,Cicada的基本分詞詞庫已經達到50萬條,金融、税務、製造、諮詢等專業詞庫達到了20萬條左右。
與目前流行的算法相比,Cicada's wings knife分詞器在準確率召回率,分詞效率綜合平衡上有明顯優勢。具體對比如下。
對比項
Cicada's wings knife
Standard
(Lucene)
CJK
(Lucene)
Paoding
分詞速度
非常快
分詞準確性
較好
歧義識別
一般
新詞識別
需要詞典
需要
需要
需要語料庫
需要
需要規則庫
算法複雜性
複雜
簡單
簡單
一般
技術成熟度
成熟
成熟
成熟
成熟
實施難度
學習能力
可維護性

知識搜索引擎多數據源跨域搜索

經過多年的IT建設後,組織中會存在各種IT系統,如OA、HR、ERP、CRM、PM、財務系統等,這些系統因為建設時期、項目的不同,平台異構、數據分散等特徵非常明顯,形成了數據孤島,彼此之間無法通過一個有效的紐帶聯繫起來,無法同時獲取多個系統中的信息,Cicada知識搜索引擎通過跨域、跨庫的索引能力,實現跨庫搜索,一舉構建出一個融會貫通的企業信息渠道,消除信息孤島。

知識搜索引擎基於跨域搜索的知識門户

基於CICADA的企業(知識)門户示意圖
基於知識搜索引擎,可以對多種數據源進行索引和查詢,同時通過搜索規則的建立可以將有指定特徵的條件信息,返回到信息門户界面上,這就形成了統一的企業(知識)門户,用户可以在這個門户上獲取最新的各個IT系統和數據源的規則性信息。

知識搜索引擎基於身份與權限的識別

知識庫系統或其他系統中,在企業級應用系統中,用户都有自己明確的身份與權限,這決定了我們可以通過判斷他們不同的身份和權限,為其提供適合身份和權限的搜索應用,返回適合其身份和權限的結果,避免越權獲取信息的情況產生,而且對其身份權限的判斷能夠更好的為用户推送準確信息,避免信息集合過大。

知識搜索引擎互動學習式搜索引擎

在知識管理或企業IT應用過程中,我們對各類知識與信息的應用效果有明確的感知與評價,在CICADA中,我們將這種感知與評價通過系統的方式記錄下來,反饋給搜索引擎進行合理化處理,經過這樣的互動點評知識可以綜合熱度、好評度、命中率等因素進行加權計算,從而提供給用户合理的結果排序,讓常用的、好評度高的知識自動往前排。

知識搜索引擎基於搜索引擎統計的決策支持

知識搜索引擎對用户的搜索行為,關鍵詞的分佈等進行統計分析,對知識庫的重點建設、發展方向從用户的需求角度給予數據支持和決策信息。這樣形成企業知識在組織層面的增值利用與決策支持。

知識搜索引擎個性化搜索應用功能

定製搜索範圍:用户可以根據自己的要求,選擇想要搜索的知識範圍,而不是每次都搜索全部數據庫,這樣可以大大減少搜索誤差,可以根據業務或知識分類,定義出不同的個性化搜索項。
搜索推薦服務:根據搜索過程的監控,推薦搜索的熱點詞彙;搜索行為推薦可以推薦搜索當前詞彙的用户,還搜索了哪些詞彙;推薦跟當前關鍵詞相關聯的關鍵詞。通過主動的推薦服務,讓用户可以快速的找到自己所需。
搜索聯想詞。記錄搜索人員常用的搜索關鍵詞,當用户輸入關鍵詞的時候,自動聯想提示其他用户常用頻率較高的搜索關鍵詞,以供選擇。以高頻率的關鍵詞引導用户使用,提高命中率。
文件服務器全文搜索對於文件服務器,進行數據索引,並定製出一個全文搜索引擎,能夠對文件夾中的文檔名稱和內容進行搜索。
多格式附件全文搜索對知識發佈時所帶的附件進行全文搜索,可以搜索附件名稱和內容,按照附件格式進行搜索,並實現附件的html格式快照,打開快照可以預覽附件的內容。
邏輯關係高級搜索功能:支持包含、完全包含、至少包含一個、不包含等搜索的邏輯關係,便於用户根據自己的查詢條件,設計查詢公式。
在結果中搜索功能:在搜索的結果中,進行二次篩選式搜索,實現遞進式的搜索命中。
個性化查詢器:用户可以根據自己的使用習慣,將系統提供的查詢條件進行組合後,保存為一個個性化查詢器,輸入關鍵詞後,系統會按照查詢器的條件組合進行搜索。
時光隧道:用户可以按照時間軌跡對搜索結果進行排序,查找到距離自己最近或者某個時間段的具體信息,排除其他非所需時間段的信息。

知識搜索引擎性能指標

深藍海域知識搜索引擎系統基於JAVA內核,解決海量信息檢索,在民生、光大等銀行知識庫應用中表現出優異的性能,在普通部門級單台服務器環境下,其主要性能指標項如下:
序號
指標項
指標值
1
搜索速度
1千萬條記錄情況下的查詢速度為毫秒級,客户端響應小於2秒
2
索引能力
創建100萬條記錄的索引只需3~4分鐘
3
分詞能力
每秒分詞1200k,準確率98%
4
併發能力
支持100個併發,約2000人在線搜索
5
準確返回率
所指定查找結果(TREC)應在前10條信息之內的命中率達到95%以上。
6
良好集成能力
與其他系統進行界面、用户和數據層的集成
在系統集成方面,CICADA可以通過系統集成的方式,與其他IT系統進行界面、數據、通訊層面的集成交互,從而實現無縫集成。本搜索引擎單獨部署為一個應用.通過特定的信道監聽,實現索引的更新。採用webservice方式提供搜索服務,與原知識系統解耦,避免對原有系統造成衝擊,也能夠更好的發揮搜索引擎效能。
CICADA的核心採用深藍自主研發的高性能搜索引擎,與常見的開源搜索引擎如luncen等對比,我們具有以下幾個方面優勢:
一索引效率.我們採用R-Tree數據結構和R-Tree空間索引的算法.支持高維數據空間;有效分割數據空間,來適應索引的組織;高效的實現多種查詢方式系統中的統一。故在索引效率和查詢效率上略優與Lucene.
二智能搜索. CICADA 具備關係查詢、布爾鄰近查詢、文檔相似度比較、以及文檔的自動分類等特性。Lucene要在下一個版本才提供相關支持。
分詞技術.深藍在知識管理領域有多年的經驗積累和完善專業詞庫的建設。CICADA採用基於字符串匹配分詞和統計分詞相結合的方式,對歧義識別,新詞學習有獨到的技術實現。

知識搜索引擎使用技巧

知識搜索引擎簡單查詢

在搜索引擎中輸入關鍵詞,然後點擊“搜索”就行了,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含着許多無用的信息。

知識搜索引擎使用雙引號用" "

給要查詢的關鍵詞加上雙引號(半角,以下要加的其它符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜索引擎的文字框中輸入“電傳”,它就會返回網頁中有“電傳”這個關鍵字的網址,而不會返回諸如“電話傳真”之類網頁。

知識搜索引擎使用加號+

在關鍵詞的前面使用加號,也就等於告訴搜索引擎該單詞必須出現在搜索結果中的網頁上,例如,在搜索引擎中輸入“+電腦+電話+傳真”就表示要查找的內容必須要同時包含“電腦、電話、傳真”這三個關鍵詞。

知識搜索引擎使用減號-

在關鍵詞的前面使用減號,也就意味着在查詢結果中不能出現該關鍵詞,例如,在搜索引擎中輸入“電視台-中央電視台”,它就表示最後的查詢結果中一定不包含“中央電視台”。

知識搜索引擎使用通配符*和問號

通配符包括星號(*)和問號(?),前者表示匹配的數量不受限制,後者匹配的字符數要受到限制,主要用在英文搜索引擎中。例如輸入“computer*”,就可以找到“computer、computers、computerised、computerized”等單詞,而輸入“comp?ter”,則只能找到“computer、compater、competer”等單詞。

知識搜索引擎使用布爾檢索

所謂布爾檢索,是指通過標準的布爾邏輯關係來表達關鍵詞與關鍵詞之間邏輯關係的一種查詢方法,這種查詢方法允許我們輸入多個關鍵詞,各個關鍵詞之間的關係可以用邏輯關係詞來表示。
and,稱為邏輯“與”,用and進行連接,表示它所連接的兩個詞必須同時出現在查詢結果中,例如,輸入“computer and book”,它要求查詢結果中必須同時包含computer和book。
or,稱為邏輯“或”,它表示所連接的兩個關鍵詞中任意一個出現在查詢結果中就可以,例如,輸入“computer or book”,就要求查詢結果中可以只有computer,或只有book,或同時包含computer和book。
not,稱為邏輯“非”,它表示所連接的兩個關鍵詞中應從第一個關鍵詞概念中排除第二個關鍵詞,例如輸入“automobile not car”,就要求查詢的結果中包含automobile(汽車),但同時不能包含car(小汽車)。
near,它表示兩個關鍵詞之間的詞距不能超過n個單詞。
在實際的使用過程中,你可以將各種邏輯關係綜合運用,靈活搭配,以便進行更加複雜的查詢。

知識搜索引擎使用括號

當兩個關鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時,就可以對這兩個詞加上圓括號。

知識搜索引擎使用元詞檢索

大多數搜索引擎都支持“元詞”(metawords)功能,依據這類功能用户把元詞放在關鍵詞的前面,這樣就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特徵。例如,你在搜索引擎中輸入“title:清華大學”,就可以查到網頁標題中帶有清華大學的網頁。在鍵入的關鍵詞後加上“domainrg”,就可以查到所有以org為後綴的網站。
其他元詞還包括:image:用於檢索圖片,link:用於檢索鏈接到某個選定網站的頁面,URL:用於檢索地址中帶有某個關鍵詞的網頁。

知識搜索引擎區分大小寫

這是檢索英文信息時要注意的一個問題,許多英文搜索引擎可以讓用户選擇是否要求區分關鍵詞的大小寫,這一功能對查詢專有名詞有很大的幫助,例如:Web專指萬維網或環球網,而web則表示蜘蛛網.