複製鏈接
請複製以下鏈接發送給好友

企業搜索

鎖定
企業搜索是用户利用搜索引擎對企業進行快速查詢的一種人性化、智能化查詢方式。
中文名
企業搜索
外文名
Enterprise search
性    質
搜索引擎
領    域
計算機互聯網行業

企業搜索引言

研究部門把由傳統關係數據管理系統處理的數據信息稱為結構化數據,把包括紙質文件、電子文檔傳真、報告、表格、圖片、音頻和視頻文件等在內的信息稱為非結構化數據或內容(content)。通過調查發現,在企業存儲的海量信息中,結構化數據僅佔數據信息總量的15%,而非結構化數據卻佔數據信息總量的85%。有序地存儲、管理並挖掘非結構化數據的利用價值是目前全球一切成功企業提高競爭力和生產力的主要手段。
隨着中國經濟的高速發展,中國市場的競爭日益激烈,競爭的方式將從企業的外延比如統一、高效的營業服務系統,向企業的內涵比如管理決策方面轉移。國內各個機構近幾十年投入巨資大力發展IT應用,已經初步建成了各自統一的營業服務系統和企業內部信息傳遞管理系統,經過多年的運行積累,存儲了海量的信息資源。由於歷史的原因,這些海量的信息資源管理分散、共享困難,形成彼此隔離的信息孤島。科學管理和合理開發這些信息資源尤其是大量的、非結構化數據信息,是國內企業界面臨的巨大挑戰。
推動業務發展的是信息,即存入傳統數據庫中的“結構化”數據和包括可用信息庫中內容的“非結構化”數據。顧名思義,非結構化數據的管理也就是我們在本方案中所提及的內容管理。
企業搜索形式和內容進行了深刻思考,並經歷了企業搜索在企業的應用研究與實踐,形成了一套完整的企業搜索平台(Enterprise Search Platform,簡稱ESP)。通過管理實施和內容整合兩個方面來提升客户企業提升核心競爭力和業務支撐能力。在管理實施方面,通過對企業內容的管理規劃和實施諮詢,實現企業管理水平的快速提升。在內容整合上面,專注於“企業搜索平台”產品的研發和實施,實現內容為企業價值服務的目標。
產品,是基於企業搜索理論基礎之上,通過對企業內容整合,配置超過50種文檔類型,搭配各種數據索引方式,輔之以可靠的安全策略,構建一套完整的企業搜索平台,為客户提供完整的、智能的、安全的、強大的企業搜索服務。

企業搜索挑戰

在全球經濟危機的影響下,企業 IT投資預算將會大大降低,應用系統集中化、數據管理集中化、IT 管控集中化等越來越受到企業的關注,在通過 ERP 整體解決方案的實施解決業務支撐一體化的同時,企業也迫切需要一個可以實現內外資源整合的高效 IT 工作平台,以提升管理支撐的能力。具體表現在:
(1) 需要一個統一接入和訪問的 IT平台
多年的信息化建設導致企業的應用系統往往比較多,訪問方式多樣,越來越多企業和員工希望有一個統一的訪問方式,只需要輸入一次賬號就可以根據自己的權限訪問各種應用系統,更進一步則希望能夠根據自己的需求組織應用功能和操作界面,方便使用。
(2) 高效的業務協同管理工作平台
企業各個業務線、部門都存在大量的流程,一方面希望實現業務線內、部門內流程的固化,提高內部協作的效率,另一方面迫於市場和競爭的壓力,更希望能夠實現跨業務、跨部門、跨系統的流程管理,從而提高企業整體運作效率。
(3)需要加強各種文檔類資料的統一管理
過去在信息化建設過程往往重視人、財、物這些有形的物質資產的數字化管理,忽視了業務活動過程中產生的大量文檔類資料的管理,容易引起類似員工流失帶走知識、急需某文檔卻找不到的現象,無形中增加企業成本,因此需要實現對企業內外的文檔資料、專家經驗進行有效的獲取、沉澱、共享、應用、學習和創新,從而提高員工的素質和技能、執行力。
(4)需要一個集中的數據信息整合平台
隨着企業各類應用系統積累的數據越來越多,數據的準確性、統一性、及時性問題越來越突出,需要一個平台能夠實現對數據的統一管理, 向業務人員和管理人員提供及時、 準確、多維度的各種業務數據,通過數據集中展現與分析發現生產、 經營中的問題, 便於領導決策。
(5)如何提高IT的投資回報(ROI)
經濟危機、激烈的市場競爭給企業帶來巨大壓力,提高 IT 基礎設施、應用系統採購的性價比,減少系統維護及維護人員成本,降低業務人員掌握 IT 的學習成本,將有助提升企業IT建設的投資回報,使IT建設和價值更好地得到企業的認可。

企業搜索價值

企業信息源的日益多元化令管理者和員工查找信息的成本越來越高;而互聯網搜索的模式是如此簡單,使用者只要輸入一個關鍵詞並按下 Enter 鍵,系統就會自動地將符合的結果列出,即使面對的是數千萬的網頁,入口網站依然在一秒內就完成查詢。通用的互聯網搜索引擎對人們使用習慣的巨大影響力使Google化的企業搜索成為企業用户的夢想。
但是當公司真要導入時,卻發現系統的複雜度遠超過先前的想象,常會因為評估期過程太長而導致項目無疾而終。雖然企業信息搜索複雜,但信息利用的成本/收益分析證明企業搜索不僅必要而且重要。Web 2.0的模式不斷滲透企業日常行為,大量數據、信息和知識的電子化,其帶來的知識共享訴求要求企業搜索深入參與企業知識建設。
企業搜索問題與挑戰 企業搜索問題與挑戰
圖一、問題與挑戰
對多數的企業來説,在購買企業搜索引擎時的出發點都很簡單,往往只是要解決幾個典型的問題,比如:
1. 在企業網站中提供搜索功能。
2. 公司內數據越來越多難以管理,且儲存在不同計算機內。
3. 離職員工的文件數據已完成備份,但想使用時卻難以發現。
4. 同一份文件需要重複的提供給不同的人。
5. 不同部門對內部文件都有自己的管理方式,難以整合。
企業內容檢索的應用,能夠通過對企業內容的有效整合,搭建一套安全的基於角色的、統一可靠的的檢索入口訪問企業內容。產品專注於提高企業內容利用效率,提升企業產能和效益,以企業內容管理為基礎,以應用開發為平台,全面幫助企業實現價值最大化。
企業搜索應用 企業搜索應用
圖二、企業搜索應用
經過多年的行業應用和演變,提出四大核心競爭優勢:企業級安全(靈活可擴展的用户體系、基於角色的訪問控制、文檔級/記錄級的權限級別),更高的準確性和智能化(概念檢索、基於統計的中文語言處理、主題抽取算法),穩定強大全文檢索功能(優異的性能、T級數據支撐能力、亞秒級響應速度,7*24全年穩定運行),低成本高靈活度的按需定製(強大的接口擴展能力、集羣、分佈式按需擴展)

企業搜索定位與目標

專注於為企業提供一套完整的企業搜索平台,包括企業內容採集、內容存儲、文檔管理、語言處理、安全管理、統一檢索門户、應用開發平台等。
ESP 系統結構 ESP 系統結構
圖三、ESP 系統結構
其中:
統一檢索:以多個分佈式異構數據源為對象,向用户提供統一的檢索接口,將用户的檢索要求轉化為不同數據源的檢索表達式,併發地檢索本地、局域網和廣域網上的多個分佈式異構數據源,並對檢索結果加以整合,在經過消重和排序等操作後,以統一的格式將結果呈現給用户的檢索。更能夠為不同用户提供不同的界面展現方式,即滿足通用檢索需求,又能夠實現個性化需要。
語言處理:中文分詞企業搜索必須具備的技術之一,應用中文分詞技術才能使搜索結果更加符合用户習慣,更加接近用户的期望結果,產品集成了中文分詞技術,並有着40萬詞庫的支持,用户也可以根據自己的需要和行業特色來添加和維護詞庫。中文分詞技術的準確率達到96%以上。
安全系統:實現了各類文檔、資料、數據信息的訪問安全,採用獨創的分級安全體系來保障不同安全級別的信息必須經過授權才能夠訪問;通過對檢索結果進行文檔級安全和集合級安全的分類來實現授權體系的靈活與強大功能。更能夠與絕大部分業務系統的用户體系整合,並可以繼承原有的權限系統,支持LDAP、數據庫、Domino等。
內容存儲:實現各類文檔、資料、數據等信息的分佈式存儲,是能夠最大限度地提高部署靈活性和可擴展性,所有的元數據和全文索引分別存儲在不同的單元上。支持主流數據庫平台、操作系統瀏覽器、門户、應用程序服務器和開發標準,從而提供了一個不受供應商限制的體系結構。 這一靈活性可保護您在現有 IT 基礎架構中的投資, 進而可降低總體擁有成本。
文檔管理:超過50種文檔類型的支持,通過將文檔元數據和索引信息進行分開存儲實現了強大的元數據管理功能,輔以基於文檔安全級別的控制體系,對文檔的整個生命週期進行全面管理。能夠通過創新的回溯功能查看文檔的歷史版本,嚴格的法規遵從策略,全面提升企業文檔到知識的轉換能力。
內容採集:除了支持所有主流數據庫和文件系統的採集以外,還支持內容倉庫的採集,支持Domino、Documentum等企業內容管理中的數據,能夠針對指定文件所在目錄進行高效檢索,並內置文件解析器,可對PDF、OFFICE、HTML、TXT、音頻、視頻等多種文件格式自動解析。同時根據需要能夠定製從其它各類數據源獲取要檢索的數據內容,例如:XML文件、其它數據池等等。即使在同一個應用中,也可以通過配置同時從多個數據源獲取數據並提供檢索服務
應用開發平台:是一個完整的企業搜索平台,能夠完成企業內容整合過程的絕大部分功能,將功能強大的作為整個解決方案的應用基礎,充分利用其底層應用功能,並封裝為更易於使用的服務來提高應用開發的效率,更好地滿足不斷變化的業務需求。

企業搜索應用架構

堅持以人為導向的設計原則, 以滿足不同使用者應用需求的企業搜索入口為統一展現手段,以開放的應用開發平台為應用支撐,提供經過安全級別控制與過濾的安全檢索、管理企業內容和知識,根據企業實際需求拓展內容管理、知識管理、協同應用等大量功能,通過內容整合技術實現對企業 ERP、PDM、CRM等業務系統數據和流程。以靈活、方便、快捷地方式組合應用,滿足企業管理支撐的各種業務需要。
功能架構如下圖所示:
應用架構 應用架構
圖四、應用架構
非結構化內容處理 非結構化內容處理
圖五、非結構化內容處理

企業搜索部分功能列表

企業提供全面的管理支撐應用,具有豐富的應用功能模塊,以滿足不同企業在不同時期的業務需求,企業根據需求靈活地組合各種應用模塊構建適合自己的應用解決方案。下表是部分功能清單及簡單功能描述。
編號
名稱
功能説明
-F01-0
內容採集
實現企業環境中的各種數據源的數據採集功能
-F01-1
本地文件採集
對本地文件系統中的文件進行採集和文本處理
- F01-2
網絡文件採集
對網絡環境中的文件系統進行採集和文本處理
-F01-3
FTP採集
擴展網絡採集類型,支持對FTP環境存儲的文件進行採集和文本處理
-F01-4
POP3採集
擴展網絡採集類型,能夠對支持POP3協議的郵件系統中的郵件進行採集,支持SSL方式的鏈接協議
-F01-5
Domino採集
採集BM Domino系統中的內容
-F01-6
Documentum採集
採集EMC Documentum系統中的內容
-F01-7
Mysql採集
採集Mysql數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F01-8
Oracle採集
採集ORACLE數據,支持按主鍵採集和按更新時間戳採集,支持ORACLE的各個版本,自動採集,支持任務調度模式。
-F01-9
SQL Server採集
採集SQL Server數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F01-10
DB2採集
採集DB2數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F02
內容檢索
-
-F02-1
關鍵詞檢索
標準的關鍵詞檢索功能,支持任意字段的檢索,支持日期和數字類型的關鍵詞檢索,支持範圍檢索
-F02-2
全文搜索
企業內容的全文檢索,支持千萬級的數據量,簡單檢索響應時間為亞秒級,海量數據,瞬間展現
-F02-3
檢索統計
檢索結果分組統計,支持多種數據類型的分組統計功能,無數據量限制。
-F02-4
分類檢索
人工堆數據內容分類,檢索能夠在分類下進行,能夠對分類授權。只有具有分類授權訪問的用户才能夠使用分類檢索功能
-F02-5
檢索安全分級
嚴格控制檢索結果記錄的安全性,默認分為5個級別,第五級為最低級別,所有用户都可以訪問,最高位第一級,只有用户的安全級別為第一級採集可以訪問。
-F02-6
檢索過濾
安全訪問功能,檢索結果能夠被授權用户訪問,通過與第三方用户體系和角色系統集成,實現信息的訪問安全
-F02-7
檢索結果反顯
檢索結果按用户自定義方式進行反顯
-F02-8
任意字段排序
檢索結果排序功能,支持任意數據類型
-F02-9
日期分組統計
檢索結果按照日期進行分組統計,例如:年度分組統計
-F02-10
數字分組統計
檢索結果按照數字範圍進行分組統計,例如:年齡段分組統計
-F02-11
主題分組統計
檢索結果按照主題進行分組統計,例如:公司新聞消息中關於市場推廣活動的統計
-F02-12
跨庫檢索
支持對異構數據系統的統一檢索,例如:對萬方、維普等第三方檢索系統的異構數據集成
-F02-13
分佈式檢索
支撐海量數據,能夠通過多級分佈方式提升系統的數據處理能力,能夠以低成本的方式按需擴展系統
-F02-14
個性化搜索
獨有的功能,不同用户或不同角色可以定義不同的檢索結果展現方式。
-F02-15
快速預覽
快速預覽檢索結果,即快照功能
-F02-16
授權原文下載
獲得授權的用户,能夠對原文進行下載
-F03
系統管理
-
-F03-1
角色管理
系統登錄用户角色管理,也可以和外部系統整合作為映射參數
-F03-2
用户管理
系統用户管理
-F03-3
用户級別管理
系統安全級別,用户安全級別,系統信息訪問分級參數
-F03-4
用户界面定義
自定義用户檢索前台,系統支持不同用户訪問不同前台檢索界面
-F03-5
角色界面定義
為角色定義安全級別、默認角色使用的檢索界面
-F03-6
採集策略定義
定義採集線程數、採集內存使用量、內存使用總量等參數
-F03-7
系統郵件設置
系統發送郵件時使用的 SMTP賬號、密碼、發件人郵件地址等信息
-F04
核心擴展
-
-F04-1
檢索模板定義
-F04-2
文檔格式定義
-F04-3
元數據定義
-F04-5
語言處理接口
-F04-7
數據庫驅動
-F04-8
數據採集器
-F04-9
語言分析
-F04-10
文件解析
-F04-11
數據處理
-F04-12
文本處理
-F04-13
身份驗證