複製鏈接
請複製以下鏈接發送給好友

數據基礎設施

編輯 鎖定
數據基礎設施是傳統IT基礎設施面向數字化智能化轉演進的必然結果。新技術如AI5GIoT的廣泛應用,推動了數據爆發增長。數據已經成為數字經濟時代的生產要素,驅動着國家、社會和企業的數字化轉型。圍繞數據為中心,深度整合計算、存儲、網絡和軟件資源,以充分挖掘數據價值為目標,使數據“存得下、流得動、用得好”所設計建設的數據中心和邊緣基礎設施被稱為數據基礎設施。
中文名
數據基礎設施
外文名
data infrastructure
構    成
存儲、計算、網絡、操作系統、數據庫、大數據等
特    徵
融合、協同、智能、安全、開放

數據基礎設施背景介紹

編輯
數據是數字經濟時代的核心生產要素
社會已經迎來了繼農業經濟、工業經濟之後的數字經濟時代,如同農業時代的土地、勞動力,工業時代的技術、資本一樣,數據已經成為數字經濟時代的生產要素,而且是最核心的生產要素,數據甚至被認為已經超過石油的價值。數據驅動型創新正在向經濟社會、科技研發等各個領域擴展,成為國家創新發展的關鍵形式和重要方向。包含數據因素的生產函數 [1]  可以用如下公式表達:
Y =F(A, D, K, L, T)
Y: 經濟產出 F:生產函數 A:技術進步 L:勞動力 T:土地 K:資本 D:數據

數據基礎設施業務需求

隨着社會數字化、智能化加速發展,新技術如AI、5G、IoT的廣泛應用,以及大量新的硬件與應用帶來數據量快速增長的同時,也讓數據類型越來越多樣化。生產、採集和保存儘可能多的數據,用於全量分析以洞察先機。到2025年,全球將產生180ZB(1ZB = 1,000,000,000,000,000,000,000Byte)的數據 [2]  。海量數據藴含巨大的價值,也給存儲系統帶來了前所未有的挑戰。
4K視頻已經普及,8K、AR、VR時代即將到來。在工業和信息化部、國家廣播電視總局中央廣播電視總枱聯合發佈的《超高清視頻產業發展行動計劃(2019-2022年)》 [3]  中提出“4K先行、兼顧8K”的總體技術路線,使廣電行業IT基礎設施在高可靠的基礎上,向着高性能、低延遲、集約化的方向轉型,尤其對存儲平台的能力帶來巨大挑戰。
5G通過提升連接速率和降低時延,使單位時間內產生的數據量急劇增長。物聯網將得到較大程度的發展,人與物、物與物之間的連接將急劇增多,數據採集渠道將更加豐富,如聯網汽車、可穿戴設備、機器人等,這也對數據存儲與採集技術提出更高要求。同時,5G時代下越來越多的IoT設備將通過邊緣計算進行存儲、處理和分析,雲、邊協同能力變得尤為重要。
人工智能(AI)和大數據的應用改變了數據的存儲週期和形態。比如,公安部《公安機關現場執法視音頻記錄工作規定 [4]  明確提出,現場執法視音頻資料的保存期限原則上應當不少於六個月,以構築“更長證據鏈”。其次,AI需要全數據訓練、處理和分析。在數據規模化增長的趨勢下,可以按温度來定義不同訪問頻率的數據:經常被訪問的數據稱為熱數據,而較少被訪問的數據稱為冷數據,處於中間狀態的稱為温數據 [5]  。應用AI之後,需要數據能在冷、温、熱之間隨時進行切換。

數據基礎設施技術革新

近年來一系列的技術革新和新技術的出現,使得傳統IT基礎設施往數據基礎設施演進成為可能。例如,人工智能(AI)技術在數據領域的應用大大降低了大規模集羣的運維難度;分佈式存儲技術打通了塊、文件、對象和HDFS等不同的存儲協議,使不同類型不同來源的數據集中存儲成為可能;全閃存和SCM等新型存儲介質的出現使存儲不再成為系統的性能瓶頸;GPU、NPU、ARM等非x86架構芯片的蓬勃發展為數據帶來多樣化算力。在執行不同類型的數據運算時,異構算力會顯著提升運算效率。因此,無論是硬件系統還是數據庫、大數據等軟件系統都將支持異構算力作為演進的關鍵點之一。

數據基礎設施定義

編輯
數據基礎設施是傳統IT基礎設施的演進,是圍繞數據為中心,深度整合計算、存儲、網絡和軟件資源,以充分挖掘數據價值為目標所設計建設的數據中心IT基礎設施。數據基礎設施涵蓋接入、存儲、計算、管理和數據使能五個領域,通過匯聚各方數據,提供“採-存-算-管-用”全生命週期的支撐能力,構建全方位的數據安全體系,打造開放的數據生態環境,讓數據“存得下、流得動、用得好,將數據資源轉變為數據資產,最大化數據價值。

數據基礎設施範圍

編輯
數據基礎設施由基礎設施層和數據管理層組成,其中基礎設施層包括存儲、計算、網絡等硬件設施,數據管理層由操作系統、數據庫系統及大數據系統組成,構成支撐數據存儲及數據全生命週期管理的軟件設施。
在基礎設施層,區別於傳統的硬件設施,數據基礎設施將引入多樣性計算,從單一算力到多樣性算力,匹配多樣性數據,讓計算更高效;存儲也會從單一類型存儲走向多樣性融合存儲,構建融合處理基礎,應對存儲效率低、管理複雜的問題。
在數據管理層,將結合大數據系統和數據庫系統提供的“採-存-算-管-用”全流程的軟件支撐,從單一處理向多源數據智能協同、融合處理發展,應對更實時和智能的數據應用需求,加速實現數據價值。
數據基礎設施需要面向數據構建全方位的安全體系,保障數據端到端的安全和隱私合規,打造開放的數據生態環境,推動全社會數據的共享和開放,創造更大的價值。

數據基礎設施特徵

編輯
數據基礎設施具備以下5個特徵:融合、協同、智能、安全、開放。

數據基礎設施融合

融合的特徵主要體現在基於在存儲、數據庫、大數據等技術領域的突破,打破“存儲內部系統牆”、“數據庫與存儲鏈路牆”、“大數據與存儲配置牆”、“數據庫與大數據協同牆”四堵牆。
  • 異構算力:除x86外,還支持ARM、GPU、NPU等多樣性算力,以匹配對多樣性數據處理的需求。
  • 存算融合:存算融合指存儲層與計算層的融合。數據的處理直接在存儲系統中進行,處理結果返回給計算層。最大限度地減少數據在存儲層和計算層之間搬遷,提升計算效率。
  • 數存融合:數據庫與存儲融合指採用計算-存儲分離部署的架構,數據庫計算和存儲資源可以靈活配置,根據業務需要各自獨立進行彈性擴展,使得資源匹配更精準、更合理,大幅提升資源利用率。
  • 協議融合:協議融合指將邏輯上將存放在不同地方、不同協議的數據進行集中。並通過開放式數據接入框架,支持多種應用和數據源的接入,並能夠靈活擴展接入第三方數據源。
  • 格式融合:數據基礎設施為上層應用和客户端提供標準接口,支持多種服務,如塊存儲服務、文件存儲服務、對象存儲服務和大數據存儲服務。消除傳統數據基礎設施中多類型存儲系統煙囱式構建而形成應用孤島。實現一份數據同時滿足數據庫、大數據、AI等多種業務的分析需求。

數據基礎設施協同

在硬件、算力、數據等趨於融合的過程中,多種數據源以及與之相關聯的特定的數據處理技術還是長期並存的,需要對異構異地數據源進行協同分析。數據基礎設施包含軟硬協同、分析協同和雲邊協同。
  • 軟硬協同:傳統IT基礎設施在跨數據源查詢時,存儲節點和計算節點間需要進行大量不必要的數據傳輸,嚴重影響SQL引擎性能。軟硬協同採用算子下推和計算任務下推等技術,將算子和計算任務下推到數據源,避免不必要的數據傳輸,提升查詢性能。
  • 分析協同:分析協同包含跨數據源協同和跨地域協同。跨數據源協同顆實現分散在多個數據源的多張數據表進行交叉分析。如常見的數據源:Hive、SparkSQL、MPPDB、ES、HBase、Oracle、MySQL等。跨地域協同實現分散在異地數據中心的多張數據表進行碰撞分析。可以像訪問本地數據表一樣訪問異地數據表,並可以將分散在多地的數據表進行碰撞操作。
  • 雲邊協同:在“雲—邊—端”三級的架構中。雲側和邊側均有數據持久化存儲介質,可用於臨時或長期地保存業務數據。雲邊協同分析,即實現雲側和邊側之間特殊跨域、跨源數據調用和協同分析。

數據基礎設施智能

數據智能是一個跨學科的研究領域,它結合大規模數據處理、數據挖掘、機器學習、人機交互、可視化等多種技術,從數據中提煉、發掘、獲取有揭示性和可操作性的信息,使數據“智能”,為人們在基於數據制定決策或執行任務時提供有效的智能支持。
  • 智能OAM:將人工智能(AI)技術引入到數據基礎設施運維管理層,通過多維度智能風險預測與智能調優,實現“規劃、建設、運維、優化”存儲全生命週期自動化管理與智能運維,提升數據中心運營效率。
  • 智能無損網絡:RDMA [6]  技術是數據設施網絡層推薦採用的技術。相比TCP/IP技術,RDMA可以顯著降低服務器和存儲之間數據傳輸的時延。RDMA協議對物理網絡的丟包及其敏感,當丟包率大於10-3時,網絡吞吐量急劇下降 [7]  。因此智能無損網絡應該具備零丟包、高吞吐和超低時延的特徵。
  • 智能數據存儲:基於AI芯片提供的強大的運算能力,通過對業務負載、設備健康狀態等持續學習,基於智能學習強化的智能讀緩存,能夠對業務模型預測更準確,實現更高的讀命中率,保障複雜業務模型下系統高性能;基於智能學習強化的智能服務質量控制(QoS),對系統內各種不同負載進行識別、分類,保障關鍵業務,抑制非關鍵業務,保證業務平穩運行;基於智能學習強化的數據縮減,對數據模式進行識別,合理統籌在線重刪與後重刪,以及針對不同數據模式採用不同的縮減算法 ,實現縮減比和性能最優。
  • 智能數據處理:將人工智能(AI)技術融入數據處理的全生命週期,實現自運維、自管理、自調優、故障自診斷和自愈。在交易、分析和混合負載場景下,基於深度強化學習的算法,提升數據處理整體性能和穩定性

數據基礎設施安全

數據基礎設施承載着海量的數據,包括業務的核心數據以及隱私數據。這些數據支撐着企業的所有業務和運營,關係着企業的生命線。需要構建全方位的數據安全體系,幫助企業實現數據在全生命週期過程中的數據不丟失、不泄露、不被篡改、業務永遠在線、可追溯和隱私合規。
  • 平台安全:系統自身的安全和防攻擊性是安全防護體系的基石。基礎設施平台安全包括介質、芯片、板卡等硬件設備安全,操作系統、數據庫、固件等軟件安全,以及網絡、協議等安全。
  • 數據安全:是指基礎設施為支撐數據存儲、傳輸、處理等全生命週期過程提供的數據安全保護能力,如數據加密、數據隔離、訪問控制、完整性校驗等。數據融合背景下,由於缺乏有效的安全訪問控制,不同網絡融合、各種數據彙集,數據泄露及濫用風險成為主要矛盾之一。保障數據的安全,要回答好三個問題:數據在哪裏,安不安全;數據去哪裏,該不該去;數據誰在用,該不該用。
  • 隱私合規:是指基礎設施為保障數據存儲、移動、再利用等過程中的合規提供的能力,如數據脱敏、違規分析、密文搜索、同態加密等。以歐盟GDPR條例 [8]  為例,二級存儲產品將生產業務的備份、複製、歸檔數據統一存儲、統一管理,並及時將副本數據用於開發、測試和數據分析,在這種端到端、多方使用數據的場景下,做好數據的訪問控制和脱敏變得尤為重要。

數據基礎設施開放

數據產業是一個有眾多細分領域、眾多參與者的產業,它需要數據、產品和服務間的緊密協同,而數據基礎設施作為其中的關鍵支撐環節,涉及到硬件產業、軟件產業,以及各類開源技術、閉源技術等,這就決定了數據基礎設施具有生態複雜性,需要很強的生態協同能力,並通過技術和產業的開放性來吸引更多的參與者以保持生態的活力。
  • 技術開放:產業鏈的參與者應保持開放合作的態度,密切配合,共同攻克技術斷點。硬件部件之間、軟件模塊之間解耦合有助於整合整個產業的能力,做大產業空間。為此,建立一套技術標準體系和規範接口是非常必要的。
  • 產業合作:產業鏈不同環節的參與者需要建立起高效的協作機制,形成良性互動的合作關係,以實現產業的持續擴大。

數據基礎設施應用

編輯
數據基礎設施已經在許多行業中發揮了重要作用。總的來説,其應用場景可以劃分為三類:
  • 智能生產交易:生產交易場景有運營商Billing/CRM、金融核心、企業ERP等。核心生產交易要求數據的快速處理、安全可靠。這要求數據基礎設施採用數存融合、軟硬協同、人工智能和智能無損網絡等相關技術,實現計算存儲資源靈活擴展,消除網絡和I/O瓶頸,提升業務查詢效率。
  • 智能數據湖:數據湖場景有政務大數據、交通大數據等。智能數據湖要求消除數據孤島,打通各個系統。這要求數據基礎設施具備數存融合能力,並支持算子下推、協議互通等以提升分析效率。
  • 智能邊緣:邊緣場景有煤礦、安監、海關、工廠等。智能邊緣要求在貼近數據生產的物理位置部署,具備計算、網絡、存儲、安全和AI的高度集成化,並且支持即插即用和無人值守等極簡運維方式。
參考資料