複製鏈接
請複製以下鏈接發送給好友

新型數據庫

鎖定
行存儲方式設計思想是以事務處理為主,存儲結構異常複雜。由於數據頁結構和MVCC(多版本併發控制)的原因,每個數據頁必須讀到內存中,導致每次查詢必須讀取大量無用數據。這種數據存儲方式造成磁盤I/O成為了限制性能的主要因素。雖然磁盤成本在不斷下降,但數據傳輸效率並沒有根本的改變。因此,在處理的數據量不大時往往影響不大,但在處理海量數據時, 性能下降問題就會突現出來。
中文名
新型數據庫
目    的
數據記錄事務處理
產生原因
數據量的日益增大
設計思想
三個“1/10”、兩個“10 倍以上”

新型數據庫產生背景

傳統數據庫技術的產生不是為了分析海量數據,而是為了數據記錄事務處理OLTP)。當數據量不斷膨脹之後,用户就會產生越來越多的分析需求,而傳統數據庫在分析處理時,整體性能會大大降低。造成此問題的原因如下:
傳統行存儲導致大量無效 I/O
傳統索引不適於海量數據
傳統行存數據庫索引需要手工設定,對應用不完全透明,隨場景和需求的變化需要不斷調整,人工維護成本很高。並且傳統索引佔用存儲空間很大,甚至高於數據本身,造成查詢效率的下降。
數據裝載速度慢
因為索引需要重新創建,加載性能會變的很糟糕。分析型架構系統要解決這些個問題,必須最大限度地減少磁盤 I/O ,提升查詢效率,減小人工維護成本。南大通用分析型數據庫GBase8a (以下簡稱GBase 8a)通過列存儲模式數據壓縮、智能化的索引、並行處理、併發控制、高效的查詢優化器等技術,使得上述問題得到有效解決。以下各節將描述 GBase 8a 的創新架構如何實現這些目標。
隨着雲計算和大數據時代的到來,行業數據和移動互聯網應用對數據交易處理的實時性和規模提出更高的要求。例如,淘寶每天千萬量級交易筆數,50GB彙總結果,7億條日誌記錄,1.5PB原始數據記錄;FaceBook每天處理27億次Like按鈕點擊,上傳3億張圖片,由人工或系統自動執行的請求達到7萬次,吸收逾500TB新數據。傳統數據庫面臨前所未有的挑戰:首先,數據處理需求與傳統數據庫平台硬件擴展的差距不斷擴大,傳統的數據庫性能和TB級數據處理規模已不能滿足海量數據的實時交易查詢需求。其次,通過不斷堆疊高性能盤陣獲取性能提升的傳統擴展方式,使得底層硬件和數據庫軟件採購成本不斷攀升。在性能和成本的雙重壓力之下,數據庫需要尋找突破之路。淘寶、Facebook、Google騰訊百度等互聯網企業紛紛展開探索,面向不同應用的各種新型數據庫應運而生。

新型數據庫設計思想

三個“1/10”
把執行同樣一條查詢語句所需要磁盤的 I/O 降低到傳統行存儲數據庫的1/10 以下;
在啓動壓縮的情況下,同樣的裸數據加載到數據庫後佔有的磁盤空間是傳統行存儲數據庫的 1/10 以下;
人工管理費用(安裝、調試、優化、維護、擴展等)是傳統行存儲數據庫的1/10 以下。
兩個“10 倍以上”
在海量數據分析型應用中,平均綜合查詢性能(複雜查詢、即席查詢、模糊查詢、分頁查詢、TOP-N 查詢等)是傳統行存儲數據庫的 10 倍以上;
壓縮比 10 倍以上。

新型數據庫技術創新

新型數據庫採用分佈式並行計算架構,部署於X86通用服務器,滿足大數據實時交易需求,成本低、擴展性高,突破了傳統數據庫性能瓶頸。
分佈式非關係型數據庫技術創新
[1] 
非關係型數據庫NoSQL,拋棄了關係數據庫複雜的關係操作事務處理等功能,僅提供簡單的鍵值對(Key, Value)數據的存儲與查詢,換取高擴展性和高性能,滿足論壇博客SNS微博等互聯網類應用場景下針對海量數據的簡單操作需求。主要技術創新為:
(1) 簡單的數據操作換取高效響應。NoSQL僅支持按照Key(關鍵字)來存儲和查詢Value(數據),不支持對非關鍵字數據列的高效查詢;因數據操作簡單、數據間一般不需要關聯操作,故系統可支持高併發和較快的響應速度。
(2) 多種一致性策略滿足業務需求。不同於傳統關係型數據庫僅支持強一致性策略,NoSQL還支持弱一致性和最終一致性等多種策略,可根據應用場景進行對應配置。例如,對寫入操作頻繁,但數據讀取最新版本要求並不嚴格的應用,如互聯網網頁數據的存儲和分析應用,可以採用最終一致性策略;而對訂購關係存儲的應用,則必須用強一致性策略,保證總是讀取最新版本數據。

新型數據庫數據庫簡介

新型分析型GBase 8a 的架構設計充分滿足了海量數據分析需求,是具有高效複雜統計和分析能力的列存儲關係型
新型數據庫 新型數據庫
數據庫管理系統。GBase 8a 面向分析型應用領域,以列為基本存儲結構和數據運算對象,結合列數據壓縮處理、並行處理、智能索引等新型數據處理技術。
[2] 

新型數據庫技術特性

·支持標準Linux內核:Cent OS,Redhat, Suse等
·支持基於x86-64的標準PC服務器
·支持本地存儲(Sata, SAS, SSD etc)
·支持陣列部署(SAN,NAS
·支持SSD,Flash存儲介質作為2級I/O緩存
·支持標準SQL
·提供通用API: JDBC,ODBC,CAPI,ADO(.)NET

新型數據庫關鍵指標

·真正的列存儲數據壓縮比可達到1:5 到 1:20
·自動提供粗粒度智能索引,高效過濾,膨脹小,免維護
·可支撐10TB級別的結構化數據
·支持並行計算,充分利用現代的 SMP 多核CPU資源
·數據加載速度可達到200GB/小時
·提供MVCC支持,讀寫不阻塞,併發能力大於300個用户

新型數據庫產品優勢

·高性能
列存儲在大大減少了I/O的同時,顯著的提高查詢性能;
智能索引大幅提高查詢性能;
非常快的數據加載(單表高達 200GB/小時 的加載速度);
高效的並行 SQL 執行方法,支持 Hash Join、Merge Join和NL Join;
數據庫可擴展性非常高。
·高性價比
市場領先的數據壓縮(從1:5到1:20以上),顯著減少存儲開銷;
減少服務器的數量,顯著減少數據倉庫運營成本。
·高可用性
不要求設計特定的數據模型,例如要求星型模型, 雪花模型
沒有物化視圖的要求,不要求複雜的數據分區或索引;
易於實施和管理,只需要傳統數據庫 1/10 的管理;
與主要商業智能工具兼容,如 Cognos、Business Objects、Pentaho、JasperSoft、SPSS
支持市場上主流64位操作系統
參考資料