複製鏈接
請複製以下鏈接發送給好友

大數據分析

(對規模巨大的數據進行分析)

鎖定
大數據分析是指對規模巨大的數據進行分析。大數據可以概括為5個V, 數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值(Value)、真實性(Veracity) [1] 
大數據作為時下最火熱的IT行業的詞彙,隨之而來的數據倉庫數據安全數據分析數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。隨着大數據時代的來臨,大數據分析也應運而生。
中文名
大數據分析
外文名
Big data analysis
含    義
是指對規模巨大的數據進行分析
大數據概括
數據量大、速度快(高性能)
分析步驟
可視化分析

大數據分析工具介紹

前端展現
用於展現分析的前端開源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。
用於展現分析商用分析工具有Style IntelligenceRapidMiner RadoopCognos, BO, Microsoft Power BI, Oracle,Microstrategy,QlikViewTableau
國內的有BDP,國雲數據(大數據魔鏡),思邁特,FineBI等等。
數據倉庫
Teradata AsterData, EMC GreenPlum, HP Vertica 等等。
有QlikView、 Tableau 、Style Intelligence等等。

大數據分析分析步驟

大數據分析的六個基本方面
1. Analytic Visualizations(可視化分析
不管是對數據分析專家還是普通用户,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己説話,讓觀眾聽到結果。 [2] 
2. Data Mining Algorithms(數據挖掘算法
可視化是給人看的,數據挖掘就是給機器看的。集羣、分割、孤立點分析還有其他的算法讓我們深入數據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。 [2] 
3. Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。 [2] 
4. Semantic Engines(語義引擎)
我們知道由於非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。 [2] 
5. Data Quality and Master Data Management(數據質量和數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果 [2] 
假如大數據真的是下一個重要的技術革新的話,我們最好把精力關注在大數據能給我們帶來的好處,而不僅僅是挑戰。 [2] 
數據倉庫是為了便於多維分析和多角度展示數據按特定模式進行存儲所建立起來的關係型數據庫。在商業智能系統的設計中,數據倉庫的構建是關鍵,是商業智能系統的基礎,承擔對業務系統數據整合的任務,為商業智能系統提供數據抽取、轉換和加載(ETL),並按主題對數據進行查詢和訪問,為聯機數據分析和數據挖掘提供數據平台。 [3] 

大數據分析發展狀況

開源大數據
1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive、Spark、Flink 漸次誕生,早期Hadoop生態圈逐步形成。
2. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用户。
一體機數據倉庫
IBM PureData(Netezza), OracleExadata, SAP Hana等等。

大數據分析應用實例

巴西世界盃 巴西世界盃
巴西世界盃關係
與往屆世界盃不同的是:數據分析 [4]  成為巴西世界盃賽事外的精彩看點。伴隨賽場上球員的奮力角逐,大數據也在全力演繹世界盃背後的分析故事。一向以嚴謹著稱的德國隊引入專門處理大數據的足球解決方案,進行比賽數據分析,優化球隊配置,並通過分析對手數據找到比賽的“制敵”方式;谷歌、微軟、Opta等通過大數據分析預測賽果...... 大數據,不僅成為賽場上的“第12人”,也在某種程度上充當了世界盃的"預言帝"。
大數據分析邂逅世界盃,是大數據時代的必然發生,而大數據分析也將在未來改變我們生活的方方面面。

大數據分析業務成果

1.積極主動&預測需求: 企業機構面臨着越來越大的競爭壓力,它們不僅需要獲取客户,還要了解客户的需求,以便提升客户體驗,並發展長久的關係。客户通過分享數據,降低數據使用的隱私級別,期望企業能夠了解他們,形成相應的互動,並在所有的接觸點提供無縫體驗。
為此,企業需要識別客户的多個標識符(例如手機、電子郵件和地址),並將其整合為一個單獨的客户ID。由於客户越來越多地使用多個渠道與企業互動,為此需要整合傳統數據源和數字數據源來理解客户的行為。此外,企業也需要提供情境相關的實時體驗,這也是客户的期望。
2. 緩衝風險&減少欺詐: 安全和欺詐分析旨在保護所有物理、財務和知識資產免受內部和外部威脅的濫用。高效的數據和分析能力將確保最佳的欺詐預防水平,提升整個企業機構的安全:威懾需要建立有效的機制,以便企業快速檢測並預測欺詐活動,同時識別和跟蹤肇事者。
將統計、網絡、路徑和大數據方法論用於帶來警報的預測性欺詐傾向模型,將確保在被實時威脅檢測流程觸發後能夠及時做出響應,並自動發出警報和做出相應的處理。數據管理以及高效和透明的欺詐事件報告機制將有助於改進欺詐風險管理流程
此外,對整個企業的數據進行集成和關聯可以提供統一的跨不同業務線、產品和交易的欺詐視圖。多類型分析和數據基礎可以提供更準確的欺詐趨勢分析和預測,並預測未來的潛在操作方式,確定欺詐審計和調查中的漏洞。
3.提供相關產品: 產品是任何企業機構生存的基石,也通常是企業投入最大的領域。產品管理團隊的作用是辨識推動創新、新功能和服務戰略路線圖發展趨勢
通過對個人公佈的想法和觀點的第三方數據源進行有效整理,再進行相應分析,可以幫助企業在需求發生變化或開發新技術的時候保持競爭力,並能夠加快對市場需求的預測,在需求產生之前提供相應產品。
4. 個性化&服務: 公司在處理結構化數據方面仍然有些吃力,並需要快速應對通過數字技術進行客户交互所帶來的不穩定性。要做出實時迴應,並讓客户感覺受到重視,只能通過先進的分析技術實現。大數據帶來了基於客户個性進行互動的機會。這是通過理解客户的態度,並考慮實時位置等因素,從而在多渠道的服務環境中帶來個性化關注實現的。
5. 優化&改善客户體驗 運營管理不善可能會導致無數重大的問題,這包括面臨損害客户體驗,最終降低品牌忠誠度重大風險。通過在流程設計和控制,以及在商品或服務生產中的業務運營優化中應用分析技術,可以提升滿足客户期望有效性和效率,並實現運營。
通過部署先進的分析技術,可以提高現場運營活動的生產力和效率,並能夠根據業務和客户需求優化組織人力安排。數據和分析的最佳化使用可以帶來端對端的視圖,並能夠對關鍵運營指標進行衡量,從而確保持續不斷的改進。
例如,對於許多企業來説,庫存是當前資產類別中最大的一個項目——庫存過多或不足都會直接影響公司的直接成本盈利能力。通過數據和分析,能夠以最低的成本確保不間斷的生產、銷售和/或客户服務水平,從而改善庫存管理水平。數據和分析能夠提供目前和計劃中的庫存情況的信息,以及有關庫存高度、組成和位置的信息,並能夠幫助確定存庫戰略,並做出相應決策。客户期待獲得相關的無縫體驗,並讓企業得知他們的活動。 [5] 

大數據分析異步分析

異步處理的大數據分析中遵守了捕獲、存儲加分析的流程,過程中數據傳感器、網頁服務器、銷售終端移動設備等獲取,之後再存儲到相應設備上,之後再進行分析。由於這些類型的分析都是通過傳統的關係型數據庫管理系統(RDBMS)進行的,數據形式都需要轉換或者轉型成為RDBMS能夠使用的結構類型,例如行或者列的形式,並且需要和其它的數據相連續。
處理的過程被稱之為提取、轉移、加載或者稱為ETL。首先將數據從源系統中提取處理,再將數據標準化處理且將數據發往相應的數據倉儲等待進一步分析。在傳統數據庫環境中,這種ETL步驟相對直接,因為分析的對象往往是為人們熟知的金融報告、銷售或者市場報表、企業資源規劃等等。然而在大數據環境下,ETL可能會變得相對複雜,因此轉型過程對於不同類型的數據源之間處理方式是不同的。
當分析開始的時候,數據首先從數據倉儲中會被抽出來,被放進RDBMS裏以產生需要的報告或者支撐相應的商業智能應用。在大數據分析的環節中,裸數據以及經轉換了的數據大都會被保存下來,因為可能在後面還需要再次轉換。 [6] 
主要區別 主要區別 [7]
參考資料