複製鏈接
請複製以下鏈接發送給好友

大數據

(IT行業術語)

鎖定
大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過主流軟件工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。 [17] 
維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代 [1]  中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。 [2] 
“大數據”一詞列出了商務印書館推出的《漢語新詞語詞典(2000—2020)》中國這20年生命活力指數最高的十大“時代新詞”。 [18] 
中文名
大數據
外文名
big data,mega data
提出者
維克托·邁爾-舍恩伯格及肯尼斯·庫克耶
提出時間
2008年8月中旬
適用領域
BI工業4.0雲計算物聯網,互聯網+
應用學科
計算機信息科學統計學
5V特點
大量、高速、多樣、價值、真實性

大數據定義

大數據與雲計算的關係 大數據與雲計算的關係 [1]
對於“大數據”(Big data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。 [3] 
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。 [4] 
從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分佈式架構。它的特色在於對海量數據進行分佈式數據挖掘。但它必須依託雲計算的分佈式處理、分佈式數據庫和雲存儲、虛擬化技術。 [1] 
隨着雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關係型數據庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘、分佈式文件系統分佈式數據庫、雲計算平台、互聯網和可擴展的存儲系統
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

大數據特徵

特徵
介紹
容量(Volume)
數據的大小決定所考慮的數據的價值和潛在的信息;
種類(Variety)
數據類型的多樣性;
速度(Velocity)
指獲得數據的速度;
可變性(Variability)
妨礙了處理和有效地管理數據的過程。
真實性(Veracity)
數據的質量。
複雜性(Complexity)
數據量巨大,來源多渠道。
價值(value)
合理運用大數據,以低成本創造高價值。
參考資料 [5] 

大數據結構

大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。 [6]  大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。 [7] 
其次,想要系統的認知大數據,必須要全面而細緻的分解它,着手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這裏從大數據的特徵定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這裏分別從雲計算、分佈式處理技術、存儲技術和感知技術的發展來説明大數據從採集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。在這裏分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。 [7] 

大數據數據要素

大數據概念

數據技術的發展伴隨着數據應用需求的演變,影響着數據投入生產的方式和規模,數據在相應技術和產業背景的演變中逐漸成為促進生產的關鍵要素。因此,“數據要素”一詞是面向數字經濟,在討論生產力和生產關係的語境中對“數據”的指代,是對數據促進生產價值的強調。即數據要素指的是根據特定生產需求匯聚、整理、加工而成的計算機數據及其衍生形態,投入於生產的原始數據集、標準化數據集、各類數據產品及以數據為基礎產生的系統、信息和知識均可納入數據要素討論的範疇。 [24] 

大數據數據產品

1.數據庫商品
(1)概念/定義
數據庫是結構化信息或數據的有序集合,一般以電子形式存儲在計算機系統中。通常由數據庫管理系統 (DBMS) 來控制。在現實中,數據、DBMS 及關聯應用一起被稱為數據庫系統,通常簡稱為數據庫。 [25] 
(2)數據庫分類
關係數據庫:關係數據庫在 20 世紀 80 年代成為了主流。在關係數據庫中,項被組織為一組具有列和行的表。這為訪問結構化信息提供了一種有效、靈活的方法。
面向對象數據庫:面向對象數據庫中的信息以對象的形式表示,這與面向對象的編程相類似。
分佈式數據庫:分佈式數據庫由位於不同站點的兩個或多個文件組成。數據庫可以存儲在多台計算機上,位於同一個物理位置,或分散在不同的網絡上。
數據倉庫:數據倉庫是數據的中央存儲庫,是專為快速查詢和分析而設計的數據庫。
NoSQL 數據庫:NoSQL 或非關係數據庫,支持存儲和操作非結構化及半結構化數據(與關係數據庫相反,關係數據庫定義了應如何組合插入數據庫的數據)。隨着 Web 應用的日益普及和複雜化,NoSQL 數據庫得到了越來越廣泛的應用。
圖形數據庫:圖形數據庫根據實體和實體之間的關係來存儲數據。
OLTP 數據庫:OLTP 數據庫是一種高速分析數據庫,專為多個用户執行大量事務而設計。
雲數據庫:雲數據庫指基於私有云、公有云或混合雲計算平台的結構化或非結構化數據集合,可分為傳統雲數據庫和數據庫即服務 (DBaaS) 兩種類型。在 DBaaS 中,管理和維護工作均由服務提供商負責。
多模型數據庫:多模型數據庫指的是將不同類型的數據庫模型整合到一個集成的後端中,以此來滿足各種不同的數據類型的需求。
文檔/JSON 數據庫:文檔數據庫專為存儲、檢索和管理面向文檔的信息而設計,它是一種以 JSON 格式(而不是採用行和列)存儲數據的現代方法。
自治駕駛數據庫:基於雲的自治駕駛數據庫(也稱作自治數據庫)是一種全新的極具革新性的數據庫,它利用機器學習技術自動執行數據庫調優、保護、備份、更新,以及傳統上由數據庫管理員 (DBA) 執行的其他常規管理任務。 [25] 
向量數據庫(Vector Database):向量數據庫是專門用來存儲和查詢向量的數據庫。這些向量通常來自於對文本、語音、圖像、視頻等的向量化。與傳統數據庫相比,向量數據庫可以處理更多非結構化數據。在機器學習和深度學習中,數據通常以向量形式表示,因此向量數據庫在這些領域中非常有用。
2.核驗接口
(1)概念/定義
核驗接口是指通過網絡或其他方式,將需要核驗的信息傳輸到指定的接口,進行核驗並返回核驗結果的一種接口。在實名認證、身份驗證、數據安全等方面,核驗接口都有着廣泛的應用。
(2)常見的核驗接口
身份信息核驗接口:用於核驗身份證號碼和姓名是否一致,可以包括身份證二要素核驗(核驗姓名、身份證號是否一致)和身份證四要素核驗(核驗姓名、身份證號、有效期始、有效期止是否一致)。
個人實名認證接口:用於進行個人實名認證,驗證個人身份信息的真實性和合法性。
企業四要素核驗接口:用於核驗企業的組織機構代碼、營業執照號碼、納税人識別號碼等信息是否一致。
銀行卡信息核驗接口:用於銀行卡類型查詢、銀行卡真偽核驗,校驗銀行卡四要素(姓名、手機號碼、身份證號碼和銀行卡號)信息是否一致。
3.查詢接口
(1)概念/定義
查詢接口是指通過網絡或其他方式,將查詢請求傳輸到指定的接口,進行查詢並返回查詢結果的一種接口。在數據庫中,查詢接口可以用於查詢數據表中的數據。
(2)常見的查詢接口
公共信息查詢接口:天氣查詢、國內油價查詢、交通違章代碼查詢和空氣質量查詢等數據查詢接口。
常識類信息查詢接口:如星座查詢、垃圾分類識別查詢、節假日信息查詢和郵編查詢等數據查詢接口。
企業信息查詢接口:包括企業簡介信息查詢、企業工商信息變更查詢、企業LOGO、企業專利信息等數據查詢接口。
4.數據模型結果
(1)概念/定義
數據模型結果是指數據建模過程的輸出結果,它是對數據對象及其之間關係的結構化表示。在數據產品中,數據模型結果可以包括表格、圖表、圖形等可視化形式,幫助用户理解數據及其關聯關係。
(2)常見的數據模型結果應用
在金融業中,數據模型結果可以用於分析市場趨勢和客户需求,從而實現精準營銷和風險管理。
在零售業中,數據模型結果可以用於分析商品銷售情況、顧客行為和偏好,進行優化庫存管理、改善定價策略並提供個性化推薦服務等應用。
在電信行業中,數據模型結果可以用於分析網絡流量分析從而提升網絡質量和網絡利用率、用於用户行為和偏好分析管理客户關係以及精準營銷等應用。
在醫療行業中,數據模型結果可以分析患者病歷數據,實現疾病預測,以及發展個性化治療,考慮個人的遺傳變異因素,改善醫療保健效果,減少副作用,降低醫療成本。

大數據國內大數據產業鏈分佈結構

大數據數據採集與處理

(1)概念/定義
數據採集與處理是大數據的關鍵技術之一,它從互聯網、傳感器和信息系統等來源獲取的大量帶有噪聲的數據進行預處理,包括數據清洗、填補和規範化等流程,使無序的數據更加有序,便於處理,以達到快速分析處理的目的。
(2)常見應用場景
金融行業:大數據採集與處理在金融行業中的應用非常廣泛。例如,銀行可以通過採集和處理大量的交易數據來進行風險評估和欺詐檢測。
零售業:大數據採集與處理是零售商瞭解消費者的購買行為和偏好,從而進行精準的市場定位和個性化營銷的重要支撐。通過採集和分析大量的銷售數據和顧客反饋,零售商可以優化庫存管理、供應鏈和銷售策略。
醫療行業:大數據採集與處理在健康醫療領域中有着重要的應用。醫療機構可以通過採集和分析患者的醫療記錄、生物傳感器數據和基因組數據來進行疾病預測、診斷和治療。此外,大數據還可以用於監測公共衞生事件和流行病爆發。
物聯網:物聯網設備產生的海量數據需要進行採集和處理。大數據採集與處理可以幫助物聯網應用實現實時監測、遠程控制和智能決策。例如,智能家居可以通過採集和分析家庭設備的數據來實現自動化控制和能源管理。
社交媒體:社交媒體平台產生了大量的用户生成內容和社交數據。通過採集和處理這些數據,社交媒體平台可以提供個性化的推薦、廣告定向和輿情分析等功能。
城市管理:大數據採集與處理可以幫助城市管理者實現智慧城市的建設。通過採集和分析城市交通、環境、能源等方面的數據,城市管理者可以優化交通流量、改善環境質量和提高能源利用效率。

大數據數據存儲與管理

(1)概念/定義
數據存儲與管理是指將處理前或處理後的數據以特定格式記錄在計算機內部或外部存儲介質上,並對數據進行管理和調用的過程。此過程有助於減少數據孤島現象,並確保數據的可靠性、安全性、可用性和可擴展性。
(2)常見的應用場景
金融行業:金融機構需要存儲和管理大量的交易數據、客户數據和市場數據。數據存儲和管理可以幫助金融機構進行風險管理、反欺詐分析、客户關係管理等。
零售業:零售商需要存儲和管理大量的銷售數據、庫存數據和顧客數據。數據存儲和管理可以輔助零售商進行銷售分析、庫存管理、個性化營銷等工作。
健康醫療:醫療機構需要存儲和管理患者的醫療記錄、病歷數據和醫學影像數據。數據存儲和管理可以幫助醫療機構進行疾病診斷、治療計劃制定、醫學研究等。
物聯網:物聯網設備產生的數據需要進行存儲和管理。例如對採集的農田土壤、氣象、水質等數據進行數據存儲和管理,為實現智能農業的精準灌溉和農作物生長監測提供支持。
社交媒體:社交媒體平台需要存儲和管理用户生成的內容、社交關係數據和用户行為數據。數據存儲和管理可以幫助社交媒體平台進行用户推薦、內容分發、廣告定向等。
城市管理:城市管理部門需要存儲和管理城市交通數據、環境監測數據和公共服務數據。數據存儲和管理可以幫助城市管理部門進行交通優化、環境保護、智慧城市建設等。
電信行業:電信運營商需要存儲和管理大量的通信數據、用户數據和網絡數據。數據存儲和管理可以幫助電信運營商進行網絡優化、用户分析、故障排查等。

大數據數據挖掘/分析

(1)概念/定義
數據挖掘:數據挖掘是一種計算機輔助技術,用於分析以處理和探索大型數據集。藉助數據挖掘工具和方法,組織可以發現其數據中隱藏的模式和關係。數據挖掘將原始數據轉化為實用的知識。其目標不是提取或挖掘數據本身,而是對已有的大量數據,提取有意義或有價值的知識。 [19] 
數據分析:數據分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,發揮數據的作用。
因此,狹義上的數據分析與數據挖掘的本質一樣,都是從數據裏面發現關於業務的知識(有價值的信息),從而幫助業務運營、改進產品以及幫助企業做更好的決策,所以俠義的數據分析與數據挖掘構成廣義的數據分析。
(2)常見應用場景
金融行業:在金融服務中利用數據挖掘應用程序來解決複雜的欺詐、合規、風險管理和客户流失問題,同時,大數據分析可以幫助金融機構進行市場趨勢分析、投資組合優化和個性化推薦。
醫療行業:醫療機構可以利用大數據分析患者的病歷數據、醫學影像和基因組數據,以輔助疾病診斷、藥物研發和個性化治療。例如在疾病診斷上,通過對大量的醫療數據進行挖掘和分析,可以發現潛在的疾病模式和風險因素,實現疾病的早期預測。
零售業:大數據挖掘和分析可以幫助零售商瞭解消費者的購買行為和偏好,從而進行精準的市場定位和個性化營銷。通過分析大量的銷售數據和顧客反饋,零售商可以優化庫存管理、供應鏈和銷售策略。
物聯網:物聯網設備產生的海量數據需要進行數據挖掘和分析。大數據分析可以幫助物聯網應用實現實時監測、遠程控制和智能決策。例如,智能家居可以通過分析家庭設備的數據來實現自動化控制和能源管理。
電信行業:例如通過對網絡數據進行挖掘和分析,公司可以根據帶寬使用模式並提供定製的服務升級或建議,通過對用户通話數據的挖掘分析,可以幫助電信運營商發現異常行為和欺詐行為。

大數據數據可視化/呈現

(1)概念/定義
數據可視化是使用圖表、圖形或地圖等可視元素來表示數據的過程。該過程將難以理解和運用的數據轉化為更易於處理的可視化表示。數據可視化工具可自動提高視覺交流過程的準確性並提供詳細信息,以便決策者可以確定數據之間的關係並發現隱藏的模式或趨勢。 [20] 
(2)常見應用場景
商業決策:通過數據可視化,企業可以更直觀地瞭解業務數據和市場趨勢,從而做出更準確的商業決策。例如,通過數據可視化展示銷售數據和客户反饋,企業可以瞭解產品的銷售情況和客户需求,從而優化產品設計和市場推廣。
智慧城市:通過數據可視化,城市管理部門可以更直觀地瞭解城市的交通、環境、能源等方面的數據,從而實現智慧城市的建設。例如,通過數據可視化展示交通流量和路況,城市管理部門可以實現交通優化和擁堵緩解。
醫療健康:通過數據可視化,醫療機構可以更直觀地瞭解患者的病歷數據和醫學影像,從而實現疾病的診斷和治療。例如,通過數據可視化展示醫學影像和基因組數據,醫生可以更準確地診斷疾病和制定治療方案。
金融服務:通過數據可視化,金融機構可以更直觀地瞭解市場趨勢和客户需求,從而實現精準營銷和風險管理。例如,通過數據可視化展示市場數據和客户反饋,金融機構可以瞭解客户需求和市場趨勢,從而制定個性化的產品和服務。
物聯網:通過數據可視化,物聯網應用可以更直觀地瞭解設備的運行狀態和數據流量,從而實現實時監測和遠程控制。例如,通過數據可視化展示設備的運行數據和傳感器數據,物聯網應用可以實現設備的遠程控制和智能決策,如圖。
車間可視化 車間可視化

大數據數據治理/應用(解決方案)

1.大數據在金融行業的應用
交易欺詐識別:通過大數據分析,可以識別出交易欺詐行為,幫助金融機構減少損失,如中國交通銀行信用卡中心電子渠道實時反欺詐監控交易系統。
精準營銷:通過分析客户的消費行為和偏好,可以實現精準營銷,提高營銷效果,如京東金融基於大數據的行為分析系統、恆豐銀行基於大數據的客户關係管理系統。
信貸風險評估:通過分析客户的信用記錄、收入和支出等信息,可以評估客户的信貸風險,幫助金融機構做出更好的決策,如恆豐銀行全面風險預警系統、人人貸風控體系。
智能投顧:通過大數據分析客户的投資偏好和風險承受能力,可以為客户提供個性化的投資建議,如通聯浙商大數據智選消費基金,通聯支付通過對自有的消費類支付相關數據,可以實時瞭解行業(尤其是消費行業)銷售需求的情況,按行業彙總各商户的刷卡支付情況,獲得行業最新的景氣邊際變化,進而將資金更多的配置在景氣向好的行業上,然後利用經典量化模型,精選相應行業內的上市公司,並基於此發行了一支名為“浙商大數據智選消費”的偏股混合型基金。 [21] 
2.大數據在醫療行業的應用
分析電子病歷:醫生共享電子病歷可以收集和分析數據,尋找能夠降低醫療成本的方法。醫生和醫療服務提供商之間共享患者數據,能夠減少重複檢查,改善患者體驗,如百度智能醫療平台實現電子病歷規範化和結構化。
健康風險預測:通過分析大量的健康數據,可以預測人羣的慢性病風險,幫助醫療機構和個人採取相應的預防和干預措施,提高健康管理的效果,如平安雲的智能醫療解決方案具有智能健康風險預測功能。
輔助診斷決策:通過學習海量教材、臨牀指南、藥典及三甲醫院優質病歷,打造遵循循證醫學的臨牀輔助決策系統,用以提升醫療質量,降低醫療風險。如百度智能醫療平台的臨牀輔助決策系統。
互聯網醫院:互聯網醫院是指利用互聯網技術,為患者提供在線諮詢、預約掛號、遠程診療等醫療服務。互聯網醫院可以通過大數據分析,為患者提供個性化的醫療建議和服務,如丁香醫生。
3.大數據在零售行業的應用
個性化推薦:通過分析顧客的購買歷史、瀏覽行為和偏好,利用大數據技術進行個性化推薦,提高銷售轉化率和顧客滿意度。
庫存管理:通過分析銷售數據和供應鏈數據,預測產品需求和庫存水平,幫助零售商優化庫存管理,減少過剩和缺貨情況。
客户細分:通過分析顧客的購買行為和消費習慣,將顧客分為不同的細分羣體,為每個羣體提供個性化的營銷策略和服務。
價格優化:通過分析市場競爭和顧客需求,優化定價策略,實現最佳的價格和利潤平衡。
供應鏈優化:通過分析供應鏈數據,優化供應鏈流程和物流配送,提高供應鏈的效率和可靠性。

大數據數據安全與合規

1.概念/定義
根據《中華人民共和國數據安全法》,數據是指任何以電子或者其他方式對信息的記錄。數據安全是指通過採取必要措施,確保數據處於有效保護和合法利用的狀態,以及具備保障持續安全狀態的能力。各地區、各部門對本地區、本部門工作中收集和產生的數據及數據安全負責。 [22] 
2.數據全生命週期安全
(1)數據採集安全:指為確保在組織系統中生成新數據,或者從外部收集數據過程的合法、合規及安全性,而採取的一系列措施。
(2)數據傳輸安全:指為防止傳輸過程中的數據泄漏,而採取的一系列數據加密保護策略和安全防護措施。
(3)存儲安全:指為確保存儲介質上的數據安全性,而採取的一系列措施,如在數據分類分級的基礎上,結合業務場景,明確不同類別和級別數據的加密存儲要求。
(4)數據備份與恢復:指通過規範數據存儲的冗餘管理工作機制,保障數據的高可用性,如建立數據備份與恢復平台,按照備份清單定期執行備份,並對備份數據完整性和可用性進行驗證。
(5)使用安全:指為保障在組織內部對數據進行計算、分析、可視化等操作過程的安全性,而採取的一些列措施,如採取對不同類型不同級別的數據進行脱敏處理,對數據處理活動進行監控等操作。
(6)數據處理環境安全:指為確保組織的數據處理系統、終端、平台等環境的安全性,而採取的一系列措施。
(7)數據內部共享安全:指為確保組織內部之間的數據交互過程安全而採取的一系列措施。
(8)數據外部共享安全:指為確保不同組織之間的數據交互過程安全而採取的一系列措施。
(9)數據銷燬安全:指通過對數據及其存儲介質實施相應的操作手段,使得數據徹底消除且無法通過任何手段恢復。 [23] 
3.企業數據安全治理實踐
(1)中國聯通集團數據安全治理實踐
該方案以防止數據泄漏與數據濫用為目標,以零信任安全為理念將自主研發的數據追蹤溯源系統、數據安全網關係統等數據安全產品實際應用到具體的數據生產場景中,以解決數據安全問題,保障公司大數據業務的快速發展,保護用户個人隱私,維護社會穩定,保障國家安全。總體框架如圖所示,目前,該方案已在浙江省大數據發展管理局、廣東省政務服務數據管理局等多個政府部門落地實施,運行效果良好,降低了政務信息共享交換環節數據泄露、數據篡改、數據濫用等問題的風險。 [23] 
中國聯通數據安全體系總體框架 中國聯通數據安全體系總體框架
(2)螞蟻集團數據安全治理實踐
螞蟻集團在過去幾年的數據安全實踐中,持續加大對數據、算法、產品的建設力度,不斷強化流程規範的制定和實際落地,同時大幅提升數據安全基線、度量、審計、心智等重要環節工作,總結出一套行之有效、覆蓋數據處理全生命週期的數據安全複合治理管理模式。螞蟻數據安全複合治理管理模式如圖所示。 [23] 
螞蟻數據安全複合治理管理模式 螞蟻數據安全複合治理管理模式
(3)百度數據安全治理實踐
百度基於現有的數據安全策略及相關規範要求集成多維安全檢測和防護能力,建立了覆蓋數據全生命週期的數據安全與隱私保護解決方案,可實現“事前主動識別,事中靈活控制,事後全維追蹤”的目標,百度數據安全治理實踐路線如圖所示,可為高價值數據、敏感數據和私有化部署數據等數據提供安全評估和保障。 [23] 
百度數據安全治理實踐路線 百度數據安全治理實踐路線

大數據意義

現在的社會是一個高速發展的社會,科技發達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。 [8]  阿里巴巴創辦人馬雲來台演講中就提到,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology數據科技,顯示大數據對於阿里巴巴集團來説舉足輕重 [9] 
有人把數據比喻為藴藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模數據是贏得競爭的關鍵。 [10] 
大數據的價值體現在以下幾個方面:
(1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;
(2)做小而美模式的中小微企業可以利用大數據做服務轉型;
(3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
不過,“大數據”在經濟發展中的巨大意義並不代表其能取代一切對於社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌於資料之無益累積,以致對問題之説明與解決,喪失了其對特殊的經濟意義的瞭解。”這確實是需要警惕的。
在這個快速發展的智能硬件時代,困擾應用開發者的一個重要問題就是如何在功率、覆蓋範圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用相關數據和分析可以幫助它們降低成本、提高效率、開發新產品、做出更明智的業務決策等等。例如,通過結合大數據和高性能的分析,下面這些對企業有益的情況都可能會發生:
(1)及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元。
(2)為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。
(3)分析所有SKU,以利潤最大化為目標來定價和清理庫存。
(4)根據客户的購買習慣,為其推送他可能感興趣的優惠信息。
(5)從大量客户中快速識別出金牌客户。
(6)使用點擊流分析和數據挖掘來規避欺詐行為。 [11] 

大數據趨勢

趨勢一:數據的資源化
何為資源化,是指大數據成為企業和社會關注的重要戰略資源,並已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶佔市場先機。
趨勢二:與雲計算的深度結合
大數據離不開雲處理,雲處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平台之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關係將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。
趨勢三:科學理論的突破
隨着大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智能等相關技術,可能會改變數據世界裏的很多算法和基礎理論,實現科學技術上的突破。
趨勢四:數據科學和數據聯盟的成立
未來,數據科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數據科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基於數據這個基礎平台,也將建立起跨領域的數據共享平台,之後,數據共享將擴展到企業層面,並且成為未來產業的核心一環。
趨勢五:數據泄露氾濫
未來幾年數據泄露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。可以説,在未來,每個財富500強企業都會面臨數據攻擊,無論他們是否已經做好安全防範。而所有企業,無論規模大小,都需要重新審視今天的安全定義。在財富500強企業中,超過50%將會設置首席信息安全官這一職位。企業需要從新的角度來確保自身以及客户數據,所有數據在創建之初便需要獲得安全保障,而並非在數據保存的最後一個環節,僅僅加強後者的安全措施已被證明於事無補。
趨勢六:數據管理成為核心競爭力
數據管理成為核心競爭力,直接影響財務表現。當“數據資產是企業核心資產”的概念深入人心之後,企業對於數據管理便有了更清晰的界定,將數據管理作為企業核心競爭力,持續發展,戰略性規劃與運用數據資產,成為企業數據管理的核心。數據資產管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外,對於具有互聯網思維的企業而言,數據資產競爭力所佔比重為36.8%,數據資產的管理效果將直接影響企業的財務表現。
趨勢七:數據質量是BI(商業智能)成功的關鍵
採用自助式商業智能工具進行大數據處理的企業將會脱穎而出。其中要面臨的一個挑戰是,很多數據源會帶來大量低質量數據。想要成功,企業需要理解原始數據與數據分析之間的差距,從而消除低質量數據並通過BI獲得更佳決策。
趨勢八:數據生態系統複合化程度加強
大數據的世界不只是一個單一的、巨大的計算機網絡,而是一個由大量活動構件與多元參與者元素所構成的生態系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數據服務使能者、數據服務提供商、觸點服務、數據服務零售商等等一系列的參與者共同構建的生態系統。而今,這樣一套數據生態系統的基本雛形已然形成,接下來的發展將趨向於系統內部角色的細分,也就是市場的細分;系統機制的調整,也就是商業模式的創新;系統結構的調整,也就是競爭環境的調整等等,從而使得數據生態系統複合化程度逐漸增強。 [12] 

大數據IT分析工具

大數據概念應用到IT操作工具產生的數據中,大數據可以使IT管理軟件供應商解決大廣泛的業務決策。IT系統、應用和技術基礎設施每天每秒都在產生數據。大數據非結構化或者結構數據都代表了“所有用户的行為、服務級別、安全、風險、欺詐行為等更多操作”的絕對記錄。
大數據分析的產生旨在於IT管理,企業可以將實時數據流分析和歷史相關數據相結合,然後大數據分析並發現它們所需的模型。反過來,幫助預測和預防未來運行中斷和性能問題。進一步來講,他們可以利用大數據瞭解使用模型以及地理趨勢,進而加深大數據對重要用户的洞察力。他們也可以追蹤和記錄網絡行為,大數據輕鬆地識別業務影響;隨着對服務利用的深刻理解加快利潤增長;同時跨多系統收集數據發展IT服務目錄。
大數據分析的想法,尤其在IT操作方面,大數據對於我們發明並沒有什麼作用,但是我們一直在其中。Gartner已經關注這個話題很多年了,基本上他們已經強調,如果IT正在引進新鮮靈感,他們將會扔掉大數據老式方法開發一個新的IT操作分析平台。 [13] 

大數據促進發展

經李克強總理籤批,2015年9月,國務院印發《促進大數據發展行動綱要》(以下簡稱《綱要》),系統部署大數據發展工作。
《綱要》明確,推動大數據發展和應用,在未來5至10年打造精準治理、多方協作的社會治理新模式,建立運行平穩、安全高效的經濟運行新機制,構建以人為本、惠及全民的民生服務新體系,開啓大眾創業、萬眾創新的創新驅動新格局,培育高端智能、新興繁榮的產業發展新生態。
《綱要》部署三方面主要任務。一要加快政府數據開放共享,推動資源整合,提升治理能力。大力推動政府部門數據共享,穩步推動公共數據資源開放,統籌規劃大數據基礎設施建設,支持宏觀調控科學化,推動政府治理精準化,推進商事服務便捷化,促進安全保障高效化,加快民生服務普惠化。二要推動產業創新發展,培育新興業態,助力經濟轉型。發展大數據在工業、新興產業、農業農村等行業領域應用,推動大數據發展與科研創新有機結合,推進基礎研究和核心技術攻關,形成大數據產品體系,完善大數據產業鏈。三要強化安全保障,提高管理水平,促進健康發展。健全大數據安全保障體系,強化安全支撐。 [14] 
2015年9月18日貴州省啓動我國首個大數據綜合試驗區的建設工作,力爭通過3至5年的努力,將貴州大數據綜合試驗區建設成為全國數據匯聚應用新高地、綜合治理示範區、產業發展聚集區、創業創新首選地、政策創新先行區。
圍繞這一目標,貴州省將重點構建“三大體系”,重點打造“七大平台”,實施“十大工程”。
“三大體系”是指構建先行先試的政策法規體系、跨界融合的產業生態體系、防控一體的安全保障體系;“七大平台”則是指打造大數據示範平台、大數據集聚平台、大數據應用平台、大數據交易平台、大數據金融服務平台、大數據交流合作平台和大數據創業創新平台;“十大工程”即實施數據資源匯聚工程、政府數據共享開放工程、綜合治理示範提升工程、大數據便民惠民工程、大數據三大業態培育工程、傳統產業改造升級工程、信息基礎設施提升工程、人才培養引進工程、大數據安全保障工程和大數據區域試點統籌發展工程。
此外,貴州省將計劃通過綜合試驗區建設,探索大數據應用的創新模式,培育大數據交易新的做法,開展數據交易的市場試點,鼓勵產業鏈上下游之間的數據交換,規範數據資源的交易行為,促進形成新的業態。
國家發展改革委有關專家表示,大數據綜合試驗區建設不是簡單的建產業園、建數據中心、建雲平台等,而是要充分依託已有的設施資源,把現有的利用好,把新建的規劃好,避免造成空間資源的浪費和損失。探索大數據應用新的模式,圍繞有數據、用數據、管數據,開展先行先試,更好地服務國家大數據發展戰略。 [15] 
2016年3月17日,《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》發佈,其中第二十七章“實施國家大數據戰略”提出:把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新;具體包括:加快政府數據開放共享、促進大數據產業健康發展。 [16] 
參考資料
展開全部 收起