複製鏈接
請複製以下鏈接發送給好友

數據可視化

(數據視覺表現形式的科技研究)

鎖定
數據可視化,是關於數據視覺表現形式的科學技術研究。其中,這種數據的視覺表現形式被定義為,一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變量。
它是一個處於不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理計算機視覺以及用户界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。與立體建模之類的特殊技術方法相比,數據可視化所涵蓋的技術方法要廣泛得多。
中文名
數據可視化
外文名
Data visualization
研究起源
二十世紀50年代
發展階段
科學可視、信息可視、數據可視

數據可視化基本信息

數據可視化主要旨在藉助於圖形化手段,清晰有效地傳達與溝通信息。但是,這並不就意味着數據可視化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端複雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的數據集的深入洞察。然而,設計人員往往並不能很好地把握設計與功能之間的平衡,從而創造出華而不實的數據可視化形式,無法達到其主要目的,也就是傳達與溝通信息。
數據可視化與信息圖形、信息可視化、科學可視化以及統計圖形密切相關。當前,在研究、教學和開發領域,數據可視化乃是一個極為活躍而又關鍵的方面。“數據可視化”這條術語實現了成熟的科學可視化領域與較年輕的信息可視化領域的統一。

數據可視化概念

數據可視化 數據可視化
數據可視化技術包含以下幾個基本概念:
1、數據空間:是由n維屬性和m個元素組成的數據集所構成的多維信息空間;
2、數據開發:是指利用一定的算法和工具對數據進行定量的推演和計算;
3、數據分析:指對多維數據進行切片、塊、旋轉等動作剖析數據,從而能多角度多側面觀察數據;
4、數據可視化:是指將大型數據集中的數據以圖形圖像形式表示,並利用數據分析和開發工具發現其中未知信息的處理過程
數據可視化已經提出了許多方法,這些方法根據其可視化的原理不同可以劃分為基於幾何的技術、面向像素技術、基於圖標的技術、基於層次的技術、基於圖像的技術和分佈式技術等等。

數據可視化主要應用

報表類,如JReportExcel水晶報表,思邁特軟件(Smartbi),FineReportActiveReports報表等。
BI分析工具,如Style Intelligence、BO,BIEE, 象形科技ETHINK [1]  ,Yonghong Z-Suite等。
國內的數據可視化工具,有BDP商業數據平台-個人版,大數據魔鏡,數據觀FineBI商業智能軟件等。
FineReport數據可視化示例 FineReport數據可視化示例

數據可視化基本思想

數據可視化技術的基本思想,是將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。 [2] 

數據可視化基本手段

數據可視化 數據可視化
數據可視化主要是藉助於圖形化手段,清晰有效地傳達與溝通信息。但是,這並不就意味着,數據可視化就一定因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端複雜。為了有效地傳達思想概念,美學形式與功能需要齊頭並進,通過直觀地傳達關鍵的方面與特徵,從而實現對於相當稀疏而又複雜的數據集的深入洞察。然而,設計人員往往並不能很好地把握設計與功能之間的平衡,從而創造出華而不實的數據可視化形式,無法達到其主要目的,也就是傳達與溝通信息。
數據可視化與信息圖形信息可視化科學可視化以及統計圖形密切相關。當前,在研究、教學和開發領域,數據可視化乃是一個極為活躍而又關鍵的方面。“數據可視化”這條術語實現了成熟的科學可視化領域與較年輕的信息可視化領域的統一。

數據可視化適用範圍

關於數據可視化的適用範圍,存在着不同的劃分方法。一個常見的關注焦點就是信息的呈現。
邁克爾·弗蘭德利(2008),提出了數據可視化的兩個主要的組成部分:統計圖形和主題圖
《Data Visualization: Modern Approaches》(意為“數據可視化:現代方法”)(2007),概括闡述了數據可視化的下列主題 :
2、新聞的顯示
3、數據的顯示
4、連接的顯示
5、網站的顯示
6、文章與資源
7、工具與服務
所有這些主題全都與圖形設計和信息表達密切相關。
另一方面,Frits H. Post (2002)則從計算機科學的視角,將這一領域劃分為如下多個子領域:
1、可視化算法與技術方法
2、立體可視化
3、信息可視化
4、多分辨率方法
5、建模技術方法
6、交互技術方法與體系架構
數據可視化的成功,應歸於其背後基本思想的完備性。依據數據及其內在模式和關係,利用計算機生成的圖像來獲得深入認識和知識。其第二個前提就是利用人類感覺系統的廣闊帶寬來操縱和解釋錯綜複雜的過程、涉及不同學科領域的數據集以及來源多樣的大型抽象數據集合的模擬。這些思想和概念極其重要,對於計算科學與工程方法學以及管理活動都有着精深而又廣泛的影響。《Data Visualization: The State of the Art》(意為“數據可視化:尖端技術水平”)一書當中重點強調了各種應用領域與它們各自所特有的問題求解可視化技術方法之間的相互作用。

數據可視化發展階段

數據可視化領域的起源,可以追溯到二十世紀50年代計算機圖形學的早期。當時,人們利用計算機創建出了首批圖形圖表。

數據可視化科學可視化

1987年,由布魯斯·麥考梅克、托馬斯·德房蒂和瑪克辛·布朗所編寫的美國國家科學基金會報告《Visualization in Scientific Computing》(意為“科學計算之中的可視化”) ,對於這一領域產生了大幅度的促進和刺激。這份報告之中強調了新的基於計算機的可視化技術方法的必要性。隨着計算機運算能力的迅速提升,人們建立了規模越來越大,複雜程度越來越高的數值模型,從而造就了形形色色體積龐大的數值型數據集。同時,人們不但利用醫學掃描儀顯微鏡之類的數據採集設備產生大型的數據集,而且還利用可以保存文本、數值和多媒體信息大型數據庫收集數據。因而,就需要高級的計算機圖形學技術與方法來處理和可視化這些規模龐大的數據集。 [3] 
短語“Visualization in Scientific Computing”(意為“科學計算之中的可視化”)後來變成了“Scientific Visualization”(即“科學可視化”),而前者最初指的是作為科學計算之組成部分的可視化:也就是科學與工程實踐當中對於計算機建模和模擬的運用。

數據可視化信息可視化

更近一些的時候,可視化也日益尤為關注數據,包括那些來自商業、財務、行政管理、數字媒體等方面的大型異質性數據集合。二十世紀90年代初期,人們發起了一個新的,稱為“信息可視化”的研究領域,旨在為許多應用領域之中對於抽象的異質性數據集的分析工作提供支持。因此,21世紀人們正在逐漸接受這個同時涵蓋科學可視化與信息可視化領域的新生術語“數據可視化” 。

數據可視化工具軟件

可視化工具可以提供多樣的數據展現形式,多樣的圖形渲染形式,豐富的人機交互方式,支持商業邏輯的動態腳本引擎等等。
目前市面上的數據可視化工具多種多樣,其中Excel可以説是典型的入門級數據可視化工具。從數據可視化的自動化方面來看,建議使用 Python 編程來實現。Python 中用於數據可視化的庫有很多,比較常見的有: Matplotlib(強大、複雜)、Seaborn(基於Matplotlib、簡單)、pyecharts(基於Echarts、炫酷)、plotnine(移植於R的ggplot2、圖形語法)、PyQtGraph(交互、高性能)。

數據可視化相關分析

數據可視化數據採集

數據採集(有時縮寫為DAQ或DAS),又稱為“數據獲取”或“數據收集”,是指對現實世界進行採樣,以便產生可供計算機處理的數據的過程。通常,數據採集過程之中包括為了獲得所需信息,對於信號和波形進行採集並對它們加以處理的步驟。數據採集系統的組成元件當中包括用於將測量參數轉換成為電信號的傳感器,而這些電信號則是由數據採集硬件來負責獲取的。

數據可視化數據分析

數據分析是指為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。數據分析與數據挖掘密切相關,但數據挖掘往往傾向於關注較大型的數據集,較少側重於推理,且常常採用的是最初為另外一種不同目的而採集的數據。在統計學領域,有些人將數據分析劃分為描述性統計分析、探索性數據分析以及驗證性數據分析;其中,探索性數據分析側重於在數據之中發現新的特徵,而驗證性數據分析則側重於已有假設的證實或證偽。
數據分析的類型包括:
1、探索性數據分析:是指為了形成值得假設的檢驗而對數據進行分析的一種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基命名。
2、定性數據分析:又稱為“定性資料分析”、“定性研究”或者“質性研究資料分析”,是指對諸如詞語、照片、觀察結果之類的非數值型數據(或者説資料)的分析。
2010年後數據可視化工具基本以表格、圖形(chart)、地圖等可視化元素為主,數據可進行過濾、鑽取、數據聯動、跳轉、高亮等分析手段動態分析

數據可視化數據治理

數據治理涵蓋為特定組織機構之數據創建協調一致的企業級視圖(enterprise view)所需的人員、過程和技術,數據治理旨在:
1、增強決策制定過程中的一致性與信心
2、降低遭受監管罰款的風險
3、改善數據的安全性
4、最大限度地提高數據的創收潛力
5、指定信息質量責任

數據可視化數據管理

數據管理,又稱為“數據資源管理”,包括所有與管理作為有價值資源的數據相關的學科領域。對於數據管理,DAMA所提出的正式定義是:“數據資源管理是指用於正確管理企業或機構整個數據生命週期需求的體系架構、政策、規範和操作程序的制定和執行過程”。這項定義相當寬泛,涵蓋了許多可能在技術上並不直接接觸低層數據管理工作(如關係數據庫管理)的職業。

數據可視化數據挖掘

數據挖掘是指對大量數據加以分類整理並挑選出相關信息的過程。數據挖掘通常為商業智能組織和金融分析師所採用;不過,在科學領域,數據挖掘也越來越多地用於從現代實驗與觀察方法所產生的龐大數據集之中提取信息。
數據挖掘被描述為“從數據之中提取隱含的,先前未知的,潛在有用信息的非凡過程”,以及“從大型數據集或數據庫之中提取有用信息的科學”。與企業資源規劃相關的數據挖掘是指對大型交易數據集進行統計分析邏輯分析,從中尋找可能有助於決策制定工作的模式的過程。

數據可視化電商數據

電商數據可視化,是獲得信息的最佳方式之一,通過視覺化方式,快速抓住要點信息。另外,電商數據通過視覺化呈現數據,也揭示了令人驚奇的模式和觀察結果,是不可能通過簡單統計就能顯而易見看到的模式和結論。“通過視覺化,我們把信息變成了一道可用眼睛來探索的風景線,一種信息地圖。當你在迷失在信息中時,信息地圖非常實用。”在電商行業尤為如此。 [4] 
參考資料