複製鏈接
請複製以下鏈接發送給好友

數據科學

(利用數據學習知識的學科)

鎖定
數據科學是利用科學方法、流程、算法和系統從數據中提取價值的跨學科領域。數據科學家綜合利用一系列技能(包括統計學計算機科學業務知識)來分析從網絡、智能手機、客户、傳感器和其他來源收集的數據。
數據科學揭示趨勢併產生見解,企業可以利用這些見解做出更好的決策並推出更多創新產品和服務。數據是創新的基石,但是隻有數據科學家從數據中收集信息,然後採取行動,才能實現數據的價值。 [1] 
中文名
數據科學
外文名
Data Science

目錄

數據科學定義

一個跨學科領域,它結合了統計學、信息科學和計算機科學的科學方法、系統和過程,通過結構化或非結構化數據提供對現象的洞察。

數據科學發展歷程

自1946年第一台通用計算機發明以來,科學研究的實驗模擬產出了大量數據,並依靠算法發現其中規律。當馬雲發自肺腑地宣告“DT時代”到來時,這一切的背後是數據科學的發展。 [2] 
1974年,著名計算機科學家、圖靈獎獲得者Peter Naur在其着作《計算機方法的簡明調研(Concise Survey of Computer Methods)》的前言中首次明確提出了數據科學(Data Science)的概念,“數據科學是一門基於數據處理的科學”,並提到了數據科學與數據學(Datalogy)的區別——前者是解決數據(問題)的科學(the science of dealing with data),而後者側重於數據處理及其在教育領域中的應用(the science of data and of data processes and its place in education)。
Peter Naur首次明確提出數據科學的概念之後,數據科學研究經歷了一段漫長的沉默期。直到2001年,當時在貝爾實驗室工作的William S. Cleveland在學術期刊International Statistical Review上發表題為《數據科學——拓展統計學技術領域的行動計劃(Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics)》的論文,主張數據科學是統計學的一個重要研究方向,數據科學再度受到統計學領域的關注。之後,2013年,Mattmann C A和 Dhar V在《自然Nature)》和《美國計算機學會通訊(Communications of the ACM)》 上分別發表題為《計算——數據科學的願景(Computing: A vision for data science)》和《數據科學與預測(Data science and prediction)》論文,從計算機科學與技術視角討論數據科學的內涵,使數據科學納入計算機科學與技術專業的研究範疇。然而,數據科學被更多人關注是因為後來發生了三個標誌性事件:一是Patil DJ和 Davenport T H於2012年在哈佛商業評論上發表題為《數據科學家——21世紀最性感的職業(Data scientist: the sexiest job of the 21st century)》;二是2012年大數據思維首次應用於美國總統大選,成就奧巴馬,擊敗羅姆尼,成功連任;三是美國白宮於2015年首次設立數據科學家的崗位,並聘請Patil DJ作為白宮第一任首席數據科學家。
Gartner的調研及其新技術成長曲線(Gartner's 2014 Hype Cycle for Emerging Technologies)表示,數據科學的發展於2014年7月已經接近創新與膨脹期的末端,將在2~5年之內開始應用於生產高地期(plateau of Productivity)。同時,Gartner的另一項研究揭示了數據科學本身的成長曲線(Hype Cycle for Data Science),如圖1所示。從圖1可以看出,數據科學的各組成部分的成熟度不同:R的成熟度最高,已廣泛應用於生產活動;其次是模擬與仿真、集成學習、視頻與圖像分析、文本分析等,正在趨於成熟,即將投入實際應用;基於Hadoop的數據發現可能要消失;語音分析、模型管理、自然語言問答等已經渡過了炒作期,正在走向實際應用;公眾數據科學、模型工廠、算法市場(經濟)、規範分析等正處於高速發展之中。 [3] 
圖1Gartner的調研及其新技術成長曲線 圖1Gartner的調研及其新技術成長曲線
參考資料