反饋

CUDA

CUDA（Compute Unified Device Architecture），是顯卡廠商NVIDIA推出的運算平台。 CUDA™是一種由NVIDIA推出的通用並行計算架構，該架構使GPU能夠解決複雜的計算問題。它包含了CUDA指令集架構（ISA）以及GPU內部的並行計算引擎。開發人員可以使用C語言來為CUDA™架構編寫程序，所編寫出的程序可以在支持CUDA™的處理器上以超高性能運行。CUDA3.0已經開始支持C++和FORTRAN。

中文名: 統一計算設備架構
外文名: CUDA
類別: 運算平台

適用領域: 計算機
組成: ISA、GPU
推出者: NVIDIA

CUDA概述

CUDA 是 NVIDIA 發明的一種並行計算平台和編程模型。它通過利用圖形處理器 (GPU) 的處理能力，可大幅提升計算性能。

基於 CUDA 的 GPU 銷量已達數以百萬計，軟件開發商、科學家以及研究人員正在各個領域中運用 CUDA，其中包括圖像與視頻處理、計算生物學和化學、流體力學模擬、CT 圖像再現、地震分析以及光線追蹤等等。^[2]

CUDA應用範圍

CPU與GPU並用的“協同處理”

計算行業正在從只使用 CPU 的“中央處理”向 CPU 與 GPU 並用的“協同處理”發展。為打造這一全新的計算典範，NVIDIA™（英偉達™）發明了 CUDA（Compute Unified Device Architecture，統一計算設備架構）這一編程模型，是想在應用程序中充分利用CPU和GPU各自的優點。該架構已應用於 GeForce™（精視™）、ION™（翼揚™）、Quadro以及Tesla GPU（圖形處理器）上，對應用程序開發人員來説，這是一個巨大的市場。

GPU架構

在消費級市場上，幾乎每一款重要的消費級視頻應用程序都已經使用 CUDA/ZLUDA^[4] 加速或很快將會利用 CUDA 來加速，其中不乏 Elemental Technologies 公司、MotionDSP 公司以及 LoiLo 公司的產品。

在科研界，CUDA 一直受到熱捧。例如，CUDA 現已能夠對AMBER進行加速。AMBER 是一款分子動力學模擬程序，全世界在學術界與製藥企業中有超過60,000名研究人員使用該程序來加速新藥的探索工作。

在金融市場，Numerix 以及 CompatibL 針對一款全新的對手風險應用程序發佈了 CUDA 支持並取得了18倍速度提升。Numerix 為近400家金融機構所廣泛使用。

CUDA 的廣泛應用造就了 GPU 計算專用 Tesla GPU 的崛起。全球財富五百強企業已經安裝了700多個 GPU 集羣，這些企業涉及各個領域，例如能源領域的斯倫貝謝與雪佛龍以及銀行業的法國巴黎銀行。

隨着微軟 Windows 7 與蘋果 Snow Leopard 操作系統的問世，GPU 計算必將成為主流。在這些全新的操作系統中，GPU 將不僅僅是圖形處理器，它還將成為所有應用程序均可使用的通用並行處理器。

CUDA發展歷程

GK110強大性能及ALU內核數量(3張)

隨着顯卡的發展，GPU越來越強大，而且GPU為顯示圖像做了優化。在計算上已經超越了通用的CPU。如此強大的芯片如果只是作為顯卡就太浪費了，因此NVIDIA推出CUDA，讓顯卡可以用於圖像計算以外的目的。

G80核心之後的的顯卡都能使用CUDA，工具集的核心是一個C語言編譯器。G80中擁有128個單獨的ALU，因此非常適合並行計算，而且數值計算的速度遠遠優於CPU。

CUDA的SDK中的編譯器和開發平台支持Windows、Linux系統，可以與Visual Studio2005，2008，2010集成在一起。

CUDA

CUDA（Compute Unified Device Architecture）是一個新的基礎架構，這個架構可以使用GPU來解決商業、工業以及科學方面的複雜計算問題。它是一個完整的GPU解決方案，提供了硬件的直接訪問接口，而不必像傳統方式一樣必須依賴圖形API接口來實現GPU的訪問。在架構上採用了一種全新的計算體系結構來使用GPU提供的硬件資源，從而給大規模的數據計算應用提供了一種比CPU更加強大的計算能力。CUDA採用C語言作為編程語言提供大量的高性能計算指令開發能力，使開發者能夠在GPU的強大計算能力的基礎上建立起一種效率更高的密集數據計算解決方案。

從CUDA體系結構的組成來説，包含了三個部分：開發庫、運行期環境和驅動（表2）。

開發庫是基於CUDA技術所提供的應用開發庫。CUDA的1.1版提供了兩個標準的數學運算庫——CUFFT（離散快速傅立葉變換）和CUBLAS（離散基本線性計算）的實現。這兩個數學運算庫所解決的是典型的大規模的並行計算問題，也是在密集數據計算中非常常見的計算類型。開發人員在開發庫的基礎上可以快速、方便的建立起自己的計算應用。此外，開發人員也可以在CUDA的技術基礎上實現出更多的開發庫。

運行期環境提供了應用開發接口和運行期組件，包括基本數據類型的定義和各類計算、類型轉換、內存管理、設備訪問和執行調度等函數。基於CUDA開發的程序代碼在實際執行中分為兩種，一種是運行在CPU上的宿主代碼（Host Code），一種是運行在GPU上的設備代碼（Device Code）。不同類型的代碼由於其運行的物理位置不同，能夠訪問到的資源不同，因此對應的運行期組件也分為公共組件、宿主組件和設備組件三個部分，基本上囊括了所有在GPGPU開發中所需要的功能和能夠使用到的資源接口，開發人員可以通過運行期環境的編程接口實現各種類型的計算。

由於存在着多種GPU版本的NVidia顯卡，不同版本的GPU之間都有不同的差異，因此驅動部分基本上可以理解為是CUDA-enable的GPU的設備抽象層，提供硬件設備的抽象訪問接口。CUDA提供運行期環境也是通過這一層來實現各種功能的。基於CUDA開發的應用必須有NVIDIA CUDA-enable的硬件支持，NVIDIA公司GPU運算事業部總經理Andy Keane在一次活動中表示：一個充滿生命力的技術平台應該是開放的，CUDA未來也會向這個方向發展。由於CUDA的體系結構中有硬件抽象層的存在，因此今後也有可能發展成為一個通用的GPGPU 標準接口，兼容不同廠商的GPU產品。

CUDA工具包

CUDA

是一種針對支持CUDA功能的GPU（圖形處理器）的C語言開發環境。CUDA開發環境包括:

nvcc C語言編譯器

·適用於GPU（圖形處理器）的CUDA FFT和BLAS庫。^[1]

分析器

·適用於GPU（圖形處理器）的gdb 調試器（在2008年3月推出alpha版）

·CUDA運行時（CUDA runtime）驅動程序（在標準的NVIDIA GPU驅動中也提供）。^[1]

CUDA編程手冊

CUDA

CUDA開發者軟件開發包（SDK）提供了一些範例（附有源代碼），以幫助使用者開始CUDA編程。這些範例包括：

· 並行雙調排序

· 矩陣乘法

· 矩陣轉置

· 利用計時器進行性能評價

· 並行大數組的前綴和（掃描）

· 圖像卷積

· 使用Haar小波的一維 DWT

· OpenGL和Direct3D圖形互操作示例

· CUDA BLAS和FFT庫的使用示例

· CPU-GPU C—和C++—代碼集成

· 二項式期權定價模型

· Black-Scholes期權定價模型

· Monte-Carlo期權定價模型

· 並行Mersenne Twister（隨機數生成）

· 並行直方圖

· 圖像去噪

· Sobel邊緣檢測濾波器

· MathWorks MATLAB®

新的基於1.1版CUDA的SDK範例也已經發布了。^[1]

技術功能

· 在GPU（圖形處理器）上提供標準C編程語言

· 為在支持CUDA的NVIDIA GPU（圖形處理器）上進行並行計算而提供了統一的軟硬件解決方案

· CUDA兼容的GPU（圖形處理器）包括很多：從低功耗的筆記本上用的GPU到高性能的，多GPU的系統。

· 支持CUDA的GPU（圖形處理器）支持並行數據緩存和線程執行管理器

· 標準FFT（快速傅立葉變換）和BLAS（基本線性代數子程序）數值程序庫

· 針對計算的專用CUDA驅動

· 經過優化的，從中央處理器（CPU）到支持CUDA的GPU（圖形處理器）的直接上傳、下載通道

· CUDA驅動可與OpenGL和DirectX圖形驅動程序實相互操作

· 支持Linux 32位/64位以及Windows XP 32位/64位操作系統

· 為了研究以及開發語言的目的，CUDA提供對驅動程序的直接訪問，以及彙編語言級的訪問。^[1]

CUDA發展現況

支持CUDA的GPU銷量已逾1億，數以千計的軟件開發人員正在使用免費的CUDA軟件開發工具來解決各種專業以及家用應用程序中的問題。這些應用程序從視頻與音頻處理和物理效果模擬到石油天然氣勘探、產品設計、醫學成像以及科學研究，涵蓋了各個領域。

CUDA 的核心有三個重要抽象概念：線程組層次結構、共享存儲器、屏蔽同步（barriersynchronization），可輕鬆將其作為C語言的最小擴展級公開給程序員。

CUDA 軟件堆棧由幾層組成，一個硬件驅動程序，一個應用程序編程接口（API）和它的Runtime，還有二個高級的通用數學庫，CUFFT 和CUBLAS。硬件被設計成支持輕量級的驅動和Runtime 層面，因而提高性能。

所支持的OS（operating system）

CUDA支持linux和Windows操作系統。進行CUDA開發需要依次安裝驅動、toolkit、SDK三個軟件。在安裝目錄/C/src目錄下有很多的例程可以進行學習。

NVIDIA進軍高性能計算領域，推出了Tesla&CUDA高性能計算系列解決方案，CUDA技術，一種基於NVIDIA圖形處理器（GPU）上全新的並行計算體系架構，讓科學家、工程師和其他專業技術人員能夠解決以前無法解決的問題，作為一個專用高性能GPU計算解決方案，NVIDIA把超級計算能夠帶給任何工作站或服務器，以及標準、基於CPU的服務器集羣。

CUDA是用於GPU計算的開發環境，它是一個全新的軟硬件架構，可以將GPU視為一個並行數據計算的設備，對所進行的計算進行分配和管理。在CUDA的架構中，這些計算不再像過去所謂的GPGPU架構那樣必須將計算映射到圖形API（OpenGL和Direct 3D）中，因此對於開發者來説，CUDA的開發門檻大大降低了。CUDA的GPU編程語言基於標準的C語言，因此任何有C語言基礎的用户都很容易地開發CUDA的應用程序。

由於GPU的特點是處理密集型數據和並行數據計算，因此CUDA非常適合需要大規模並行計算的領域。CUDA除了可以用C語言開發，也已經提供FORTRAN的應用接口，未來可以預計CUDA會支持C++、Java、Python等各類語言。可廣泛的應用在圖形動畫、科學計算、地質、生物、物理模擬等領域。

2008年NVIDIA推出CUDA SDK2.0版本，大幅提升了CUDA的使用範圍。使得CUDA技術愈發成熟。

2023年1月4日，英偉達發佈RTX4090和RTX4080兩款全新旗艦級筆記本電腦 GPU。^[3]

CUDA背景介紹

CUDA

計算正在從CPU"中央處理"向CPU與GPU"協同處理"的方向發展。為了實現這一新型計算模式，英偉達發明了英偉達™ CUDA™ 並行計算架構。該架構正運用於英偉達™ （NVIDIA）Tesla™、英偉達™ Quadro（NVIDIA Quadro）以及英偉達™ 精視™（NVIDIA GeForce）GPU上。對應用程序開發商來説，英偉達™ CUDA™ 架構擁有龐大的用户羣。

在科學研究領域，英偉達™ CUDA™ 受到狂熱追捧。例如，英偉達™ CUDA™ 能夠加快AMBER這款分子動力學模擬程序的速度。全球有6萬餘名學術界和製藥公司的科研人員使用該程序來加速新藥開發。在金融市場，Numerix和CompatibL已宣佈在一款對手風險應用程序中支持英偉達™ CUDA™ ，而且因此實現了18倍速度提升。

在GPU計算領域中，英偉達™ Tesla™ GPU的大幅增長説明了英偉達™ CUDA™ 正被人們廣泛採用。全球《財富》五百強企業已經安裝了700多個GPU集羣，從能源領域中的斯倫貝謝和雪佛龍到銀行業中的法國巴黎銀行，這些企業的範圍十分廣泛。

參考資料

1. 圖形處理器開發環境 CUDA ．開源社區網[引用日期2012-08-18]
2. 技術 | GeForce ．NVIDIA[引用日期2022-03-18]
3. 英偉達 RTX 4090/4080 旗艦級遊戲本 GPU 發佈：最高 9728 CUDA 核心 + 16GB 顯存．科技．2023-01-04
4. AMD顯卡可以原生跑NVIDIA CUDA應用了！速度還挺快．鳳凰網[引用日期2024-02-16]

CUDA的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：84次歷史版本
最近更新：君伟junwei521 （2024-04-11）

1 概述
2 應用範圍
3 發展歷程
4 工具包
5 發展現況
6 背景介紹