複製鏈接
請複製以下鏈接發送給好友

Ampere架構

鎖定
Ampere架構是NVIDIA於 GTC 2020發佈的GPU架構, [1-2]  NVIDIA Ampere 由540億晶體管組成,是7nm芯片。
中文名
安培架構
外文名
Ampere架構

目錄

Ampere架構產品

NVIDIA A100
NVIDIA A100 Tensor Core GPU 可針對 AI、數據分析和 HPC,在各種規模上實現出色加速,應對世界面臨的極其嚴峻的計算挑戰。作為 NVIDIA 數據中心平台的引擎,A100提供較V100 GPU高達20倍的性能, 且可以高效擴展集成數千個 GPU,或將每個 A100 分割為七個獨立的 GPU 實例,加速各種規模的工作負載。 [3] 
A100採用了NVIDIA Ampere架構的突破性設計,該設計為NVIDIA第八代GPU提供了迄今為止最大的性能飛躍,集AI訓練和推理於一身, [4]  並且其性能相比於前代產品提升了高達20倍。 [5] 
NVIDIA A100 GPU的突破性技術設計來源於五大關鍵性創新:A100採用多項突破性的技術,比如該架構包含超過540億個晶體管,這使其成為全球最大的7納米處理器;全新多實例GPU技術可將單個A100分割成最多七個獨立的GPU來處理各種計算任務;第三代NVIDIA NVLink技術能將多個GPU組合成一個巨型GPU;全新結構化稀疏功能將GPU的性能提高一倍。 [5]  具有TF32的第三代Tensor Core核心 ,其功能經過擴展後加入了專為AI開發的全新TF32,它能在無需更改任何代碼的情況下,使FP32精度下的AI性能提高多達20倍 [4]  。此外,Tensor Core核心支持FP64精度。 [6] 
在雲數據中心中,A100可賦能眾多計算密集型應用,包括AI訓練和推理、數據分析、科學計算、基因組學、邊緣視頻分析、5G服務等。 [7] 
新增PCIe版本A100
PCIe版本A100使服務器製造商能夠為客户提供豐富的產品組合——從內置單個A100 GPU的系統到內置10個或10個以上GPU的服務器等。這些系統可以為各種計算密集型任務加速,包括用於新藥研發的分子動力學模擬、建立更好的按揭貸款審批財務模型等。 [8] 
NVIDIA DGX™ A100
DGX A100系統集成了8個全新NVIDIA A100 Tensor Core GPU,具有320GB內存用以訓練最大型的AI數據集,以及最新的高速NVIDIA Mellanox® HDR 200Gbps互連,具有高達5Petaflops 的AI性能。 [9] 
利用A100的多實例GPU功能,每台DGX A100系統能夠被分割為多達56個實例,用於加速多個小型工作負載的處理速度。憑藉這些功能,企業可在一個完全集成的軟件定義平台上根據自己的需求優化計算力和資源,加快數據分析、訓練和推理等各種工作負載的速度。 [9] 
NVIDIA DGXTM SuperPOD
該集羣由140台DGX A100系統組成, AI計算能力高達700 Petaflops。利用Mellanox HDR 200Gbps InfiniBand互連技術,NVIDIA將140台DGX A100系統結合在一起,構建了DGX SuperPOD AI超級計算機,用於公司內部對話式AI、基因組學和自動駕駛等領域的研究。 [10] 
NVIDIA EGX™ A100
NVIDIA發佈EGX™ 邊緣AI 平台產品EGX A100適用於較大型商業通用服務器上的 ,能夠在邊緣提供安全、高性能的AI處理能力。 [11] 
藉助於NVIDIA EGX™ 邊緣AI平台,醫院、商店、農場和工廠可以實時處理和保護來自數萬億個邊緣傳感器的數據流。該平台實現了服務器羣的遠程安全部署、管理和更新。 [12] 
EGX A100是首個基於NVIDIA Ampere架構的邊緣AI產品。隨着AI日益向邊緣發展,企業機構可將EGX A100添加到其服務器中,從而實時處理和保護來自邊緣傳感器的流式數據。
EGX A100結合了NVIDIA Ampere架構所具有的突破性計算性能與NVIDIA Mellanox® ConnectX-6 Dx SmartNIC所具備的網絡加速和關鍵性安全功能,能將標準型和專用型的邊緣服務器轉變為極具安全性的雲原生AI超級計算機。 [12] 
NVIDIA Ampere為在邊緣運行AI推理和5G應用等各類計算密集型工作負載提供了有史以來最大的性能飛躍,使EGX A100可以實時處理來自攝像頭和其他物聯網傳感器的大量流式數據,從而更快地獲得洞見並提高業務效率。 [12] 

Ampere架構特點介紹

突破性創新
NVIDIA Ampere 架構以 540 億個晶體管打造,包含六項關鍵的突破性創新。
第三代 Tensor 核心
NVIDIA Tensor 核心技術最先運用在 NVIDIA Volta™ 架構上,不只大幅加速人工智能,也將訓練時間從數週降至數小時,同時顯著提升推論速度。NVIDIA Ampere 架構以這些創新技術為基礎,採用全新精度標準 Tensor Float 32 (TF32) 與 64 位浮點 (FP64),以加速並簡化人工智能應用,同時將 Tensor 核心效能拓展至高效能運算。 [13] 
TF32 與 FP32 運作方式相同,無需更改任何程序代碼即可將人工智能速度提升至最高 20 倍。透過 NVIDIA 自動混合精度,研究人員只要多加幾行程序代碼,就可以利用自動混合精度和 FP16 將效能提升 2 倍。而 NVIDIA Ampere 架構 Tensor 核心 GPU 中的 Tensor 核心透過支持 bfloat16、INT8 與 INT4,能為人工智能訓練和推論創造極致多元的加速器。A100 和 A30 GPU 不只將強大的 Tensor 核心導入高效能運算,也支持完整矩陣運算、通過 IEEE 認證,並使用 FP64 精度。 [13] 
多實例 GPU (MIG)
每個人工智能與高效能運算應用都能受益於加速,但並非所有應用都需要使用 GPU 的完整效能。多實例 GPU (MIG) 是 A100 和 A30 GPU 支持的功能,可讓工作負載共享 GPU。MIG 讓每個 GPU 能分隔成多個 GPU 實例,各自在硬件中完全獨立且受保護,且具備個別的高帶寬內存、快取和運算核心。不論大小,開發人員可為所有應用提供突破性加速,並獲得服務質量保障。IT 管理人員可為最佳利用率提供規模適中的 GPU 加速,並將橫跨實體與虛擬環境的訪問權限擴展給每個使用者和應用。 [13] 
第三代 NVLink
在跨多個 GPU 上擴充應用程序需要極快的數據移動速度NVIDIA Ampere 架構中的第三代 NVIDIA® NVLink® 可將 GPU 到 GPU 的直接帶寬翻倍,達到每秒 600 GB (GB/秒),比第四代 PCIe 速度快近 10 倍。搭配最新一代 NVIDIA NVSwitch™ 使用時,服務器中的所有 GPU 都能透過 NVLink 全速相互交流,執行極高速的數據傳輸。 [13] 
NVIDIA DGX™A100 和其他計算機制造商的服務器充分運用 NVLink 和 NVSwitch 技術,透過 NVIDIA HGX™ A100 為高效能運算和人工智能工作負載打造的基板,提供更為優良的擴展性。 [13] 
結構化稀疏
現代人工智能網絡相當龐大且越來越大,有數百萬、甚至數十億個參數。精準預測與推論不需要用到所有參數,而有些參數可以轉換為零,以確保模型變「稀疏」的同時不會犧牲準確性。Tensor 核心最高可以將稀疏模型的效能提高 2 倍。將模型稀疏化對於人工智能推論有益,同時也能改善模型訓練效能。 [13] 
第二代 RT 核心
NVIDIA A40 和 A10 GPU 中,NVIDIA Ampere 架構的第二代 RT 核心可大幅提升電影作品的擬真渲染、建築設計評估,以及產品設計的虛擬原型製作等工作負載的速度。RT 核心還能加速光線追蹤於動態模糊的渲染效果,以更快的速度獲得更高的視覺準確度,還能在執行着色或噪聲消除功能的同時,執行光線追蹤。 [13] 
更聰明、快速的內存
A100 為數據中心提供大量運算效能。為充分運用運算引擎,A100 具備領先同級產品的每秒 2 TB (TB/秒) 內存帶寬,比前一代產品高出 2 倍多。此外,A100 的芯片內存也顯著增加,具備 40 MB 的 2 級快取,為上一代產品的 7 倍,可將運算效能最大化。 [13] 
邊緣聚合加速
NVIDIA 聚合加速器結合 NVIDIA Ampere 架構和 NVIDIA BlueField®-2 數據處理器 (DPU),帶來的運算和網絡加速能力,能夠處理數據中心和邊緣端產生的龐大數據量。BlueField-2 結合了 NVIDIA ConnectX®-6 Dx 的強大功能,以及可程控的 Arm 核心與硬件卸除功能,可適用於軟件定義的儲存空間、網絡、安全性和管理工作負載。有了 NVIDIA 聚合加速器,客户就能以最高的安全性和效能執行數據密集型的邊緣端和數據中心工作負載。 [13] 
密度優化的設計
NVIDIA A16 GPU 採用四 GPU 主板設計,專為用户密度優化,並結合了 NVIDIA 虛擬 PC (vPC) 軟件,讓用户無論身在何處都可以使用繪圖運算豐富的虛擬 PC。與僅使用 CPU 的 VDI 相比,NVIDIA A16 可提供更高的幀速率和較低的終端用户延遲,因此應用程序反應能更靈敏,並帶來與原生 PC 無異的使用者體驗。 [13] 
參考資料
展開全部 收起