複製鏈接
請複製以下鏈接發送給好友

Tensor Core

鎖定
Tensor Core(張量計算核心)是由NVIDIA研發的新型處理核心,Tensor Core(張量計算核心) [4]  可實現混合精度計算,並能根據精度的降低動態調整算力,在保持準確性的同時提高吞吐量 [2] 
中文名
Tensor Core
所屬企業
NVIDIA英偉達 [1-4] 

Tensor Core技術介紹

Tensor Core 可實現混合精度計算,並能根據精度的降低動態調整算力,在保持準確性的同時提高吞吐量。新一代 Tensor Core 擴大了這種加速的應用範圍,覆蓋 AIHPC 領域的各種工作負載。NVIDIA Tensor Core 向所有工作負載提供了新功能,將 Tensor Float 32(TF32,一種革命性的新精度)下的 AI 訓練速度加快 10 倍,並將 FP64 下的高性能計算 (HPC) 速度加快 2.5 倍。
Tensor Core在NVIDIA的Volta、Turing和Ampere GPU架構中均有配備,其中Ampere架構中的Tensor Core為第三代Tensor Core。NVIDIA Tensor Core 技術助力 AI 實現了大幅加速,將訓練時間從數週縮短到幾小時,顯著加快了推理速度。 [5] 

Tensor Core發展歷史

第一代Tensor Core——NVIDIA Volta架構
2017年5月發佈的NVIDIA Volta架構中的第一代 Tensor Core 專為深度學習而設計, [3]  通過 FP16 和 FP32 下的混合精度矩陣乘法提供了突破性的性能 – 與 NVIDIA Pascal 相比,用於訓練的峯值 teraFLOPS (TFLOPS) 性能提升了高達 12 倍,用於推理的峯值 TFLOPS 性能提升了高達 6 倍。這項關鍵功能使 Volta 提供了比 Pascal 高 3 倍的訓練和推理性能。
第二代Tensor Core——NVIDIA Turing架構
2018年8月發佈的NVIDIA Turing Tensor Core 技術能進行多精度計算,可實現高效的 AI 推理。Turing Tensor Core 提供了一系列用於深度學習訓練和推理的精度(從 FP32 到 FP16 再到 INT8 和 INT4),性能遠超 NVIDIA Pascal GPU。Turing架構也首次在消費級GeForce產品線上配備Tensor Core,另GeForce RTX 20系列顯卡具備了全新的AI硬件加速計算能力。
第三代Tensor Core——NVIDIA Ampere架構
2020年5月發佈的NVIDIA Ampere 架構帶來性能的提升,提供了新的精度,可覆蓋研究人員需要的全系列精度(TF32、FP64、FP16、INT8 和 INT4),從而加速和簡化 AI 的採用,並將 NVIDIA Tensor Core 的強大功能擴展到 HPC 領域。 [2] 
支持的Tensor Core精度 支持的Tensor Core精度
第四代Tensor Core——Ada Lovelace架構
2022年9月20日,NVIDIA 於 GTC 2022 發佈了採用了Ada Lovelace架構的 RTX40系列 GPU。 [7]  自推出 Tensor Core 技術以來,NVIDIA GPU 的峯值性能提高了 60 倍,推動了 AI 和 HPC 計算的普及化。NVIDIA Hopper™ 架構利用 Transformer 引擎改進第四代 Tensor Core,該引擎使用新的 8 位浮點精度 (FP8),可為萬億參數模型訓練提供比 FP16 高 6 倍的性能。Hopper Tensor Core 使用 TF32、FP64、FP16 和 INT8 精度,將性能提升 3 倍,能夠加速處理各種工作負載。 [8] 
NVIDIA Tensor Core 推動並加快了 AI 技術的變革,包括 NVIDIA DLSS 以及可讓幀率更大幅提升的全新 NVIDIA DLSS 3。
Ada Lovelace的全新第四代 Tensor Core 吞吐量提升 4 倍,達到1.4 Tensor-petaFLOPS。 [6] 

Tensor Core在遊戲中的應用

NVIDIA DLDSR:2021年1月NVIDIA發佈了基於AI的DLDSR(Deep Learning Dynamic Super Resolution)技術,在硬件上以NVIDIA GPU Tensor Core作為支撐,在DSR的基礎上增加AI能力,可以給玩家帶來更加真實流暢的畫質體驗。GeForce RTX 20、RTX 30系顯卡都支持該技術。DSR技術、DLDSR技術都是通過高分辨率進行渲染,再壓縮到屏幕原生分辨率輸出,可以增強畫面細節,讓邊緣更平滑,鋸齒更少,減少炫光。DLDSR加入了AI網絡層,需要輸入的像素更少,所以可以輸出更高的幀率。DLDSR技術不需要遊戲進行特殊優化,大多數遊戲都支持,並且該技術會直接集成到驅動中。 [1] 
參考資料