反饋

Tensor Core

Tensor Core（張量計算核心）是由NVIDIA研發的新型處理核心，Tensor Core（張量計算核心）^[4] 可實現混合精度計算，並能根據精度的降低動態調整算力，在保持準確性的同時提高吞吐量。^[2]

中文名: Tensor Core

所屬企業: NVIDIA英偉達^[1-4]

Tensor Core技術介紹

Tensor Core 可實現混合精度計算，並能根據精度的降低動態調整算力，在保持準確性的同時提高吞吐量。新一代 Tensor Core 擴大了這種加速的應用範圍，覆蓋 AI 和 HPC 領域的各種工作負載。NVIDIA Tensor Core 向所有工作負載提供了新功能，將 Tensor Float 32（TF32，一種革命性的新精度）下的 AI 訓練速度加快 10 倍，並將 FP64 下的高性能計算 (HPC) 速度加快 2.5 倍。

Tensor Core在NVIDIA的Volta、Turing和Ampere GPU架構中均有配備，其中Ampere架構中的Tensor Core為第三代Tensor Core。NVIDIA Tensor Core 技術助力 AI 實現了大幅加速，將訓練時間從數週縮短到幾小時，顯著加快了推理速度。^[5]

Tensor Core發展歷史

第一代Tensor Core——NVIDIA Volta架構

2017年5月發佈的NVIDIA Volta架構中的第一代 Tensor Core 專為深度學習而設計，^[3] 通過 FP16 和 FP32 下的混合精度矩陣乘法提供了突破性的性能 – 與 NVIDIA Pascal 相比，用於訓練的峯值 teraFLOPS (TFLOPS) 性能提升了高達 12 倍，用於推理的峯值 TFLOPS 性能提升了高達 6 倍。這項關鍵功能使 Volta 提供了比 Pascal 高 3 倍的訓練和推理性能。

第二代Tensor Core——NVIDIA Turing架構

2018年8月發佈的NVIDIA Turing Tensor Core 技術能進行多精度計算，可實現高效的 AI 推理。Turing Tensor Core 提供了一系列用於深度學習訓練和推理的精度（從 FP32 到 FP16 再到 INT8 和 INT4），性能遠超 NVIDIA Pascal GPU。Turing架構也首次在消費級GeForce產品線上配備Tensor Core，另GeForce RTX 20系列顯卡具備了全新的AI硬件加速計算能力。

第三代Tensor Core——NVIDIA Ampere架構

2020年5月發佈的NVIDIA Ampere 架構帶來性能的提升，提供了新的精度，可覆蓋研究人員需要的全系列精度（TF32、FP64、FP16、INT8 和 INT4），從而加速和簡化 AI 的採用，並將 NVIDIA Tensor Core 的強大功能擴展到 HPC 領域。^[2]

支持的Tensor Core精度

第四代Tensor Core——Ada Lovelace架構

2022年9月20日，NVIDIA 於 GTC 2022 發佈了採用了Ada Lovelace架構的 RTX40系列 GPU。^[7] 自推出 Tensor Core 技術以來，NVIDIA GPU 的峯值性能提高了 60 倍，推動了 AI 和 HPC 計算的普及化。NVIDIA Hopper™ 架構利用 Transformer 引擎改進第四代 Tensor Core，該引擎使用新的 8 位浮點精度 (FP8)，可為萬億參數模型訓練提供比 FP16 高 6 倍的性能。Hopper Tensor Core 使用 TF32、FP64、FP16 和 INT8 精度，將性能提升 3 倍，能夠加速處理各種工作負載。^[8]

NVIDIA Tensor Core 推動並加快了 AI 技術的變革，包括 NVIDIA DLSS 以及可讓幀率更大幅提升的全新 NVIDIA DLSS 3。

Ada Lovelace的全新第四代 Tensor Core 吞吐量提升 4 倍，達到1.4 Tensor-petaFLOPS。^[6]

Tensor Core在遊戲中的應用

NVIDIA DLDSR：2021年1月NVIDIA發佈了基於AI的DLDSR（Deep Learning Dynamic Super Resolution）技術，在硬件上以NVIDIA GPU Tensor Core作為支撐，在DSR的基礎上增加AI能力，可以給玩家帶來更加真實流暢的畫質體驗。GeForce RTX 20、RTX 30系顯卡都支持該技術。DSR技術、DLDSR技術都是通過高分辨率進行渲染，再壓縮到屏幕原生分辨率輸出，可以增強畫面細節，讓邊緣更平滑，鋸齒更少，減少炫光。DLDSR加入了AI網絡層，需要輸入的像素更少，所以可以輸出更高的幀率。DLDSR技術不需要遊戲進行特殊優化，大多數遊戲都支持，並且該技術會直接集成到驅動中。^[1]

參考資料

1. NVIDIA推出DLDSR技術可支持大多數遊戲無需特殊優化．PChome[引用日期2022-04-26]
2. Tensor Core：通用於 HPC 和 AI | NVIDIA ．nvidia英偉達官網[引用日期2022-04-26]
3. 英偉達新一代Volta架構，專為深度學習而生？- ．電子工程世界[引用日期2022-04-26]
4. NVIDIA深度學習Tensor Core全面解析（上篇）．雷鋒網[引用日期2022-04-26]
5. NVIDIA技術名詞．中關村在線[引用日期2022-05-06]
6. NVIDIA Ada Lovelace 架構 | NVIDIA ．NVIDIA[引用日期2023-02-03]
7. NVIDIA超高效的Ada Lovelace GPU架構都有哪些提升．中關村在線[引用日期2023-02-23]
8. Tensor Core：通用於 HPC 和 AI | NVIDIA ．NVIDIA[引用日期2023-10-18]

Tensor Core的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：12次歷史版本
最近更新： yanyiywz （2023-10-20）

1 技術介紹
2 發展歷史
3 在遊戲中的應用

Tensor Core

目錄

Tensor Core技術介紹

Tensor Core發展歷史

Tensor Core在遊戲中的應用