反饋

每秒浮點運算次數

每秒浮點運算次數（Floating Point Operations Per Second，FLOPS）^[2] ，按照IEEE 754-2019 浮點運算標準^[3] ，FLOPS被定義為單精度（32位）或者雙精度（64位）數加法或者乘法。

中文名: 每秒浮點運算次數

外文名: Floating Point Operations Per Second
領域: 計算機

每秒浮點運算次數介紹

讓我們看一下怎樣基於其峯值FLOPS來對比DSP、GPU和FPGA體系結構的性能。在最大工作頻率下，通過加法器和乘法器求和積來確定峯值FLOPS比。這代表了計算的理論極限，實際中很難獲得，因為一般不可能實現所有時間、所有計算單元上都保持運行的算法。但確實有實用的對比指標。

首先，我們考慮DSP GFLOPS性能。對此，我們選擇德州儀器公司的TMS320C667xDSP作為實例器件。這一DSP包括了8個DSP內核，每一內核含有兩個處理子系統。每一子系統包括4個單精度浮點加法器和4個單精度浮點乘法器。總共有64個加法器和64個乘法器。最快的能夠運行在1.25GHz，峯值性能達到160Giga FLOPS（GFLOPS）。

每秒浮點運算次數例子

GPU是非常流行的器件，特別是圖像處理應用。功能最強大的一種GPU是NVIDATeslaK20。這一GPU基於CUDA內核，每一個都有一個浮點乘法加法單元，在單精度浮點配置時，每個時鐘週期能夠執行一次。每個流多處理器（SMX）處理引擎中有192個CUDA內核。K20實際上含有15個SMX，能夠使用其中的13個（例如，由於工藝產出問題）。這樣，總共有2496個CUDA內核，每一時鐘週期2GFLOP，最大運行頻率是706MHz。這樣，峯值單精度浮點性能達到了3520GFLOP。

Altera等FPGA供應商在其FPGA中提供硬核浮點引擎。在整個可編程邏輯結構中，嵌入的硬核DSP模塊含有一個單精度浮點乘法器和加法器。Altera中端Arria10FPGA系列的中等規模FPGA有一款10AX066。這一器件有1678個dsp模塊，每個都能夠在每一時鐘週期中執行並沒有使用可編程邏輯，而是設計的其他部分使用了可編程邏輯，例如，數據控制和調度電路、I/O接口、內部和外部存儲器接口，以及其他面的功能^[1] 。

參考資料

1. 理解峯值浮點性能計算．萬方[引用日期2018-06-23]
2. 楊明川，錢兵，趙繼壯等. 企業數智化轉型之路智能化數字平台建設及應用實踐[M]. 北京：機械工業出版社, 2022.06.87
3. IEEE 754-2019 ．ieee[引用日期2024-04-30]

詞條統計

瀏覽次數：次
編輯次數：6次歷史版本
最近更新：天够真无鞋（2024-04-30）

1 介紹
2 例子

每秒浮點運算次數

目錄

每秒浮點運算次數介紹

每秒浮點運算次數例子