複製鏈接
請複製以下鏈接發送給好友

每秒浮點運算次數

鎖定
每秒浮點運算次數(Floating Point Operations Per Second,FLOPS) [2]  ,按照IEEE 754-2019 浮點運算標準 [3]  ,FLOPS被定義為單精度(32位)或者雙精度(64位)數加法或者乘法。
中文名
每秒浮點運算次數
外文名
Floating Point Operations Per Second
領    域
計算機

目錄

每秒浮點運算次數介紹

讓我們看一下怎樣基於其峯值FLOPS來對比DSP、GPU和FPGA體系結構的性能。在最大工作頻率下,通過加法器和乘法器求和積來確定峯值FLOPS比。這代表了計算的理論極限,實際中很難獲得,因為一般不可能實現所有時間、所有計算單元上都保持運行的算法。但確實有實用的對比指標。
首先,我們考慮DSP GFLOPS性能。對此,我們選擇德州儀器公司的TMS320C667xDSP作為實例器件。這一DSP包括了8個DSP內核,每一內核含有兩個處理子系統。每一子系統包括4個單精度浮點加法器和4個單精度浮點乘法器。總共有64個加法器和64個乘法器。最快的能夠運行在1.25GHz,峯值性能達到160Giga FLOPS(GFLOPS)。

每秒浮點運算次數例子

GPU是非常流行的器件,特別是圖像處理應用。功能最強大的一種GPU是NVIDATeslaK20。這一GPU基於CUDA內核,每一個都有一個浮點乘法加法單元,在單精度浮點配置時,每個時鐘週期能夠執行一次。每個流多處理器(SMX)處理引擎中有192個CUDA內核。K20實際上含有15個SMX,能夠使用其中的13個(例如,由於工藝產出問題)。這樣,總共有2496個CUDA內核,每一時鐘週期2GFLOP,最大運行頻率是706MHz。這樣,峯值單精度浮點性能達到了3520GFLOP。
Altera等FPGA供應商在其FPGA中提供硬核浮點引擎。在整個可編程邏輯結構中,嵌入的硬核DSP模塊含有一個單精度浮點乘法器和加法器。Altera中端Arria10FPGA系列的中等規模FPGA有一款10AX066。這一器件有1678個dsp模塊,每個都能夠在每一時鐘週期中執行並沒有使用可編程邏輯,而是設計的其他部分使用了可編程邏輯,例如,數據控制和調度電路、I/O接口、內部和外部存儲器接口,以及其他面的功能 [1] 
參考資料