反饋

推土機

（美國AMD公司研發的微處理器架構）

鎖定

推土機是美國AMD公司徹底重新設計的CPU架構，於2011年10月正式推出，面向高端發燒級用户，擁有DDR3-1866MHz原生內存支持、XOP指令集、模塊化設計等多項新特性，全面取代羿龍II系列處理器。

中文名: 推土機
外文名: AMD FX

公司: AMD
面向: 高端發燒級用户
取代: 羿龍II

推土機架構簡介

AMD於2011年10月正式推出全新處理器微架構“推土機”。

推土機FX系列處理器架構示意圖

按照AMD的設計理念，推土機架構要在多線程應用中提供性能、成本和功耗的平衡，並專注於高頻率、資源共享，以實現在下一代應用環境中的最佳吞吐、最快速度。為達此目的，推土機採用了其它任何處理器都沒有過的模塊化設計，整數核心、浮點核心按照2:1的比例組成一個個模塊，每個模塊既可以相當於傳統的兩個物理核心，又可協作運行。

推土機內核照片(四模塊八核心)(3張)

從產品家族序列上看，推土機屬於AMD Family 15h。這是K8架構之後開始使用的新型序列。在此之前，Family 10h、11h、12h、14h分別代表服務器和桌面版K10、筆記本移動版K10、Llano APU、Bobcat APU，13h則被很自然地跳過去了。

推土機架構分析

推土機多核心技術

模塊

雙核心一模塊(3張)

在着手設計下一代x86處理器核心的時候，AMD的工程師們認為必須實現核心功耗與面積的優化，而且PC應用的發展也讓工程師們必須尋找一條新的路子，能夠在不同核心之間實現峯值帶寬的最大化，並通過共享模塊來充分利用每一平方毫米的核心面積。

最終結果就是能夠高效優化資源的雙核心模塊化。整數管線、一級數據緩存等頻繁使用的功能在每個核心裏都有單獨的功能單元，預取、解碼、浮點管線、二級緩存等功能單元則在兩個核心裏共享使用。這種設計可以讓每個核心都能在需要的時候使用更大的、更高性能的功能單元，比每個核心都擁有自己獨立的小型功能單元更節省核心面積。

這種設計理念的一個直接體現就是核心面積。八核心推土機是AMD公司歷史上製造的最大規模芯片，集成了大約12億個晶體管，但通過功能單元的合理分配，以及32nm SOI新工藝的應用，核心面積被控制在僅僅為315平方毫米，比六核心、45nm工藝的Phenom II X6還要小9%，比四核心、32nm HKMG工藝的Sandy Bridge也只大了46%。

推土機浮點單元

推土機中的浮點單元也經過了完全重新設計，可以在不同核心之間共享資源。每個推土機模塊內都有共享的兩個128位乘法累加單元(FMAC)，可以每個核心執行128位指令，或者每個模塊執行256位指令。

全新的浮點單元(3張)

推土機浮點單元還改進支持了大量新的指令集。Phenom II X6僅有128位浮點，Intel Sandy Bridge增加了SSSE3/SSE4.1/SSE4.2、128/256位AVX、每週期兩個128位AVX、每週期128位AVX+SSE。推土機不但將這些照單全收，還獨家支持FMA4乘加指令、XOP擴展操作指令(曾經的SSE5)。

那麼指令集都有什麼用呢？下邊簡單列舉幾個：

SSSE3/SSE4.1/SSE4.2(Intel、AMD共有)：視頻編碼與轉碼、生物統計算法、文字密集型應用。

AESNI PCLMULQDQ(Intel、AMD共有)：AES加密應用、安全網絡交易、磁盤加密(微軟BitLocker)、數據庫加密(Orocle)、雲安全。

AVX(Intel、AMD共有)：浮點密集型應用，諸如信號處理與地震、多媒體、科學計算、金融分析、3D建模。

FMA4/XOP(AMD獨有)：高性能計算應用，諸如數字應用、多媒體應用、音頻算法。

指令集的變化自然需要軟件的支持才能發揮效力，尤其是FMA、XOP兩大獨家指令。如果軟件還在使用老的浮點指令，推土機的特點顯然就發揮不出來。在操作系統和軟件程序完善之前，可以運行一下AMD提供的兩個XOP、AVX補丁程序，再跑分就會有明顯的不同。

其實，這兩個小程序正是網上傳聞的所謂“雞血補丁”，而且有時候確實能“雞血”一下，比如讓FX-8150 wPrime32M運算時間從15秒鐘縮短到10秒鐘。

推土機共享前端

共享前端設計(2張)

前端(Front End)的任務是驅動處理管線、確保核心隨時獲取所需信息。在推土機中，每個前端配合一個模塊，並負責為其中的兩個核心分配線程。AMD在這裏也做了大刀闊斧的改進，涉及不相關預測和拾取管線、預測定向指令預取器等等。一個預測隊列可以管理一級、二級分支目標緩衝(存儲目標地址)所需的直接、間接分支。推土機模塊可以在每個時鐘週期內解碼最多四條指令，而K10 Phenom II只有三條。換句話説，推土機從三發射變成了四發射，就像Intel Sandy Bridge。

預測管線會生成一個拾取地址隊列。拾取管線則在每個時鐘週期內從指令緩存里拉取32個字節加入拾取隊列，再送往解碼器。

推土機和Sandy Bridge一樣使用了物理寄存器文件(PRF)。這是一個單獨的位置，用於保持執行指令的寄存器結果。這種設計可以消除不必要的數據移動和複製，只保留一個拷貝而不用對數據進行廣播。

推土機緩存設計

推土機的每個核心都有64KB一級數據緩存、64KB一級指令緩存、32-entry全關聯數據頁表緩存(DATA TLB)、完整亂序載入/保存單元，後者可以在每個時鐘週期內載入兩個128位或載入一個128位指令。

每個模塊配備2MB 16路關聯二級緩存、124-entry二級頁表緩存，可同時處理指令和數據請求。推土機支持最多23個二級緩存不命中，用於保持內存系統一致性。

最後，一顆推土機處理器的所有模塊與核心共享8MB 64路關聯三級緩存。

Turbo Core 2.0智能超頻技術

Turbo Core 2.0智能超頻技術

智能超頻(動態加速)這種技術最早是Intel在45nm Lynnfield上搞出來的，叫做Turbo Boost(中文名睿頻)，Sandy Bridge上進化為第二代，可根據應用負載升降不同核心的頻率，從而兼顧對頻率、線程明暗度不同的應用與整體性能、功耗。AMD Phenom II X6六核心首次引入自己的智能超頻技術Turbo Core，但還不是很完善。Llano APU也部分加入了這種技術，並且支持CPU、GPU兩個核心的加速。現推土機迎來了真正的第二代。

推土機大大改進了電源管理技術，在核心級別上支持CC6電源狀態，在模塊級別上可通過CC6支持二級緩存的電源門控(Power Gating)。有了電源門控，空閒核心就可以幾乎完全斷電，從而給其它核心留出更大的加速空間。

推土機有三種運行模式：原始預設的基準頻率、全部核心開啓的加速頻率、半數核心開啓的加速頻率。

全部核心加速

全部核心加速：如果多餘的熱設計功耗(TDP)空間允許，推土機可以對所有的核心進行加速，適合那些需要儘可能高頻率的線程密集型應用，最高能超500MHz。

AMD宣稱，Turbo Core技術在這種情況下可以帶來4-7%的性能提升。

半數核心加速

半數核心加速：這種情況下半數核心完全關閉，另外一半核心則更大幅度地加速，適合那些對多線程不太敏感、但需要高頻率的應用。相比第一代，加速幅度明顯更高了，理論上最高可達1GHz。

AMD宣稱，Turbo Core技術在這種情況下可以帶來5-12%的性能提升。

雖然AMD沒有就此技術發佈專用的監控工具，但事實上已經有很多硬件類工具提供了支持，既有AMD自家出品的監控超頻軟件OverDrive，也有第三方的TMonitor、HWiNFO32/64、SIV等等。利用它們可以隨時查看每個核心的實時工作頻率，而且加速核心的頻率會以紅色顯示。

需要特別強調的是，推土機並不是簡單的全部或者半數核心以同樣的幅度加速，而是實現了真正的異步頻率，每個核心都可以有自己獨立的運行速度，利用任何監視工具都可以清楚地看出來。這一方面得益於推土機本身架構的改進(切換速度比K10快得多)，另一方面也得益於Windows 7操作系統在線程分配上的優化。

推土機架構特點

FX 8150 CPU-Z截圖

1、基於Bulldozer微架構

2、2-4個模塊

3、每個模塊包含兩顆核心、一個浮點單元、兩個整數單元

4、每模塊獨享2MB二級緩存

5、AVX、XOP指令集

6、Turbo Core 2.0技術

7、全新32nm製造工藝

8、全新Socket AM3+接口

9、雙通道DDR3-1866MHz內存支持

10、不鎖倍頻

推土機超頻潛力

測試成績截圖

藉助液氮散熱，玩家成功將一顆還未發佈的FX-8150超頻到8.429GHz，這一紀錄已經打破了Intel單核賽揚創建的主頻紀錄，並且還獲得了吉尼斯世界紀錄。從CPU-Z的認證頁面我們可以看到，用户採用了AMD頂級的八核FX-8150 CPU進行超頻，主板選擇了華碩的Crossshair V Fomula，基於AMD 890FX芯片組，並沒有採用最新的990FX芯片組主板，看來AMD 890FX也是推土機的最好搭檔之一。內存選取了海盜船的DDR3 1333內存，畢竟CPU超頻對內存要求都不會太高。

從測試成績截圖裏面我們可以看到，玩家使用了31倍的倍頻，在此基礎上將外頻超頻到271.9MHz，達成了史上最高的8.429GHz，此時的電壓也達到了2.016V。

推土機技術參數

"Zambezi" (32 nm)

CPU支持：MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2, SSE4a, AMD64, AMD-V, AES, CLMUL, AVX, XOP, FMA4, CVT16.

全型號通用參數

晶體管數量：12億

核心面積：315平方毫米

推土機

步進：B2

接口：Socket AM3+

HT 3.1總線：5.2GT/s

內存支持：DDR3-1866 雙通道^[1]

型號	模塊核心	主頻	加速頻率	二級緩存	三級緩存	TDP
FX-4100	雙模塊四核心	3.6GHz	3.8GHz	2×2MB	8MB	95W
FX-4170	雙模塊四核心	4.2GHz	5.0Ghz	2×2MB	8MB	125W
FX-6100	三模塊六核心	3.3GHz	3.9GHz	3×2MB	8MB	95W
FX-6200	三模塊六核心	3.8GHz	4.1GHz	3×2MB	8MB	125W
FX-8100	四模塊八核心	3.1GHz	3.7GHz	4×2MB	8MB	95W
FX-8120	四模塊八核心	3.1GHz	4.0GHz	4×2MB	8MB	125W
FX-8150	四模塊八核心	3.6GHz	4.2GHz	4×2MB	8MB	125W