三強(qiáng)爭霸高端FPGA（一）

2024-4-30 08:16| 發(fā)布者: admin| 查看: 322| 評論: 0

摘要: 來源：內(nèi)容由半導(dǎo)體行業(yè)觀察（ID：icbank）編譯自「eejournal」，作者：Kevin Morris，謝謝。英特爾在早前宣布，他們已開始將其第一批新的Agilex FPGA交付給搶先體驗(yàn)的客戶。這使得最大的兩家FPGA供應(yīng)商之間競爭進(jìn)入 ...

來源：內(nèi)容由半導(dǎo)體行業(yè)觀察（ID：icbank）編譯自「eejournal」，作者：Kevin Morris，謝謝。

英特爾在早前宣布，他們已開始將其第一批新的Agilex FPGA交付給搶先體驗(yàn)的客戶。這使得最大的兩家FPGA供應(yīng)商之間競爭進(jìn)入到了“正面交鋒”階段。Xilinx于6月份交付了他們的第一款“ Versal ACAP”FPGA，因此，在經(jīng)歷了一場漫長而有爭議的“誰能首先交付？”之戰(zhàn)之后。事實(shí)證明，這兩家競爭公司都可以在大約兩個(gè)月內(nèi)，開始交付其可用來與對手對標(biāo)的FPGA產(chǎn)品線。這意味著，與其他憑借第一時(shí)間引入先進(jìn)節(jié)點(diǎn)來提升性能的競爭不同，這兩家公司都沒有足夠的時(shí)間去利用一種新的、更先進(jìn)的技術(shù)來贏得設(shè)計(jì)上的勝利。

不過，這次競爭的領(lǐng)域擴(kuò)大了，新玩家Achronix聲稱他們將在今年年底之前交付其新型Speedster 7t FPGA的首批樣品。對于開發(fā)團(tuán)隊(duì)而言，這意味著到今年年底，將有三款完全不同的高端FPGA產(chǎn)品可供選擇——所有這些產(chǎn)品都采用類似的工藝技術(shù)，并且均具有獨(dú)特的功能。

本篇文章是比較這三家供應(yīng)商的新高端FPGA系列的多部分系列中的第一部分。我們將研究底層的工藝，F(xiàn)PGA邏輯組織（LUT）本身，用于加速處理和聯(lián)網(wǎng)的強(qiáng)化資源，存儲器架構(gòu)，芯片/封裝/定制架構(gòu)，I/O資源，設(shè)計(jì)工具策略，每個(gè)產(chǎn)品的獨(dú)特和新穎的特性和功能，以及營銷策略。如果您是可以從大量FLOPS，瘋狂的帶寬或是從設(shè)計(jì)過的一些有趣，功能強(qiáng)大的半導(dǎo)體器件中獲得樂趣的人，那么，這對你來說將是一次令人興奮的旅行。

注意事項(xiàng)–英特爾和Achronix都參與其中，并提供了本文的信息。Xilinx沒有回應(yīng)我們對信息的請求。

這一次，高端FPGA的霸主地位有所改變。過去，高端FPGA最大的市場是在網(wǎng)絡(luò)方面，市場份額的變化也是如此，這主要取決于誰可以為部署最新一輪的有線和無線網(wǎng)絡(luò)客戶的產(chǎn)品提供最豐富的設(shè)計(jì)，，誰就可以取得較大的市場份額。然而，5G推出的時(shí)機(jī)已經(jīng)改變了這一動態(tài)。在當(dāng)前的FPGA技術(shù)浪潮到來之前，5G就已經(jīng)開始加速擴(kuò)展。因此，第一輪5G的主干網(wǎng)是建立在上一代可編程邏輯上的。這些器件將融入一個(gè)已經(jīng)很強(qiáng)大的5G生態(tài)系統(tǒng)，因此，我們無法確定5G的徹底革命和新一代FPGA的誕生之間是否保持了一致。這些FPGA的設(shè)計(jì)已經(jīng)充分理解了5G的機(jī)制。但是，不要低估FPGA對5G的重要性，或者5G對FPGA市場的重要性。今天，當(dāng)你使用手機(jī)時(shí)，你的通話有99%的可能是通過FPGA進(jìn)行的。有了5G，F(xiàn)PGA的影響會更大。

隨著數(shù)據(jù)中心加速（主要是針對AI工作負(fù)載）這一新興市場的快速擴(kuò)展，這一現(xiàn)象引起了人們的興趣。據(jù)估計(jì)，人工智能加速市場將在未來幾年中飛速發(fā)展，因而這三家供應(yīng)商都將以其令人印象深刻的性價(jià)比和更高的能效來爭奪這些設(shè)備的大部分市場份額，并聲稱他們提供的解決方案可以一直延伸到邊緣/端側(cè)。這些供應(yīng)商中的每一個(gè)都非常清楚地意識到占領(lǐng)這些AI加速卡插槽是當(dāng)務(wù)之急，并且他們都圍繞這個(gè)想法設(shè)計(jì)了新芯片。

讓我們看看所有這些因素吧？

從底層工藝技術(shù)來看，Xilinx和Achronix FPGA系列在基于TSMC 7nm而設(shè)計(jì)，而Intel Agilex則采用了性能相近的Intel 10nm工藝。不要被7/10命名差異所迷惑。不要被7/10的命名法差異所混淆。我們很早以前就曾指出，半導(dǎo)體行業(yè)的營銷團(tuán)體根據(jù)市場上聽起來不錯(cuò)的東西來命名節(jié)點(diǎn)，而不是從晶體管本身的任何可識別的特征中推導(dǎo)出它們。據(jù)我們估計(jì)，TSMC的7nm和Intel10nm是大致相當(dāng)?shù)墓に嚕褂眠@兩種工藝的廠商基本一致。這意味著英特爾在工藝技術(shù)方面長期保持的領(lǐng)先地位似乎已經(jīng)消失，不過，當(dāng)我們接近摩爾定律的瓶頸時(shí)，硅加工領(lǐng)域的競爭升級是不可避免的。

當(dāng)推進(jìn)到最新的半導(dǎo)體工藝節(jié)點(diǎn)，這三個(gè)供應(yīng)商都獲得了適度的推動。然而這種推進(jìn)已不可能達(dá)到摩爾定律的歷史標(biāo)準(zhǔn)，因?yàn)樵谶^去幾個(gè)工藝節(jié)點(diǎn)的新流程更新所帶來的收益增量一直在穩(wěn)步下降。每個(gè)人從FinFET技術(shù)問世中都獲得了一次臨時(shí)性的推動，現(xiàn)在，隨著摩爾定律即將在經(jīng)濟(jì)層面上終結(jié)，我們可能會發(fā)現(xiàn)邊際收益遞減趨勢將一直延續(xù)。

在過去，隨著晶體管尺寸的減小，每個(gè)新工藝節(jié)點(diǎn)都讓晶體管的密度大量提升，并獲得更好的性能和更低的功耗。現(xiàn)在，供應(yīng)商必須在這三者之間進(jìn)行權(quán)衡，并且即使在他們偏愛的指標(biāo)上，通常也只能得到較小的回報(bào)。同時(shí)，轉(zhuǎn)移到新工藝節(jié)點(diǎn)的non-recurring費(fèi)用繼續(xù)呈指數(shù)級增長。這意味著FPGA公司所承擔(dān)的風(fēng)險(xiǎn)急劇上升，這是因?yàn)闉榱吮３指偁幜?，他們需要不斷投資才能獲取不斷減少的收益。這也意味著我們正在進(jìn)入一個(gè)新時(shí)代，F(xiàn)PGA本身的架構(gòu)和功能、FPGA工具以及這三家公司的營銷策略將成為影響收益的關(guān)鍵因素，而不是誰將率先使用新的制程工藝。

考慮到工藝技術(shù)實(shí)際上是一種洗禮，讓我們看一下每個(gè)供應(yīng)商產(chǎn)品的功能和特性。從最基本的FPGA功能– LUT結(jié)構(gòu)開始。我們經(jīng)常感嘆每個(gè)公司對LUT的計(jì)算都不一樣，而且這個(gè)游戲每一代都變得更加復(fù)雜。Xilinx和Achronix當(dāng)前使用的是6輸入LUT，而Intel的ALM本質(zhì)上是8輸入LUT。廠商或多或少地同意我們可以使用2.2 LUT4s per LUT6,，和2.99 LUT4s per LUT8將不同的LUT轉(zhuǎn)換為等價(jià)的4輸入LUT。

根據(jù)這方法一計(jì)算，Achronix Speedster 7T系列包括從363K到2.6M LUT6（相當(dāng)于800K到5.76M的等效LUT4）領(lǐng)先業(yè)界，Intel Agilex系列包括132K到912K 的ALM（相當(dāng)于395K到2.7M的等效LUT4），Xilinx的Versal系列產(chǎn)品包含了約246K到984K CLB（可換算成541K到2.2M的等效LUT4）。每個(gè)供應(yīng)商都聲稱自己的體系結(jié)構(gòu)優(yōu)越，著重強(qiáng)調(diào)了可以提高某些特定應(yīng)用或配置中的邏輯密度，性能或可布線性的設(shè)計(jì)功能。目前，我們尚不清楚任何供應(yīng)商的LUT是否明顯優(yōu)于其他任何供應(yīng)商的LUT。

但是，F(xiàn)PGA可用資源不僅取決于LUT的數(shù)量。還必須考慮以下挑戰(zhàn)：被有效使用LUT的百分比（我們將在稍后討論設(shè)計(jì)工具時(shí)進(jìn)行討論），以及集成到邏輯模塊中的強(qiáng)化功能的數(shù)量，這些功能允許以最小的方式實(shí)現(xiàn)設(shè)計(jì)功能LUT結(jié)構(gòu)的參與。根據(jù)您的設(shè)計(jì)，您可能會發(fā)現(xiàn)更多內(nèi)容被塞入一個(gè)或多個(gè)FPGA中，而這些內(nèi)容和LUT數(shù)量無關(guān)。

FPGA“擅長”人工智能推理的主要原因是其可以并行完成大量的算術(shù)運(yùn)算（主要是各種精度的乘法累加），這要?dú)w功于編織在可編程邏輯結(jié)構(gòu)中的存在大量"DSP塊陣列"。這使得FPGA能夠比傳統(tǒng)的馮·諾依曼結(jié)構(gòu)的處理器更有效地執(zhí)行例如卷積等矩陣運(yùn)算。

分析對AI推理至關(guān)重要的硬件乘法器，Achronix的可變精度乘法器可實(shí)現(xiàn)41K int-8乘法或82K int-4乘法。英特爾Agilex具有2K-17K 18×19乘法器，Xilinx Versal有500-3K“DSP引擎”，大概是“ DSP58 slice”，包括27×24乘法器和新的硬件浮點(diǎn)功能。這種比較肯定是“從蘋果到橙子到芒果”，至于哪種水果更適合您的應(yīng)用，它必須是“由設(shè)計(jì)者決定的”。

現(xiàn)在，這三個(gè)供應(yīng)商都增強(qiáng)了對浮點(diǎn)乘法的支持。Achronix為他們的DSP塊提供了一個(gè)全新的架構(gòu)，他們稱之為"機(jī)器學(xué)習(xí)處理器"（MLP）。每個(gè)MLP包含多達(dá)32個(gè)乘法器/累加器（MAC）、4-24位整數(shù)模式和各種浮點(diǎn)模式，可支持包括TensorFlow 的Bfloat16格式和塊浮點(diǎn)格式。最重要的是，Achronix MLP將嵌入式存儲器模塊與計(jì)算單元緊密耦合，從而使MAC操作能夠以750 MHz的頻率運(yùn)行，而等待通過FPGA組織訪問存儲器獲取數(shù)據(jù)。

英特爾還使用具有硬件浮點(diǎn)的可變精度DSP模塊（基本上就像它們已經(jīng)提供了多年的功能一樣）。英特爾的浮點(diǎn)支持也許是三者中最廣泛和最成熟的。借助Agilex，他們推出了兩種新的浮點(diǎn)模式，即半精度浮點(diǎn)（FP16）和塊浮點(diǎn)（Bfloat16），并且進(jìn)行了架構(gòu)調(diào)整，以使其DSP運(yùn)算更加高效。

Xilinx已將其以前的DSP48 Slice升級到DSP58 ——大概是因?yàn)樗鼈儸F(xiàn)在包括了硬件浮點(diǎn)，并且其乘法器也升級到了27×24。因此，在這一代產(chǎn)品中，另外兩家供應(yīng)商也加入了英特爾的行列，提供支持浮點(diǎn)運(yùn)算的硬件乘法器。對于Xilinx而言，這是一個(gè)逆轉(zhuǎn)。賽靈思此前聲稱，F(xiàn)PGA中實(shí)現(xiàn)浮點(diǎn)硬件乘法器不是一個(gè)好主意，因?yàn)楦↑c(diǎn)運(yùn)算主要用于訓(xùn)練，而FPGA則主要針對推理應(yīng)用。

就可用的浮點(diǎn)格式而言，Versal（最多2.1K乘法器）和Agilex（最多8.7K乘法器）都支持FP32格式。這三個(gè)系列均支持半精度（FP16）——Versal最多可支持2.1K乘法器，Agilex最多可支持17.1K乘法器，Speedster最多可支持5.1K乘法器。Agilex（最多17.1K乘法器）和Speedster（最多5.1K個(gè)）支持Bfloat16。對于FP24格式浮點(diǎn)乘法，Versal和Agilex可能會使用FP32單元，而Speedster則具有高達(dá)2.6K的乘法器。Achronix Speedster還支持多達(dá)81.9K的塊浮點(diǎn)乘法器。

Xilinx還帶來了一種新的軟件可編程矢量處理器——高達(dá)400個(gè)1GHz+VLIW-SIMD矢量處理核心陣列，具有增強(qiáng)計(jì)算和緊密耦合的內(nèi)存。這為并行化復(fù)雜的向量運(yùn)算并利用FPGA豐富的計(jì)算資源提供了更為簡單的編程模型?？傮w而言，是在Xilinx的“kitchen sink”競爭策略上選中了“GPU /推理引擎”。稍后我們將詳細(xì)討論這一點(diǎn)。

英特爾對Achronix MLP和Xilinx矢量處理器的回應(yīng)是老派的演變。他們指出，Agilex DSP模塊實(shí)現(xiàn)了與其他供應(yīng)商的新DSP功能相同的功能?？梢岳靡呀⒉⒊浞掷斫獾腇PGA設(shè)計(jì)開發(fā)流程，并且不需要客戶在器件的各個(gè)體系結(jié)構(gòu)中去劃分他們的設(shè)計(jì)。如果您的團(tuán)隊(duì)具有FPGA/RTL設(shè)計(jì)專業(yè)知識，這是一件好事。但如果你的應(yīng)用需要由軟件工程師來開發(fā)DSP，Xilinx的軟件可編程方法可能有優(yōu)勢。

除了簡單地計(jì)算乘數(shù)外，我們還可以通過查看供應(yīng)商關(guān)于理論性能的聲明來比較這些能力。但有一點(diǎn)需要注意，這些說法被嚴(yán)重夸大了，而且很難精確定義。供應(yīng)商通常通過將芯片上的乘法器數(shù)目乘以這些乘法器的最大工作頻率來得出一個(gè)數(shù)，得出一個(gè)"最多XX TOPS或TFLOPS"的數(shù)字。顯然，現(xiàn)實(shí)世界中的設(shè)計(jì)不會使用到100%的乘法器，沒有任何一個(gè)設(shè)計(jì)能夠達(dá)到這些乘法器的最大理論時(shí)鐘速率，也沒有一個(gè)設(shè)計(jì)能夠以適當(dāng)?shù)乃俾食掷m(xù)為這些乘法器提供輸入數(shù)據(jù)，并且這些乘法運(yùn)算的精度因供應(yīng)商而異。

如果必須估算的話，我們可以說FPGA在實(shí)際設(shè)計(jì)中可以實(shí)際達(dá)到其理論最大值的50-90％。這要比GPU更好，后者被認(rèn)為在現(xiàn)實(shí)世界中只能達(dá)到其理論最大值的10-20％。

在推測INT8操作的TOPS數(shù)量時(shí)，如果我們將其矢量處理器中的133個(gè)TOPS包含在內(nèi)，則Xilinx Versal以大約171個(gè)TOPS位居榜首。12個(gè)來自其DSP塊，26個(gè)來自其邏輯結(jié)構(gòu)。Speedster緊隨其后，有大約86個(gè)TOPS，其中61個(gè)來自他們的MLP模塊，25個(gè)來自他們的邏輯結(jié)構(gòu)。Agilexint8操作最大值為92個(gè)TOPS，其中51個(gè)來自DSP塊，41個(gè)來自邏輯結(jié)構(gòu)。從Bfloat16格式的TFLOPS來看，Agilex以40個(gè)領(lǐng)先，Versal以9個(gè)緊隨其后，Speedster以8個(gè)墊底。Speedster在塊浮點(diǎn)操作上上獲得了很大的優(yōu)勢，但是，它有123個(gè)TFLOPS，其次是Agilex的41個(gè)和Versal的15個(gè)。

這些數(shù)字均來自公司自己的數(shù)據(jù)表。正如我們所提到的，它們是理論上的最大值，在實(shí)際的實(shí)際應(yīng)用中是不可能達(dá)到的。Achronix宣稱的“可用性”具有一定的價(jià)值，因?yàn)樗鼈兊腗LP是獨(dú)特的設(shè)計(jì)，旨在將可變精度乘法運(yùn)算維持在模塊本身內(nèi)進(jìn)行，并以最大時(shí)鐘速率運(yùn)行，而無需數(shù)據(jù)往返于邏輯結(jié)構(gòu)即可完成AI推理中最常見的操作。同樣，Xilinx的矢量處理器體系結(jié)構(gòu)應(yīng)能很好地保持?jǐn)?shù)據(jù)平穩(wěn)地流經(jīng)算術(shù)單元。也就是說，我們還沒有看到基準(zhǔn)或參考設(shè)計(jì)以任何有意義的方式來證明這些公司的聲稱。

當(dāng)然，要使用所有這些LUT和乘法器，就需要讓您的設(shè)計(jì)實(shí)際布局和布線并滿足所選芯片的時(shí)序要求。隨著FPGA的發(fā)展，這已成為越來越困難的挑戰(zhàn)。單比他網(wǎng)絡(luò)和邏輯路徑通過有限的路由資源分布在巨大芯片上，這使傳統(tǒng)的時(shí)序收斂逐漸變成一場噩夢。用于在同步設(shè)計(jì)上實(shí)現(xiàn)時(shí)序收斂的常規(guī)技術(shù)均遇到了障礙，無法擴(kuò)展。Xilinx和Achronix都通過添加覆蓋傳統(tǒng)邏輯和路由結(jié)構(gòu)的片上網(wǎng)絡(luò)（NoC）在新一代FPGA中解決了這一問題。NoC從本質(zhì)上改變了游戲規(guī)則，因?yàn)檎麄€(gè)芯片不再需要在一個(gè)巨大的魔術(shù)般的融合中實(shí)現(xiàn)時(shí)序收斂?，F(xiàn)在，較小的同步塊可以通過NoC傳遞數(shù)據(jù)，減輕了傳統(tǒng)路由結(jié)構(gòu)的負(fù)擔(dān)，并將巨大的設(shè)計(jì)自動化工具需要解決的問題分解為更小、更易于管理的問題。

幾代以前，英特爾已經(jīng)采取了另一種方法來解決這一問題——用稱為“ HyperFlex寄存器”的大量微寄存器鋪平到整個(gè)邏輯結(jié)構(gòu)。這些寄存器允許對更長、更復(fù)雜的邏輯路徑進(jìn)行重新定時(shí)和流水線處理，從而使整個(gè)設(shè)計(jì)實(shí)質(zhì)上變得異步。有趣的是，這也是Xilinx和Achronix使用的NoC的效果。每種方法都面臨挑戰(zhàn)，因?yàn)檫@兩種方法都會給芯片設(shè)計(jì)和我們使用的設(shè)計(jì)工具增加大量復(fù)雜性。據(jù)報(bào)道，在英特爾的案例中HyperFlex寄存器對邏輯架構(gòu)可以實(shí)現(xiàn)的整體速度也有一些負(fù)面影響。英特爾表示，Agilex FPGA中的HyperFlex體系結(jié)構(gòu)是第二代，并且與上一代HyperFlex體系結(jié)構(gòu)相比具有改進(jìn)和增強(qiáng)，可以提高性能并簡化時(shí)序收斂。在Agilex取得進(jìn)展之后，我們將不得不拭目以待觀察用戶使用后的反應(yīng)。

在采用NoC進(jìn)行路由的兩家供應(yīng)商，Xilinx和Achronix中，Achronix聲稱通過其二維跨芯片AXI實(shí)現(xiàn)實(shí)現(xiàn)了最快的NoC。在這一NoC中的每一行或每一列都實(shí)現(xiàn)為兩個(gè)工作在2 GHz的256位單向AXI通道，也就是在每個(gè)方向上可以支持512 Gbps的數(shù)據(jù)流量。Speedster的NoC共有197個(gè)節(jié)點(diǎn)，最終形成27 Tbps的總帶寬，減輕了FPGA傳統(tǒng)按位進(jìn)行路由的資源負(fù)擔(dān)。據(jù)我們所知，Xilinx的Versal NoC性能尚未發(fā)布，但是大約有28個(gè)節(jié)點(diǎn)，我們猜測大約是總帶寬是1.5 Tbps。

好吧，本周我們的墨水用完了，但下周我們將繼續(xù)進(jìn)行下去——看看這些FPGA系列帶來的迷人而靈活的存儲器架構(gòu)，每個(gè)系列的獨(dú)特封裝和定制功能，瘋狂的SerDes IO功能，嵌入式處理子系統(tǒng)，設(shè)計(jì)工具流程等。

*點(diǎn)擊文末閱讀原文，可閱讀英文原文。

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第2125期內(nèi)容，歡迎關(guān)注。

半導(dǎo)體行業(yè)觀察

『半導(dǎo)體第一垂直媒體』

實(shí)時(shí) 專業(yè) 原創(chuàng) 深度

識別二維碼，回復(fù)下方關(guān)鍵詞，閱讀更多

AI｜晶圓｜臺積電｜射頻｜華為｜集成電路｜TWS耳機(jī)｜小米

回復(fù) 投稿，看《如何成為“半導(dǎo)體行業(yè)觀察”的一員》

回復(fù) 搜索，還能輕松找到其他你感興趣的文章！

英文原文

！