97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

三強(qiáng)爭霸高端FPGA(一)

2024-4-30 08:16| 發(fā)布者: admin| 查看: 322| 評論: 0
摘要: 來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自「eejournal」,作者:Kevin Morris,謝謝。英特爾在早前宣布,他們已開始將其第一批新的Agilex FPGA交付給搶先體驗(yàn)的客戶。這使得最大的兩家FPGA供應(yīng)商之間競爭進(jìn)入 ...

來源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自「eejournal」,作者:Kevin Morris,謝謝。


英特爾在早前宣布,他們已開始將其第一批新的Agilex FPGA交付給搶先體驗(yàn)的客戶。這使得最大的兩家FPGA供應(yīng)商之間競爭進(jìn)入到了“正面交鋒”階段。Xilinx于6月份交付了他們的第一款“ Versal ACAP”FPGA,因此,在經(jīng)歷了一場漫長而有爭議的“誰能首先交付?”之戰(zhàn)之后。事實(shí)證明,這兩家競爭公司都可以在大約兩個(gè)月內(nèi),開始交付其可用來與對手對標(biāo)的FPGA產(chǎn)品線。這意味著,與其他憑借第一時(shí)間引入先進(jìn)節(jié)點(diǎn)來提升性能的競爭不同,這兩家公司都沒有足夠的時(shí)間去利用一種新的、更先進(jìn)的技術(shù)來贏得設(shè)計(jì)上的勝利。

不過,這次競爭的領(lǐng)域擴(kuò)大了,新玩家Achronix聲稱他們將在今年年底之前交付其新型Speedster 7t FPGA的首批樣品。對于開發(fā)團(tuán)隊(duì)而言,這意味著到今年年底,將有三款完全不同的高端FPGA產(chǎn)品可供選擇——所有這些產(chǎn)品都采用類似的工藝技術(shù),并且均具有獨(dú)特的功能。

本篇文章是比較這三家供應(yīng)商的新高端FPGA系列的多部分系列中的第一部分。我們將研究底層的工藝,F(xiàn)PGA邏輯組織(LUT)本身,用于加速處理和聯(lián)網(wǎng)的強(qiáng)化資源,存儲器架構(gòu),芯片/封裝/定制架構(gòu),I/O資源,設(shè)計(jì)工具策略,每個(gè)產(chǎn)品的獨(dú)特和新穎的特性和功能,以及營銷策略。如果您是可以從大量FLOPS,瘋狂的帶寬或是從設(shè)計(jì)過的一些有趣,功能強(qiáng)大的半導(dǎo)體器件中獲得樂趣的人,那么,這對你來說將是一次令人興奮的旅行。

注意事項(xiàng)–英特爾和Achronix都參與其中,并提供了本文的信息。Xilinx沒有回應(yīng)我們對信息的請求。

這一次,高端FPGA的霸主地位有所改變。過去,高端FPGA最大的市場是在網(wǎng)絡(luò)方面,市場份額的變化也是如此,這主要取決于誰可以為部署最新一輪的有線和無線網(wǎng)絡(luò)客戶的產(chǎn)品提供最豐富的設(shè)計(jì),,誰就可以取得較大的市場份額。然而,5G推出的時(shí)機(jī)已經(jīng)改變了這一動態(tài)。在當(dāng)前的FPGA技術(shù)浪潮到來之前,5G就已經(jīng)開始加速擴(kuò)展。因此,第一輪5G的主干網(wǎng)是建立在上一代可編程邏輯上的。這些器件將融入一個(gè)已經(jīng)很強(qiáng)大的5G生態(tài)系統(tǒng),因此,我們無法確定5G的徹底革命和新一代FPGA的誕生之間是否保持了一致。這些FPGA的設(shè)計(jì)已經(jīng)充分理解了5G的機(jī)制。但是,不要低估FPGA對5G的重要性,或者5G對FPGA市場的重要性。今天,當(dāng)你使用手機(jī)時(shí),你的通話有99%的可能是通過FPGA進(jìn)行的。有了5G,F(xiàn)PGA的影響會更大。

隨著數(shù)據(jù)中心加速(主要是針對AI工作負(fù)載)這一新興市場的快速擴(kuò)展,這一現(xiàn)象引起了人們的興趣。據(jù)估計(jì),人工智能加速市場將在未來幾年中飛速發(fā)展,因而這三家供應(yīng)商都將以其令人印象深刻的性價(jià)比和更高的能效來爭奪這些設(shè)備的大部分市場份額,并聲稱他們提供的解決方案可以一直延伸到邊緣/端側(cè)。這些供應(yīng)商中的每一個(gè)都非常清楚地意識到占領(lǐng)這些AI加速卡插槽是當(dāng)務(wù)之急,并且他們都圍繞這個(gè)想法設(shè)計(jì)了新芯片。

讓我們看看所有這些因素吧?

從底層工藝技術(shù)來看,Xilinx和Achronix FPGA系列在基于TSMC 7nm而設(shè)計(jì),而Intel Agilex則采用了性能相近的Intel 10nm工藝。不要被7/10命名差異所迷惑。不要被7/10的命名法差異所混淆。我們很早以前就曾指出,半導(dǎo)體行業(yè)的營銷團(tuán)體根據(jù)市場上聽起來不錯(cuò)的東西來命名節(jié)點(diǎn),而不是從晶體管本身的任何可識別的特征中推導(dǎo)出它們。據(jù)我們估計(jì),TSMC的7nm和Intel10nm是大致相當(dāng)?shù)墓に嚕褂眠@兩種工藝的廠商基本一致。這意味著英特爾在工藝技術(shù)方面長期保持的領(lǐng)先地位似乎已經(jīng)消失,不過,當(dāng)我們接近摩爾定律的瓶頸時(shí),硅加工領(lǐng)域的競爭升級是不可避免的。

當(dāng)推進(jìn)到最新的半導(dǎo)體工藝節(jié)點(diǎn),這三個(gè)供應(yīng)商都獲得了適度的推動。然而這種推進(jìn)已不可能達(dá)到摩爾定律的歷史標(biāo)準(zhǔn),因?yàn)樵谶^去幾個(gè)工藝節(jié)點(diǎn)的新流程更新所帶來的收益增量一直在穩(wěn)步下降。每個(gè)人從FinFET技術(shù)問世中都獲得了一次臨時(shí)性的推動,現(xiàn)在,隨著摩爾定律即將在經(jīng)濟(jì)層面上終結(jié),我們可能會發(fā)現(xiàn)邊際收益遞減趨勢將一直延續(xù)。

在過去,隨著晶體管尺寸的減小,每個(gè)新工藝節(jié)點(diǎn)都讓晶體管的密度大量提升,并獲得更好的性能和更低的功耗。現(xiàn)在,供應(yīng)商必須在這三者之間進(jìn)行權(quán)衡,并且即使在他們偏愛的指標(biāo)上,通常也只能得到較小的回報(bào)。同時(shí),轉(zhuǎn)移到新工藝節(jié)點(diǎn)的non-recurring費(fèi)用繼續(xù)呈指數(shù)級增長。這意味著FPGA公司所承擔(dān)的風(fēng)險(xiǎn)急劇上升,這是因?yàn)闉榱吮3指偁幜?,他們需要不斷投資才能獲取不斷減少的收益。這也意味著我們正在進(jìn)入一個(gè)新時(shí)代,F(xiàn)PGA本身的架構(gòu)和功能、FPGA工具以及這三家公司的營銷策略將成為影響收益的關(guān)鍵因素,而不是誰將率先使用新的制程工藝。

考慮到工藝技術(shù)實(shí)際上是一種洗禮,讓我們看一下每個(gè)供應(yīng)商產(chǎn)品的功能和特性。從最基本的FPGA功能– LUT結(jié)構(gòu)開始。我們經(jīng)常感嘆每個(gè)公司對LUT的計(jì)算都不一樣,而且這個(gè)游戲每一代都變得更加復(fù)雜。Xilinx和Achronix當(dāng)前使用的是6輸入LUT,而Intel的ALM本質(zhì)上是8輸入LUT。廠商或多或少地同意我們可以使用2.2 LUT4s per LUT6,,和2.99 LUT4s per LUT8將不同的LUT轉(zhuǎn)換為等價(jià)的4輸入LUT。

根據(jù)這方法一計(jì)算,Achronix Speedster 7T系列包括從363K到2.6M LUT6(相當(dāng)于800K到5.76M的等效LUT4)領(lǐng)先業(yè)界,Intel Agilex系列包括132K到912K 的ALM(相當(dāng)于395K到2.7M的等效LUT4),Xilinx的Versal系列產(chǎn)品包含了約246K到984K CLB(可換算成541K到2.2M的等效LUT4)。每個(gè)供應(yīng)商都聲稱自己的體系結(jié)構(gòu)優(yōu)越,著重強(qiáng)調(diào)了可以提高某些特定應(yīng)用或配置中的邏輯密度,性能或可布線性的設(shè)計(jì)功能。目前,我們尚不清楚任何供應(yīng)商的LUT是否明顯優(yōu)于其他任何供應(yīng)商的LUT。

但是,F(xiàn)PGA可用資源不僅取決于LUT的數(shù)量。還必須考慮以下挑戰(zhàn):被有效使用LUT的百分比(我們將在稍后討論設(shè)計(jì)工具時(shí)進(jìn)行討論),以及集成到邏輯模塊中的強(qiáng)化功能的數(shù)量,這些功能允許以最小的方式實(shí)現(xiàn)設(shè)計(jì)功能LUT結(jié)構(gòu)的參與。根據(jù)您的設(shè)計(jì),您可能會發(fā)現(xiàn)更多內(nèi)容被塞入一個(gè)或多個(gè)FPGA中,而這些內(nèi)容和LUT數(shù)量無關(guān)。

FPGA“擅長”人工智能推理的主要原因是其可以并行完成大量的算術(shù)運(yùn)算(主要是各種精度的乘法累加),這要?dú)w功于編織在可編程邏輯結(jié)構(gòu)中的存在大量"DSP塊陣列"。這使得FPGA能夠比傳統(tǒng)的馮·諾依曼結(jié)構(gòu)的處理器更有效地執(zhí)行例如卷積等矩陣運(yùn)算。

分析對AI推理至關(guān)重要的硬件乘法器,Achronix的可變精度乘法器可實(shí)現(xiàn)41K int-8乘法或82K int-4乘法。英特爾Agilex具有2K-17K 18×19乘法器,Xilinx Versal有500-3K“DSP引擎”,大概是“ DSP58 slice”,包括27×24乘法器和新的硬件浮點(diǎn)功能。這種比較肯定是“從蘋果到橙子到芒果”,至于哪種水果更適合您的應(yīng)用,它必須是“由設(shè)計(jì)者決定的”。

現(xiàn)在,這三個(gè)供應(yīng)商都增強(qiáng)了對浮點(diǎn)乘法的支持。Achronix為他們的DSP塊提供了一個(gè)全新的架構(gòu),他們稱之為"機(jī)器學(xué)習(xí)處理器"(MLP)。每個(gè)MLP包含多達(dá)32個(gè)乘法器/累加器(MAC)、4-24位整數(shù)模式和各種浮點(diǎn)模式,可支持包括TensorFlow 的Bfloat16格式和塊浮點(diǎn)格式。最重要的是,Achronix MLP將嵌入式存儲器模塊與計(jì)算單元緊密耦合,從而使MAC操作能夠以750 MHz的頻率運(yùn)行,而等待通過FPGA組織訪問存儲器獲取數(shù)據(jù)。

英特爾還使用具有硬件浮點(diǎn)的可變精度DSP模塊(基本上就像它們已經(jīng)提供了多年的功能一樣)。英特爾的浮點(diǎn)支持也許是三者中最廣泛和最成熟的。借助Agilex,他們推出了兩種新的浮點(diǎn)模式,即半精度浮點(diǎn)(FP16)和塊浮點(diǎn)(Bfloat16),并且進(jìn)行了架構(gòu)調(diào)整,以使其DSP運(yùn)算更加高效。

Xilinx已將其以前的DSP48 Slice升級到DSP58 ——大概是因?yàn)樗鼈儸F(xiàn)在包括了硬件浮點(diǎn),并且其乘法器也升級到了27×24。因此,在這一代產(chǎn)品中,另外兩家供應(yīng)商也加入了英特爾的行列,提供支持浮點(diǎn)運(yùn)算的硬件乘法器。對于Xilinx而言,這是一個(gè)逆轉(zhuǎn)。賽靈思此前聲稱,F(xiàn)PGA中實(shí)現(xiàn)浮點(diǎn)硬件乘法器不是一個(gè)好主意,因?yàn)楦↑c(diǎn)運(yùn)算主要用于訓(xùn)練,而FPGA則主要針對推理應(yīng)用。

就可用的浮點(diǎn)格式而言,Versal(最多2.1K乘法器)和Agilex(最多8.7K乘法器)都支持FP32格式。這三個(gè)系列均支持半精度(FP16)——Versal最多可支持2.1K乘法器,Agilex最多可支持17.1K乘法器,Speedster最多可支持5.1K乘法器。Agilex(最多17.1K乘法器)和Speedster(最多5.1K個(gè))支持Bfloat16。對于FP24格式浮點(diǎn)乘法,Versal和Agilex可能會使用FP32單元,而Speedster則具有高達(dá)2.6K的乘法器。Achronix Speedster還支持多達(dá)81.9K的塊浮點(diǎn)乘法器。

Xilinx還帶來了一種新的軟件可編程矢量處理器——高達(dá)400個(gè)1GHz+VLIW-SIMD矢量處理核心陣列,具有增強(qiáng)計(jì)算和緊密耦合的內(nèi)存。這為并行化復(fù)雜的向量運(yùn)算并利用FPGA豐富的計(jì)算資源提供了更為簡單的編程模型??傮w而言,是在Xilinx的“kitchen sink”競爭策略上選中了“GPU /推理引擎”。稍后我們將詳細(xì)討論這一點(diǎn)。

英特爾對Achronix MLP和Xilinx矢量處理器的回應(yīng)是老派的演變。他們指出,Agilex DSP模塊實(shí)現(xiàn)了與其他供應(yīng)商的新DSP功能相同的功能??梢岳靡呀⒉⒊浞掷斫獾腇PGA設(shè)計(jì)開發(fā)流程,并且不需要客戶在器件的各個(gè)體系結(jié)構(gòu)中去劃分他們的設(shè)計(jì)。如果您的團(tuán)隊(duì)具有FPGA/RTL設(shè)計(jì)專業(yè)知識,這是一件好事。但如果你的應(yīng)用需要由軟件工程師來開發(fā)DSP,Xilinx的軟件可編程方法可能有優(yōu)勢。

除了簡單地計(jì)算乘數(shù)外,我們還可以通過查看供應(yīng)商關(guān)于理論性能的聲明來比較這些能力。但有一點(diǎn)需要注意,這些說法被嚴(yán)重夸大了,而且很難精確定義。供應(yīng)商通常通過將芯片上的乘法器數(shù)目乘以這些乘法器的最大工作頻率來得出一個(gè)數(shù),得出一個(gè)"最多XX TOPS或TFLOPS"的數(shù)字。顯然,現(xiàn)實(shí)世界中的設(shè)計(jì)不會使用到100%的乘法器,沒有任何一個(gè)設(shè)計(jì)能夠達(dá)到這些乘法器的最大理論時(shí)鐘速率,也沒有一個(gè)設(shè)計(jì)能夠以適當(dāng)?shù)乃俾食掷m(xù)為這些乘法器提供輸入數(shù)據(jù),并且這些乘法運(yùn)算的精度因供應(yīng)商而異。

如果必須估算的話,我們可以說FPGA在實(shí)際設(shè)計(jì)中可以實(shí)際達(dá)到其理論最大值的50-90%。這要比GPU更好,后者被認(rèn)為在現(xiàn)實(shí)世界中只能達(dá)到其理論最大值的10-20%。

在推測INT8操作的TOPS數(shù)量時(shí),如果我們將其矢量處理器中的133個(gè)TOPS包含在內(nèi),則Xilinx Versal以大約171個(gè)TOPS位居榜首。12個(gè)來自其DSP塊,26個(gè)來自其邏輯結(jié)構(gòu)。Speedster緊隨其后,有大約86個(gè)TOPS,其中61個(gè)來自他們的MLP模塊,25個(gè)來自他們的邏輯結(jié)構(gòu)。Agilexint8操作最大值為92個(gè)TOPS,其中51個(gè)來自DSP塊,41個(gè)來自邏輯結(jié)構(gòu)。從Bfloat16格式的TFLOPS來看,Agilex以40個(gè)領(lǐng)先,Versal以9個(gè)緊隨其后,Speedster以8個(gè)墊底。Speedster在塊浮點(diǎn)操作上上獲得了很大的優(yōu)勢,但是,它有123個(gè)TFLOPS,其次是Agilex的41個(gè)和Versal的15個(gè)。

這些數(shù)字均來自公司自己的數(shù)據(jù)表。正如我們所提到的,它們是理論上的最大值,在實(shí)際的實(shí)際應(yīng)用中是不可能達(dá)到的。Achronix宣稱的“可用性”具有一定的價(jià)值,因?yàn)樗鼈兊腗LP是獨(dú)特的設(shè)計(jì),旨在將可變精度乘法運(yùn)算維持在模塊本身內(nèi)進(jìn)行,并以最大時(shí)鐘速率運(yùn)行,而無需數(shù)據(jù)往返于邏輯結(jié)構(gòu)即可完成AI推理中最常見的操作。同樣,Xilinx的矢量處理器體系結(jié)構(gòu)應(yīng)能很好地保持?jǐn)?shù)據(jù)平穩(wěn)地流經(jīng)算術(shù)單元。也就是說,我們還沒有看到基準(zhǔn)或參考設(shè)計(jì)以任何有意義的方式來證明這些公司的聲稱。

當(dāng)然,要使用所有這些LUT和乘法器,就需要讓您的設(shè)計(jì)實(shí)際布局和布線并滿足所選芯片的時(shí)序要求。隨著FPGA的發(fā)展,這已成為越來越困難的挑戰(zhàn)。單比他網(wǎng)絡(luò)和邏輯路徑通過有限的路由資源分布在巨大芯片上,這使傳統(tǒng)的時(shí)序收斂逐漸變成一場噩夢。用于在同步設(shè)計(jì)上實(shí)現(xiàn)時(shí)序收斂的常規(guī)技術(shù)均遇到了障礙,無法擴(kuò)展。Xilinx和Achronix都通過添加覆蓋傳統(tǒng)邏輯和路由結(jié)構(gòu)的片上網(wǎng)絡(luò)(NoC)在新一代FPGA中解決了這一問題。NoC從本質(zhì)上改變了游戲規(guī)則,因?yàn)檎麄€(gè)芯片不再需要在一個(gè)巨大的魔術(shù)般的融合中實(shí)現(xiàn)時(shí)序收斂?,F(xiàn)在,較小的同步塊可以通過NoC傳遞數(shù)據(jù),減輕了傳統(tǒng)路由結(jié)構(gòu)的負(fù)擔(dān),并將巨大的設(shè)計(jì)自動化工具需要解決的問題分解為更小、更易于管理的問題。

幾代以前,英特爾已經(jīng)采取了另一種方法來解決這一問題——用稱為“ HyperFlex寄存器”的大量微寄存器鋪平到整個(gè)邏輯結(jié)構(gòu)。這些寄存器允許對更長、更復(fù)雜的邏輯路徑進(jìn)行重新定時(shí)和流水線處理,從而使整個(gè)設(shè)計(jì)實(shí)質(zhì)上變得異步。有趣的是,這也是Xilinx和Achronix使用的NoC的效果。每種方法都面臨挑戰(zhàn),因?yàn)檫@兩種方法都會給芯片設(shè)計(jì)和我們使用的設(shè)計(jì)工具增加大量復(fù)雜性。據(jù)報(bào)道,在英特爾的案例中HyperFlex寄存器對邏輯架構(gòu)可以實(shí)現(xiàn)的整體速度也有一些負(fù)面影響。英特爾表示,Agilex FPGA中的HyperFlex體系結(jié)構(gòu)是第二代,并且與上一代HyperFlex體系結(jié)構(gòu)相比具有改進(jìn)和增強(qiáng),可以提高性能并簡化時(shí)序收斂。在Agilex取得進(jìn)展之后,我們將不得不拭目以待觀察用戶使用后的反應(yīng)。

在采用NoC進(jìn)行路由的兩家供應(yīng)商,Xilinx和Achronix中,Achronix聲稱通過其二維跨芯片AXI實(shí)現(xiàn)實(shí)現(xiàn)了最快的NoC。在這一NoC中的每一行或每一列都實(shí)現(xiàn)為兩個(gè)工作在2 GHz的256位單向AXI通道,也就是在每個(gè)方向上可以支持512 Gbps的數(shù)據(jù)流量。Speedster的NoC共有197個(gè)節(jié)點(diǎn),最終形成27 Tbps的總帶寬,減輕了FPGA傳統(tǒng)按位進(jìn)行路由的資源負(fù)擔(dān)。據(jù)我們所知,Xilinx的Versal NoC性能尚未發(fā)布,但是大約有28個(gè)節(jié)點(diǎn),我們猜測大約是總帶寬是1.5 Tbps。

好吧,本周我們的墨水用完了,但下周我們將繼續(xù)進(jìn)行下去——看看這些FPGA系列帶來的迷人而靈活的存儲器架構(gòu),每個(gè)系列的獨(dú)特封裝和定制功能,瘋狂的SerDes IO功能,嵌入式處理子系統(tǒng),設(shè)計(jì)工具流程等。

*點(diǎn)擊文末閱讀原文,可閱讀英文原文。

*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第2125期內(nèi)容,歡迎關(guān)注。

半導(dǎo)體行業(yè)觀察

半導(dǎo)體第一垂直媒體

實(shí)時(shí) 專業(yè) 原創(chuàng) 深度

識別二維碼,回復(fù)下方關(guān)鍵詞,閱讀更多

AI|晶圓|臺積電|射頻|華為|集成電路|TWS耳機(jī)|小米

回復(fù) 投稿,看《如何成為“半導(dǎo)體行業(yè)觀察”的一員 》

回復(fù) 搜索,還能輕松找到其他你感興趣的文章!

英文原文

!

鮮花

握手

雷人

路過

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系作者刪除!