97国产精品一区二区视频_国产午夜毛片色哟哟_惠民福利国产91精品看黄网站在线观看_搡老熟女老女人一区二区三区_国产做a∨在线视频观看免费_日韩 综合 婷婷 图_成人黄色一级毛片片_萧山本地第一网络媒体_亚洲国产精品无码久久久曰_亚洲欧美日韩岛国色图

快捷導(dǎo)航

盤點四大主流計算芯片CPU、GPU、ASIC、FPGA誰將成為AI算力之王?

2024-12-24 07:52| 發(fā)布者: admin| 查看: 75| 評論: 0
摘要: 導(dǎo)讀從手機(jī)到電腦,從本地到云端,無處不在的算力時刻在為我們提供服務(wù),今天的生活能如此便捷,離不開這一顆顆小小的算力芯片。就此話題,我們就來深入地盤一盤當(dāng)下主流的AI算力芯片,在計算特點和功能上有何不同? ...

導(dǎo)讀

從手機(jī)到電腦,從本地到云端,無處不在的算力時刻在為我們提供服務(wù),今天的生活能如此便捷,離不開這一顆顆小小的算力芯片。就此話題,我們就來深入地盤一盤當(dāng)下主流的AI算力芯片,在計算特點和功能上有何不同?


縱觀人類歷史,從結(jié)繩計數(shù)、木制計數(shù)到巴比倫的粘土板上的刻痕,再到中國古代的算盤,社會生產(chǎn)力的提高與當(dāng)時所采用的計算工具密切相關(guān)。計算工具能力越強,就能大幅縮短人類解決復(fù)雜問題的時間,社會生產(chǎn)力水平自然就會越高。


盤點四大主流計算芯片CPU、GPU、ASIC、FPGA誰將成為AI算力之王?

回顧人類工業(yè)進(jìn)程,每一次工業(yè)革命都會推動對人們對更強計算工具的追求。第一次工業(yè)革命,查爾斯·巴貝奇提出了“分析機(jī)”的概念,雖然未能完全實現(xiàn),但奠定了機(jī)械計算設(shè)備發(fā)展的基礎(chǔ)。后來,赫爾曼·霍爾勒斯開發(fā)了一種可以執(zhí)行不同運算的機(jī)械計算器,為機(jī)械計算設(shè)備的發(fā)展注入了新的活力。第二次工業(yè)革命,電力電氣大發(fā)展為世界第一臺電子計算機(jī)的出現(xiàn)創(chuàng)造了條件,從而帶來了半個多世紀(jì)的科技大發(fā)展。

時至今日,我們?nèi)栽谙硎苡嬎銠C(jī)性能不斷提升帶來的紅利。從手機(jī)到電腦,從本地到云端,無處不在的算力時刻在為我們提供服務(wù),今天的生活能如此便捷,離不開這一顆顆小小的算力芯片。就此話題,我們就來深入地盤一盤當(dāng)下主流的AI算力芯片,在計算特點和功能上有何不同?


1

CPU——傳統(tǒng)通用計算之王


今天的我們都知道CPU是計算機(jī)的心臟,但CPU具體是怎么運行的很多人不太清楚。CPU,全稱Central Processing Unit,即中央處理器?,F(xiàn)代電子計算機(jī)的發(fā)明是基于1940年代誕生的馮·諾依曼架構(gòu),這個架構(gòu)主要由運算器(也叫邏輯運算單元,ALU)、控制器、存儲器、輸入設(shè)備、輸出設(shè)備等五個主要部分組成。

按照馮·諾依曼架構(gòu),數(shù)據(jù)來了,會先放到存儲器。然后,控制器會從存儲器拿到相應(yīng)數(shù)據(jù),再交給運算器進(jìn)行運算。運算完成后,再把結(jié)果返回到存儲器。大致的架構(gòu)如圖1所示,其中運算器和控制器兩個部分組成了CPU的主要功能。


盤點四大主流計算芯片CPU、GPU、ASIC、FPGA誰將成為AI算力之王?

圖1 馮·諾依曼架構(gòu)

上面的計算方式,從數(shù)據(jù)輸入到輸出算一個完整的處理流程,馮·諾依曼體系采用的就是串行運算方式。即一次只能進(jìn)行一項計算任務(wù),只有上一個計算指令完成了,數(shù)據(jù)存儲了,才能開啟下一個指令。

這就好比排隊進(jìn)站,只有一個進(jìn)站口和檢查口,也只允許排一條隊,如果進(jìn)站人數(shù)很多,就需要等待很長時間才能完成進(jìn)站,這就是CPU所采用的先進(jìn)先出運算模式。從個人計算機(jī)誕生起,CPU的硬件架構(gòu)到指令集都是基于串行運算模式設(shè)計,其優(yōu)勢是邏輯控制力好,即計算通用性很好,為的就是能應(yīng)付各種復(fù)雜的計算需求,在軟件對計算性能要求不高的時代,這種設(shè)計是有優(yōu)勢的。

在上世紀(jì)80年代,個人計算機(jī)主要用于簡單的電子表格和文件打印等處理,但進(jìn)入90年代,隨著互聯(lián)網(wǎng)的快速發(fā)展以及圖形視窗操作系統(tǒng)的出現(xiàn),出現(xiàn)了應(yīng)用程序開發(fā)的大爆發(fā),當(dāng)時在國內(nèi),從甩圖板、財會電算化到大型網(wǎng)絡(luò)游戲的引入,對個人計算機(jī)的應(yīng)用性能越來越高,從而給CPU的性能帶來了極大壓力。

筆者是1998年接觸個人電腦,當(dāng)時最大的感受就是“慢”,不管是打開網(wǎng)頁還是玩網(wǎng)絡(luò)游戲,頻繁出現(xiàn)卡頓。也可能是當(dāng)時的網(wǎng)吧配置低,但那時主流的電腦配置用的奔騰一,運行速度才60MHz,最高的電腦配置才奔騰二,主頻450MHz??傮w而言,在當(dāng)時CPU性能實際上已跟不上應(yīng)用軟件的發(fā)展需求。

當(dāng)初英特爾應(yīng)該也是想急于改變現(xiàn)狀,但限于制造工藝水平,想大幅提升CPU性能當(dāng)時是很困難的,直到2000年奔騰四推出,主頻達(dá)到1.5GHz,性能不足問題才有所緩解。在此之前,唯一可行的就是將計算機(jī)的圖形計算交出去,讓CPU專司應(yīng)用。

而就在此時,英偉達(dá)抓住機(jī)遇,承擔(dān)起了圖形處理任務(wù),于1999年推出業(yè)界第一款GeForce 256圖形卡,就是我們今天所說的GPU,專司圖形處理?;蛟S英特爾也不曾料到,20年后,這個曾經(jīng)替自己接下算力“邊角料”的小兄弟,早已超越自己,一騎絕塵而去。


2

GPU——高性能計算的引領(lǐng)者


GPU,英文為Graphics Processing Unit,又稱顯示核心、視覺處理器、顯示芯片。GPU核心技術(shù)包括雙重紋理四像素256位渲染引擎、立方環(huán)境材質(zhì)貼圖和頂點混合、硬件T&L(幾何轉(zhuǎn)換和光照處理)、紋理壓縮和凹凸映射貼圖。GPU是專門為處理圖形數(shù)據(jù)而創(chuàng)建和調(diào)整的處理器。

GPU除作為獨立顯卡的核心用于個人電腦,為高清視頻、大型游戲提供高質(zhì)量3D圖形渲染,基于GPU構(gòu)建的專業(yè)顯卡還配置在高端工作站上做復(fù)雜的三維設(shè)計和工程仿真。但當(dāng)前GPU最重要的應(yīng)用場景還是AI計算,支撐AI大模型的訓(xùn)練和推理。那為什么CPU不行,非GPU不可?

前面已經(jīng)講過,GPU的推出就是為了接手原本由CPU負(fù)責(zé)的圖形顯示處理工作。因而GPU架構(gòu)有其先天的計算特征,就是完全為3D圖形處理而設(shè)計,就是在CPU的控制指令下,為大量的實時的圖形圖像顯示提供計算。由于是聽候CPU安排,因此GPU的控制單元比較少,計算單元卻非常多,CPU和GPU的架構(gòu)如圖2所示。如果CPU是孤膽英雄,能獨當(dāng)一面,那么GPU就是無數(shù)的小兵,靠規(guī)模致勝。


盤點四大主流計算芯片CPU、GPU、ASIC、FPGA誰將成為AI算力之王?

圖2 CPU和GPU架構(gòu)比較

由于CPU指令相對復(fù)雜,它需要做好資源的調(diào)度和控制,支持操作系統(tǒng)的中斷處理、內(nèi)存管理、I/O處理等,運算過程需要大量的邏輯控制,因此內(nèi)部的控制單元較多,極大擠壓了計算單元數(shù)量,使計算性能受到很大限制,還需要預(yù)留空間為數(shù)據(jù)建立多級緩存;GPU運算就不需要考慮這些,也無需太多的控制單元,芯片上大部分空間都留給了計算單元,因此適合并行計算任務(wù)和大規(guī)模數(shù)據(jù)訪問,通常具有更高的帶寬和更低的延遲。

試想一下,有個計算任務(wù)需要進(jìn)行1000個加減運算,你說是一個人做快呢,還是讓1000個人每個人算一個加減運算快呢,結(jié)果很顯然。如何理解GPU所做的功?再舉個例子:

現(xiàn)在電腦顯示器的分辨率越來越高,以4K顯示器來說,分辨率就達(dá)到了3840*2160,就是829萬4400個像素點,按照RGB三色顯示,單個像素的字節(jié)位就達(dá)到了24bit,也就是顯示器刷新一次就要處理高達(dá)1.99億個bit。如果再乘以顯示器刷新率,一般高端顯示器刷新率最低也在120Hz,一秒鐘僅GPU就得處理240億個bit。

可見,僅圖形顯示處理就對計算性能要求很高。如果全部依賴CPU來處理,即使性能再強也會不堪重負(fù),并嚴(yán)重拖慢正常軟件應(yīng)用的計算效率。當(dāng)然現(xiàn)在的CPU也發(fā)展出了多核心和多線程,英特爾最新發(fā)布的至強處理器就有64核心128線程,但比起英偉達(dá)H100的18432個CUDA核心,仍然是小巫見大巫。

隨著人工智能應(yīng)用的不斷深入,為AI大模型提供訓(xùn)練和推理運算已成為當(dāng)前及未來一段時間高性能計算發(fā)展的主流。由于英偉達(dá)早在十多年前就開啟人工智能計算布局,GPU已成為各大AI應(yīng)用的首選。而CPU受限于架構(gòu)問題,在這場人工智能競爭中已經(jīng)成為協(xié)助角色,但盡管GPU風(fēng)光無限,卻仍然存在強大的競爭者,而它就是ASIC!


3

ASIC——GPU面臨最強競爭


去年12月,谷歌官宣了多模態(tài)大模型Gemini,包含了三個版本,其中Gemini Ultra版本甚至在大部分測試中完全擊敗了OpenAI的GPT-4。同時還丟出另一個重磅炸彈——TPU v5p,號稱是現(xiàn)在最強大的AI自研芯片。

TPU,全稱Tensor Processing Unit,即張量處理單元。所謂“張量(tensor)”,是一個包含多個數(shù)字(多維數(shù)組)的數(shù)學(xué)實體。目前,幾乎所有的機(jī)器學(xué)習(xí)系統(tǒng),都使用張量作為基本數(shù)據(jù)結(jié)構(gòu)。所以,張量處理單元,我們可以簡單理解為“AI處理單元”。


盤點四大主流計算芯片CPU、GPU、ASIC、FPGA誰將成為AI算力之王?

圖3 谷歌TPU

谷歌TPU就是基于ASIC專用芯片開發(fā),為了某種特定的需求而專門定制的芯片。ASIC芯片的計算能力和計算效率都可以根據(jù)算法需要進(jìn)行定制,所以ASIC與通用芯片相比,具有以下幾個方面的優(yōu)越性:體積小、功耗低、計算性能高、計算效率高、芯片出貨量越大成本越低。但ASIC芯片的算法是固定的,一旦算法變化就可能無法使用。

隨著人工智能算法不斷涌現(xiàn),ASIC專用芯片如何做到適應(yīng)各種算法是最個大問題,如果像GPU那樣,通過架構(gòu)來適應(yīng)各種算法,那ASIC專用芯片就變成了同CPU、GPU一樣的通用芯片,在性能和功耗上就沒有優(yōu)勢了。這意味著玩AISC芯片需要強大實力,包括雄厚的資金,強大的技術(shù)實力和豐富的應(yīng)用場景。

這里請注意,谷歌去年發(fā)布TPU v5p的時候,一同發(fā)布了多模態(tài)大模型Gemini,該模型在圖像、音頻、視頻和文本領(lǐng)域擁有強大的功能。與英偉達(dá)開放GPU購買策略不同,谷歌高端TPU主要供自家產(chǎn)品和服務(wù)運用,這才是關(guān)鍵。換句話說,谷歌高端TPU是基于自家多模態(tài)大模型Gemini開發(fā)的專用AI芯片,在自家的產(chǎn)品和服務(wù)上做到最優(yōu),性能表現(xiàn)絲毫不輸GPU。

公開的信息顯示,TPU v5p每個模塊有8960顆芯片,較之上代v4的4096有所提升,且每塊架構(gòu)內(nèi)的總浮點運算次數(shù)(FLOPs)增加至原來的四倍,吞吐能力達(dá)到驚人的4800Gbps。新型架構(gòu)在內(nèi)存及帶寬方面更為出色,高達(dá)95GB的高帶寬內(nèi)存(HBM)遠(yuǎn)超TPU v4的32GB。

根據(jù)官方數(shù)據(jù)顯示,谷歌的TPU v5p在訓(xùn)練大規(guī)模語言模型上性能表現(xiàn),達(dá)到了A100 GPU四倍,比起英偉達(dá)的頂配H100顯卡性能也絲毫不落下風(fēng)。當(dāng)然這只是谷歌基于自身的Gemini模型做的測試,肯定在研發(fā)階段就做了優(yōu)化和匹配。但足見TPU v5p性能之強,同時也可以說明,ASIC芯片在AI大模型應(yīng)用方面有著絲毫不輸GPU的優(yōu)勢。

截至目前,谷歌、英特爾、英偉達(dá)都相繼發(fā)布TPU、DPU等ASIC芯片,國內(nèi)ICG、寒武紀(jì)、比特大陸、地平線、阿里巴巴等也都推出了深度神經(jīng)網(wǎng)絡(luò)加速的ASIC芯片。目前GPU應(yīng)用范圍廣,市場非常成熟,但并不意味著其他的芯片就沒有機(jī)會,ASIC的發(fā)展勢頭依然很猛,正在成為GPU最強大的挑戰(zhàn)者。


4

FPGA——CPU智算的最佳伴侶


FPGA全稱是可編程邏輯門陣列,內(nèi)部結(jié)構(gòu)由大量的數(shù)字(或模擬)電路組成,可以實現(xiàn)各種功能。FPGA是ASIC的一種,只是ASIC是全定制電路芯片,F(xiàn)PGA是半定制電路芯片,它解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點。

數(shù)據(jù)計算包括兩種方式:一種是利用CPU或GPU基于指令的架構(gòu)編寫計算所需的軟件,另一種是針對特定計算需求設(shè)計制造出一套專用的電路,比如ASIC、FPGA。但不同的是,對FPGA進(jìn)行編程要使用硬件描述語言,硬件描述語言描述的邏輯可以直接被編譯為晶體管電路的組合。所以FPGA實際上直接用晶體管電路實現(xiàn)用戶的算法,沒有通過指令系統(tǒng)的翻譯。

相比于CPU 和GPU數(shù)據(jù)處理需先讀取指令和完成指令譯碼,F(xiàn)PGA不采用指令和軟件,是軟硬件合一的器件。因而計算效率更高、功耗更低,且更接近IO。


盤點四大主流計算芯片CPU、GPU、ASIC、FPGA誰將成為AI算力之王?

圖4 FPGA芯片

舉個例子,假如拿一塊主頻 3GHz的CPU和一塊主頻 200MHz的FPGA做運算,若做某個特定運算,CPU需要30個時鐘周期,F(xiàn)PGA只需一個,則耗時情況:CPU:30/3GHz =10ns;FPGA:1/200MHz =5ns。就是說,F(xiàn)PGA 做這個特定運算速度比CPU塊,能幫助加速。

除了計算效率更高,有機(jī)構(gòu)對FPGA與CPU在執(zhí)行深度學(xué)習(xí)算法時的耗能進(jìn)行了對比。在執(zhí)行一次深度學(xué)習(xí)運算,使用 CPU耗能 36 焦,而使用 FPGA只耗能10焦,取得了3.5 倍左右的節(jié)能比。通過用FPGA 加速與節(jié)能,讓深度學(xué)習(xí)實時計算更容易在移動端運行。

這就是為什么AMD和英特爾不惜重金收購FPGA廠商的原因所在。在智能計算路線布局上,AMD實際上比英特爾更完善。傳統(tǒng)CPU時代,AMD得到了英特爾X86架構(gòu)授權(quán),成為與英特爾并行而立CPU大商,而后通過收購顯卡廠商ATI入主GPU賽道,成為英偉達(dá)的最大競爭者,到2022年通過收購FPGA領(lǐng)域老大賽靈思,AMD最終完成“CPU+GPU+FPGA”的智能算力戰(zhàn)略布局。

而英特爾由于未能在GPU時競開發(fā)出能與英偉達(dá)同臺競爭的超算產(chǎn)品,只能選擇在2015年收購FPGA領(lǐng)域的老二Altera,最終形成“CPU+FPGA”的智能計算組合,雖非優(yōu)選,但的確開拓了一條新智算發(fā)展新路線。

相比CPU和GPU,F(xiàn)PGA 憑借比特級細(xì)粒度定制的結(jié)構(gòu)、流水線并行計算的能力和高效的能耗,在深度學(xué)習(xí)應(yīng)用中展現(xiàn)出獨特的優(yōu)勢,在大規(guī)模服務(wù)器部署或資源受限的嵌入式應(yīng)用方面有巨大潛力。

此外,F(xiàn)PGA 架構(gòu)靈活,使得研究者能夠在諸如GPU的固定架構(gòu)之外進(jìn)行模型優(yōu)化探究。特別是在采用FPGA后,即便芯片產(chǎn)品已經(jīng)制造出來,但依然可以對其重新編程或進(jìn)行功能升級。


5

寫在最后


從1997年IBM深藍(lán)計算機(jī)在國際象棋對弈中戰(zhàn)勝世界冠軍卡斯帕羅夫,再到2016年谷歌AlphaGo在圍棋比賽中戰(zhàn)勝李世石,包括后來將世界冠軍柯潔斬于馬下。這些年我們一次次地被人工智能展現(xiàn)出來的強大能力所震撼。特別這兩年,AI應(yīng)用的快速發(fā)展,讓我們真切地感受到人工智能時代已經(jīng)到來。但也認(rèn)識到,人工智能發(fā)展仍處于初級階段,AI應(yīng)用對算力的需求是無止盡的。

目前主流Al芯片就三類:以GPU為代表的通用芯片、以ASIC定制化為代表的專用芯片以及以FPGA為代表的半定制化芯片,其中GPU市場最為成熟且應(yīng)用最廣。但人工智能產(chǎn)業(yè)發(fā)展除了需要強大的算力,還需要更優(yōu)秀的算法和龐大的數(shù)據(jù)支撐,GPU能否在AI算力競爭中持續(xù)保持優(yōu)勢仍是未知。在我們看來,有谷歌和華為背書的ASIC,以及英特爾和AMD背書的FPGA,未來都是有很大破局機(jī)會的。

轉(zhuǎn)自公眾號:華南智能制造


鮮花

握手

雷人

路過

雞蛋

關(guān)注我們:東遠(yuǎn)物聯(lián)

抖音

微信咨詢

咨詢電話:

199-2833-9866

D-Think | 廣州東遠(yuǎn)智能科技有限公司

地址:廣州市白云區(qū)北太路1633號廣州民營科技園科創(chuàng)中心2棟16樓

電話:+86 020-87227952 Email:[email protected]

Copyright  ©2020  東遠(yuǎn)科技  粵ICP備2024254589號

免責(zé)申明:部分圖文表述來自于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系作者刪除!