圖片來源:unsplash 從2009年阿里云寫下飛天第一行代碼,迄今已過去十五年,經(jīng)歷了互聯(lián)網(wǎng)企業(yè)騰飛和傳統(tǒng)企業(yè)深入數(shù)字化轉(zhuǎn)型的兩次云計算浪潮之后,眼下我們已經(jīng)進(jìn)入第三次浪潮:云與AI融合的新階段。如同潮涌,AI的出現(xiàn)并不是顛覆前兩次的產(chǎn)業(yè)邏輯,而是前期在云上的技術(shù)積累會在AI基礎(chǔ)設(shè)施階段加速釋放平臺價值。 下一個十五年,不難預(yù)期:云將是AI的后盾與燃料庫。 這一點在網(wǎng)絡(luò)的發(fā)展歷程中也有跡可循。2000年前后,國內(nèi)互聯(lián)網(wǎng)剛興起不久,是由運營商提供網(wǎng)絡(luò)基礎(chǔ)設(shè)施,人們的需求只是發(fā)發(fā)郵件、買買東西;當(dāng)云計算與大數(shù)據(jù)到來,網(wǎng)絡(luò)進(jìn)入SDN時代,支撐網(wǎng)絡(luò)游戲、直播、算法推薦的興起;現(xiàn)在我們正經(jīng)歷AI智算時代,智能駕駛、LLM訓(xùn)練推理等,對網(wǎng)絡(luò)的要求與過去更是截然不同。 如何能夠匹配AI時代下超大規(guī)模算力需求,讓性能極致發(fā)揮?阿里云已經(jīng)有了答案。 為匹配AI時代的網(wǎng)絡(luò)要求,阿里云去年研發(fā)出大規(guī)模集群架構(gòu)HPN7.0,支持萬卡集群式計算。據(jù)今年云棲大會最新公布,HPN7.0讓模型端到端訓(xùn)練性能提升10%以上,目前它實行前后端網(wǎng)絡(luò)分離技術(shù),前端400G網(wǎng)絡(luò)帶寬提供高速存儲訪問和節(jié)點通信;后端3.2T GPU互聯(lián)網(wǎng)絡(luò),可滿足大規(guī)模AI計算需求。 實際上,阿里云早在2021年就在研究第一代萬卡集群HPN6.0,當(dāng)時主要滿足自動駕駛客戶對視覺模型訓(xùn)練的需求,彼時大模型還沒有如此普及。此外,阿里云2022年10月在業(yè)內(nèi)最早提出MaaS模型即服務(wù)理念,并引領(lǐng)了理念潮流。這些均表明,阿里云在AI底層和中間層AI infrastructure(簡稱“AI Infra”)方面一直保持著前瞻性思考與布局。 在云與AI密不可分的時代,超前布局讓阿里云快速贏得了大量新的企業(yè)客戶,像智能駕駛、具身智能機器人等與云廠商有共創(chuàng)能力的創(chuàng)新者。AI Infra競爭也將掀起新一輪行業(yè)變革。 加法與減法的對碰智能的遷躍在新能源汽車上表現(xiàn)尤為明顯,其對智能基礎(chǔ)設(shè)施的需求也更強烈。 在9月19日杭州云棲大會上,駕駛號稱“全球首款A(yù)I汽車”P7+參會的小鵬汽車董事長何小鵬預(yù)測,端到端大模型對自動駕駛領(lǐng)域的價值在于,未來可以讓每一個人在每一個城市都像老司機那樣開車。 小鵬汽車董事長何小鵬 在常規(guī)理念中,代碼富集意味著功能強大,但通過端到端(End-to-End)的神經(jīng)網(wǎng)絡(luò)代碼建立了感知—決策—執(zhí)行一體化,把這三步驟集合在同一個大模型中去做,徹底改變了過去的串聯(lián)式架構(gòu)。實際效果是:端到端“繞開”了地圖數(shù)據(jù),可根據(jù)攝像頭、傳感器實時采集的圖像數(shù)據(jù),直接生成車輛的加速、轉(zhuǎn)向、剎車信號,讓汽車反應(yīng)更順滑。 在此背景下,代碼將進(jìn)一步縮減。以特斯拉FSD v12.5.1版本為例,原本30多萬行的C++代碼砍到只剩下3000行。但與此同時,馬斯克從英偉達(dá)手里又團購了35萬張顯卡,以支持更快的數(shù)據(jù)處理。算力做加法,這也是讓前端能逐漸變得更加簡潔的基礎(chǔ)前提。 過去兩年,小鵬汽車也一直在加碼算力,其與阿里云共建的智算中心的算力儲備擴張超4倍至2.51Eflops,以前需要一周完成的自動駕駛大模型訓(xùn)練,如今通過智算中心可以縮短到用一小時完成。為加速端到端大模型、提升自動駕駛的上限,何小鵬表示將繼續(xù)深化與阿里云的AI算力合作,預(yù)計每年投入35億元用于研發(fā),其中7億元劃撥給算力訓(xùn)練,并加速端到端大模型的落地。 小鵬汽車從2015年在阿里云開戶,2019年車聯(lián)網(wǎng)研發(fā)上云,到2022年與阿里云在烏蘭察布建成自動駕駛智算中心,再到自主研發(fā)的“全域大語言模型”X-GPT與阿里云通義千問的融合,全面智能化升級車載助理;此外,小鵬汽車還積極擁抱阿里云通義萬相,并在研發(fā)領(lǐng)域引入通義靈碼,實現(xiàn)代碼評審效率的大幅提升……這家車企現(xiàn)已All in AI,在制造、車聯(lián)網(wǎng)、自動駕駛、智能座艙、官網(wǎng)數(shù)字營銷多個領(lǐng)域與阿里云資源深度綁定。 另一家車企吉利也在智駕的路上飛奔,其與阿里云已合作9年之久,通過采用混合云架構(gòu),線下專有云部署1000臺服務(wù)器+20P存儲、線上7萬核公共云ECS+28P存儲。在智能駕駛場景,吉利使用了飛天專有云、標(biāo)桿算力平臺PAI靈駿+OSS+大數(shù)據(jù)+數(shù)據(jù)庫;智能座艙則通過阿里云的EGS+DeepGPU加速引擎,將吉利自研大模型推理上云,加速效果提升40%,并調(diào)用通義大模型API接口。同時它借助通義萬相VL功能,支持智能座艙艙外識物,利用通義千問Plus,支持客戶情感閑聊。 圖片來源:unsplash 據(jù)行業(yè)內(nèi)測算,傳統(tǒng)燃油車有大約3萬個零部件、整車芯片大約有500顆;而新能源AI汽車的零件只有不到2萬個,芯片量卻達(dá)5500顆左右。一加一減之間,汽車的交互方式與生產(chǎn)邏輯已被改變,對專有芯片、大規(guī)模算力集群和云原生數(shù)據(jù)庫的依賴進(jìn)一步增強。 據(jù)最新消息,英偉達(dá)廣泛覆蓋汽車領(lǐng)域的NVIDIA DRIVE Orin系統(tǒng)級芯片,已實現(xiàn)與阿里云通義千問多模態(tài)大模型Qwen2-VL的深度適配,并應(yīng)用于斑馬智行的智能座艙場景中。大模型接入汽車座艙,拓展人機交互邊界,已成趨勢。 “萬卡時代”的全棧創(chuàng)新大模型雖火,但并不算成熟。市面上的大模型幾乎每天都會因各種錯誤造成訓(xùn)練中斷,而訓(xùn)練時效對業(yè)務(wù)創(chuàng)新具有決定性意義,訓(xùn)練太慢、總是中斷,創(chuàng)新效率就難以提升。人們往往添加更多的GPU來增強訓(xùn)練時效。像Meta訓(xùn)練Llama模型時用的是1.6萬卡算力集群,大概每隔兩三個小時整個訓(xùn)練任務(wù)就要重新開始,回到上一個Checkpoint。 從128張卡到1024張卡,從千卡到萬卡,再到十萬卡,“萬卡堆疊”在理論上看似簡單,單個GPU算力乘以GPU規(guī)模即構(gòu)成整體算力。然而在實際運行中,當(dāng)卡的規(guī)模急劇擴大時,很難再保證這種理論上的線性比,會產(chǎn)生算力“衰減”,這些都是運營難點。 這時候,網(wǎng)絡(luò)在這個集群中發(fā)揮著重要的作用,因為網(wǎng)絡(luò)在“梯度同步”過程中需要時間,且需大量數(shù)據(jù)交換,這個時間長短直接決定了GPU在計算過程中的等待時間,導(dǎo)致傳統(tǒng)網(wǎng)絡(luò)集群不再適用于AI計算。 對此,上面提到的阿里云HPN7.0高性能網(wǎng)絡(luò)架構(gòu)提出了一個創(chuàng)新性設(shè)計,它采用單層千卡、兩層萬卡、存算分離的架構(gòu),專門為AI計算所設(shè)計,支持十萬卡集群。兩層網(wǎng)絡(luò)不僅減少了時延,還簡化了網(wǎng)絡(luò)連接的數(shù)量和拓?fù)?,從而找到了最?yōu)解。 阿里云過往長期積累的規(guī)模優(yōu)勢也正支撐著新一輪技術(shù)優(yōu)勢——此次云棲大會上最新發(fā)布的 Qwen2.5–72B 性能超越 Llama 3.1 405B,同時模型算力成本再次下降,通義千問三款主力模型最高降幅 85%。AI基礎(chǔ)設(shè)施必然會更強大,不僅要走得好,也要走得起,由此才能推動更多創(chuàng)新,在這一方向上阿里云也在加速。 在阿里云CTO周靖人看來,AI技術(shù)變革觸達(dá)了計算機體系的方方面面,需要對全棧進(jìn)行全方位的創(chuàng)新。不僅是網(wǎng)絡(luò),還包括服務(wù)器、存儲、數(shù)據(jù)處理、模型訓(xùn)練和推理平臺的技術(shù)架構(gòu)體系,都需要圍繞AI做全面升級,“阿里云正在圍繞AI時代,樹立一個AI基礎(chǔ)設(shè)施的新標(biāo)準(zhǔn)?!?br> 阿里云CTO周靖人 阿里巴巴集團CEO、阿里云智能集團董事長兼CEO吳泳銘在云棲大會上分享,過去一年阿里云投資新建了大量的AI算力,但還是遠(yuǎn)遠(yuǎn)不能滿足客戶的旺盛需求。這更堅定了阿里云未來的投資力度。 具體看,在服務(wù)器端,阿里云最新上線的磐久AI服務(wù)器支持單機16卡GPU、共享顯存1.5TB,并提供基于AI算法的GPU故障預(yù)測,準(zhǔn)確率達(dá)92%。AI時代將從CPU核心過渡到以GPU為主的計算實例,需要支持全球各地的異構(gòu)芯片,面對比CPU時代更多的架構(gòu)創(chuàng)新,磐久服務(wù)器就是專為AI深度優(yōu)化,在芯片的快速適配、散熱上做了優(yōu)化處理。 在存儲上,阿里云CPFS文件存儲在經(jīng)歷過去一年發(fā)展已變成一項全托管服務(wù),免去客戶運維工作。它目前擴容到了每秒高達(dá)20TB的帶寬,在設(shè)計上采用了存儲的梯度架構(gòu),可把熱度最高的數(shù)據(jù)放在延遲最低的存儲上。其中CPFS與統(tǒng)一存儲數(shù)據(jù)湖OSS之間的數(shù)據(jù)傳輸速度達(dá)到每秒100GB。這些設(shè)計都是為AI智算設(shè)計。 以上包括磐久AI服務(wù)器、HPN網(wǎng)絡(luò)、CPFS存儲,再加上容器服務(wù)ACS,一起構(gòu)成了阿里云AI算力平臺靈駿,在AI Infra層面打造出一個更適合GPU計算和AI模型訓(xùn)練的基礎(chǔ)設(shè)施。阿里云與復(fù)旦大學(xué)共建的云上智算平臺CFFF、與小鵬汽車在烏蘭察布共建的自動駕駛智算中心,都屬于靈駿的產(chǎn)業(yè)端應(yīng)用。 目前,以AI開發(fā)和應(yīng)用落地的全棧能力可以通過PAI和阿里云百煉這兩個平臺對外落地。在云棲大會上,兩者均有新的服務(wù)升級發(fā)布:PAI模型訓(xùn)練全面提升了穩(wěn)定性,千卡規(guī)模集群故障分鐘級自動發(fā)現(xiàn),覆蓋故障達(dá)98.6%;百煉2.0專屬版本在云棲大會上發(fā)布,專門針對政企客戶做了使用優(yōu)化。 正是由于以上種種創(chuàng)新使得通用大模型及基礎(chǔ)算力迎來多輪降價,降低了企業(yè)AI開發(fā)成本,對于各行業(yè)AI滲透率的提升至關(guān)重要。 回顧早期云計算,因托管層級的不同被分為IaaS、PaaS、SaaS層?,F(xiàn)在這個架構(gòu)因AI向上延伸至MaaS開源,向下延伸到芯片層、異構(gòu)算力。AI不僅拓展了云的邊界,也激勵云再做一次物理級別的全棧升級變革。如今,真正到了檢驗云廠商創(chuàng)新能力的時候。 下一個十五年, “AI+云”的基礎(chǔ)設(shè)施之上,新的浪潮奔涌而來。 中國云計算風(fēng)雨十五載,我們以云計算三次浪潮為主線,以三篇稿件系統(tǒng)復(fù)盤并思考產(chǎn)業(yè)與云計算交融的過去、當(dāng)下與未來。 前文回顧: 系列之一《回看十五年,云計算的底色》 系列之二《回看十五年,傳統(tǒng)企業(yè)上云潮》 (本文首發(fā)于鈦媒體APP) |
19款電子扎帶
電路板識別電子標(biāo)簽