新京報貝殼財經(jīng)訊(記者韋博雅)5月16日,在華為云AI峰會上,華為云副總裁黃瑾表示,隨著大模型訓(xùn)練和推理對算力需求的爆炸式增長,傳統(tǒng)計算架構(gòu)已難以支撐AI技術(shù)的代際躍遷,超節(jié)點架構(gòu)的誕生不僅是技術(shù)的突破,更是以工程化創(chuàng)新開辟AI產(chǎn)業(yè)的新路徑。

黃瑾表示,AI算力的瓶頸,從單卡算力的瓶頸到單機內(nèi)總線帶寬的瓶頸,再到現(xiàn)在集群間通信帶寬的瓶頸,需求增長了1萬倍。然而過去的8年里,單卡硬件的算力增長了40倍,但是節(jié)點內(nèi)的總線帶寬只增長了9倍,跨節(jié)點的網(wǎng)絡(luò)帶寬只增長了4倍,這使得集群網(wǎng)絡(luò)通信成為當(dāng)前大模型訓(xùn)練和推理的最大挑戰(zhàn)。

黃瑾介紹,華為云推出的CloudMatrix 384超節(jié)點,直面通信效率瓶頸、內(nèi)存墻制約、可靠性短板三大技術(shù)挑戰(zhàn),通過新型高速互聯(lián)總線實現(xiàn)384張卡互聯(lián)成為一個超級云服務(wù)器,最高提供300Pflops的算力規(guī)模,比英偉達(dá)NVL72 180Pflops的算力規(guī)模提升了67%。

同時,華為云CloudMatrix 384超節(jié)點具備MoE親和、以網(wǎng)強算、以存強算、長穩(wěn)可靠、朝推夜訓(xùn)、即開即用六大技術(shù)優(yōu)勢。

在CloudMatrix 384超節(jié)點的分布式推理平臺的加持下,通過高速互聯(lián)總線,能夠?qū)崿F(xiàn)一卡一專家高效分布式推理,單卡的MoE計算和通信效率大幅提升。而MatrixLink服務(wù)具有兩層網(wǎng)絡(luò):超節(jié)點內(nèi)部的ScaleUp總線網(wǎng)絡(luò)和跨超節(jié)點間的ScaleOut網(wǎng)絡(luò),可以讓超節(jié)點內(nèi)384張高速互聯(lián),時延低至微秒。

除此之外,華為云首創(chuàng)的EMS彈性內(nèi)存存儲,通過內(nèi)存池化技術(shù),實現(xiàn)顯存和算力解綁,可大幅提升資源利用率、性能和吞吐量,比如用EMS替代NPU中的顯存,可使得首Token時延降低,最高降幅可達(dá)80%;昇騰云腦運維“1-3-10”標(biāo)準(zhǔn)還將硬件故障感知率從40%提升至90%。


編輯 岳彩周

校對 穆祥桐