芯片管制升級,國產(chǎn)AI還得靠國產(chǎn)云

芯片管制升級,國產(chǎn)AI還得靠國產(chǎn)云

文|白 鴿

編|王一粟

一則新聞又開炸AI圈。

最新消息顯示,美國BIS執(zhí)法部門宣布加強對海外AI芯片的出口管制措施,其中有對中國國產(chǎn)算力芯片不利的條款。

關(guān)稅剛剛達成初步協(xié)議,轉(zhuǎn)頭就加強科技管控。根據(jù)路透社報道,美國參議員上周五提出一項新法案,要求對出口受限的人工智能芯片實施位置驗證機制,旨在阻止中國獲得先進半導(dǎo)體技術(shù)。

這項名為《芯片安全法案》的提案將給與美國商務(wù)部授權(quán),要求出口受控的AI芯片及其集成產(chǎn)品配備位置追蹤系統(tǒng),以監(jiān)測這些產(chǎn)品是否被轉(zhuǎn)移、走私或用于未經(jīng)授權(quán)的用途。

不過,后續(xù)BIS又更改了口徑,對中國AI芯片的限制又從某一款單獨的AI芯片擴大到其他所有先進計算芯片。

至此,幻想需要被徹底放棄了:在AI這個未來科技的勝負手上,將會是一場沒有終點的長跑比賽。

而想坐在談判桌上,必須擁有籌碼:自主創(chuàng)新的科技實力。

大模型推理,超節(jié)點需要解決“三高一低”

超節(jié)點是AI浪潮中,算力架構(gòu)的一次重大創(chuàng)新。這個概念雖然源自英偉達,但中國廠商卻做了更多顛覆式的創(chuàng)新。

創(chuàng)新源于改變。

邁入2025年,AI大模型推理的需求更加旺盛,對算力提出了更多要求。如果僅僅是通過算力的堆疊,并不能夠滿足推理需求。

當(dāng)前行業(yè)面臨著“三高一低”挑戰(zhàn)——即如何實現(xiàn)更高的算力利用率、更高的算力可用度、更高的吞吐率以及更低的處理時延。

事實上,DeepSeek低價質(zhì)優(yōu)的背后,就是通過使用MoE架構(gòu),保證模型容量的前提下降低計算成本。

MoE架構(gòu)是一種通過動態(tài)組合多個子模型(專家)來提升模型性能的大規(guī)模機器學(xué)習(xí)框架,其核心特點是稀疏激活機制,即在用戶輸入問題時,僅激活與輸入數(shù)據(jù)最相關(guān)的專家進行思考回答,生成最終結(jié)果。

如DeepSeek-R1的參數(shù)量是671B,但因為采用稀疏架構(gòu),實際上每次只激活其中32B的參數(shù),加上DeepSeek的思維鏈優(yōu)化等技術(shù),就可以實現(xiàn)近似于ChatGPT-4o和o1的推理能力。

而傳統(tǒng)的Dense架構(gòu)則是全科天才需要處理所有問題,雖然能力強大,但是當(dāng)問題變多時就會顯得效率十分低下,而且其消耗的資源也遠超“普通專家”。

但是,MoE模型通過門控網(wǎng)絡(luò)動態(tài)選擇激活的專家,這就導(dǎo)致不同GPU節(jié)點間需要頻繁交換數(shù)據(jù)(如專家參數(shù)、中間計算結(jié)果),而傳統(tǒng)的點對點通信模式(如單機8卡互聯(lián))在MoE訓(xùn)練中容易因通信帶寬不足或延遲過高導(dǎo)致GPU資源閑置。

而想要解決這一問題,超節(jié)點技術(shù)似乎成為了當(dāng)前的最優(yōu)解。

一般來說,構(gòu)建一個超大規(guī)模的GPU集群,往往有兩種方式,一種是通過增加單節(jié)點的資源數(shù)量,向上擴展,即Scale Up,在每臺服務(wù)器中多塞幾塊GPU,一個服務(wù)器成為一個節(jié)點;另一種Scale Out是通過網(wǎng)絡(luò)將多臺服務(wù)器(節(jié)點)連接起來。

芯片管制升級,國產(chǎn)AI還得靠國產(chǎn)云

而當(dāng)這些設(shè)備處于同一個HBD(High Bandwidth Domain,超帶寬域)的時候,英偉達對這種以超大帶寬互聯(lián)16卡以上GPU-GPU的Scale Up系統(tǒng),稱為超節(jié)點。

那為什么說,超節(jié)點是解決MoE架構(gòu)通信問題的最優(yōu)解?

背后原因在于,超節(jié)點作為Scale Up的當(dāng)前最優(yōu)解,通過內(nèi)部高速總線互連,能夠有效支撐并行計算任務(wù),加速GPU之間的參數(shù)交換和數(shù)據(jù)同步,縮短大模型的訓(xùn)練周期。

近期,華為云正式發(fā)布了CloudMatrix 384超節(jié)點,其在性能倍增的同時,也進行了技術(shù)創(chuàng)新,包括對MoE親和、以網(wǎng)強算、以存強算、長穩(wěn)可靠、朝推夜訓(xùn)、即開即用等6大方面。

芯片管制升級,國產(chǎn)AI還得靠國產(chǎn)云

其中,華為云CloudMatrix 384超節(jié)點通過超高帶寬Scale-Up網(wǎng)絡(luò)實現(xiàn)從“傳統(tǒng)以太網(wǎng)”向“共享總線網(wǎng)絡(luò)”演進,用對等架構(gòu)替代傳統(tǒng)以CPU為中心的主從架構(gòu),將資源互聯(lián)帶寬提升了10倍以上,實現(xiàn)CPU、NPU、內(nèi)存等多樣資源全對等連接。

這背后核心技術(shù)就是華為云創(chuàng)新的以網(wǎng)強算MatrixLink服務(wù),其是將單層網(wǎng)絡(luò)升級為兩層高速網(wǎng)絡(luò):一層是超節(jié)點內(nèi)部的ScaleUp總線網(wǎng)絡(luò),確保超節(jié)點內(nèi)384卡全對等高速無阻塞互聯(lián),卡間超大帶寬2.8TB,納秒級時延,另一層則是跨超節(jié)點間的ScaleOut網(wǎng)絡(luò),可支持微秒級時延,資源彈性擴展,最大支持128k組網(wǎng)規(guī)模。

“基于全局拓撲感知的智能調(diào)度算法,對于流量沖突,可規(guī)劃最佳流量路徑,確保無阻塞交換。同時,可支持光模塊故障的快速識別、隔離與流量快速調(diào)度,保障客戶任務(wù)長穩(wěn)運行?!比A為云副總裁黃瑾說道。

具體來說,傳統(tǒng)單機最多帶8個專家,類似一個小辦公室只能坐8人,而MoE需要成百上千專家,超節(jié)點則可以把多個機柜計算卡連成“超級辦公室”,專家數(shù)量隨需求擴展,可支持千億參數(shù)大模型。

而針對MoE模型里專家可能“冷熱不均”:有的專家被頻繁調(diào)用,有的閑置情況。華為昇騰AI云服務(wù)利用超節(jié)點和動態(tài)資源分配機制相結(jié)合,使算力利用率平均提高了50%,能夠充分滿足AI業(yè)務(wù)的高并發(fā)與彈性需求特性。

事實上,除底層硬件層面網(wǎng)絡(luò)帶寬的創(chuàng)新外,華為昇騰AI云服務(wù)此次升級的分布式推理平臺,也能夠基于對MoE架構(gòu)天然的親和推理能力,提高集群的吞吐性能。

經(jīng)過實測,硅基流動在基于華為昇騰AI云服務(wù)打造的超節(jié)點算力服務(wù)集群上,其計算吞吐量已經(jīng)超越業(yè)界最好GPU的集群吞吐性能,單卡可以達到1920Token/秒。

芯片管制升級,國產(chǎn)AI還得靠國產(chǎn)云

另外,在DeepSeek推理模型里面,由于其對專家模型的動態(tài)選擇能力,也需要進行Prefill(大模型推理的首個階段)和Decode(大模型推理輸入-輸出結(jié)果的過程)負載配比,通過動態(tài)的均衡和自動負載均衡,來實現(xiàn)整個系統(tǒng)最佳推理的吞吐。

通過超節(jié)點,華為昇騰AI云服務(wù)不僅優(yōu)化了訓(xùn)練與推理效率,還降低了硬件成本,也成為支撐MoE模型從實驗室走向工業(yè)落地的關(guān)鍵。

大模型落地,算力調(diào)度既要靈活、又要高效

相比于大模型預(yù)訓(xùn)練的集中式調(diào)度,“大量的AI推理應(yīng)用,往往是短時間、短期間的潮汐式應(yīng)用?!敝袊娦糯竽P褪紫瘜<?、大模型團隊負責(zé)人劉敬謙此前曾說道。

如某電商平臺在大促期間,大模型客服推理算力需求瞬時可提升500%,這就需要在分鐘級內(nèi)完成跨集群資源調(diào)度。

因此,推理的算力部署要靠近用戶,保證算力延時要在5-10毫秒范圍內(nèi)的同時,還要能夠支持算力資源的高效靈活調(diào)度,才能夠滿足潮汐式應(yīng)用需求。

這里有兩個關(guān)鍵詞,一個是算力充足,一個是靈活高效。

要想算力充足,不光是砸錢買英偉達的卡這么簡單,就算OpenAI這樣的新貴也不能放肆揮霍。這就需要從幾個維度去想辦法:

  • 提升單體架構(gòu)的算力
  • 把多元化的算力都用起來,CPU、NPU、GPU、內(nèi)存一起上

超節(jié)點就完美地同時解決了這倆問題。

就像上面提到,超節(jié)點是從架構(gòu)上的設(shè)計,提升了單體架構(gòu)的算力。比如,華為云的CloudMatrix 384超節(jié)點基于高帶寬互聯(lián)技術(shù),在一臺服務(wù)器中集成了384張算力卡。同時,通過分布式擎天架構(gòu)實現(xiàn)CPU、NPU、GPU、內(nèi)存等多樣資源統(tǒng)一抽象、池化,突破單體算力瓶頸,使算力規(guī)模提升50倍,達300PFlops。

事實上,在傳統(tǒng)的方案中,因為顯存和算力綁定,往往客戶為了獲取更多的內(nèi)存,就必須大規(guī)模購買NPU,造成NPU算力資源的極大浪費。

基于此,華為云推出了業(yè)界首創(chuàng)的EMS彈性內(nèi)存存儲,通過內(nèi)存池化技術(shù),一方面可以支持以存強算,即用EMS替代NPU中的顯存,緩存并復(fù)用歷史KV計算結(jié)果,可以使首Token時延降低,有場景可降低到80%。

另一方面,當(dāng)NPU的顯存不足時,往往企業(yè)會通過購買更多NPU的方式進行擴容,但通過EMS的分布式內(nèi)存存儲,基于將內(nèi)存虛擬化的技術(shù),就可以補充顯存空間,減少企業(yè)購買NPU的數(shù)量。

此外,“EMS還支持算力卸載,即將原來需要在NPU中進行的KV計算卸載到CPU和EMS中,從而使得系統(tǒng)吞吐量提升100%?!秉S瑾如此說道。

當(dāng)前,做超節(jié)點方案的廠商并不少,但華為云CloudMatrix 384超節(jié)點有一些自有的特點,比如在節(jié)點間重要的通信上,華為就用了光通信,而非業(yè)界主流的銅纜電互聯(lián)。

通信起家的華為,比英偉達在通信上更有話語權(quán)。它能做到更高的卡間互聯(lián)帶寬、更高的擴展性、更低的延遲和功耗,為大模型訓(xùn)練、科學(xué)計算等高性能計算場景提供了強大支撐。

經(jīng)實測,華為云數(shù)據(jù)顯示,基于華為云的CloudMatrix 384超節(jié)點的軟硬件協(xié)調(diào),在一個超節(jié)點上通過高效網(wǎng)絡(luò)互聯(lián)技術(shù),MFU(Model Flops Utilization,模型浮點運算利用率)可實現(xiàn)高達55%的利用率,同時還能夠保證超節(jié)點萬卡集群上,萬億模型訓(xùn)練超40天不中斷。

底層的算力資源池已經(jīng)有了,而想要高效靈活地調(diào)度這些資源池,則離不開云服務(wù)體系。

一方面,華為昇騰AI云服務(wù)通過瑤光智慧云腦,可提供NPU、GPU、CPU、內(nèi)存等資源按需組合,通過匹配最優(yōu)算力組合,實現(xiàn)百億到萬億級模型訓(xùn)練所需的資源。此外,還可實現(xiàn)多個大模型在一個超節(jié)點資源池內(nèi)調(diào)度,讓超節(jié)點整體資源利用率更高。

值得一提的是,此次昇騰AI云服務(wù)在資源調(diào)度上,還實現(xiàn)了容器級的Serverless技術(shù),及卡級別的Serverless技術(shù),能夠?qū)崿F(xiàn)卡級別和容器級別的資源調(diào)度,使資源利用率提升50%以上。

所謂Serverless通常指無服務(wù)器架構(gòu),用戶不需要管理服務(wù)器,平臺自動處理基礎(chǔ)設(shè)施。而容器級的Serverless是指基于容器技術(shù)的Serverless 解決方案,如 AWS Fargate、阿里云函數(shù)計算支持容器等。

一般在大模型的部署應(yīng)用中,可以將大模型封裝為容器鏡像,并通過 Serverless 容器實現(xiàn)彈性推理,這樣就可以在低負載時僅保留1個實例維持熱啟動,節(jié)省資源,在峰值時秒級擴容多個實例,分攤推理壓力。

如某客服大模型使用Serverless容器后,推理成本降低30%,并發(fā)處理能力提升5倍;某電商促銷活動中,容器級Serverless平臺在10秒內(nèi)擴容2000個容器實例,處理峰值達10萬QPS的商品推薦請求。

在行業(yè)人士看來,容器級Serverless技術(shù)通過 “去基礎(chǔ)設(shè)施化” 重構(gòu)了應(yīng)用部署模式,讓容器技術(shù)從 “需要專業(yè)團隊運維的重資產(chǎn)” 變?yōu)?“即開即用的算力資源”。

同時,未來在云服務(wù)體系中,容器級Serverless也將向 “全域算力調(diào)度” 演進,實現(xiàn)中心云、邊緣節(jié)點、端設(shè)備的容器實例統(tǒng)一管理,推動 “算力即服務(wù)(CaaS)” 的終極形態(tài),即用戶無需關(guān)心算力在哪里、如何運行,只需按需獲取容器化的計算能力。

可以看到,容器Serverless技術(shù)進一步降低了企業(yè)用算力的門檻,尤其對中小企業(yè)而言,用上大模型將更加容易。

有了充足的底層算力資源,還能夠靈活高效的進行調(diào)配,但對于很多企業(yè)來說,還是希望能夠更充分的進行算力的利用,避免算力出現(xiàn)閑置問題。

為了解決企業(yè)的顧慮,華為云還創(chuàng)新地推出了朝推夜訓(xùn)模式,即通過訓(xùn)推共池和靈活調(diào)度,白天進行模型推理,晚上閑時進行模型訓(xùn)練,大幅提升超節(jié)點算力資源利用率。

其核心原理在于將訓(xùn)練推理作業(yè)共用一個專屬資源池,支撐提前劃分訓(xùn)練、推理邏輯子池,通過邏輯子池動態(tài)配合調(diào)整,實現(xiàn)訓(xùn)推資源時分復(fù)用,節(jié)點在訓(xùn)練和推理任務(wù)間切換<5分鐘。

從底層算力資源的擴張,到以云服務(wù)的形式對算力資源進行靈活調(diào)配,再到充分保證企業(yè)對算力資源的利用率,可以看到,華為云正在構(gòu)建全方位體系化的AI算力供給能力。

而面向未來,除了對算力資源的調(diào)配和利用之外,如何保證算力資源更加穩(wěn)定的供給,也將成為關(guān)鍵。

日新月異的大模型,更需要一朵穩(wěn)定的云

芯片管制升級,國產(chǎn)AI還得靠國產(chǎn)云

“我們一年花費在云端算力上的費用,大概十幾億元。”Momenta創(chuàng)始人曹旭東曾透露。

智能駕駛的數(shù)據(jù)量非常龐大,且對數(shù)據(jù)的實時性要求非常高,畢竟這涉及到駕駛安全問題。而隨著端到端大模型的上車,對算力資源的需求更加龐大。

但端側(cè)的算力供給,遠遠不能夠達到智能駕駛的需求,基于云-邊-端的混合架構(gòu),則成為了智能駕駛算力應(yīng)用最常見的方式。而這背后,對算力服務(wù)支持的穩(wěn)定性和可靠性也就要求更加嚴格。

這就需要算力服務(wù)商,具備對大模型故障的強感知能力。

華為云最近把這種感知能力提升到了一個新標(biāo)準——針對超大規(guī)模集群的故障感知提出了1-3-10標(biāo)準。即不管是千卡集群,還是萬卡集群,亦或是10萬卡集群,華為昇騰AI云服務(wù)能夠?qū)崿F(xiàn)1分鐘感知故障、3分鐘故障定界、10分鐘故障恢復(fù)。

芯片管制升級,國產(chǎn)AI還得靠國產(chǎn)云

能做到如此快速的故障恢復(fù),源于背后昇騰云腦的最新升級,其可實現(xiàn)全棧故障感知、診斷與快速自動恢復(fù)。

其中,在故障感知方面,通過靜默故障感知技術(shù)和算法,主動探測硬件進行功能或性能測試,根據(jù)測試結(jié)果及時發(fā)現(xiàn)并隔離性能衰減的“慢節(jié)點”,基于變化趨勢,預(yù)測硬件的潛在故障風(fēng)險,提前進行隔離或更換。硬件故障感知率從40%提升至90%。

同時,昇騰云腦的全棧故障知識庫已經(jīng)覆蓋95%常見場景,可一鍵故障診斷準確率可達到80%,大大縮短網(wǎng)絡(luò)故障診斷時效。配合 “三層快恢技術(shù)” ,實現(xiàn)萬卡集群故障10分鐘恢復(fù)的效果。

通過昇騰云腦,華為云則能夠快速感知故障并進行修復(fù),能夠保證大模型長期穩(wěn)定地運行。

事實上,除了汽車行業(yè)外,許多其他行業(yè)的人也都能感受到:“大模型的發(fā)展太快了?!?/strong>

今年春節(jié)期間,DeepSeek第一次爆火,距今過去100多天,而在此期間,各種更新迭代的大模型產(chǎn)品、Agent智能體產(chǎn)品,更是日新月異。

然而,相比于日新月異的大模型,作為底層基礎(chǔ)設(shè)施,數(shù)據(jù)中心交付周期卻相對比較漫長,從立項到建設(shè)完成,往往至少需要一年半載的時間,而此時大模型早已經(jīng)更新迭代好幾批了,芯片也早就不是最新的。

也正因此,在中國智算中心建設(shè)周期中,有很多小型智算集群和數(shù)據(jù)中心,建完就出現(xiàn)閑置,原因就在于其已經(jīng)不能夠滿足當(dāng)下最新大模型的算力需求了。

那么,在日新月異的大模型更新迭代背景之下,國內(nèi)大模型企業(yè)想要能夠使用最新的算力基礎(chǔ)設(shè)施,云的方式則成為了最優(yōu)解,且對于行業(yè)用戶而言,用云的性價比遠遠大于自建數(shù)據(jù)中心。

一方面,數(shù)據(jù)中心建設(shè)成本高,自建費時費力,且芯片更新?lián)Q代快,自建IDC將會大大增加企業(yè)的建設(shè)成本;另外,數(shù)據(jù)中心的運維難度高,整體架構(gòu)更復(fù)雜,涉及到更多運維工具。

另外,更為重要的一點是,數(shù)據(jù)中心非常容易出現(xiàn)問題,導(dǎo)致各種故障,如果沒有積累深厚的系統(tǒng)化運維能力,很難實現(xiàn)數(shù)據(jù)中心的長穩(wěn)智能運維。

畢竟,運維一個數(shù)據(jù)中心的時間長達10-15年,在漫長的運維過程中如何保障數(shù)據(jù)中心的可靠運行是每個基礎(chǔ)設(shè)施管理者首要的責(zé)任。

反觀中國的云廠商,無論在軟硬件技術(shù)上,幾乎都是全球頂流的水平了。

比如華為云,僅在中國就已經(jīng)完成了全國三大云核心樞紐布局,即貴州貴安、內(nèi)蒙古烏蘭察布、安徽蕪湖,具備3大樞紐DC,百TB帶寬互聯(lián),萬公里光纖骨干網(wǎng),覆蓋19大城市圈。

目前,這三大數(shù)據(jù)中心均已上線了超節(jié)點,“在全國主要的流量城市中,基本上在10毫秒內(nèi)就可以訪問到這個超節(jié)點?!秉S瑾說道,現(xiàn)在企業(yè)想要申請使用,分鐘級就可以開通。

當(dāng)然,在龐大的數(shù)據(jù)中心運維中,華為云也形成了體系化的能力,幫助超節(jié)點長穩(wěn)智能地運維,能更好地幫助客戶的業(yè)務(wù)穩(wěn)定高效地運行。

綜合來看,中國AI產(chǎn)業(yè)的基礎(chǔ)設(shè)施已經(jīng)絕對擁有了軟硬件自主創(chuàng)新的能力,這種內(nèi)循環(huán)的能力,會讓我們變得更加強大。

無端的科技戰(zhàn),并不能夠阻擋中國AI產(chǎn)業(yè)的崛起,反而是成為了一種催化劑,讓主動擁抱國產(chǎn)算力的企業(yè)和機構(gòu)變得更多。

一朵更加穩(wěn)定的云,才能夠為AI大模型走向落地,提供更加穩(wěn)定的國產(chǎn)AI算力支持,幫助中國AI走得更高更遠。

未來,面向智能世界,華為云將致力于做好行業(yè)數(shù)字化的“云底座”和“使能器”,加速千行萬業(yè)智能化。

本文來自投稿,不代表增長黑客立場,如若轉(zhuǎn)載,請注明出處:http://m.gptmaths.com/cgo/135056.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2025-05-16 20:03
下一篇 2025-05-16 20:52

增長黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評論