文｜白鴿

編｜王一粟

一則新聞又開炸AI圈。

最新消息顯示，美國BIS執(zhí)法部門宣布加強對海外AI芯片的出口管制措施，其中有對中國國產(chǎn)算力芯片不利的條款。

關(guān)稅剛剛達成初步協(xié)議，轉(zhuǎn)頭就加強科技管控。根據(jù)路透社報道，美國參議員上周五提出一項新法案，要求對出口受限的人工智能芯片實施位置驗證機制，旨在阻止中國獲得先進半導(dǎo)體技術(shù)。

這項名為《芯片安全法案》的提案將給與美國商務(wù)部授權(quán)，要求出口受控的AI芯片及其集成產(chǎn)品配備位置追蹤系統(tǒng)，以監(jiān)測這些產(chǎn)品是否被轉(zhuǎn)移、走私或用于未經(jīng)授權(quán)的用途。

不過，后續(xù)BIS又更改了口徑，對中國AI芯片的限制又從某一款單獨的AI芯片擴大到其他所有先進計算芯片。

至此，幻想需要被徹底放棄了：在AI這個未來科技的勝負手上，將會是一場沒有終點的長跑比賽。

而想坐在談判桌上，必須擁有籌碼：自主創(chuàng)新的科技實力。

大模型推理，超節(jié)點需要解決“三高一低”

超節(jié)點是AI浪潮中，算力架構(gòu)的一次重大創(chuàng)新。這個概念雖然源自英偉達，但中國廠商卻做了更多顛覆式的創(chuàng)新。

創(chuàng)新源于改變。

邁入2025年，AI大模型推理的需求更加旺盛，對算力提出了更多要求。如果僅僅是通過算力的堆疊，并不能夠滿足推理需求。

當(dāng)前行業(yè)面臨著“三高一低”挑戰(zhàn)——即如何實現(xiàn)更高的算力利用率、更高的算力可用度、更高的吞吐率以及更低的處理時延。

事實上，DeepSeek低價質(zhì)優(yōu)的背后，就是通過使用MoE架構(gòu)，保證模型容量的前提下降低計算成本。

MoE架構(gòu)是一種通過動態(tài)組合多個子模型（專家）來提升模型性能的大規(guī)模機器學(xué)習(xí)框架，其核心特點是稀疏激活機制，即在用戶輸入問題時，僅激活與輸入數(shù)據(jù)最相關(guān)的專家進行思考回答，生成最終結(jié)果。

如DeepSeek-R1的參數(shù)量是671B，但因為采用稀疏架構(gòu)，實際上每次只激活其中32B的參數(shù)，加上DeepSeek的思維鏈優(yōu)化等技術(shù)，就可以實現(xiàn)近似于ChatGPT-4o和o1的推理能力。

而傳統(tǒng)的Dense架構(gòu)則是全科天才需要處理所有問題，雖然能力強大，但是當(dāng)問題變多時就會顯得效率十分低下，而且其消耗的資源也遠超“普通專家”。

但是，MoE模型通過門控網(wǎng)絡(luò)動態(tài)選擇激活的專家，這就導(dǎo)致不同GPU節(jié)點間需要頻繁交換數(shù)據(jù)（如專家參數(shù)、中間計算結(jié)果），而傳統(tǒng)的點對點通信模式（如單機8卡互聯(lián)）在MoE訓(xùn)練中容易因通信帶寬不足或延遲過高導(dǎo)致GPU資源閑置。

而想要解決這一問題，超節(jié)點技術(shù)似乎成為了當(dāng)前的最優(yōu)解。

一般來說，構(gòu)建一個超大規(guī)模的GPU集群，往往有兩種方式，一種是通過增加單節(jié)點的資源數(shù)量，向上擴展，即Scale Up，在每臺服務(wù)器中多塞幾塊GPU，一個服務(wù)器成為一個節(jié)點；另一種Scale Out是通過網(wǎng)絡(luò)將多臺服務(wù)器（節(jié)點）連接起來。

而當(dāng)這些設(shè)備處于同一個HBD（High Bandwidth Domain，超帶寬域）的時候，英偉達對這種以超大帶寬互聯(lián)16卡以上GPU-GPU的Scale Up系統(tǒng)，稱為超節(jié)點。

那為什么說，超節(jié)點是解決MoE架構(gòu)通信問題的最優(yōu)解？

背后原因在于，超節(jié)點作為Scale Up的當(dāng)前最優(yōu)解，通過內(nèi)部高速總線互連，能夠有效支撐并行計算任務(wù)，加速GPU之間的參數(shù)交換和數(shù)據(jù)同步，縮短大模型的訓(xùn)練周期。

近期，華為云正式發(fā)布了CloudMatrix 384超節(jié)點，其在性能倍增的同時，也進行了技術(shù)創(chuàng)新，包括對MoE親和、以網(wǎng)強算、以存強算、長穩(wěn)可靠、朝推夜訓(xùn)、即開即用等6大方面。

其中，華為云CloudMatrix 384超節(jié)點通過超高帶寬Scale-Up網(wǎng)絡(luò)實現(xiàn)從“傳統(tǒng)以太網(wǎng)”向“共享總線網(wǎng)絡(luò)”演進，用對等架構(gòu)替代傳統(tǒng)以CPU為中心的主從架構(gòu)，將資源互聯(lián)帶寬提升了10倍以上，實現(xiàn)CPU、NPU、內(nèi)存等多樣資源全對等連接。

這背后核心技術(shù)就是華為云創(chuàng)新的以網(wǎng)強算MatrixLink服務(wù)，其是將單層網(wǎng)絡(luò)升級為兩層高速網(wǎng)絡(luò)：一層是超節(jié)點內(nèi)部的ScaleUp總線網(wǎng)絡(luò)，確保超節(jié)點內(nèi)384卡全對等高速無阻塞互聯(lián)，卡間超大帶寬2.8TB，納秒級時延，另一層則是跨超節(jié)點間的ScaleOut網(wǎng)絡(luò)，可支持微秒級時延，資源彈性擴展，最大支持128k組網(wǎng)規(guī)模。

“基于全局拓撲感知的智能調(diào)度算法，對于流量沖突，可規(guī)劃最佳流量路徑，確保無阻塞交換。同時，可支持光模塊故障的快速識別、隔離與流量快速調(diào)度，保障客戶任務(wù)長穩(wěn)運行?！比A為云副總裁黃瑾說道。

具體來說，傳統(tǒng)單機最多帶8個專家，類似一個小辦公室只能坐8人，而MoE需要成百上千專家，超節(jié)點則可以把多個機柜計算卡連成“超級辦公室”，專家數(shù)量隨需求擴展，可支持千億參數(shù)大模型。

而針對MoE模型里專家可能“冷熱不均”：有的專家被頻繁調(diào)用，有的閑置情況。華為昇騰AI云服務(wù)利用超節(jié)點和動態(tài)資源分配機制相結(jié)合，使算力利用率平均提高了50%，能夠充分滿足AI業(yè)務(wù)的高并發(fā)與彈性需求特性。

事實上，除底層硬件層面網(wǎng)絡(luò)帶寬的創(chuàng)新外，華為昇騰AI云服務(wù)此次升級的分布式推理平臺，也能夠基于對MoE架構(gòu)天然的親和推理能力，提高集群的吞吐性能。

經(jīng)過實測，硅基流動在基于華為昇騰AI云服務(wù)打造的超節(jié)點算力服務(wù)集群上，其計算吞吐量已經(jīng)超越業(yè)界最好GPU的集群吞吐性能，單卡可以達到1920Token/秒。

另外，在DeepSeek推理模型里面，由于其對專家模型的動態(tài)選擇能力，也需要進行Prefill（大模型推理的首個階段）和Decode（大模型推理輸入-輸出結(jié)果的過程）負載配比，通過動態(tài)的均衡和自動負載均衡，來實現(xiàn)整個系統(tǒng)最佳推理的吞吐。

通過超節(jié)點，華為昇騰AI云服務(wù)不僅優(yōu)化了訓(xùn)練與推理效率，還降低了硬件成本，也成為支撐MoE模型從實驗室走向工業(yè)落地的關(guān)鍵。

大模型落地，算力調(diào)度既要靈活、又要高效

相比于大模型預(yù)訓(xùn)練的集中式調(diào)度，“大量的AI推理應(yīng)用，往往是短時間、短期間的潮汐式應(yīng)用?！敝袊娦糯竽Ｐ褪紫瘜＜?、大模型團隊負責(zé)人劉敬謙此前曾說道。

如某電商平臺在大促期間，大模型客服推理算力需求瞬時可提升500%，這就需要在分鐘級內(nèi)完成跨集群資源調(diào)度。

因此，推理的算力部署要靠近用戶，保證算力延時要在5-10毫秒范圍內(nèi)的同時，還要能夠支持算力資源的高效靈活調(diào)度，才能夠滿足潮汐式應(yīng)用需求。

這里有兩個關(guān)鍵詞，一個是算力充足，一個是靈活高效。

要想算力充足，不光是砸錢買英偉達的卡這么簡單，就算OpenAI這樣的新貴也不能放肆揮霍。這就需要從幾個維度去想辦法：

提升單體架構(gòu)的算力
把多元化的算力都用起來，CPU、NPU、GPU、內(nèi)存一起上

超節(jié)點就完美地同時解決了這倆問題。

就像上面提到，超節(jié)點是從架構(gòu)上的設(shè)計，提升了單體架構(gòu)的算力。比如，華為云的CloudMatrix 384超節(jié)點基于高帶寬互聯(lián)技術(shù)，在一臺服務(wù)器中集成了384張算力卡。同時，通過分布式擎天架構(gòu)實現(xiàn)CPU、NPU、GPU、內(nèi)存等多樣資源統(tǒng)一抽象、池化，突破單體算力瓶頸，使算力規(guī)模提升50倍，達300PFlops。

事實上，在傳統(tǒng)的方案中，因為顯存和算力綁定，往往客戶為了獲取更多的內(nèi)存，就必須大規(guī)模購買NPU，造成NPU算力資源的極大浪費。

基于此，華為云推出了業(yè)界首創(chuàng)的EMS彈性內(nèi)存存儲，通過內(nèi)存池化技術(shù)，一方面可以支持以存強算，即用EMS替代NPU中的顯存，緩存并復(fù)用歷史KV計算結(jié)果，可以使首Token時延降低，有場景可降低到80%。

另一方面，當(dāng)NPU的顯存不足時，往往企業(yè)會通過購買更多NPU的方式進行擴容，但通過EMS的分布式內(nèi)存存儲，基于將內(nèi)存虛擬化的技術(shù)，就可以補充顯存空間，減少企業(yè)購買NPU的數(shù)量。

此外，“EMS還支持算力卸載，即將原來需要在NPU中進行的KV計算卸載到CPU和EMS中，從而使得系統(tǒng)吞吐量提升100%?！秉S瑾如此說道。

當(dāng)前，做超節(jié)點方案的廠商并不少，但華為云CloudMatrix 384超節(jié)點有一些自有的特點，比如在節(jié)點間重要的通信上，華為就用了光通信，而非業(yè)界主流的銅纜電互聯(lián)。

通信起家的華為，比英偉達在通信上更有話語權(quán)。它能做到更高的卡間互聯(lián)帶寬、更高的擴展性、更低的延遲和功耗，為大模型訓(xùn)練、科學(xué)計算等高性能計算場景提供了強大支撐。

經(jīng)實測，華為云數(shù)據(jù)顯示，基于華為云的CloudMatrix 384超節(jié)點的軟硬件協(xié)調(diào)，在一個超節(jié)點上通過高效網(wǎng)絡(luò)互聯(lián)技術(shù)，MFU（Model Flops Utilization，模型浮點運算利用率）可實現(xiàn)高達55%的利用率，同時還能夠保證超節(jié)點萬卡集群上，萬億模型訓(xùn)練超40天不中斷。

底層的算力資源池已經(jīng)有了，而想要高效靈活地調(diào)度這些資源池，則離不開云服務(wù)體系。

一方面，華為昇騰AI云服務(wù)通過瑤光智慧云腦，可提供NPU、GPU、CPU、內(nèi)存等資源按需組合，通過匹配最優(yōu)算力組合，實現(xiàn)百億到萬億級模型訓(xùn)練所需的資源。此外，還可實現(xiàn)多個大模型在一個超節(jié)點資源池內(nèi)調(diào)度，讓超節(jié)點整體資源利用率更高。

值得一提的是，此次昇騰AI云服務(wù)在資源調(diào)度上，還實現(xiàn)了容器級的Serverless技術(shù)，及卡級別的Serverless技術(shù)，能夠?qū)崿F(xiàn)卡級別和容器級別的資源調(diào)度，使資源利用率提升50%以上。

所謂Serverless通常指無服務(wù)器架構(gòu)，用戶不需要管理服務(wù)器，平臺自動處理基礎(chǔ)設(shè)施。而容器級的Serverless是指基于容器技術(shù)的Serverless 解決方案，如 AWS Fargate、阿里云函數(shù)計算支持容器等。

一般在大模型的部署應(yīng)用中，可以將大模型封裝為容器鏡像，并通過 Serverless 容器實現(xiàn)彈性推理，這樣就可以在低負載時僅保留1個實例維持熱啟動，節(jié)省資源，在峰值時秒級擴容多個實例，分攤推理壓力。

如某客服大模型使用Serverless容器后，推理成本降低30%，并發(fā)處理能力提升5倍；某電商促銷活動中，容器級Serverless平臺在10秒內(nèi)擴容2000個容器實例，處理峰值達10萬QPS的商品推薦請求。

在行業(yè)人士看來，容器級Serverless技術(shù)通過 “去基礎(chǔ)設(shè)施化” 重構(gòu)了應(yīng)用部署模式，讓容器技術(shù)從 “需要專業(yè)團隊運維的重資產(chǎn)” 變?yōu)?“即開即用的算力資源”。

同時，未來在云服務(wù)體系中，容器級Serverless也將向 “全域算力調(diào)度” 演進，實現(xiàn)中心云、邊緣節(jié)點、端設(shè)備的容器實例統(tǒng)一管理，推動 “算力即服務(wù)（CaaS）” 的終極形態(tài)，即用戶無需關(guān)心算力在哪里、如何運行，只需按需獲取容器化的計算能力。

可以看到，容器Serverless技術(shù)進一步降低了企業(yè)用算力的門檻，尤其對中小企業(yè)而言，用上大模型將更加容易。

有了充足的底層算力資源，還能夠靈活高效的進行調(diào)配，但對于很多企業(yè)來說，還是希望能夠更充分的進行算力的利用，避免算力出現(xiàn)閑置問題。

為了解決企業(yè)的顧慮，華為云還創(chuàng)新地推出了朝推夜訓(xùn)模式，即通過訓(xùn)推共池和靈活調(diào)度，白天進行模型推理，晚上閑時進行模型訓(xùn)練，大幅提升超節(jié)點算力資源利用率。

其核心原理在于將訓(xùn)練推理作業(yè)共用一個專屬資源池,支撐提前劃分訓(xùn)練、推理邏輯子池，通過邏輯子池動態(tài)配合調(diào)整，實現(xiàn)訓(xùn)推資源時分復(fù)用，節(jié)點在訓(xùn)練和推理任務(wù)間切換<5分鐘。

從底層算力資源的擴張，到以云服務(wù)的形式對算力資源進行靈活調(diào)配，再到充分保證企業(yè)對算力資源的利用率，可以看到，華為云正在構(gòu)建全方位體系化的AI算力供給能力。

而面向未來，除了對算力資源的調(diào)配和利用之外，如何保證算力資源更加穩(wěn)定的供給，也將成為關(guān)鍵。

日新月異的大模型，更需要一朵穩(wěn)定的云

“我們一年花費在云端算力上的費用，大概十幾億元。”Momenta創(chuàng)始人曹旭東曾透露。

智能駕駛的數(shù)據(jù)量非常龐大，且對數(shù)據(jù)的實時性要求非常高，畢竟這涉及到駕駛安全問題。而隨著端到端大模型的上車，對算力資源的需求更加龐大。

但端側(cè)的算力供給，遠遠不能夠達到智能駕駛的需求，基于云-邊-端的混合架構(gòu)，則成為了智能駕駛算力應(yīng)用最常見的方式。而這背后，對算力服務(wù)支持的穩(wěn)定性和可靠性也就要求更加嚴格。

這就需要算力服務(wù)商，具備對大模型故障的強感知能力。

華為云最近把這種感知能力提升到了一個新標(biāo)準——針對超大規(guī)模集群的故障感知提出了1-3-10標(biāo)準。即不管是千卡集群，還是萬卡集群，亦或是10萬卡集群，華為昇騰AI云服務(wù)能夠?qū)崿F(xiàn)1分鐘感知故障、3分鐘故障定界、10分鐘故障恢復(fù)。

能做到如此快速的故障恢復(fù)，源于背后昇騰云腦的最新升級，其可實現(xiàn)全棧故障感知、診斷與快速自動恢復(fù)。

其中，在故障感知方面，通過靜默故障感知技術(shù)和算法，主動探測硬件進行功能或性能測試，根據(jù)測試結(jié)果及時發(fā)現(xiàn)并隔離性能衰減的“慢節(jié)點”，基于變化趨勢，預(yù)測硬件的潛在故障風(fēng)險，提前進行隔離或更換。硬件故障感知率從40%提升至90%。

同時，昇騰云腦的全棧故障知識庫已經(jīng)覆蓋95%常見場景，可一鍵故障診斷準確率可達到80%，大大縮短網(wǎng)絡(luò)故障診斷時效。配合 “三層快恢技術(shù)” ，實現(xiàn)萬卡集群故障10分鐘恢復(fù)的效果。

通過昇騰云腦，華為云則能夠快速感知故障并進行修復(fù)，能夠保證大模型長期穩(wěn)定地運行。

事實上，除了汽車行業(yè)外，許多其他行業(yè)的人也都能感受到：“大模型的發(fā)展太快了?！?/strong>

今年春節(jié)期間，DeepSeek第一次爆火，距今過去100多天，而在此期間，各種更新迭代的大模型產(chǎn)品、Agent智能體產(chǎn)品，更是日新月異。

然而，相比于日新月異的大模型，作為底層基礎(chǔ)設(shè)施，數(shù)據(jù)中心交付周期卻相對比較漫長，從立項到建設(shè)完成，往往至少需要一年半載的時間，而此時大模型早已經(jīng)更新迭代好幾批了，芯片也早就不是最新的。

也正因此，在中國智算中心建設(shè)周期中，有很多小型智算集群和數(shù)據(jù)中心，建完就出現(xiàn)閑置，原因就在于其已經(jīng)不能夠滿足當(dāng)下最新大模型的算力需求了。

那么，在日新月異的大模型更新迭代背景之下，國內(nèi)大模型企業(yè)想要能夠使用最新的算力基礎(chǔ)設(shè)施，云的方式則成為了最優(yōu)解，且對于行業(yè)用戶而言，用云的性價比遠遠大于自建數(shù)據(jù)中心。

一方面，數(shù)據(jù)中心建設(shè)成本高，自建費時費力，且芯片更新?lián)Q代快，自建IDC將會大大增加企業(yè)的建設(shè)成本；另外，數(shù)據(jù)中心的運維難度高，整體架構(gòu)更復(fù)雜，涉及到更多運維工具。

另外，更為重要的一點是，數(shù)據(jù)中心非常容易出現(xiàn)問題，導(dǎo)致各種故障，如果沒有積累深厚的系統(tǒng)化運維能力，很難實現(xiàn)數(shù)據(jù)中心的長穩(wěn)智能運維。

畢竟，運維一個數(shù)據(jù)中心的時間長達10-15年，在漫長的運維過程中如何保障數(shù)據(jù)中心的可靠運行是每個基礎(chǔ)設(shè)施管理者首要的責(zé)任。

反觀中國的云廠商，無論在軟硬件技術(shù)上，幾乎都是全球頂流的水平了。

比如華為云，僅在中國就已經(jīng)完成了全國三大云核心樞紐布局，即貴州貴安、內(nèi)蒙古烏蘭察布、安徽蕪湖，具備3大樞紐DC，百TB帶寬互聯(lián)，萬公里光纖骨干網(wǎng)，覆蓋19大城市圈。

目前，這三大數(shù)據(jù)中心均已上線了超節(jié)點，“在全國主要的流量城市中，基本上在10毫秒內(nèi)就可以訪問到這個超節(jié)點?！秉S瑾說道，現(xiàn)在企業(yè)想要申請使用，分鐘級就可以開通。

當(dāng)然，在龐大的數(shù)據(jù)中心運維中，華為云也形成了體系化的能力，幫助超節(jié)點長穩(wěn)智能地運維，能更好地幫助客戶的業(yè)務(wù)穩(wěn)定高效地運行。

綜合來看，中國AI產(chǎn)業(yè)的基礎(chǔ)設(shè)施已經(jīng)絕對擁有了軟硬件自主創(chuàng)新的能力，這種內(nèi)循環(huán)的能力，會讓我們變得更加強大。

無端的科技戰(zhàn)，并不能夠阻擋中國AI產(chǎn)業(yè)的崛起，反而是成為了一種催化劑，讓主動擁抱國產(chǎn)算力的企業(yè)和機構(gòu)變得更多。

一朵更加穩(wěn)定的云，才能夠為AI大模型走向落地，提供更加穩(wěn)定的國產(chǎn)AI算力支持，幫助中國AI走得更高更遠。

未來，面向智能世界，華為云將致力于做好行業(yè)數(shù)字化的“云底座”和“使能器”，加速千行萬業(yè)智能化。

本文來自投稿，不代表增長黑客立場，如若轉(zhuǎn)載，請注明出處：http://m.gptmaths.com/cgo/135056.html

芯片管制升級，國產(chǎn)AI還得靠國產(chǎn)云

大模型推理，超節(jié)點需要解決“三高一低”

大模型落地，算力調(diào)度既要靈活、又要高效

日新月異的大模型，更需要一朵穩(wěn)定的云

關(guān)于作者

光錐智能

發(fā)表回復(fù)

芯片管制升級，國產(chǎn)AI還得靠國產(chǎn)云

大模型推理，超節(jié)點需要解決“三高一低”

大模型落地，算力調(diào)度既要靈活、又要高效

日新月異的大模型，更需要一朵穩(wěn)定的云

關(guān)于作者

光錐智能

增長黑客Growthhk.cn薦讀更多>>

競逐AI Agent時代

留給元夢之星的時間不多了

一場比拼財力的三國殺之解讀運營商搏擊5G

銷量銷額10倍增長，MOVA業(yè)績猛增創(chuàng)紅利

拼多多，不想再造“多多買菜”

“無社交不營銷”，品牌如何用社交營銷4步法撬動千萬聲量

發(fā)表回復(fù)

芯片管制升級，國產(chǎn)AI還得靠國產(chǎn)云

大模型落地，算力調(diào)度既要靈活、又要高效

日新月異的大模型，更需要一朵穩(wěn)定的云

銷量銷額10倍增長，MOVA業(yè)績猛增創(chuàng)紅利

拼多多，不想再造“多多買菜”

“無社交不營銷”，品牌如何用社交營銷4步法撬動千萬聲量