日前,英偉達一下子解密了六顆芯片,引起了全球轟動。但其實早在去年年底,就有一則重磅消息在AI芯片圈炸響:推理芯片初創(chuàng)公司 Groq 宣布,已與英偉達達成一項“非獨 家許可協(xié)議”。公告只有寥寥數(shù)語,但隨之而來的信息卻迅速改變了這筆交易的分量——Groq 創(chuàng)始人兼 CEO Jonathan Ross、總裁 Sunny Madra 以及多名核心成員,將一并加入英偉達,參與授權(quán)技術(shù)的推進與規(guī)模化。
如果只看形式,這并不是一次收購;如果只看結(jié)果,它卻幾乎具備了收購的全部要素。技術(shù)被許可,團隊被吸納,關(guān)鍵人物離場,Groq 雖然名義上繼續(xù)運營,但其最 具決定性的資產(chǎn)——技術(shù)路線與靈魂人物——已然轉(zhuǎn)移。這是一種典型的“收購式招聘”,也是英偉達近年來愈發(fā)嫻熟的一種操作方式:在不觸碰監(jiān)管紅線的前提下,把潛在威脅納入自己的體系之中。
更重要的是,這一步發(fā)生在一個極其敏感的時間點。AI 芯片的競爭,正在從“訓(xùn)練為王”轉(zhuǎn)向“推理決勝”。英偉達的 GPU 依舊牢牢統(tǒng)治著訓(xùn)練市場,但在推理端,AMD、定制 ASIC、云廠商自研芯片正在快速逼近,成本與供應(yīng)鏈多元化成為大客戶最現(xiàn)實的訴求。Groq 的 LPU 正是為推理而生,主打極 致低延遲和性能確定性,其創(chuàng)始人 Jonathan Ross 更被視為谷歌 TPU 背后的關(guān)鍵推手——這不是一家可以被忽視的公司。
因此,與其說英偉達“買”下了 Groq,不如說它在競爭真正白熱化之前,提前拆掉了一段可能威脅自身根基的城梯?;乜礆v史,從 Mellanox 到未遂的 Arm,再到今天的 Groq,英偉達并非只是在擴張版圖,而是在一磚一瓦地加高自己的防御體系。英偉達在乎的,似乎已不再是某一筆交易的得失,而是如何在訓(xùn)練、推理、網(wǎng)絡(luò)、軟件與生態(tài)的多條戰(zhàn)線上,同時構(gòu)筑起一道幾乎無法繞開的“城墻”。
算力,并不是焦慮根源
英偉達與 Groq 達成交易,這件事本身的重要性,并不在于它是否會推出一款“非 GPU 的 AI 芯片”,而在于它暴露了英偉達真正的焦慮來源。今天的英偉達,幾乎已經(jīng)在訓(xùn)練算力層面取得了事實上的統(tǒng)治地位,但 AI 產(chǎn)業(yè)的重心正在悄然移動——從“誰能堆更多 FLOPS”,轉(zhuǎn)向“誰能更高效、更確定性地交付推理結(jié)果”。
Groq 的價值并不在算力規(guī)模,而在系統(tǒng)哲學。它強調(diào)確定性延遲、強調(diào)編譯器對執(zhí)行路徑的絕 對控制、強調(diào)“推理不是硬件問題,而是系統(tǒng)問題”。這套思路,與 GPU 世界中長期存在的動態(tài)調(diào)度、非確定性執(zhí)行形成鮮明對比。
Groq 的創(chuàng)始人 Jonathan Ross 是 Google 第 一代 TPU 的首席架構(gòu)師。他在 2016 年離開 Google 后,試圖打造一個比 TPU 更快、更可控的“通用 AI 處理器”。Groq 的核心技術(shù)是自研的 LPU(Language Processing Unit)架構(gòu),這種架構(gòu)拋棄了傳統(tǒng)的亂序執(zhí)行和動態(tài)調(diào)度機制,采用靜態(tài)調(diào)度、數(shù)據(jù)路徑固定、執(zhí)行流程可預(yù)測的“確定性設(shè)計”(deterministic design)。芯片內(nèi)部采用 SRAM 技術(shù),而非英偉達 GPU 依賴的片外 HBM 顯存,這讓 Groq 在某些場景下實現(xiàn)了極 致的低延遲。
Groq 最初也曾試圖進入訓(xùn)練市場,但很快發(fā)現(xiàn)這是一條死路:訓(xùn)練市場的競爭邏輯是“大生態(tài)+大資本+大客戶”。Groq 的架構(gòu)對主流 AI 框架(如 PyTorch、TensorFlow)的兼容性有限,也缺乏成熟的編譯工具鏈,使得訓(xùn)練任務(wù)的遷移成本極高。
從 2023 年下半年開始,Groq 明確轉(zhuǎn)向推理即服務(wù)(Inference-as-a-Service)方向。2024 年,Groq 展示了其系統(tǒng)運行 Llama 2-70B 模型時,實現(xiàn)每秒超過 300 個 Token 的生成速度,遠超主流 GPU 系統(tǒng)。這一優(yōu)勢讓 Groq 迅速吸引到一批對延遲敏感的垂直行業(yè)用戶,如金融交易系統(tǒng)、軍事信息處理、語音/視頻同步字幕生成。Groq 將產(chǎn)品定位從“AI 芯片”擴展為“AI 處理平臺”,通過 GroqCloud 平臺向開發(fā)者提供 API 訪問權(quán)限,與 LangChain、LlamaIndex 等生態(tài)集成。
正是這種“異類”,恰恰點中了英偉達的軟肋。隨著大模型進入規(guī)模化落地階段,越來越多客戶開始關(guān)心延遲、能效、TCO 和系統(tǒng)復(fù)雜度,而不再只是顯卡型號。推理正在走向碎片化:云廠商自研 ASIC(AWS 的 Trainium 和 Inferentia、Google TPU、Microsoft Maia)、CPU+加速器混合部署、邊緣側(cè)異構(gòu)系統(tǒng)層出不窮。如果英偉達只停留在“賣最強 GPU”,它在推理端的話語權(quán),遲早會被系統(tǒng)層慢慢侵蝕。
對于英偉達和黃仁勛而言,Groq 的意義并不是“補一塊芯片”,而是補一塊英偉達尚未完全掌控的系統(tǒng)能力:對執(zhí)行路徑的強約束、對延遲的可預(yù)測性、以及編譯器主導(dǎo)的算力使用方式。換句話說,如果說 GPU 是英偉達的地基,那么 Groq 代表的,是它試圖插入系統(tǒng)頂層的一根“控制梁”。
對“集群控制權(quán)”的長期執(zhí)念
而在與Groq達成交易之前,英偉達其實早已悄然埋下了一條新的主線。
很多人習慣從操作系統(tǒng)的角度理解算力生態(tài),認為誰控制了 Linux 發(fā)行版、誰控制了內(nèi)核,誰就掌握了計算世界的話語權(quán)。但在 AI 時代,這種邏輯已經(jīng)開始失效。英偉達對此看得非常清楚:真正重要的,不是節(jié)點上的操作系統(tǒng),而是節(jié)點之上的集群控制方式。
這正是英偉達在 2022 年 1 月收購 Bright Computing 的根本原因。當時這筆交易的金額未公開,但 Bright Computing 已完成兩輪融資,共籌集 1650 萬美元,其集群管理工具 BCM 在全球擁有超過 700 家用戶。Bright Cluster Manager 并不是一個時髦的新工具,它誕生于傳統(tǒng) HPC 世界,最初用于管理高度復(fù)雜、對穩(wěn)定性和可預(yù)測性要求極高的超級計算系統(tǒng)。正因為如此,它并不追逐某一種特定技術(shù)潮流,而是長期圍繞“如何在大規(guī)模集群中統(tǒng)一部署、監(jiān)控、修復(fù)和調(diào)度”這個核心問題演進。
BCM 最初是為管理傳統(tǒng)高性能計算(HPC)系統(tǒng)而設(shè)計的,但多年來,為了將其打造成為一款通用集群控制器,BCM 也進行了適配,以支持 Hadoop、Spark、OpenStack、Kubernetes 和 VMware ESX 等對控制要求極高的分布式系統(tǒng)。
在被英偉達收購并更名為 base Command Manager 之后,這套工具被完整納入 AI Enterprise 軟件堆棧,成為英偉達 AI 系統(tǒng)的“底層控制平面”。通過許可證模式,英偉達不再只是交付硬件,而是開始按 GPU、按年份出售“系統(tǒng)能力”——AI Enterprise 許可證包含英偉達捆綁并支持在其 GPU 加速系統(tǒng)上的庫、框架和其他工具,每個 GPU 每年的費用為 4500 美元。
這一步的意義極其關(guān)鍵:它意味著英偉達正式把“集群管理”變成了自己的商業(yè)資產(chǎn),而不是留給客戶或第三方去解決。
英偉達還設(shè)定了一個精妙的商業(yè)策略:對于每個節(jié)點包含 8 個 GPU 以內(nèi)的集群,提供免費的 BCM 許可證,但不提供任何技術(shù)支持,且“隨時可能被撤銷”。這意味著企業(yè)如果想要穩(wěn)定的生產(chǎn)環(huán)境,就必須購買 AI Enterprise 許可證。免費版本不是慷慨,而是一種“試用即綁定”的策略。
更重要的是,base Command Manager 并不是孤立存在的。在其之上,英偉達疊加了 Mission Control,用于自動部署所謂的“AI 工廠”:框架、工具、模型、容器運行環(huán)境、健康檢查和功耗優(yōu)化一體化。Mission Control 包含 Run:ai 實現(xiàn)的 Kubernetes,用于編排容器;還包含 Docker,用于在容器內(nèi)運行計算;此外,它還可以虛擬化 GPU,以提供更精細的計算粒度。Mission Control 會對系統(tǒng)進行健康檢查,并根據(jù)系統(tǒng)上運行的工作負載優(yōu)化功耗。
這套體系的目標并不是讓客戶擁有更多選擇,而是讓客戶在默認情況下就運行在英偉達定義的最 優(yōu)路徑上。
當然,這里繞不開英偉達在2024年對Run.ai的收購,Run.ai的核心價值不是又一個Kubernetes插件,而是實現(xiàn)了GPU資源的抽象化管理:多租戶、彈性調(diào)度、優(yōu)先級控制、GPU虛擬化。在Run.ai的系統(tǒng)中,一個物理GPU可以被切分成多個虛擬實例,讓不同用戶、不同任務(wù)按需使用,同時保證隔離性和性能。
為什么英偉達提前拿下了 Run:ai?因為調(diào)度權(quán)如果不在自己手里,CUDA 生態(tài)的優(yōu)勢就會被“平臺化”稀釋。云廠商可以通過調(diào)度層,讓客戶感知不到底層是誰的 GPU,甚至可以在調(diào)度中插入自研芯片作為替代選項。
但就高性能計算(HPC)和人工智能(AI)工作負載的裸機工作負載管理而言,英偉達仍然需要一款工具。事實證明,BCM 正是執(zhí)行這些健康檢查的工具,而解決問題的操作則通過 Slurm 工作負載管理器完成。
英偉達并沒有強行要求所有客戶拋棄既有體系,而是非常務(wù)實地接受了一個現(xiàn)實:在大量從 HPC 演進而來的 AI 集群中,Slurm 依然是事實標準。許多高性能計算和人工智能機構(gòu)不想學習新東西——比如 Run:ai——而是想繼續(xù)使用 Slurm。對于那些最初以高性能計算中心起家的混合型人工智能/高性能計算中心來說,這種情況可能尤為突出。
這就為下一步的關(guān)鍵收購埋下了伏筆。
開源不是放棄控制
2025 年 12 月,英偉達補上了這道墻的最后一塊磚:收購了 SchedMD,獲得了 Slurm 工作負載管理器背后的核心團隊和技術(shù)支持權(quán)。
Slurm 項目始于 2001 年,由勞倫斯·利弗莫爾國家實驗室、Linux Network(已被 SGI 收購)、惠普以及 Groupe Bull(已被 Atos 收購并成立 Eviden)合作開發(fā)。據(jù)稱,Slurm 的設(shè)計靈感來源于超級計算機互連設(shè)備制造商 Quadrics 開發(fā)的 RMS 集群資源管理器。2010 年,該項目的兩位創(chuàng)始人 Morris Jette 和 Danny Auble 創(chuàng)立了 SchedMD,旨在為 Slurm 提供技術(shù)支持,從而為工作負載管理器的進一步開發(fā)提供資金。
Slurm 最重要的優(yōu)勢在于,過去十年中,在 Top500 超級計算機排行榜上出現(xiàn)的計算機中,約有 60% 使用 Slurm 作為其工作負載管理器,而不是 IBM/Platform Computing 的負載共享工具(LSF)、Altair 的便攜式批處理系統(tǒng)(PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。所有這些工作負載管理器/作業(yè)調(diào)度器都會將一組具有特定計算能力需求的工作負載進行“俄羅斯方塊”式的調(diào)度,最終使它們按照既定的優(yōu)先級順序高效運行。
Slurm 過去十多年里成為超級計算領(lǐng)域的事實標準,并不是因為它最激進,而是因為它足夠穩(wěn)定、足夠中立,也足夠適配不斷變化的硬件環(huán)境。SchedMD 已向全球數(shù)百家 HPC 中心、云構(gòu)建商、超大規(guī)模數(shù)據(jù)中心和企業(yè)銷售了 Slurm 工作負載管理器的支持服務(wù)。過去十年,英偉達和 SchedMD 一直在合作開發(fā) Slurm。
在英偉達收購 Bright Computing 之前,BCM 支持不同的工作負載管理器,但隨著 Slurm 逐漸成為高性能計算中心乃至人工智能領(lǐng)域工作負載管理的實際標準,它被選為 Bright Cluster Manager 的默認工作負載管理器,并在過去幾年中一直是英偉達 base Command Manager 的默認工作負載管理器。
對英偉達而言,真正危險的并不是 Slurm 開源,而是如果 Slurm 的演進方向、支持能力和企業(yè)級整合權(quán)掌握在自己控制之外,那么整個 base Command Manager 和 Mission Control 體系,都會留下一個無法掌控的“底座”。
通過收購 SchedMD,英偉達并沒有否定 Slurm 的開源屬性,反而在公開表態(tài)中反復(fù)強調(diào)其“廠商中立性”。英偉達表示,它將“繼續(xù)開發(fā)和分發(fā) Slurm,使其成為開源、廠商中立的軟件,使其在各種硬件和軟件環(huán)境下都能被更廣泛的 HPC 和 AI 社區(qū)廣泛使用和支持”。
但需要看清的是:開源并不等于沒有權(quán)力結(jié)構(gòu)。誰來維護主干代碼、誰來提供企業(yè)級支持、誰來決定新特性的優(yōu)先級,這些問題,比許可證本身重要得多。
英偉達已同意為 SchedMD 的現(xiàn)有客戶提供支持,據(jù)推測,他們將通過聘用 SchedMD 的員工來實現(xiàn)這一點。但即便 Slurm 開源,也不意味著英偉達會為開源版本的代碼提供支持,或者將 Slurm 的所有未來功能都開源。英偉達擁有大量專有驅(qū)動程序、框架和算法,這個模式很可能會延續(xù)到 Slurm 身上。
英偉達顯然希望做到兩點:一方面,保持 Slurm 在 CPU、非英偉達加速器等環(huán)境中的廣泛適用性,避免引發(fā)社區(qū)反彈;另一方面,把 Slurm 的商業(yè)支持、系統(tǒng)集成和 AI 方向演進,與自己的 AI Enterprise 體系深度綁定。這是一種極其典型的“高階控制”:不通過封閉代碼來壟斷,而通過系統(tǒng)復(fù)雜度和服務(wù)整合來設(shè)立門檻。
目前尚不清楚的是,Run:ai 和 Slurm 的功能將如何與 base Command Manager 整合,從而為高性能計算(HPC)和人工智能(AI)集群提供一個自上而下的集群和工作負載管理工具——而且不僅限于 AI 集群,還要考慮到許多集群中可能存在一些僅使用 CPU 的機器以及非英偉達加速器。
如果英偉達試圖以任何方式限制它,其他人可以獲取 Slurm 代碼(該代碼以 GNU GPL v2.0 許可證提供),進行 fork 并繼續(xù)開發(fā)。但現(xiàn)實是,fork 代碼容易,建立支持能力難。當所有人都在用同一套開源工具,但只有英偉達能提供最 優(yōu)的集成方案時,開源本身就成了英偉達生態(tài)的擴展。
2024 年 10 月,英偉達停止單獨銷售 Bright Cluster Manager,而僅將其作為 AI Enterprise Stack 的一部分提供。目前尚不清楚 AI Enterprise 的價格是高于還是低于之前單獨購買 Bright Cluster Manager 的許可,也不清楚有多少客戶曾在純 CPU 系統(tǒng)或其他類型的加速器上使用過這款早期工具。但這個動作的信號意義很明確:英偉達正在把所有系統(tǒng)組件打包成一個不可分割的整體。
也正是在這里,Run:ai、Slurm 和 base Command Manager 的關(guān)系變得微妙而關(guān)鍵。前者代表云原生和容器化世界,后者代表 HPC 傳統(tǒng),而英偉達的目標,是讓這兩套體系在自己的框架內(nèi)完成融合,而不是彼此競爭。
新的城墻,已經(jīng)成型
把Groq、Bright Computing、Run:ai 和 SchedMD 放在同一條時間線上看,英偉達近幾年的收購邏輯就變得異常清晰:它正在系統(tǒng)性地收回 AI 計算體系中的“非硬件控制權(quán)”。
GPU 仍然是英偉達最鋒利的武器,但已經(jīng)不再是唯 一的壁壘。真正的新城墻,建立在三個層面之上:
第 一層:對集群資源的調(diào)度權(quán)。從 Mellanox 的網(wǎng)絡(luò)互聯(lián)技術(shù),到 Bright Computing 的集群管理,再到 SchedMD 的工作負載調(diào)度,英偉達控制了算力如何連接、如何分配、如何排隊執(zhí)行的完整鏈條。這不是簡單的硬件整合,而是把網(wǎng)絡(luò)從“外設(shè)”變成了“AI 系統(tǒng)的一部分”。
第二層:對工作負載執(zhí)行路徑的定義權(quán)。Run:ai 提供的 GPU 虛擬化和資源抽象,Mission Control 提供的自動化部署和健康檢查,Slurm 提供的作業(yè)調(diào)度——這些工具共同定義了“任務(wù)應(yīng)該怎么跑、跑在哪里、用多少資源”。當執(zhí)行路徑被英偉達定義時,即使客戶理論上可以使用其他硬件,在實踐中也會發(fā)現(xiàn)遷移成本高得難以承受。
第三層:對企業(yè)級支持與系統(tǒng)復(fù)雜度的掌控權(quán)。英偉達通過 AI Enterprise 許可證模式,把所有這些工具打包成一個商業(yè)服務(wù)??蛻糍徺I的不是單個組件,而是一整套“系統(tǒng)集成能力”。開源代碼可以 fork,但企業(yè)級支持、優(yōu)化經(jīng)驗、最 佳實踐,都掌握在英偉達手中。
一旦這三層疊加完成,客戶即便理論上“可以選擇別的硬件”,在實踐中也會發(fā)現(xiàn)遷移成本高得難以承受。
從賣芯片到賣生態(tài),英偉達的商業(yè)模式已經(jīng)發(fā)生質(zhì)變。過去的英偉達,GPU 是產(chǎn)品,賣出去就完成了交易?,F(xiàn)在的英偉達,GPU 是生態(tài)入口,是用戶進入英偉達系統(tǒng)的第 一步。收購的真實邏輯不是規(guī)模并購,而是精準補洞:在 AI 計算的完整鏈條中,哪一環(huán)還沒有被控制?
這也是為什么說,英偉達正在構(gòu)建的已經(jīng)不是傳統(tǒng)意義上的護城河,而是一座生態(tài)城墻。它不靠封鎖入口,而是通過系統(tǒng)整合,讓離開變得不再理性。在 AI 進入基礎(chǔ)設(shè)施階段之后,這種能力,或許比任何一代 GPU,都更加持久。
從 Groq 到 SchedMD,從推理架構(gòu)到工作負載管理,從硬件到系統(tǒng),英偉達用幾年時間完成了一次商業(yè)史上罕見的“生態(tài)圍城”。這座城墻的高度,已經(jīng)不是用技術(shù)指標可以衡量的,而是用遷移成本、學習曲線、生態(tài)粘性來定義的。
當所有人還在討論“誰能挑戰(zhàn)英偉達的 GPU”時,英偉達已經(jīng)在思考:如何讓“挑戰(zhàn)”這件事本身變得不再可能。


266601/14








