日前,英偉達一下子解密了六顆芯片,引起了全球轟動。但其實早在去年年底,就有一則重磅消息在AI芯片圈炸響:推理芯片初創(chuàng)公司 Groq 宣布,已與英偉達達成一項“非獨 家許可協(xié)議”。公告只有寥寥數(shù)語,但隨之而來的信息卻迅速改變了這筆交易的分量——Groq 創(chuàng)始人兼 CEO Jonathan Ross、總裁 Sunny Madra 以及多名核心成員,將一并加入英偉達,參與授權(quán)技術(shù)的推進與規(guī)模化。
如果只看形式,這并不是一次收購;如果只看結(jié)果,它卻幾乎具備了收購的全部要素。技術(shù)被許可,團隊被吸納,關(guān)鍵人物離場,Groq 雖然名義上繼續(xù)運營,但其最 具決定性的資產(chǎn)——技術(shù)路線與靈魂人物——已然轉(zhuǎn)移。這是一種典型的“收購式招聘”,也是英偉達近年來愈發(fā)嫻熟的一種操作方式:在不觸碰監(jiān)管紅線的前提下,把潛在威脅納入自己的體系之中。
更重要的是,這一步發(fā)生在一個極其敏感的時間點。AI 芯片的競爭,正在從“訓(xùn)練為王”轉(zhuǎn)向“推理決勝”。英偉達的 GPU 依舊牢牢統(tǒng)治著訓(xùn)練市場,但在推理端,AMD、定制 ASIC、云廠商自研芯片正在快速逼近,成本與供應(yīng)鏈多元化成為大客戶最現(xiàn)實的訴求。Groq 的 LPU 正是為推理而生,主打極 致低延遲和性能確定性,其創(chuàng)始人 Jonathan Ross 更被視為谷歌 TPU 背后的關(guān)鍵推手——這不是一家可以被忽視的公司。
因此,與其說英偉達“買”下了 Groq,不如說它在競爭真正白熱化之前,提前拆掉了一段可能威脅自身根基的城梯?;乜礆v史,從 Mellanox 到未遂的 Arm,再到今天的 Groq,英偉達并非只是在擴張版圖,而是在一磚一瓦地加高自己的防御體系。英偉達在乎的,似乎已不再是某一筆交易的得失,而是如何在訓(xùn)練、推理、網(wǎng)絡(luò)、軟件與生態(tài)的多條戰(zhàn)線上,同時構(gòu)筑起一道幾乎無法繞開的“城墻”。
算力,并不是焦慮根源
英偉達與 Groq 達成交易,這件事本身的重要性,并不在于它是否會推出一款“非 GPU 的 AI 芯片”,而在于它暴露了英偉達真正的焦慮來源。今天的英偉達,幾乎已經(jīng)在訓(xùn)練算力層面取得了事實上的統(tǒng)治地位,但 AI 產(chǎn)業(yè)的重心正在悄然移動——從“誰能堆更多 FLOPS”,轉(zhuǎn)向“誰能更高效、更確定性地交付推理結(jié)果”。
Groq 的價值并不在算力規(guī)模,而在系統(tǒng)哲學(xué)。它強調(diào)確定性延遲、強調(diào)編譯器對執(zhí)行路徑的絕 對控制、強調(diào)“推理不是硬件問題,而是系統(tǒng)問題”。這套思路,與 GPU 世界中長期存在的動態(tài)調(diào)度、非確定性執(zhí)行形成鮮明對比。
Groq 的創(chuàng)始人 Jonathan Ross 是 Google 第 一代 TPU 的首席架構(gòu)師。他在 2016 年離開 Google 后,試圖打造一個比 TPU 更快、更可控的“通用 AI 處理器”。Groq 的核心技術(shù)是自研的 LPU(Language Processing Unit)架構(gòu),這種架構(gòu)拋棄了傳統(tǒng)的亂序執(zhí)行和動態(tài)調(diào)度機制,采用靜態(tài)調(diào)度、數(shù)據(jù)路徑固定、執(zhí)行流程可預(yù)測的“確定性設(shè)計”(deterministic design)。芯片內(nèi)部采用 SRAM 技術(shù),而非英偉達 GPU 依賴的片外 HBM 顯存,這讓 Groq 在某些場景下實現(xiàn)了極 致的低延遲。
Groq 最初也曾試圖進入訓(xùn)練市場,但很快發(fā)現(xiàn)這是一條死路:訓(xùn)練市場的競爭邏輯是“大生態(tài)+大資本+大客戶”。Groq 的架構(gòu)對主流 AI 框架(如 PyTorch、TensorFlow)的兼容性有限,也缺乏成熟的編譯工具鏈,使得訓(xùn)練任務(wù)的遷移成本極高。
從 2023 年下半年開始,Groq 明確轉(zhuǎn)向推理即服務(wù)(Inference-as-a-Service)方向。2024 年,Groq 展示了其系統(tǒng)運行 Llama 2-70B 模型時,實現(xiàn)每秒超過 300 個 Token 的生成速度,遠超主流 GPU 系統(tǒng)。這一優(yōu)勢讓 Groq 迅速吸引到一批對延遲敏感的垂直行業(yè)用戶,如金融交易系統(tǒng)、軍事信息處理、語音/視頻同步字幕生成。Groq 將產(chǎn)品定位從“AI 芯片”擴展為“AI 處理平臺”,通過 GroqCloud 平臺向開發(fā)者提供 API 訪問權(quán)限,與 LangChain、LlamaIndex 等生態(tài)集成。
正是這種“異類”,恰恰點中了英偉達的軟肋。隨著大模型進入規(guī)?;涞仉A段,越來越多客戶開始關(guān)心延遲、能效、TCO 和系統(tǒng)復(fù)雜度,而不再只是顯卡型號。推理正在走向碎片化:云廠商自研 ASIC(AWS 的 Trainium 和 Inferentia、Google TPU、Microsoft Maia)、CPU+加速器混合部署、邊緣側(cè)異構(gòu)系統(tǒng)層出不窮。如果英偉達只停留在“賣最強 GPU”,它在推理端的話語權(quán),遲早會被系統(tǒng)層慢慢侵蝕。
對于英偉達和黃仁勛而言,Groq 的意義并不是“補一塊芯片”,而是補一塊英偉達尚未完全掌控的系統(tǒng)能力:對執(zhí)行路徑的強約束、對延遲的可預(yù)測性、以及編譯器主導(dǎo)的算力使用方式。換句話說,如果說 GPU 是英偉達的地基,那么 Groq 代表的,是它試圖插入系統(tǒng)頂層的一根“控制梁”。
對“集群控制權(quán)”的長期執(zhí)念
而在與Groq達成交易之前,英偉達其實早已悄然埋下了一條新的主線。
很多人習(xí)慣從操作系統(tǒng)的角度理解算力生態(tài),認(rèn)為誰控制了 Linux 發(fā)行版、誰控制了內(nèi)核,誰就掌握了計算世界的話語權(quán)。但在 AI 時代,這種邏輯已經(jīng)開始失效。英偉達對此看得非常清楚:真正重要的,不是節(jié)點上的操作系統(tǒng),而是節(jié)點之上的集群控制方式。
這正是英偉達在 2022 年 1 月收購 Bright Computing 的根本原因。當(dāng)時這筆交易的金額未公開,但 Bright Computing 已完成兩輪融資,共籌集 1650 萬美元,其集群管理工具 BCM 在全球擁有超過 700 家用戶。Bright Cluster Manager 并不是一個時髦的新工具,它誕生于傳統(tǒng) HPC 世界,最初用于管理高度復(fù)雜、對穩(wěn)定性和可預(yù)測性要求極高的超級計算系統(tǒng)。正因為如此,它并不追逐某一種特定技術(shù)潮流,而是長期圍繞“如何在大規(guī)模集群中統(tǒng)一部署、監(jiān)控、修復(fù)和調(diào)度”這個核心問題演進。
BCM 最初是為管理傳統(tǒng)高性能計算(HPC)系統(tǒng)而設(shè)計的,但多年來,為了將其打造成為一款通用集群控制器,BCM 也進行了適配,以支持 Hadoop、Spark、OpenStack、Kubernetes 和 VMware ESX 等對控制要求極高的分布式系統(tǒng)。
在被英偉達收購并更名為 base Command Manager 之后,這套工具被完整納入 AI Enterprise 軟件堆棧,成為英偉達 AI 系統(tǒng)的“底層控制平面”。通過許可證模式,英偉達不再只是交付硬件,而是開始按 GPU、按年份出售“系統(tǒng)能力”——AI Enterprise 許可證包含英偉達捆綁并支持在其 GPU 加速系統(tǒng)上的庫、框架和其他工具,每個 GPU 每年的費用為 4500 美元。
這一步的意義極其關(guān)鍵:它意味著英偉達正式把“集群管理”變成了自己的商業(yè)資產(chǎn),而不是留給客戶或第三方去解決。
英偉達還設(shè)定了一個精妙的商業(yè)策略:對于每個節(jié)點包含 8 個 GPU 以內(nèi)的集群,提供免費的 BCM 許可證,但不提供任何技術(shù)支持,且“隨時可能被撤銷”。這意味著企業(yè)如果想要穩(wěn)定的生產(chǎn)環(huán)境,就必須購買 AI Enterprise 許可證。免費版本不是慷慨,而是一種“試用即綁定”的策略。
更重要的是,base Command Manager 并不是孤立存在的。在其之上,英偉達疊加了 Mission Control,用于自動部署所謂的“AI 工廠”:框架、工具、模型、容器運行環(huán)境、健康檢查和功耗優(yōu)化一體化。Mission Control 包含 Run:ai 實現(xiàn)的 Kubernetes,用于編排容器;還包含 Docker,用于在容器內(nèi)運行計算;此外,它還可以虛擬化 GPU,以提供更精細的計算粒度。Mission Control 會對系統(tǒng)進行健康檢查,并根據(jù)系統(tǒng)上運行的工作負載優(yōu)化功耗。
這套體系的目標(biāo)并不是讓客戶擁有更多選擇,而是讓客戶在默認(rèn)情況下就運行在英偉達定義的最 優(yōu)路徑上。
當(dāng)然,這里繞不開英偉達在2024年對Run.ai的收購,Run.ai的核心價值不是又一個Kubernetes插件,而是實現(xiàn)了GPU資源的抽象化管理:多租戶、彈性調(diào)度、優(yōu)先級控制、GPU虛擬化。在Run.ai的系統(tǒng)中,一個物理GPU可以被切分成多個虛擬實例,讓不同用戶、不同任務(wù)按需使用,同時保證隔離性和性能。
為什么英偉達提前拿下了 Run:ai?因為調(diào)度權(quán)如果不在自己手里,CUDA 生態(tài)的優(yōu)勢就會被“平臺化”稀釋。云廠商可以通過調(diào)度層,讓客戶感知不到底層是誰的 GPU,甚至可以在調(diào)度中插入自研芯片作為替代選項。
但就高性能計算(HPC)和人工智能(AI)工作負載的裸機工作負載管理而言,英偉達仍然需要一款工具。事實證明,BCM 正是執(zhí)行這些健康檢查的工具,而解決問題的操作則通過 Slurm 工作負載管理器完成。
英偉達并沒有強行要求所有客戶拋棄既有體系,而是非常務(wù)實地接受了一個現(xiàn)實:在大量從 HPC 演進而來的 AI 集群中,Slurm 依然是事實標(biāo)準(zhǔn)。許多高性能計算和人工智能機構(gòu)不想學(xué)習(xí)新東西——比如 Run:ai——而是想繼續(xù)使用 Slurm。對于那些最初以高性能計算中心起家的混合型人工智能/高性能計算中心來說,這種情況可能尤為突出。
這就為下一步的關(guān)鍵收購埋下了伏筆。
開源不是放棄控制
2025 年 12 月,英偉達補上了這道墻的最后一塊磚:收購了 SchedMD,獲得了 Slurm 工作負載管理器背后的核心團隊和技術(shù)支持權(quán)。
Slurm 項目始于 2001 年,由勞倫斯·利弗莫爾國家實驗室、Linux Network(已被 SGI 收購)、惠普以及 Groupe Bull(已被 Atos 收購并成立 Eviden)合作開發(fā)。據(jù)稱,Slurm 的設(shè)計靈感來源于超級計算機互連設(shè)備制造商 Quadrics 開發(fā)的 RMS 集群資源管理器。2010 年,該項目的兩位創(chuàng)始人 Morris Jette 和 Danny Auble 創(chuàng)立了 SchedMD,旨在為 Slurm 提供技術(shù)支持,從而為工作負載管理器的進一步開發(fā)提供資金。
Slurm 最重要的優(yōu)勢在于,過去十年中,在 Top500 超級計算機排行榜上出現(xiàn)的計算機中,約有 60% 使用 Slurm 作為其工作負載管理器,而不是 IBM/Platform Computing 的負載共享工具(LSF)、Altair 的便攜式批處理系統(tǒng)(PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。所有這些工作負載管理器/作業(yè)調(diào)度器都會將一組具有特定計算能力需求的工作負載進行“俄羅斯方塊”式的調(diào)度,最終使它們按照既定的優(yōu)先級順序高效運行。
Slurm 過去十多年里成為超級計算領(lǐng)域的事實標(biāo)準(zhǔn),并不是因為它最激進,而是因為它足夠穩(wěn)定、足夠中立,也足夠適配不斷變化的硬件環(huán)境。SchedMD 已向全球數(shù)百家 HPC 中心、云構(gòu)建商、超大規(guī)模數(shù)據(jù)中心和企業(yè)銷售了 Slurm 工作負載管理器的支持服務(wù)。過去十年,英偉達和 SchedMD 一直在合作開發(fā) Slurm。
在英偉達收購 Bright Computing 之前,BCM 支持不同的工作負載管理器,但隨著 Slurm 逐漸成為高性能計算中心乃至人工智能領(lǐng)域工作負載管理的實際標(biāo)準(zhǔn),它被選為 Bright Cluster Manager 的默認(rèn)工作負載管理器,并在過去幾年中一直是英偉達 base Command Manager 的默認(rèn)工作負載管理器。
對英偉達而言,真正危險的并不是 Slurm 開源,而是如果 Slurm 的演進方向、支持能力和企業(yè)級整合權(quán)掌握在自己控制之外,那么整個 base Command Manager 和 Mission Control 體系,都會留下一個無法掌控的“底座”。
通過收購 SchedMD,英偉達并沒有否定 Slurm 的開源屬性,反而在公開表態(tài)中反復(fù)強調(diào)其“廠商中立性”。英偉達表示,它將“繼續(xù)開發(fā)和分發(fā) Slurm,使其成為開源、廠商中立的軟件,使其在各種硬件和軟件環(huán)境下都能被更廣泛的 HPC 和 AI 社區(qū)廣泛使用和支持”。
但需要看清的是:開源并不等于沒有權(quán)力結(jié)構(gòu)。誰來維護主干代碼、誰來提供企業(yè)級支持、誰來決定新特性的優(yōu)先級,這些問題,比許可證本身重要得多。
英偉達已同意為 SchedMD 的現(xiàn)有客戶提供支持,據(jù)推測,他們將通過聘用 SchedMD 的員工來實現(xiàn)這一點。但即便 Slurm 開源,也不意味著英偉達會為開源版本的代碼提供支持,或者將 Slurm 的所有未來功能都開源。英偉達擁有大量專有驅(qū)動程序、框架和算法,這個模式很可能會延續(xù)到 Slurm 身上。
英偉達顯然希望做到兩點:一方面,保持 Slurm 在 CPU、非英偉達加速器等環(huán)境中的廣泛適用性,避免引發(fā)社區(qū)反彈;另一方面,把 Slurm 的商業(yè)支持、系統(tǒng)集成和 AI 方向演進,與自己的 AI Enterprise 體系深度綁定。這是一種極其典型的“高階控制”:不通過封閉代碼來壟斷,而通過系統(tǒng)復(fù)雜度和服務(wù)整合來設(shè)立門檻。
目前尚不清楚的是,Run:ai 和 Slurm 的功能將如何與 base Command Manager 整合,從而為高性能計算(HPC)和人工智能(AI)集群提供一個自上而下的集群和工作負載管理工具——而且不僅限于 AI 集群,還要考慮到許多集群中可能存在一些僅使用 CPU 的機器以及非英偉達加速器。
如果英偉達試圖以任何方式限制它,其他人可以獲取 Slurm 代碼(該代碼以 GNU GPL v2.0 許可證提供),進行 fork 并繼續(xù)開發(fā)。但現(xiàn)實是,fork 代碼容易,建立支持能力難。當(dāng)所有人都在用同一套開源工具,但只有英偉達能提供最 優(yōu)的集成方案時,開源本身就成了英偉達生態(tài)的擴展。
2024 年 10 月,英偉達停止單獨銷售 Bright Cluster Manager,而僅將其作為 AI Enterprise Stack 的一部分提供。目前尚不清楚 AI Enterprise 的價格是高于還是低于之前單獨購買 Bright Cluster Manager 的許可,也不清楚有多少客戶曾在純 CPU 系統(tǒng)或其他類型的加速器上使用過這款早期工具。但這個動作的信號意義很明確:英偉達正在把所有系統(tǒng)組件打包成一個不可分割的整體。
也正是在這里,Run:ai、Slurm 和 base Command Manager 的關(guān)系變得微妙而關(guān)鍵。前者代表云原生和容器化世界,后者代表 HPC 傳統(tǒng),而英偉達的目標(biāo),是讓這兩套體系在自己的框架內(nèi)完成融合,而不是彼此競爭。
新的城墻,已經(jīng)成型
把Groq、Bright Computing、Run:ai 和 SchedMD 放在同一條時間線上看,英偉達近幾年的收購邏輯就變得異常清晰:它正在系統(tǒng)性地收回 AI 計算體系中的“非硬件控制權(quán)”。
GPU 仍然是英偉達最鋒利的武器,但已經(jīng)不再是唯 一的壁壘。真正的新城墻,建立在三個層面之上:
第 一層:對集群資源的調(diào)度權(quán)。從 Mellanox 的網(wǎng)絡(luò)互聯(lián)技術(shù),到 Bright Computing 的集群管理,再到 SchedMD 的工作負載調(diào)度,英偉達控制了算力如何連接、如何分配、如何排隊執(zhí)行的完整鏈條。這不是簡單的硬件整合,而是把網(wǎng)絡(luò)從“外設(shè)”變成了“AI 系統(tǒng)的一部分”。
第二層:對工作負載執(zhí)行路徑的定義權(quán)。Run:ai 提供的 GPU 虛擬化和資源抽象,Mission Control 提供的自動化部署和健康檢查,Slurm 提供的作業(yè)調(diào)度——這些工具共同定義了“任務(wù)應(yīng)該怎么跑、跑在哪里、用多少資源”。當(dāng)執(zhí)行路徑被英偉達定義時,即使客戶理論上可以使用其他硬件,在實踐中也會發(fā)現(xiàn)遷移成本高得難以承受。
第三層:對企業(yè)級支持與系統(tǒng)復(fù)雜度的掌控權(quán)。英偉達通過 AI Enterprise 許可證模式,把所有這些工具打包成一個商業(yè)服務(wù)??蛻糍徺I的不是單個組件,而是一整套“系統(tǒng)集成能力”。開源代碼可以 fork,但企業(yè)級支持、優(yōu)化經(jīng)驗、最 佳實踐,都掌握在英偉達手中。
一旦這三層疊加完成,客戶即便理論上“可以選擇別的硬件”,在實踐中也會發(fā)現(xiàn)遷移成本高得難以承受。
從賣芯片到賣生態(tài),英偉達的商業(yè)模式已經(jīng)發(fā)生質(zhì)變。過去的英偉達,GPU 是產(chǎn)品,賣出去就完成了交易。現(xiàn)在的英偉達,GPU 是生態(tài)入口,是用戶進入英偉達系統(tǒng)的第 一步。收購的真實邏輯不是規(guī)模并購,而是精準(zhǔn)補洞:在 AI 計算的完整鏈條中,哪一環(huán)還沒有被控制?
這也是為什么說,英偉達正在構(gòu)建的已經(jīng)不是傳統(tǒng)意義上的護城河,而是一座生態(tài)城墻。它不靠封鎖入口,而是通過系統(tǒng)整合,讓離開變得不再理性。在 AI 進入基礎(chǔ)設(shè)施階段之后,這種能力,或許比任何一代 GPU,都更加持久。
從 Groq 到 SchedMD,從推理架構(gòu)到工作負載管理,從硬件到系統(tǒng),英偉達用幾年時間完成了一次商業(yè)史上罕見的“生態(tài)圍城”。這座城墻的高度,已經(jīng)不是用技術(shù)指標(biāo)可以衡量的,而是用遷移成本、學(xué)習(xí)曲線、生態(tài)粘性來定義的。
當(dāng)所有人還在討論“誰能挑戰(zhàn)英偉達的 GPU”時,英偉達已經(jīng)在思考:如何讓“挑戰(zhàn)”這件事本身變得不再可能。


274301/14








