AI 推論服務與優化供應鏈 (AI Inference Serving & Optimization)
AI Inference Serving & Optimization — 推論即服務(賣 API/token)與優化軟體層(量化/KV cache/投機解碼,每 GPU 多服務 10–50x 請求)。2026 是推論層自成資產類別的引爆年:Fireworks 洽 $15B(ARR ~$8 億、每日 10+ 兆 token)、Baseten 2026-06-22 完成 $1.5B Series F 估值 $13B(ARR $600M、YoY +1,900%、每日 10 億+ 推論呼叫)、Together $7.5B(ARR ~$10 億);Groq 獲 NVIDIA 3 年 $170 億推論技術授權並於 GTC 2026 落地為自有 Groq 3 LPX、Cerebras 已 IPO(2026-05 每股 $185 募 $55.5 億、首日衝至約 $950 億估值、OpenAI 採購倍增至逾 $200 億,Llama 70B 1,800+ tok/s);OpenRouter 估值 $1.3B、每週 25 兆 token 抽 ~5% 過路費;SGLang spin out 成 RadixArk($400M、Accel/NVIDIA 投)。市場 2025 $1,061 億→2030 $2,550 億(CAGR ~19%)。⚠ HBM 2026 全年售罄、推論將佔年底約 2/3 算力需求。價值鏈:推論晶片/加速器 → 推論引擎/優化(vLLM/SGLang/TensorRT-LLM/Dynamo)→ 推論即服務平台 → 聚合/路由 → 終端需求。⚠ 真正穩賺是引擎/優化與聚合兩個輕資產賣鏟人;押 GPU 平台毛利僅 ~50%。有別於 neocloud(賣裸機)、llmops_eval(監控)。
← 回 企業軟體 AI / 自動化 / 數位勞工 主題列表 · 回首頁
推論晶片 / 加速器(GPU / LPU / WSE / RDU) Inference Silicon & Accelerators
推論服務層的硬體底料:NVIDIA Blackwell/Hopper GPU 主導,加上 Groq LPU、Cerebras 晶圓級 WSE、SambaNova RDU、Google TPU 等專用推論加速器。這是整鏈成本結構(COGS)的核心。⚠ 2026 HBM 全年售罄、資料中心吃掉全球約 70% 記憶體晶片產能,OpenAI 點名記憶體短缺為訓練/推論首要瓶頸——此 memory wall 正是大片上 SRAM、避開 HBM 的 LPU/WSE 架構在 H1 取得結構性順風的根因。
NVIDIA(NVDA,Blackwell B200/GB200 為推論主力、較 Hopper 每 token 成本降最高 10x;同時擁 TensorRT-LLM/Dynamo 軟體並戰略投資幾乎所有推論平台與引擎——軟硬通吃;2026 GTC 把對 Groq 的授權落地為自有產品『Groq 3 LPX』低延遲推論加速器,設計於 Vera Rubin 平台、單系統 256 顆第三代 LPU、每晶片 500MB 片上 SRAM/150 TB/s 避開 HBM memory wall,宣稱兆參數模型每 MW 吞吐較 HBM GPU 高 35x、GA 落在 2026 H2,將 LPU 架構納入產品線)。專用推論晶片:Groq(未上市,LPU 500–1,000+ tok/s、GPU 5–14x;2025-12 與 NVIDIA 簽 3 年 $170 億推論技術授權、2026-02 派發 $7.6B 給股東)、Cerebras(已掛牌 NASDAQ,2026-05-13 每股 $185 募 $55.5 億為自 Uber 以來最大美科技 IPO、首日收 $311(+68%)估值衝至約 $950 億;WSE 晶圓級,Llama 3.3 70B 達 1,800+ tok/s、Kimi K2.6 達 981 tok/s 為官方端點 29x;2025 營收 $510M(約 86% 來自 UAE 系);OpenAI 採購額由 $100 億倍增至逾 $200 億;2026-03 進 Amazon Bedrock)、SambaNova(傳 Intel 收購,RDU 可重構資料流、SN50 氣冷約 GPU 三倍)。AMD(AMD,CES 2026 發表 MI400 系列與 Helios 機櫃(72 顆 MI455X、每櫃 2.9 ExaFLOPS FP4 推論、HBM4 432GB)、OpenAI 承諾部署 6GW(H2 FY26 先上 1GW MI450)、累計約 12GW 承諾;投資 RadixArk/Cerebras)、Google(GOOGL,TPU v6/v7 自用+Cloud;2026 與 Marvell 洽共同開發 memory processing unit + 推論最佳化 TPU,於 Broadcom/MediaTek 之外新增第三家設計夥伴以分散單點)。⚠ 分析師估 NVIDIA 資料中心 AI 加速器市佔由 80–85% 降至 2026 年底約 75%;NVIDIA 以 $200 億取得 Groq 資產/授權後再推自有 LPX,被部分參議員質疑為 reverse acquihire,集中度既是護城河也是反壟斷風險。
| 公司 | 市佔/地位 | 角色 |
|---|
| [US] NVIDIA (NVDA) | 推論加速器主導 ~75%(年底)+ 軟硬通吃 + 自有 LPU | Blackwell 較 Hopper 每 token 成本降最高 10x;GTC 2026 把 Groq 授權落地為 Groq 3 LPX(Vera Rubin、每 MW 吞吐 35x、GA H2 2026);市佔由 80–85% 降至年底約 75% |
| [US] Groq (—) | LPU 極速推論 | 未上市;500–1,000+ tok/s;2025-12 獲 NVIDIA 3 年 $170 億授權、2026-02 派 $7.6B 股利;NVIDIA 將 LPU 授權落地為 Groq 3 LPX |
| [US] Cerebras Systems (CBRS) | 晶圓級 WSE 極速推論 / 已 IPO | 2026-05-13 每股 $185 募 $55.5 億、首日收 $311(+68%)估值約 $950 億;2025 營收 $510M(86% UAE 系);OpenAI 採購倍增至逾 $200 億+認股權證最高 10%;Llama 70B 1,800+ tok/s;2026-03 進 Bedrock |
| [US] SambaNova (—) | RDU 可重構資料流 | 未上市;傳 Intel 簽 term sheet 收購;SN50 約 GPU 三倍 token 速 |
| [US] AMD (AMD) | GPU 推論替代(市佔升) | CES 2026 發表 MI400/Helios(每櫃 2.9 ExaFLOPS FP4、HBM4 432GB);OpenAI 承諾 6GW、累計約 12GW;投資 RadixArk/Cerebras |
| [US] Google (GOOGL) | TPU 自用 + 雲端 | 自有 TPU 推論;2026 與 Marvell 洽開發 MPU + 推論最佳化 TPU(Broadcom/MediaTek 外第三家設計夥伴);CapitalG 領投 OpenRouter |
| [US] Marvell (MRVL) | 客製 AI ASIC 協同設計 ~35% | 2026 與 Google 洽共同開發 MPU + 推論最佳化 TPU;客製矽年化營收約 $15 億、18 個雲端設計案;Amazon Trainium 3 2026 Q2 量產 |
資料來源
推論引擎 / 優化軟體(賣鏟人核心) Inference Engine & Optimization
把模型「跑得快、跑得省」的開源推論引擎與優化軟體:vLLM、SGLang、TensorRT-LLM、Dynamo 編排層,加上量化/KV cache/投機解碼等優化技術。這是整鏈真正的軟體護城河與最務實的賣鏟人環節。
vLLM(開源/Red Hat 商業化,PagedAttention/continuous batching 事實標準,生產部署於 Meta/Mistral/Cohere/IBM/Red Hat;Red Hat AI Inference 商業化、IBM 旗下)。SGLang→RadixArk(未上市 $400M,2026-01 spin out、2026-05 $100M 種子 Accel/Spark 領投、NVIDIA/AMD/MediaTek 參投;SGLang 部署 40 萬+ GPU 含 xAI/Google/Microsoft/Oracle/Nebius/LinkedIn)。TensorRT-LLM(NVIDIA,GPU 專用優化,FP8/NVFP4/INT4 AWQ 量化)。NVIDIA Dynamo(開源框架,2026-03 GA 分散式編排,disaggregated prefill/decode;GB200 NVL72 上 MoE 吞吐 +7x、DeepSeek-R1 請求 +30x、GB300 較 Hopper +50x;上層編排 vLLM/SGLang/TensorRT-LLM)。LMCache(開源 KV cache 層,移出 GPU 顯存跨引擎共享、配 vLLM 吞吐最高 15x)。優化技術:量化(FP8 最穩、NVFP4 Blackwell 專用)、投機解碼(EAGLE-3 草稿模型)、prefix caching、continuous batching——組合可較 naive 多服務 10–50x 請求/GPU。Neural Magic(被 Red Hat 收購)稀疏化、Google TurboQuant 極端壓縮。
| 公司 | 市佔/地位 | 角色 |
|---|
| [US] vLLM (Red Hat / IBM) (IBM) | 事實標準開源引擎 | 生產部署於 Meta/Mistral/Cohere/IBM;Red Hat 商業化(IBM 旗下) |
| [US] RadixArk (SGLang) (—) | 開源引擎商業化新星 | 未上市 $400M;2026-05 $100M 種子(Accel/Spark/NVIDIA/AMD/MediaTek);部署 40 萬+ GPU |
| [US] NVIDIA (TensorRT-LLM / Dynamo) (NVDA) | GPU 專用引擎 + 編排層 | Dynamo 1.0 2026-03-16 GTC GA;prefill/decode 解耦 + NIXL KV 傳輸;GB300 NVL72 達 $0.123/百萬 token、較 Hopper 每 MW 吞吐 +50x;Meta/LinkedIn/Mistral/HuggingFace 已生產用 |
| [US] LMCache (—) | KV cache 優化層 | 未上市/開源;配 vLLM 吞吐最高 15x(多輪問答/長文件) |
| [US] Neural Magic (Red Hat) (IBM) | 稀疏化/量化優化 | 被 Red Hat 收購;剪枝/量化/稀疏推論 |
| [US] Google (TurboQuant) (GOOGL) | 極端壓縮研究 | 零精度損失極端壓縮;研究級 |
資料來源
推論即服務平台(IaaS,敘事核心) Inference-as-a-Service Platforms
賣 API/token 的推論即服務平台,是 2026 投資熱度最高的敘事核心。ARR 單季翻倍、估值半年翻倍,但 GPU 成本嵌入 COGS 致毛利僅 ~50%,且面臨 hyperscaler 收編壓力。
Together AI(未上市 $7.5B,ARR ~$10 億 2026-02;API 占 30–40%、其餘 GPU 租賃;NVIDIA cloud ally;2026-03 推即時語音 agent sub-500ms)。Fireworks AI(未上市,洽 $15B、7 個月前才 $4B;ARR ~$8 億 2026-05、每日 10+ 兆 token;客戶 Cursor/Perplexity/Notion/Uber;FireAttention 自研核心;毛利 ~50%)。Baseten(未上市 $13B,2026-06-22 完成 $1.5B Series F、Altimeter/Conviction/Spark 領投、兩檔 $13B/$11B、18 個月內第四輪,5 個月前才 $5B;ARR $600M、YoY +1,900%、推論量 +40x、每日 10 億+ 推論呼叫跨 87 叢集/18 雲;客戶 Cursor/Mercor/OpenEvidence 省 30% 成本;用 Blackwell 降每 token 成本 10x)。DeepInfra(未上市,2026-05 $107M Series B、500 Global/Georges Harik 領投、NVIDIA 參投;專注開源模型專屬推論雲、營收 2026 初翻三倍)。Modal Labs(未上市 ~$4.5B 洽談,serverless GPU 推論、ARR ~$3 億 2026-04;2026-05 完成 $355M)。晶片商自營雲:Groq Cloud/Cerebras Cloud/SambaNova Cloud(極速差異化)。Anyscale(未上市,Ray 原生)。⚠ 毛利 ~50% 遠低於 SaaS 70%+;per-token 價格戰 + hyperscaler(AWS/GCP/Azure)拉回自家平台壓力。
| 公司 | 市佔/地位 | 角色 |
|---|
| [US] Together AI (—) | IaaS ARR 領先 | 未上市 $7.5B;ARR ~$10 億;API 占 30–40%;NVIDIA cloud ally |
| [US] Fireworks AI (—) | 估值最高洽談中 | 未上市、洽 $15B;ARR ~$8 億、每日 10+ 兆 token;Cursor/Perplexity/Notion/Uber;毛利 ~50% |
| [US] Baseten (—) | ARR 增速最猛 | 未上市 $13B(2026-06-22 完成 $1.5B Series F、Altimeter/Conviction/Spark 領投、兩檔 $13B/$11B;18 個月第四輪);ARR $600M、YoY +1,900%(20x)、推論量 +40x;每日 10 億+ 推論呼叫跨 87 叢集/18 雲;客戶省 30% 成本 |
| [US] DeepInfra (—) | 開源模型專屬推論雲 | 未上市;2026-05 $107M Series B(NVIDIA 參投);營收 2026 初翻三倍 |
| [US] Modal Labs (—) | serverless GPU 推論 | 未上市 ~$4.5B 洽談;ARR ~$3 億;2026-05 完成 $355M |
| [US] Cerebras Cloud (CBRS) | 晶片商自營極速雲 | 2026-05 已 IPO(估值約 $950 億);WSE 晶圓級極速;OpenAI 採購逾 $200 億跑 ChatGPT 部分推論;2026-03 進 Amazon Bedrock |
| [US] Groq Cloud (—) | LPU 自營推論雲 | 未上市;LPU 極速;GPU 5–14x token 速 |
資料來源
聚合 / 路由 / 網關(過路費商業模式) Aggregator, Router & Gateway
把多家模型/平台統一成單一 API 的聚合與路由網關,以「過路費」抽成,是另一個輕資產賣鏟人環節。隨多模型多供應商生態擴張,路由 token 量爆增。
OpenRouter(未上市 $1.3B,400+ 模型/60+ provider 統一 API、每週 25 兆 token、抽 ~5%;ARR ~$50M 2026-03 由 2025 底 $19M;2026-05 $113M Series B、CapitalG 領投、NVentures/a16z/Menlo 參投)。Cloudflare(NET,2025-11 收 Replicate 整併進 Workers AI 邊緣推論;Replicate 以海量預訓練模型庫見長)。Novita(serverless 端點 + 按需/spot GPU、H100/H200/RTX5090)、Hyperbolic(折扣 GPU + 快速上架)、Featherless(flat-rate 25,000+ 模型固定費率)。⚠ 路由層抽成商業模式佳,但自身亦在『侵蝕存在理由』——多家平台與模型直連、流量去中介化風險,且 hyperscaler 自帶網關。
| 公司 | 市佔/地位 | 角色 |
|---|
| [US] OpenRouter (—) | 聚合路由領導 | 未上市 $1.3B;每週 25 兆 token 抽 ~5%;2026-05 $113M(CapitalG/NVentures/a16z) |
| [US] Cloudflare (NET) | 邊緣推論 + 模型庫 | 2025-11 收 Replicate 整併進 Workers AI 邊緣推論 |
| [SG] Novita AI (—) | serverless + spot GPU | 未上市;H100/H200/RTX5090 按秒計費 |
| [US] Hyperbolic (—) | 折扣 GPU 推論 | 未上市;低價 GPU 推論市集 |
| [US] Featherless AI (—) | flat-rate 推論 | 未上市;固定費率取代 per-token |
資料來源
終端需求(應用 / 企業 / 開源模型方) Application & Enterprise Demand
推論服務的需求端:AI 原生應用、超大規模/企業,以及提供可代跑權重的開源模型方。agentic 工作流每任務吃 5–30x token,是推論 token 結構性暴增的根因。
推論已成 AI 算力支出主軸:多方估計推論將佔 2026 年底約三分之二 AI 算力需求(2023 約三分之一),是 OpenAI 同時與 Cerebras/Groq/AMD 簽巨額推論合約的結構性背景。AI 原生應用:Cursor、Perplexity、Notion、Uber、Mercor、OpenEvidence——per-token 價格 10–100x 壓縮,但 agentic 用量 5–30x 暴增,總帳單反增、推論量結構性成長。超大規模/企業:Microsoft(MSFT)、Google(GOOGL)、AWS(AMZN,自有推論 + 收編壓力,把推論支出拉回自家平台;Trainium 3 2026 Q2 量產加速去 NVIDIA 化)、OpenAI(2026-04 將 Cerebras 採購倍增至逾 $200 億並取得最高 10% 認股權證、承諾 AMD 6GW)。開源模型方是第三方推論平台命脈(閉源 API 無第三方代跑空間):Mistral(ARR ~$400M 2026-01、目標年底 >$10 億)、Meta Llama、DeepSeek、Qwen(阿里)、Kimi(月之暗面)。⚠ 大客戶內製化(OpenAI 自建、企業自架 vLLM)可繞過第三方平台,侵蝕 IaaS 需求;hyperscaler 同時是需求方與競爭方。
| 公司 | 市佔/地位 | 角色 |
|---|
| [US] OpenAI (—) | 最大推論需求/合約方 | 未上市;2026-04 Cerebras 採購由 $100 億倍增至逾 $200 億(750MW+認股權證最高 10%+$10 億資料中心資金);承諾 AMD 6GW;自建推論基建是內製化威脅 |
| [FR] Mistral AI (—) | 歐洲開源模型方 | 未上市;ARR ~$400M 2026-01、目標年底 >$10 億 |
| [US] Microsoft (MSFT) | 超大規模需求+競爭 | 自有推論 + 把支出拉回自家平台壓力 |
| [US] Amazon (AWS) (AMZN) | 雲端需求+收編方+自研矽 | 2026-03 把 Cerebras 納 Bedrock;Trainium 3 2026 Q2 量產加速去 NVIDIA 化;hyperscaler 收編壓力 |
| [US] Perplexity (—) | AI 原生應用客戶 | 未上市;Fireworks 客戶;agentic 高 token 用量 |
| [US] Cursor (Anysphere) (—) | coding agent 客戶 | 未上市;多平台客戶;coding agent token 用量大 |
資料來源
💬 留言討論 (0)
歡迎分享你對此供應鏈/個股的看法。需以 Google 帳號登入後留言;內容僅供研究討論,非投資建議。