AI 推論服務供應鏈有哪些關鍵環節？

本主題涵蓋 5 個上下游環節：推論晶片 / 加速器（GPU / LPU / WSE / RDU）、推論引擎 / 優化軟體（賣鏟人核心）、推論即服務平台（IaaS，敘事核心）、聚合 / 路由 / 網關（過路費商業模式）、終端需求（應用 / 企業 / 開源模型方）。

AI 推論服務的龍頭／領先公司有哪些？

關鍵公司包括：NVIDIA（NVDA）、Groq、Cerebras Systems（CBRS）。各環節市佔與競爭態勢詳見供應鏈地圖。

AI 推論服務市場規模與成長性如何？

關鍵數據：服務層底料。各環節完整市場規模與成長率見地圖節點。

AI 推論服務最新發展？

晚 6 月唯一真正新進展：Baseten 於 2026-06-22 正式完成 $1.5B Series F（估值 $13B，由 Altimeter/Conviction/Spark 領投、兩檔 $13B/$11B，18 個月第四輪），原檔僅記為「洽 $11–13B」。已將其由「洽談中」更新為「已完成」，並補上確定數據：ARR $600M、YoY +1,900%(20x)、推論量 +40x、每日 10 億+ 推論呼叫跨 87 叢集/18 雲。其餘熱門事件（Fireworks 洽 $15B、Together 洽 $7.5B、OpenRouter $1.3B、Cerebras IPO、NVIDIA Groq 3 LPX、AMD MI400）均已在檔且仍維持「洽談中」狀態，未重複。（更新日 2026-06-24）

AI 推論服務與優化供應鏈 (AI Inference Serving & Optimization)

AI Inference Serving & Optimization — 推論即服務（賣 API/token）與優化軟體層（量化/KV cache/投機解碼，每 GPU 多服務 10–50x 請求）。2026 是推論層自成資產類別的引爆年：Fireworks 洽 $15B（ARR ~$8 億、每日 10+ 兆 token）、Baseten 2026-06-22 完成 $1.5B Series F 估值 $13B（ARR $600M、YoY +1,900%、每日 10 億+ 推論呼叫）、Together $7.5B（ARR ~$10 億）；Groq 獲 NVIDIA 3 年 $170 億推論技術授權並於 GTC 2026 落地為自有 Groq 3 LPX、Cerebras 已 IPO（2026-05 每股 $185 募 $55.5 億、首日衝至約 $950 億估值、OpenAI 採購倍增至逾 $200 億，Llama 70B 1,800+ tok/s）；OpenRouter 估值 $1.3B、每週 25 兆 token 抽 ~5% 過路費；SGLang spin out 成 RadixArk（$400M、Accel/NVIDIA 投）。市場 2025 $1,061 億→2030 $2,550 億（CAGR ~19%）。⚠ HBM 2026 全年售罄、推論將佔年底約 2/3 算力需求。價值鏈：推論晶片/加速器 → 推論引擎/優化（vLLM/SGLang/TensorRT-LLM/Dynamo）→ 推論即服務平台 → 聚合/路由 → 終端需求。⚠ 真正穩賺是引擎/優化與聚合兩個輕資產賣鏟人；押 GPU 平台毛利僅 ~50%。有別於 neocloud（賣裸機）、llmops_eval（監控）。

← 回企業軟體 AI / 自動化 / 數位勞工主題列表 · 回首頁

推論晶片 / 加速器（GPU / LPU / WSE / RDU） Inference Silicon & Accelerators

推論服務層的硬體底料：NVIDIA Blackwell/Hopper GPU 主導，加上 Groq LPU、Cerebras 晶圓級 WSE、SambaNova RDU、Google TPU 等專用推論加速器。這是整鏈成本結構（COGS）的核心。⚠ 2026 HBM 全年售罄、資料中心吃掉全球約 70% 記憶體晶片產能，OpenAI 點名記憶體短缺為訓練/推論首要瓶頸——此 memory wall 正是大片上 SRAM、避開 HBM 的 LPU/WSE 架構在 H1 取得結構性順風的根因。

NVIDIA（NVDA，Blackwell B200/GB200 為推論主力、較 Hopper 每 token 成本降最高 10x；同時擁 TensorRT-LLM/Dynamo 軟體並戰略投資幾乎所有推論平台與引擎——軟硬通吃；2026 GTC 把對 Groq 的授權落地為自有產品『Groq 3 LPX』低延遲推論加速器，設計於 Vera Rubin 平台、單系統 256 顆第三代 LPU、每晶片 500MB 片上 SRAM/150 TB/s 避開 HBM memory wall，宣稱兆參數模型每 MW 吞吐較 HBM GPU 高 35x、GA 落在 2026 H2，將 LPU 架構納入產品線）。專用推論晶片：Groq（未上市，LPU 500–1,000+ tok/s、GPU 5–14x；2025-12 與 NVIDIA 簽 3 年 $170 億推論技術授權、2026-02 派發 $7.6B 給股東）、Cerebras（已掛牌 NASDAQ，2026-05-13 每股 $185 募 $55.5 億為自 Uber 以來最大美科技 IPO、首日收 $311（+68%）估值衝至約 $950 億；WSE 晶圓級，Llama 3.3 70B 達 1,800+ tok/s、Kimi K2.6 達 981 tok/s 為官方端點 29x；2025 營收 $510M（約 86% 來自 UAE 系）；OpenAI 採購額由 $100 億倍增至逾 $200 億；2026-03 進 Amazon Bedrock）、SambaNova（傳 Intel 收購，RDU 可重構資料流、SN50 氣冷約 GPU 三倍）。AMD（AMD，CES 2026 發表 MI400 系列與 Helios 機櫃（72 顆 MI455X、每櫃 2.9 ExaFLOPS FP4 推論、HBM4 432GB）、OpenAI 承諾部署 6GW（H2 FY26 先上 1GW MI450）、累計約 12GW 承諾；投資 RadixArk/Cerebras）、Google（GOOGL，TPU v6/v7 自用+Cloud；2026 與 Marvell 洽共同開發 memory processing unit + 推論最佳化 TPU，於 Broadcom/MediaTek 之外新增第三家設計夥伴以分散單點）。⚠ 分析師估 NVIDIA 資料中心 AI 加速器市佔由 80–85% 降至 2026 年底約 75%；NVIDIA 以 $200 億取得 Groq 資產/授權後再推自有 LPX，被部分參議員質疑為 reverse acquihire，集中度既是護城河也是反壟斷風險。

公司	市佔／地位	角色
[US] NVIDIA (NVDA)	推論加速器主導 ~75%（年底）+ 軟硬通吃 + 自有 LPU	Blackwell 較 Hopper 每 token 成本降最高 10x；GTC 2026 把 Groq 授權落地為 Groq 3 LPX（Vera Rubin、每 MW 吞吐 35x、GA H2 2026）；市佔由 80–85% 降至年底約 75%
[US] Groq (—)	LPU 極速推論	未上市；500–1,000+ tok/s；2025-12 獲 NVIDIA 3 年 $170 億授權、2026-02 派 $7.6B 股利；NVIDIA 將 LPU 授權落地為 Groq 3 LPX
[US] Cerebras Systems (CBRS)	晶圓級 WSE 極速推論 / 已 IPO	2026-05-13 每股 $185 募 $55.5 億、首日收 $311（+68%）估值約 $950 億；2025 營收 $510M（86% UAE 系）；OpenAI 採購倍增至逾 $200 億+認股權證最高 10%；Llama 70B 1,800+ tok/s；2026-03 進 Bedrock
[US] SambaNova (—)	RDU 可重構資料流	未上市；傳 Intel 簽 term sheet 收購；SN50 約 GPU 三倍 token 速
[US] AMD (AMD)	GPU 推論替代（市佔升）	CES 2026 發表 MI400/Helios（每櫃 2.9 ExaFLOPS FP4、HBM4 432GB）；OpenAI 承諾 6GW、累計約 12GW；投資 RadixArk/Cerebras
[US] Google (GOOGL)	TPU 自用 + 雲端	自有 TPU 推論；2026 與 Marvell 洽開發 MPU + 推論最佳化 TPU（Broadcom/MediaTek 外第三家設計夥伴）；CapitalG 領投 OpenRouter
[US] Marvell (MRVL)	客製 AI ASIC 協同設計 ~35%	2026 與 Google 洽共同開發 MPU + 推論最佳化 TPU；客製矽年化營收約 $15 億、18 個雲端設計案；Amazon Trainium 3 2026 Q2 量產

資料來源

推論引擎 / 優化軟體（賣鏟人核心） Inference Engine & Optimization

把模型「跑得快、跑得省」的開源推論引擎與優化軟體：vLLM、SGLang、TensorRT-LLM、Dynamo 編排層，加上量化/KV cache/投機解碼等優化技術。這是整鏈真正的軟體護城河與最務實的賣鏟人環節。

vLLM（開源/Red Hat 商業化，PagedAttention/continuous batching 事實標準，生產部署於 Meta/Mistral/Cohere/IBM/Red Hat；Red Hat AI Inference 商業化、IBM 旗下）。SGLang→RadixArk（未上市 $400M，2026-01 spin out、2026-05 $100M 種子 Accel/Spark 領投、NVIDIA/AMD/MediaTek 參投；SGLang 部署 40 萬+ GPU 含 xAI/Google/Microsoft/Oracle/Nebius/LinkedIn）。TensorRT-LLM（NVIDIA，GPU 專用優化，FP8/NVFP4/INT4 AWQ 量化）。NVIDIA Dynamo（開源框架，2026-03 GA 分散式編排，disaggregated prefill/decode；GB200 NVL72 上 MoE 吞吐 +7x、DeepSeek-R1 請求 +30x、GB300 較 Hopper +50x；上層編排 vLLM/SGLang/TensorRT-LLM）。LMCache（開源 KV cache 層，移出 GPU 顯存跨引擎共享、配 vLLM 吞吐最高 15x）。優化技術：量化（FP8 最穩、NVFP4 Blackwell 專用）、投機解碼（EAGLE-3 草稿模型）、prefix caching、continuous batching——組合可較 naive 多服務 10–50x 請求/GPU。Neural Magic（被 Red Hat 收購）稀疏化、Google TurboQuant 極端壓縮。

公司	市佔／地位	角色
[US] vLLM (Red Hat / IBM) (IBM)	事實標準開源引擎	生產部署於 Meta/Mistral/Cohere/IBM；Red Hat 商業化（IBM 旗下）
[US] RadixArk (SGLang) (—)	開源引擎商業化新星	未上市 $400M；2026-05 $100M 種子（Accel/Spark/NVIDIA/AMD/MediaTek）；部署 40 萬+ GPU
[US] NVIDIA (TensorRT-LLM / Dynamo) (NVDA)	GPU 專用引擎 + 編排層	Dynamo 1.0 2026-03-16 GTC GA；prefill/decode 解耦 + NIXL KV 傳輸；GB300 NVL72 達 $0.123/百萬 token、較 Hopper 每 MW 吞吐 +50x；Meta/LinkedIn/Mistral/HuggingFace 已生產用
[US] LMCache (—)	KV cache 優化層	未上市/開源；配 vLLM 吞吐最高 15x（多輪問答/長文件）
[US] Neural Magic (Red Hat) (IBM)	稀疏化/量化優化	被 Red Hat 收購；剪枝/量化/稀疏推論
[US] Google (TurboQuant) (GOOGL)	極端壓縮研究	零精度損失極端壓縮；研究級

資料來源

推論即服務平台（IaaS，敘事核心） Inference-as-a-Service Platforms

賣 API/token 的推論即服務平台，是 2026 投資熱度最高的敘事核心。ARR 單季翻倍、估值半年翻倍，但 GPU 成本嵌入 COGS 致毛利僅 ~50%，且面臨 hyperscaler 收編壓力。

Together AI（未上市 $7.5B，ARR ~$10 億 2026-02；API 占 30–40%、其餘 GPU 租賃；NVIDIA cloud ally；2026-03 推即時語音 agent sub-500ms）。Fireworks AI（未上市，洽 $15B、7 個月前才 $4B；ARR ~$8 億 2026-05、每日 10+ 兆 token；客戶 Cursor/Perplexity/Notion/Uber；FireAttention 自研核心；毛利 ~50%）。Baseten（未上市 $13B，2026-06-22 完成 $1.5B Series F、Altimeter/Conviction/Spark 領投、兩檔 $13B/$11B、18 個月內第四輪，5 個月前才 $5B；ARR $600M、YoY +1,900%、推論量 +40x、每日 10 億+ 推論呼叫跨 87 叢集/18 雲；客戶 Cursor/Mercor/OpenEvidence 省 30% 成本；用 Blackwell 降每 token 成本 10x）。DeepInfra（未上市，2026-05 $107M Series B、500 Global/Georges Harik 領投、NVIDIA 參投；專注開源模型專屬推論雲、營收 2026 初翻三倍）。Modal Labs（未上市 ~$4.5B 洽談，serverless GPU 推論、ARR ~$3 億 2026-04；2026-05 完成 $355M）。晶片商自營雲：Groq Cloud/Cerebras Cloud/SambaNova Cloud（極速差異化）。Anyscale（未上市，Ray 原生）。⚠ 毛利 ~50% 遠低於 SaaS 70%+；per-token 價格戰 + hyperscaler（AWS/GCP/Azure）拉回自家平台壓力。

公司	市佔／地位	角色
[US] Together AI (—)	IaaS ARR 領先	未上市 $7.5B；ARR ~$10 億；API 占 30–40%；NVIDIA cloud ally
[US] Fireworks AI (—)	估值最高洽談中	未上市、洽 $15B；ARR ~$8 億、每日 10+ 兆 token；Cursor/Perplexity/Notion/Uber；毛利 ~50%
[US] Baseten (—)	ARR 增速最猛	未上市 $13B（2026-06-22 完成 $1.5B Series F、Altimeter/Conviction/Spark 領投、兩檔 $13B/$11B；18 個月第四輪）；ARR $600M、YoY +1,900%（20x）、推論量 +40x；每日 10 億+ 推論呼叫跨 87 叢集/18 雲；客戶省 30% 成本
[US] DeepInfra (—)	開源模型專屬推論雲	未上市；2026-05 $107M Series B（NVIDIA 參投）；營收 2026 初翻三倍
[US] Modal Labs (—)	serverless GPU 推論	未上市 ~$4.5B 洽談；ARR ~$3 億；2026-05 完成 $355M
[US] Cerebras Cloud (CBRS)	晶片商自營極速雲	2026-05 已 IPO（估值約 $950 億）；WSE 晶圓級極速；OpenAI 採購逾 $200 億跑 ChatGPT 部分推論；2026-03 進 Amazon Bedrock
[US] Groq Cloud (—)	LPU 自營推論雲	未上市；LPU 極速；GPU 5–14x token 速

資料來源

聚合 / 路由 / 網關（過路費商業模式） Aggregator, Router & Gateway

把多家模型/平台統一成單一 API 的聚合與路由網關，以「過路費」抽成，是另一個輕資產賣鏟人環節。隨多模型多供應商生態擴張，路由 token 量爆增。

OpenRouter（未上市 $1.3B，400+ 模型/60+ provider 統一 API、每週 25 兆 token、抽 ~5%；ARR ~$50M 2026-03 由 2025 底 $19M；2026-05 $113M Series B、CapitalG 領投、NVentures/a16z/Menlo 參投）。Cloudflare（NET，2025-11 收 Replicate 整併進 Workers AI 邊緣推論；Replicate 以海量預訓練模型庫見長）。Novita（serverless 端點 + 按需/spot GPU、H100/H200/RTX5090）、Hyperbolic（折扣 GPU + 快速上架）、Featherless（flat-rate 25,000+ 模型固定費率）。⚠ 路由層抽成商業模式佳，但自身亦在『侵蝕存在理由』——多家平台與模型直連、流量去中介化風險，且 hyperscaler 自帶網關。

公司	市佔／地位	角色
[US] OpenRouter (—)	聚合路由領導	未上市 $1.3B；每週 25 兆 token 抽 ~5%；2026-05 $113M（CapitalG/NVentures/a16z）
[US] Cloudflare (NET)	邊緣推論 + 模型庫	2025-11 收 Replicate 整併進 Workers AI 邊緣推論
[SG] Novita AI (—)	serverless + spot GPU	未上市；H100/H200/RTX5090 按秒計費
[US] Hyperbolic (—)	折扣 GPU 推論	未上市；低價 GPU 推論市集
[US] Featherless AI (—)	flat-rate 推論	未上市；固定費率取代 per-token

資料來源

終端需求（應用 / 企業 / 開源模型方） Application & Enterprise Demand

推論服務的需求端：AI 原生應用、超大規模/企業，以及提供可代跑權重的開源模型方。agentic 工作流每任務吃 5–30x token，是推論 token 結構性暴增的根因。

推論已成 AI 算力支出主軸：多方估計推論將佔 2026 年底約三分之二 AI 算力需求（2023 約三分之一），是 OpenAI 同時與 Cerebras/Groq/AMD 簽巨額推論合約的結構性背景。AI 原生應用：Cursor、Perplexity、Notion、Uber、Mercor、OpenEvidence——per-token 價格 10–100x 壓縮，但 agentic 用量 5–30x 暴增，總帳單反增、推論量結構性成長。超大規模/企業：Microsoft（MSFT）、Google（GOOGL）、AWS（AMZN，自有推論 + 收編壓力，把推論支出拉回自家平台；Trainium 3 2026 Q2 量產加速去 NVIDIA 化）、OpenAI（2026-04 將 Cerebras 採購倍增至逾 $200 億並取得最高 10% 認股權證、承諾 AMD 6GW）。開源模型方是第三方推論平台命脈（閉源 API 無第三方代跑空間）：Mistral（ARR ~$400M 2026-01、目標年底 >$10 億）、Meta Llama、DeepSeek、Qwen（阿里）、Kimi（月之暗面）。⚠ 大客戶內製化（OpenAI 自建、企業自架 vLLM）可繞過第三方平台，侵蝕 IaaS 需求；hyperscaler 同時是需求方與競爭方。

公司	市佔／地位	角色
[US] OpenAI (—)	最大推論需求/合約方	未上市；2026-04 Cerebras 採購由 $100 億倍增至逾 $200 億（750MW+認股權證最高 10%+$10 億資料中心資金）；承諾 AMD 6GW；自建推論基建是內製化威脅
[FR] Mistral AI (—)	歐洲開源模型方	未上市；ARR ~$400M 2026-01、目標年底 >$10 億
[US] Microsoft (MSFT)	超大規模需求+競爭	自有推論 + 把支出拉回自家平台壓力
[US] Amazon (AWS) (AMZN)	雲端需求+收編方+自研矽	2026-03 把 Cerebras 納 Bedrock；Trainium 3 2026 Q2 量產加速去 NVIDIA 化；hyperscaler 收編壓力
[US] Perplexity (—)	AI 原生應用客戶	未上市；Fireworks 客戶；agentic 高 token 用量
[US] Cursor (Anysphere) (—)	coding agent 客戶	未上市；多平台客戶；coding agent token 用量大

AI 推論服務與優化供應鏈 (AI Inference Serving & Optimization)

推論晶片 / 加速器（GPU / LPU / WSE / RDU） Inference Silicon & Accelerators

資料來源

推論引擎 / 優化軟體（賣鏟人核心） Inference Engine & Optimization

資料來源

推論即服務平台（IaaS，敘事核心） Inference-as-a-Service Platforms

資料來源

聚合 / 路由 / 網關（過路費商業模式） Aggregator, Router & Gateway

資料來源

終端需求（應用 / 企業 / 開源模型方） Application & Enterprise Demand

資料來源

常見問答 FAQ

💬 留言討論 (0)