半導體供應鏈互動地圖

AI 推論服務與優化供應鏈 (AI Inference Serving & Optimization)

AI Inference Serving & Optimization — 推論即服務(賣 API/token)與優化軟體層(量化/KV cache/投機解碼,每 GPU 多服務 10–50x 請求)。2026 是推論層自成資產類別的引爆年:Fireworks 洽 $15B(ARR ~$8 億、每日 10+ 兆 token)、Baseten 2026-06-22 完成 $1.5B Series F 估值 $13B(ARR $600M、YoY +1,900%、每日 10 億+ 推論呼叫)、Together $7.5B(ARR ~$10 億);Groq 獲 NVIDIA 3 年 $170 億推論技術授權並於 GTC 2026 落地為自有 Groq 3 LPX、Cerebras 已 IPO(2026-05 每股 $185 募 $55.5 億、首日衝至約 $950 億估值、OpenAI 採購倍增至逾 $200 億,Llama 70B 1,800+ tok/s);OpenRouter 估值 $1.3B、每週 25 兆 token 抽 ~5% 過路費;SGLang spin out 成 RadixArk($400M、Accel/NVIDIA 投)。市場 2025 $1,061 億→2030 $2,550 億(CAGR ~19%)。⚠ HBM 2026 全年售罄、推論將佔年底約 2/3 算力需求。價值鏈:推論晶片/加速器 → 推論引擎/優化(vLLM/SGLang/TensorRT-LLM/Dynamo)→ 推論即服務平台 → 聚合/路由 → 終端需求。⚠ 真正穩賺是引擎/優化與聚合兩個輕資產賣鏟人;押 GPU 平台毛利僅 ~50%。有別於 neocloud(賣裸機)、llmops_eval(監控)。

← 回 企業軟體 AI / 自動化 / 數位勞工 主題列表 · 回首頁

推論晶片 / 加速器(GPU / LPU / WSE / RDU) Inference Silicon & Accelerators

推論服務層的硬體底料:NVIDIA Blackwell/Hopper GPU 主導,加上 Groq LPU、Cerebras 晶圓級 WSE、SambaNova RDU、Google TPU 等專用推論加速器。這是整鏈成本結構(COGS)的核心。⚠ 2026 HBM 全年售罄、資料中心吃掉全球約 70% 記憶體晶片產能,OpenAI 點名記憶體短缺為訓練/推論首要瓶頸——此 memory wall 正是大片上 SRAM、避開 HBM 的 LPU/WSE 架構在 H1 取得結構性順風的根因。

NVIDIA(NVDA,Blackwell B200/GB200 為推論主力、較 Hopper 每 token 成本降最高 10x;同時擁 TensorRT-LLM/Dynamo 軟體並戰略投資幾乎所有推論平台與引擎——軟硬通吃;2026 GTC 把對 Groq 的授權落地為自有產品『Groq 3 LPX』低延遲推論加速器,設計於 Vera Rubin 平台、單系統 256 顆第三代 LPU、每晶片 500MB 片上 SRAM/150 TB/s 避開 HBM memory wall,宣稱兆參數模型每 MW 吞吐較 HBM GPU 高 35x、GA 落在 2026 H2,將 LPU 架構納入產品線)。專用推論晶片:Groq(未上市,LPU 500–1,000+ tok/s、GPU 5–14x;2025-12 與 NVIDIA 簽 3 年 $170 億推論技術授權、2026-02 派發 $7.6B 給股東)、Cerebras(已掛牌 NASDAQ,2026-05-13 每股 $185 募 $55.5 億為自 Uber 以來最大美科技 IPO、首日收 $311(+68%)估值衝至約 $950 億;WSE 晶圓級,Llama 3.3 70B 達 1,800+ tok/s、Kimi K2.6 達 981 tok/s 為官方端點 29x;2025 營收 $510M(約 86% 來自 UAE 系);OpenAI 採購額由 $100 億倍增至逾 $200 億;2026-03 進 Amazon Bedrock)、SambaNova(傳 Intel 收購,RDU 可重構資料流、SN50 氣冷約 GPU 三倍)。AMD(AMD,CES 2026 發表 MI400 系列與 Helios 機櫃(72 顆 MI455X、每櫃 2.9 ExaFLOPS FP4 推論、HBM4 432GB)、OpenAI 承諾部署 6GW(H2 FY26 先上 1GW MI450)、累計約 12GW 承諾;投資 RadixArk/Cerebras)、Google(GOOGL,TPU v6/v7 自用+Cloud;2026 與 Marvell 洽共同開發 memory processing unit + 推論最佳化 TPU,於 Broadcom/MediaTek 之外新增第三家設計夥伴以分散單點)。⚠ 分析師估 NVIDIA 資料中心 AI 加速器市佔由 80–85% 降至 2026 年底約 75%;NVIDIA 以 $200 億取得 Groq 資產/授權後再推自有 LPX,被部分參議員質疑為 reverse acquihire,集中度既是護城河也是反壟斷風險。

公司市佔/地位角色
[US] NVIDIA (NVDA)推論加速器主導 ~75%(年底)+ 軟硬通吃 + 自有 LPUBlackwell 較 Hopper 每 token 成本降最高 10x;GTC 2026 把 Groq 授權落地為 Groq 3 LPX(Vera Rubin、每 MW 吞吐 35x、GA H2 2026);市佔由 80–85% 降至年底約 75%
[US] Groq (—)LPU 極速推論未上市;500–1,000+ tok/s;2025-12 獲 NVIDIA 3 年 $170 億授權、2026-02 派 $7.6B 股利;NVIDIA 將 LPU 授權落地為 Groq 3 LPX
[US] Cerebras Systems (CBRS)晶圓級 WSE 極速推論 / 已 IPO2026-05-13 每股 $185 募 $55.5 億、首日收 $311(+68%)估值約 $950 億;2025 營收 $510M(86% UAE 系);OpenAI 採購倍增至逾 $200 億+認股權證最高 10%;Llama 70B 1,800+ tok/s;2026-03 進 Bedrock
[US] SambaNova (—)RDU 可重構資料流未上市;傳 Intel 簽 term sheet 收購;SN50 約 GPU 三倍 token 速
[US] AMD (AMD)GPU 推論替代(市佔升)CES 2026 發表 MI400/Helios(每櫃 2.9 ExaFLOPS FP4、HBM4 432GB);OpenAI 承諾 6GW、累計約 12GW;投資 RadixArk/Cerebras
[US] Google (GOOGL)TPU 自用 + 雲端自有 TPU 推論;2026 與 Marvell 洽開發 MPU + 推論最佳化 TPU(Broadcom/MediaTek 外第三家設計夥伴);CapitalG 領投 OpenRouter
[US] Marvell (MRVL)客製 AI ASIC 協同設計 ~35%2026 與 Google 洽共同開發 MPU + 推論最佳化 TPU;客製矽年化營收約 $15 億、18 個雲端設計案;Amazon Trainium 3 2026 Q2 量產

資料來源

推論引擎 / 優化軟體(賣鏟人核心) Inference Engine & Optimization

把模型「跑得快、跑得省」的開源推論引擎與優化軟體:vLLM、SGLang、TensorRT-LLM、Dynamo 編排層,加上量化/KV cache/投機解碼等優化技術。這是整鏈真正的軟體護城河與最務實的賣鏟人環節。

vLLM(開源/Red Hat 商業化,PagedAttention/continuous batching 事實標準,生產部署於 Meta/Mistral/Cohere/IBM/Red Hat;Red Hat AI Inference 商業化、IBM 旗下)。SGLang→RadixArk(未上市 $400M,2026-01 spin out、2026-05 $100M 種子 Accel/Spark 領投、NVIDIA/AMD/MediaTek 參投;SGLang 部署 40 萬+ GPU 含 xAI/Google/Microsoft/Oracle/Nebius/LinkedIn)。TensorRT-LLM(NVIDIA,GPU 專用優化,FP8/NVFP4/INT4 AWQ 量化)。NVIDIA Dynamo(開源框架,2026-03 GA 分散式編排,disaggregated prefill/decode;GB200 NVL72 上 MoE 吞吐 +7x、DeepSeek-R1 請求 +30x、GB300 較 Hopper +50x;上層編排 vLLM/SGLang/TensorRT-LLM)。LMCache(開源 KV cache 層,移出 GPU 顯存跨引擎共享、配 vLLM 吞吐最高 15x)。優化技術:量化(FP8 最穩、NVFP4 Blackwell 專用)、投機解碼(EAGLE-3 草稿模型)、prefix caching、continuous batching——組合可較 naive 多服務 10–50x 請求/GPU。Neural Magic(被 Red Hat 收購)稀疏化、Google TurboQuant 極端壓縮。

公司市佔/地位角色
[US] vLLM (Red Hat / IBM) (IBM)事實標準開源引擎生產部署於 Meta/Mistral/Cohere/IBM;Red Hat 商業化(IBM 旗下)
[US] RadixArk (SGLang) (—)開源引擎商業化新星未上市 $400M;2026-05 $100M 種子(Accel/Spark/NVIDIA/AMD/MediaTek);部署 40 萬+ GPU
[US] NVIDIA (TensorRT-LLM / Dynamo) (NVDA)GPU 專用引擎 + 編排層Dynamo 1.0 2026-03-16 GTC GA;prefill/decode 解耦 + NIXL KV 傳輸;GB300 NVL72 達 $0.123/百萬 token、較 Hopper 每 MW 吞吐 +50x;Meta/LinkedIn/Mistral/HuggingFace 已生產用
[US] LMCache (—)KV cache 優化層未上市/開源;配 vLLM 吞吐最高 15x(多輪問答/長文件)
[US] Neural Magic (Red Hat) (IBM)稀疏化/量化優化被 Red Hat 收購;剪枝/量化/稀疏推論
[US] Google (TurboQuant) (GOOGL)極端壓縮研究零精度損失極端壓縮;研究級

資料來源

推論即服務平台(IaaS,敘事核心) Inference-as-a-Service Platforms

賣 API/token 的推論即服務平台,是 2026 投資熱度最高的敘事核心。ARR 單季翻倍、估值半年翻倍,但 GPU 成本嵌入 COGS 致毛利僅 ~50%,且面臨 hyperscaler 收編壓力。

Together AI(未上市 $7.5B,ARR ~$10 億 2026-02;API 占 30–40%、其餘 GPU 租賃;NVIDIA cloud ally;2026-03 推即時語音 agent sub-500ms)。Fireworks AI(未上市,洽 $15B、7 個月前才 $4B;ARR ~$8 億 2026-05、每日 10+ 兆 token;客戶 Cursor/Perplexity/Notion/Uber;FireAttention 自研核心;毛利 ~50%)。Baseten(未上市 $13B,2026-06-22 完成 $1.5B Series F、Altimeter/Conviction/Spark 領投、兩檔 $13B/$11B、18 個月內第四輪,5 個月前才 $5B;ARR $600M、YoY +1,900%、推論量 +40x、每日 10 億+ 推論呼叫跨 87 叢集/18 雲;客戶 Cursor/Mercor/OpenEvidence 省 30% 成本;用 Blackwell 降每 token 成本 10x)。DeepInfra(未上市,2026-05 $107M Series B、500 Global/Georges Harik 領投、NVIDIA 參投;專注開源模型專屬推論雲、營收 2026 初翻三倍)。Modal Labs(未上市 ~$4.5B 洽談,serverless GPU 推論、ARR ~$3 億 2026-04;2026-05 完成 $355M)。晶片商自營雲:Groq Cloud/Cerebras Cloud/SambaNova Cloud(極速差異化)。Anyscale(未上市,Ray 原生)。⚠ 毛利 ~50% 遠低於 SaaS 70%+;per-token 價格戰 + hyperscaler(AWS/GCP/Azure)拉回自家平台壓力。

公司市佔/地位角色
[US] Together AI (—)IaaS ARR 領先未上市 $7.5B;ARR ~$10 億;API 占 30–40%;NVIDIA cloud ally
[US] Fireworks AI (—)估值最高洽談中未上市、洽 $15B;ARR ~$8 億、每日 10+ 兆 token;Cursor/Perplexity/Notion/Uber;毛利 ~50%
[US] Baseten (—)ARR 增速最猛未上市 $13B(2026-06-22 完成 $1.5B Series F、Altimeter/Conviction/Spark 領投、兩檔 $13B/$11B;18 個月第四輪);ARR $600M、YoY +1,900%(20x)、推論量 +40x;每日 10 億+ 推論呼叫跨 87 叢集/18 雲;客戶省 30% 成本
[US] DeepInfra (—)開源模型專屬推論雲未上市;2026-05 $107M Series B(NVIDIA 參投);營收 2026 初翻三倍
[US] Modal Labs (—)serverless GPU 推論未上市 ~$4.5B 洽談;ARR ~$3 億;2026-05 完成 $355M
[US] Cerebras Cloud (CBRS)晶片商自營極速雲2026-05 已 IPO(估值約 $950 億);WSE 晶圓級極速;OpenAI 採購逾 $200 億跑 ChatGPT 部分推論;2026-03 進 Amazon Bedrock
[US] Groq Cloud (—)LPU 自營推論雲未上市;LPU 極速;GPU 5–14x token 速

資料來源

聚合 / 路由 / 網關(過路費商業模式) Aggregator, Router & Gateway

把多家模型/平台統一成單一 API 的聚合與路由網關,以「過路費」抽成,是另一個輕資產賣鏟人環節。隨多模型多供應商生態擴張,路由 token 量爆增。

OpenRouter(未上市 $1.3B,400+ 模型/60+ provider 統一 API、每週 25 兆 token、抽 ~5%;ARR ~$50M 2026-03 由 2025 底 $19M;2026-05 $113M Series B、CapitalG 領投、NVentures/a16z/Menlo 參投)。Cloudflare(NET,2025-11 收 Replicate 整併進 Workers AI 邊緣推論;Replicate 以海量預訓練模型庫見長)。Novita(serverless 端點 + 按需/spot GPU、H100/H200/RTX5090)、Hyperbolic(折扣 GPU + 快速上架)、Featherless(flat-rate 25,000+ 模型固定費率)。⚠ 路由層抽成商業模式佳,但自身亦在『侵蝕存在理由』——多家平台與模型直連、流量去中介化風險,且 hyperscaler 自帶網關。

公司市佔/地位角色
[US] OpenRouter (—)聚合路由領導未上市 $1.3B;每週 25 兆 token 抽 ~5%;2026-05 $113M(CapitalG/NVentures/a16z)
[US] Cloudflare (NET)邊緣推論 + 模型庫2025-11 收 Replicate 整併進 Workers AI 邊緣推論
[SG] Novita AI (—)serverless + spot GPU未上市;H100/H200/RTX5090 按秒計費
[US] Hyperbolic (—)折扣 GPU 推論未上市;低價 GPU 推論市集
[US] Featherless AI (—)flat-rate 推論未上市;固定費率取代 per-token

資料來源

終端需求(應用 / 企業 / 開源模型方) Application & Enterprise Demand

推論服務的需求端:AI 原生應用、超大規模/企業,以及提供可代跑權重的開源模型方。agentic 工作流每任務吃 5–30x token,是推論 token 結構性暴增的根因。

推論已成 AI 算力支出主軸:多方估計推論將佔 2026 年底約三分之二 AI 算力需求(2023 約三分之一),是 OpenAI 同時與 Cerebras/Groq/AMD 簽巨額推論合約的結構性背景。AI 原生應用:Cursor、Perplexity、Notion、Uber、Mercor、OpenEvidence——per-token 價格 10–100x 壓縮,但 agentic 用量 5–30x 暴增,總帳單反增、推論量結構性成長。超大規模/企業:Microsoft(MSFT)、Google(GOOGL)、AWS(AMZN,自有推論 + 收編壓力,把推論支出拉回自家平台;Trainium 3 2026 Q2 量產加速去 NVIDIA 化)、OpenAI(2026-04 將 Cerebras 採購倍增至逾 $200 億並取得最高 10% 認股權證、承諾 AMD 6GW)。開源模型方是第三方推論平台命脈(閉源 API 無第三方代跑空間):Mistral(ARR ~$400M 2026-01、目標年底 >$10 億)、Meta Llama、DeepSeek、Qwen(阿里)、Kimi(月之暗面)。⚠ 大客戶內製化(OpenAI 自建、企業自架 vLLM)可繞過第三方平台,侵蝕 IaaS 需求;hyperscaler 同時是需求方與競爭方。

公司市佔/地位角色
[US] OpenAI (—)最大推論需求/合約方未上市;2026-04 Cerebras 採購由 $100 億倍增至逾 $200 億(750MW+認股權證最高 10%+$10 億資料中心資金);承諾 AMD 6GW;自建推論基建是內製化威脅
[FR] Mistral AI (—)歐洲開源模型方未上市;ARR ~$400M 2026-01、目標年底 >$10 億
[US] Microsoft (MSFT)超大規模需求+競爭自有推論 + 把支出拉回自家平台壓力
[US] Amazon (AWS) (AMZN)雲端需求+收編方+自研矽2026-03 把 Cerebras 納 Bedrock;Trainium 3 2026 Q2 量產加速去 NVIDIA 化;hyperscaler 收編壓力
[US] Perplexity (—)AI 原生應用客戶未上市;Fireworks 客戶;agentic 高 token 用量
[US] Cursor (Anysphere) (—)coding agent 客戶未上市;多平台客戶;coding agent token 用量大

資料來源

常見問答 FAQ

AI 推論服務與優化供應鏈 (AI Inference Serving & Optimization)是什麼?
AI Inference Serving & Optimization — 推論即服務(賣 API/token)與優化軟體層(量化/KV cache/投機解碼,每 GPU 多服務 10–50x 請求)。2026 是推論層自成資產類別的引爆年:Fireworks 洽 $15B(ARR ~$8 億、每日 10+ 兆 token)、Baseten 2026-06-22 完成 $1.5B Series F 估值 $13B(ARR $600M、YoY +1,900%、每日 10 億+ 推論呼叫)、Together $7.5B(ARR ~$10 億);Groq 獲 NVIDIA 3 年 $170 億推論技術授權並於 GTC 2026 落地為自有 Groq 3 LPX、Cerebr…
AI 推論服務供應鏈有哪些關鍵環節?
本主題涵蓋 5 個上下游環節:推論晶片 / 加速器(GPU / LPU / WSE / RDU)、推論引擎 / 優化軟體(賣鏟人核心)、推論即服務平台(IaaS,敘事核心)、聚合 / 路由 / 網關(過路費商業模式)、終端需求(應用 / 企業 / 開源模型方)。
AI 推論服務的龍頭/領先公司有哪些?
關鍵公司包括:NVIDIA(NVDA)、Groq、Cerebras Systems(CBRS)。各環節市佔與競爭態勢詳見供應鏈地圖。
AI 推論服務市場規模與成長性如何?
關鍵數據:服務層底料。各環節完整市場規模與成長率見地圖節點。
AI 推論服務最新發展?
晚 6 月唯一真正新進展:Baseten 於 2026-06-22 正式完成 $1.5B Series F(估值 $13B,由 Altimeter/Conviction/Spark 領投、兩檔 $13B/$11B,18 個月第四輪),原檔僅記為「洽 $11–13B」。已將其由「洽談中」更新為「已完成」,並補上確定數據:ARR $600M、YoY +1,900%(20x)、推論量 +40x、每日 10 億+ 推論呼叫跨 87 叢集/18 雲。其餘熱門事件(Fireworks 洽 $15B、Together 洽 $7.5B、OpenRouter $1.3B、Cerebras IPO、NVIDIA Groq 3 LPX、AMD MI400)均已在檔且仍維持「洽談中」狀態,未重複。(更新日 2026-06-24)

💬 留言討論 (0)

歡迎分享你對此供應鏈/個股的看法。需以 Google 帳號登入後留言;內容僅供研究討論,非投資建議。