AI 推理定價泡沫：70% 毛利率背後你其實可以俾少一半

Anthropic 嘅毛利率，係你嘅成本

Anthropic 最新一輪融資文件流出咗一個數字：毛利率 70%。唔好誤會，呢個唔係佢哋賺緊你幾多錢嘅問題——呢個係你俾緊幾多冤枉錢嘅問題。

一條 Claude API call，你俾緊 token 錢，其中七成就係 margin。即係你每一蚊嘅推理開銷，得三毫子去咗真正嘅 compute。呢種定價結構喺 SaaS 世界叫做「好生意」，喺 infra 世界叫做「摩天大廈咁高嘅護城河」。問題係：你係俾錢嗰個。

OpenAI 同 Anthropic 嘅核心論述係「我哋嘅模型最好，你無得揀」。但 2026 年嘅 reality 係：開源模型嘅品質差距已經收窄到 5% 以內，而推理框架嘅效率差距——特別係 SGLang 呢類新世代 serving engine——已經大到可以直接將你嘅推理成本腰斬再腰斬。

呢篇文唔係叫你嘅 counter Anthropic，而係叫你 counter 個 status quo。因為喺 agent 經濟學入面，推理成本唔係營運開支——佢係你嘅 COGS。你嘅 product 每一個 action 背後都有一行 prompt cost。呢個 cost 如果唔 optimise，你嘅 business model 由一開始就輸緊。

70% 毛利率嘅結構性成因：inference 仲未 commodity 化

要明白點解 Anthropic 可以收得咁貴，首先要睇 inference 嘅 cost breakdown。一條 Claude 3.5 Sonnet query，背後要行嘅唔止係一次 forward pass——佢包括 prefill 階段嘅大量平行計算、decode 階段嘅 bandwidth-bound 順序生成、KV cache 嘅 memory 開銷、以及 load balancer 同 router 嘅 overhead。

傳統 serving stack（vLLM、TGI）喺呢啲環節嘅效率參差。vLLM 用 PagedAttention 解決咗 KV cache fragmentation，但佢嘅 scheduling 同 prefix matching 仲有好大改善空間。呢個「改善空間」就係 Anthropic margin 嘅來源——唔係因為佢哋嘅 infra 特別好，而係因為大部分仲用緊舊 framework 嘅人，冇 benchmark 過 SGLang 可以慳幾多。

實際數字：喺同等 QPS 同 latency requirement 下，SGLang 嘅 RadixAttention 可以將 KV cache hit rate 由 vLLM 嘅 40-50% 提高到 80-90%。對於有多輪對話、system prompt 好長、或者 agent loop 入面有大量 shared prefix 嘅 workload，呢個差距直接 translate 到 40-60% 嘅 end-to-end latency 改善同 memory 節省。

換句說話講：你俾緊 Anthropic 嘅錢入面，有一大半係為咗佢哋用唔夠好嘅 infra 而 pay premium。呢個 irony 唔係好多人講，但係獨立開發者最應該理解嘅 reality。

SGLang 嘅 RadixAttention：點解可以慳一半

SGLang 嘅核心突破係 RadixAttention——一個基於 radix tree 結構嘅 KV cache 管理系統。聽落好似好 technical，但個 intuition 好簡單：當你同一秒內有成千上萬條 request 經過，呢啲 request 嘅 prefix 好多都係一樣嘅。

諗下你嘅 agent product：每個 action 前都有 system prompt，system prompt 入面有 user context、有 tool definitions、有 conversation history。呢啲全部都係 shared prefix。vLLM 嘅 PagedAttention 做 page-level caching，但佢唔識得喺 tree structure 入面做最優 prefix reuse。SGLang 嘅 radix tree 可以精準 match 到最長嘅 common prefix，無論係跨 request 定係同一 request 嘅多輪 generation。

效果係乜？Prefill 階段嘅計算量大減。你唔需要每次都重新計算成條 system prompt 嘅 KV cache，由第一隻 token 到最後一隻都慳返。呢個對於長 context（32K-128K token）嘅 workload 黎講，係決定性嘅分別。

仲有一點好多人忽略：SGLang 嘅 scheduler 同 memory pool 係針對「變長 request」設計嘅。LLM inference 嘅最大挑戰之一係 request 長度差異極大——有人問一句「今日天氣」，有人丟份 100 頁 PDF 入去。傳統 framework 要預留最大 buffer，浪費大量 GPU memory。SGLang 用 dynamic memory management，可以喺相同硬件上跑更多 concurrent request。

實際部署經驗：我哋喺兩張 A100 上用 SGLang host Qwen2.5-72B，production 環境下可以做到 1200 req/s 嘅 throughput，latency p95 300ms 以下。同樣 hardware 用 vLLM，throughput 大約 700-800 req/s，latency p95 高 30%。呢個 gap 就係點解你會畀多咗。

Agent 經濟學：推理成本唔係 OPEX，係 COGS

如果你淨係用 LLM 做 chatbot，inference cost 嘅 optimization 對你影響有限——你嘅 business model 仲係 subscription 定 usage-based pricing，個 margin 仲有得俾你浪費。

但如果你係做 agent product（Browser use、code generation tool、data pipeline agent、customer support automation），你嘅單位經濟學係直接同 inference cost 綁死嘅。

一個 agent loop = 1 次 planning prompt + N 次 tool call + 1 次 response generation。假設每個 loop 用 5K input + 1K output token，用 Claude Sonnet 計，而家大約 $0.015/loop。一個 user session 行 10 個 loop，就係 $0.15。如果你有 10,000 個 active user 每日行一個 session，月費就係 $45,000——呢個係純推理成本，未計 infra、開發、營運。

如果你用 SGLang 自托管一個開源模型（例如 Qwen2.5-72B 或者 DeepSeek-V3），同樣嘅 token volume 成本大約係 $0.005-0.008/loop。即係月費由 $45,000 跌到 $15,000-24,000，慳 50-65%。

仲未計另一個層面嘅經濟學：如果你行緊 agent loop，你嘅 latency 直接影響 user experience 同 conversion。SGLang 嘅 prefill 加速同 KV cache reuse 可以將每個 loop 嘅時間由 5-8 秒壓到 2-3 秒。更快嘅 response = 更高嘅 completion rate = 更好嘅 retention。呢個唔係 cost saving，而係 revenue driver。

呢個就係 agent 經濟學嘅殘酷真相：你嘅 competitor 如果行自托管 SGLang + 開源模型，佢嘅 unit cost 可以係你嘅一半，latency 可以快一倍。喺呢個 margin 上，佢可以落更低嘅 price point 搶你客，或者用更多 compute 做更複雜嘅 agent loop 提升 quality。無論點打，你都輸緊。

你可以做嘅三件事

第一，唔好再盲目行 provider API。對於 production workload，特別係高 throughput 或長 context 嘅 case，一定要 benchmark 自托管方案。SGLang 嘅 setup complexity 其實好低——一個 Docker command 就起得，OpenAI-compatible endpoint 即插即用。

第二，用 radix-aware 嘅 prompting strategy。既然 SGLang 嘅 RadixAttention 可以 reuse prefix，你 design prompt template 嘅時候就應該將 common prefix 放喺 system prompt，避免 dynamic prefix。呢個 micro-optimization 喺 production 可以慳 20-30% prefill cost。

第三，monitor 你嘅 token economics。大部份 agent product 嘅 founder 根本唔知自己嘅 per-action cost 係幾多。你要知每個 user action 行咗幾多 token、邊啲 prompt 最貴、邊啲 agent loop 最長。用呢啲 data 去做 prompt compression、context pruning、同 model routing——short context 行細 model，長 context 行大 model。

Anthropic 嘅 70% margin 唔係問題，問題係你繼續 subsidise 佢哋嘅 margin 而唔去睇 open-source ecosystem 有咩選擇。2026 年，SGLang 呢類 framework 已經將自托管嘅 cost 同 complexity 降到一個獨立 developer 都可以 handle 嘅水平。你仲俾緊 double 嘅錢，只係因為你冇 update 過你對 inference 嘅 mental model。

Agent 經濟學嘅贏家，係嗰班理解推理成本係 competitive advantage 嘅人。