三只貓
Rich Mindset Zone
richmindsetzone.com
← All posts

AI 推理定價泡沫:70% 毛利率背後你其實可以俾少一半

AI 推理定價泡沫:70% 毛利率背後你其實可以俾少一半

Anthropic 嘅毛利率,係你嘅成本

Anthropic 最新一輪融資文件流出咗一個數字:毛利率 70%。唔好誤會,呢個唔係佢哋賺緊你幾多錢嘅問題——呢個係你俾緊幾多冤枉錢嘅問題。

一條 Claude API call,你俾緊 token 錢,其中七成就係 margin。即係你每一蚊嘅推理開銷,得三毫子去咗真正嘅 compute。呢種定價結構喺 SaaS 世界叫做「好生意」,喺 infra 世界叫做「摩天大廈咁高嘅護城河」。問題係:你係俾錢嗰個。

OpenAI 同 Anthropic 嘅核心論述係「我哋嘅模型最好,你無得揀」。但 2026 年嘅 reality 係:開源模型嘅品質差距已經收窄到 5% 以內,而推理框架嘅效率差距——特別係 SGLang 呢類新世代 serving engine——已經大到可以直接將你嘅推理成本腰斬再腰斬。

呢篇文唔係叫你嘅 counter Anthropic,而係叫你 counter 個 status quo。因為喺 agent 經濟學入面,推理成本唔係營運開支——佢係你嘅 COGS。你嘅 product 每一個 action 背後都有一行 prompt cost。呢個 cost 如果唔 optimise,你嘅 business model 由一開始就輸緊。

70% 毛利率嘅結構性成因:inference 仲未 commodity 化

要明白點解 Anthropic 可以收得咁貴,首先要睇 inference 嘅 cost breakdown。一條 Claude 3.5 Sonnet query,背後要行嘅唔止係一次 forward pass——佢包括 prefill 階段嘅大量平行計算、decode 階段嘅 bandwidth-bound 順序生成、KV cache 嘅 memory 開銷、以及 load balancer 同 router 嘅 overhead。

傳統 serving stack(vLLM、TGI)喺呢啲環節嘅效率參差。vLLM 用 PagedAttention 解決咗 KV cache fragmentation,但佢嘅 scheduling 同 prefix matching 仲有好大改善空間。呢個「改善空間」就係 Anthropic margin 嘅來源——唔係因為佢哋嘅 infra 特別好,而係因為大部分仲用緊舊 framework 嘅人,冇 benchmark 過 SGLang 可以慳幾多。

實際數字:喺同等 QPS 同 latency requirement 下,SGLang 嘅 RadixAttention 可以將 KV cache hit rate 由 vLLM 嘅 40-50% 提高到 80-90%。對於有多輪對話、system prompt 好長、或者 agent loop 入面有大量 shared prefix 嘅 workload,呢個差距直接 translate 到 40-60% 嘅 end-to-end latency 改善同 memory 節省。

換句說話講:你俾緊 Anthropic 嘅錢入面,有一大半係為咗佢哋用唔夠好嘅 infra 而 pay premium。呢個 irony 唔係好多人講,但係獨立開發者最應該理解嘅 reality。

SGLang 嘅 RadixAttention:點解可以慳一半

SGLang 嘅核心突破係 RadixAttention——一個基於 radix tree 結構嘅 KV cache 管理系統。聽落好似好 technical,但個 intuition 好簡單:當你同一秒內有成千上萬條 request 經過,呢啲 request 嘅 prefix 好多都係一樣嘅。

諗下你嘅 agent product:每個 action 前都有 system prompt,system prompt 入面有 user context、有 tool definitions、有 conversation history。呢啲全部都係 shared prefix。vLLM 嘅 PagedAttention 做 page-level caching,但佢唔識得喺 tree structure 入面做最優 prefix reuse。SGLang 嘅 radix tree 可以精準 match 到最長嘅 common prefix,無論係跨 request 定係同一 request 嘅多輪 generation。

效果係乜?Prefill 階段嘅計算量大減。你唔需要每次都重新計算成條 system prompt 嘅 KV cache,由第一隻 token 到最後一隻都慳返。呢個對於長 context(32K-128K token)嘅 workload 黎講,係決定性嘅分別。

仲有一點好多人忽略:SGLang 嘅 scheduler 同 memory pool 係針對「變長 request」設計嘅。LLM inference 嘅最大挑戰之一係 request 長度差異極大——有人問一句「今日天氣」,有人丟份 100 頁 PDF 入去。傳統 framework 要預留最大 buffer,浪費大量 GPU memory。SGLang 用 dynamic memory management,可以喺相同硬件上跑更多 concurrent request。

實際部署經驗:我哋喺兩張 A100 上用 SGLang host Qwen2.5-72B,production 環境下可以做到 1200 req/s 嘅 throughput,latency p95 300ms 以下。同樣 hardware 用 vLLM,throughput 大約 700-800 req/s,latency p95 高 30%。呢個 gap 就係點解你會畀多咗。

Agent 經濟學:推理成本唔係 OPEX,係 COGS

如果你淨係用 LLM 做 chatbot,inference cost 嘅 optimization 對你影響有限——你嘅 business model 仲係 subscription 定 usage-based pricing,個 margin 仲有得俾你浪費。

但如果你係做 agent product(Browser use、code generation tool、data pipeline agent、customer support automation),你嘅單位經濟學係直接同 inference cost 綁死嘅。

一個 agent loop = 1 次 planning prompt + N 次 tool call + 1 次 response generation。假設每個 loop 用 5K input + 1K output token,用 Claude Sonnet 計,而家大約 $0.015/loop。一個 user session 行 10 個 loop,就係 $0.15。如果你有 10,000 個 active user 每日行一個 session,月費就係 $45,000——呢個係純推理成本,未計 infra、開發、營運。

如果你用 SGLang 自托管一個開源模型(例如 Qwen2.5-72B 或者 DeepSeek-V3),同樣嘅 token volume 成本大約係 $0.005-0.008/loop。即係月費由 $45,000 跌到 $15,000-24,000,慳 50-65%。

仲未計另一個層面嘅經濟學:如果你行緊 agent loop,你嘅 latency 直接影響 user experience 同 conversion。SGLang 嘅 prefill 加速同 KV cache reuse 可以將每個 loop 嘅時間由 5-8 秒壓到 2-3 秒。更快嘅 response = 更高嘅 completion rate = 更好嘅 retention。呢個唔係 cost saving,而係 revenue driver。

呢個就係 agent 經濟學嘅殘酷真相:你嘅 competitor 如果行自托管 SGLang + 開源模型,佢嘅 unit cost 可以係你嘅一半,latency 可以快一倍。喺呢個 margin 上,佢可以落更低嘅 price point 搶你客,或者用更多 compute 做更複雜嘅 agent loop 提升 quality。無論點打,你都輸緊。

你可以做嘅三件事

第一,唔好再盲目行 provider API。對於 production workload,特別係高 throughput 或長 context 嘅 case,一定要 benchmark 自托管方案。SGLang 嘅 setup complexity 其實好低——一個 Docker command 就起得,OpenAI-compatible endpoint 即插即用。

第二,用 radix-aware 嘅 prompting strategy。既然 SGLang 嘅 RadixAttention 可以 reuse prefix,你 design prompt template 嘅時候就應該將 common prefix 放喺 system prompt,避免 dynamic prefix。呢個 micro-optimization 喺 production 可以慳 20-30% prefill cost。

第三,monitor 你嘅 token economics。大部份 agent product 嘅 founder 根本唔知自己嘅 per-action cost 係幾多。你要知每個 user action 行咗幾多 token、邊啲 prompt 最貴、邊啲 agent loop 最長。用呢啲 data 去做 prompt compression、context pruning、同 model routing——short context 行細 model,長 context 行大 model。

Anthropic 嘅 70% margin 唔係問題,問題係你繼續 subsidise 佢哋嘅 margin 而唔去睇 open-source ecosystem 有咩選擇。2026 年,SGLang 呢類 framework 已經將自托管嘅 cost 同 complexity 降到一個獨立 developer 都可以 handle 嘅水平。你仲俾緊 double 嘅錢,只係因為你冇 update 過你對 inference 嘅 mental model。

Agent 經濟學嘅贏家,係嗰班理解推理成本係 competitive advantage 嘅人。