由 Anthropic 賺 70% margin 睇 AI infra 創業機會：仲有冇位入？

Anthropic 最近披露佢哋嘅 gross margin 達到 70%，消息一出，好多人嘅焦點都放咗喺「AI 公司真係好賺錢」呢個角度。但我認爲更重要嘅問題係：呢個 margin 背後反映緊啲乜？如果 Anthropic 可以收得咁貴而大把客戶繼續買單，意味住市場上缺乏真正有競爭力嘅平價替代方案。成個 AI infrastructure 嘅定價體系入面，存在一個巨大嘅缺口。對於創業者而言，缺口就係機會——缺口愈大，機會愈大。

定價缺口：API 背後嘅隱藏效率差異

今日主流 LLM API 嘅定價機制其實好粗糙，幾乎清一色按「每 million tokens」劃一收費。但實際上，同一條 query 用唔同嘅推理框架、唔同嘅硬件配置、唔同嘅 batching 策略，每 token 嘅實際成本可以相差 5 倍甚至 10 倍。Anthropic 嘅 70% margin 唔係因為佢哋嘅模型真係比其他模型好咁多，而係因為大部分客戶根本冇能力或者冇誘因去優化佢哋嘅推理成本。呢個資訊不對稱，就係定價缺口嘅根源。

呢個 gap 喺 cloud GPU 定價上更加明顯。AWS 同 GCP 嘅 H100 定價仍然高企喺每小時 USD $40 以上，但專門嘅 AI cloud 好似 CoreWeave、Lambda Labs、TensorWave 可以做到每 GPU-hour USD $2-3。十幾倍嘅價差，就係傳統 cloud vendor 食緊嘅「convenience premium」——你畀多啲錢，因為你唔想自己搞 infra。任何能夠幫開發者以更低成本獲得同等算力嘅產品，都有巨大市場空間。尤其係 inference 呢個場景，對 latency 嘅要求比 training 低好多，容許更多成本最佳化嘅空間。

兩條突圍路徑：Mesh-LLM 與 SGLang 嘅啟示

近期開源社群有兩個項目特別值得關注，佢哋代表咗兩種截然不同嘅突圍思路。

第一個係 Mesh-LLM。呢個項目嘅核心概念係分散式推理——將一個 LLM 模型拆散，跨越多部 consumer-grade 機器並行運行。佢用 Skippy stage splits 技術解決咗超大模型單機裝唔落嘅問題，令到冇能力買 H100 嘅開發者同小型團隊可以用好幾部 consumer GPU 或者閒置雲端實例，pool 埋一齊做推理。雖然 latency 同 reliability 仲係未解決嘅挑戰，但方向好清晰——降低入場門檻，令 GPU 唔再係稀缺資源。

第二個係 SGLang，一個專注於推理性能嘅 serving framework。佢哋嘅 RadixAttention 技術可以跨請求複用 KV Cache，大幅提升多用戶場景下嘅 throughput。根據公開 benchmark，SGLang 喺某啲 workload 下比 vLLM 快 2-3 倍。呢個速度提升直接轉化為成本下降——同樣嘅硬件可以 serve 更多請求，每 token 嘅攤分成本自然更低。更重要嘅係，SGLang 嘅成功證明 software-level 嘅 optimization 仲有巨大空間未被開發，呢個唔係 hardware 問題，而係 engineering 問題。

兩個項目俾創業者嘅啟示好清楚：降低 LLM inference 成本嘅路徑唔止一條。你可以從硬件資源層面入手（分散式、pooling、去中心化），亦可以從軟件效率層面入手（更聰明嘅 cache、scheduling、model optimization）。每一條路都仲有大量未被佔領嘅空間。

仲有邊啲具體位可以入？

綜合以上分析，我認為以下四個方向值得香港創業者認真諗一諗。

第一，Specialized AI Inference Cloud。 CoreWeave 嘅成功已經證明 niche cloud 係可行嘅 business model，但 CoreWeave 主力做 training，inference 呢個 market 仲未有清晰嘅 dominant player。如果你可以做到「市場上最平嘅 token 價格」，同時保持合理嘅 latency 同 reliability，呢個係一個以百億美元計嘅市場。香港做呢樣嘢有獨特優勢：接近亞洲客戶市場，供應鏈靈活，而且電力成本比矽谷可控。

第二，Inference Optimization as a Service。 SGLang 呢類工具雖然 powerful，但 requires 大量專業知識去 deploy 同 tune。好多企業 team 根本冇呢個 capacity。一個「plug-and-play 推理加速服務」——你畀我你嘅 API endpoint，我幫你 optimize 然後收節省成本嘅分成——呢個 business model 仲未有 clear winner。入場門檻低，唔需要買 hardware，純 software play。

第三，模型路由層。 開源模型越出越多：Llama、Mistral、Qwen、DeepSeek、Phi、Gemma……對 developer 嚟講選擇困難症係真實嘅痛點。做一個 intelligent router，自動根據 task 複雜度將 query 分配去最合適嘅模型同 provider，可以幫企業慳 30-50% API cost。Apple 最近開源咗佢哋嘅 router model，證明呢個方向大公司都睇緊。做一個 dev-first、有靚 UX 嘅 routing layer 產品，market 好大。

第四，去中心化推理 Marketplace。 Mesh-LLM 嘅 concept 可以再推前一步：做一個 marketplace 連接 GPU 供應者同需求者，類似當年 Airbnb 顛覆酒店業。技術挑戰好大——latency、security、quality of service 全部係硬嘢——但正正因為難，先係 startup 嘅機會。大公司唔會碰呢啲 high-risk、低 margin 前期嘅 dirty work。

行動建議

如果你係香港開發者或者創業者，睇完呢篇文章，我建議你做三件事。

第一，親手行一次。 Clone Mesh-LLM 同 SGLang，喺你自己部機或者 cheap cloud instance 上 run 一次。親身感受吓目前嘅技術去到邊個位，乜嘢掂乜嘢唔掂。Nothing beats hands-on experience。

第二，睇清楚你公司嘅 AI 帳單。 如果你哋每月 AI API 費用超過 USD $1,000，你已經有足夠嘅 business case 去 explore 自托管或者 optimization。慳到嘅錢就係你嘅「創業學費」，用呢個 budget 去試嘢，risk 係零。

第三，揀一個 niche 鑽落去。 以上四個方向，任何一個做到極致都足夠 support 一間幾十人嘅公司。唔好貪心。Startup 死因第一位就係分散資源，focus 係生存嘅唯一法則。

AI infra 呢個賽道嘅窗口仲未關。Anthropic 嘅 70% margin 唔係 market saturation 嘅信號，而係 market inefficiency 嘅證據——而 inefficiency，就係創業者最好嘅朋友。呢個 gap 遲早會被填平，問題係：填平佢嘅人會唔會係你？