由 Anthropic 賺 70% margin 睇 AI infra 創業機會:仲有冇位入?
Anthropic 最近披露佢哋嘅 gross margin 達到 70%,消息一出,好多人嘅焦點都放咗喺「AI 公司真係好賺錢」呢個角度。但我認爲更重要嘅問題係:呢個 margin 背後反映緊啲乜?如果 Anthropic 可以收得咁貴而大把客戶繼續買單,意味住市場上缺乏真正有競爭力嘅平價替代方案。成個 AI infrastructure 嘅定價體系入面,存在一個巨大嘅缺口。對於創業者而言,缺口就係機會——缺口愈大,機會愈大。
定價缺口:API 背後嘅隱藏效率差異
今日主流 LLM API 嘅定價機制其實好粗糙,幾乎清一色按「每 million tokens」劃一收費。但實際上,同一條 query 用唔同嘅推理框架、唔同嘅硬件配置、唔同嘅 batching 策略,每 token 嘅實際成本可以相差 5 倍甚至 10 倍。Anthropic 嘅 70% margin 唔係因為佢哋嘅模型真係比其他模型好咁多,而係因為大部分客戶根本冇能力或者冇誘因去優化佢哋嘅推理成本。呢個資訊不對稱,就係定價缺口嘅根源。
呢個 gap 喺 cloud GPU 定價上更加明顯。AWS 同 GCP 嘅 H100 定價仍然高企喺每小時 USD $40 以上,但專門嘅 AI cloud 好似 CoreWeave、Lambda Labs、TensorWave 可以做到每 GPU-hour USD $2-3。十幾倍嘅價差,就係傳統 cloud vendor 食緊嘅「convenience premium」——你畀多啲錢,因為你唔想自己搞 infra。任何能夠幫開發者以更低成本獲得同等算力嘅產品,都有巨大市場空間。尤其係 inference 呢個場景,對 latency 嘅要求比 training 低好多,容許更多成本最佳化嘅空間。
兩條突圍路徑:Mesh-LLM 與 SGLang 嘅啟示
近期開源社群有兩個項目特別值得關注,佢哋代表咗兩種截然不同嘅突圍思路。
第一個係 Mesh-LLM。呢個項目嘅核心概念係分散式推理——將一個 LLM 模型拆散,跨越多部 consumer-grade 機器並行運行。佢用 Skippy stage splits 技術解決咗超大模型單機裝唔落嘅問題,令到冇能力買 H100 嘅開發者同小型團隊可以用好幾部 consumer GPU 或者閒置雲端實例,pool 埋一齊做推理。雖然 latency 同 reliability 仲係未解決嘅挑戰,但方向好清晰——降低入場門檻,令 GPU 唔再係稀缺資源。
第二個係 SGLang,一個專注於推理性能嘅 serving framework。佢哋嘅 RadixAttention 技術可以跨請求複用 KV Cache,大幅提升多用戶場景下嘅 throughput。根據公開 benchmark,SGLang 喺某啲 workload 下比 vLLM 快 2-3 倍。呢個速度提升直接轉化為成本下降——同樣嘅硬件可以 serve 更多請求,每 token 嘅攤分成本自然更低。更重要嘅係,SGLang 嘅成功證明 software-level 嘅 optimization 仲有巨大空間未被開發,呢個唔係 hardware 問題,而係 engineering 問題。
兩個項目俾創業者嘅啟示好清楚:降低 LLM inference 成本嘅路徑唔止一條。你可以從硬件資源層面入手(分散式、pooling、去中心化),亦可以從軟件效率層面入手(更聰明嘅 cache、scheduling、model optimization)。每一條路都仲有大量未被佔領嘅空間。
仲有邊啲具體位可以入?
綜合以上分析,我認為以下四個方向值得香港創業者認真諗一諗。
第一,Specialized AI Inference Cloud。 CoreWeave 嘅成功已經證明 niche cloud 係可行嘅 business model,但 CoreWeave 主力做 training,inference 呢個 market 仲未有清晰嘅 dominant player。如果你可以做到「市場上最平嘅 token 價格」,同時保持合理嘅 latency 同 reliability,呢個係一個以百億美元計嘅市場。香港做呢樣嘢有獨特優勢:接近亞洲客戶市場,供應鏈靈活,而且電力成本比矽谷可控。
第二,Inference Optimization as a Service。 SGLang 呢類工具雖然 powerful,但 requires 大量專業知識去 deploy 同 tune。好多企業 team 根本冇呢個 capacity。一個「plug-and-play 推理加速服務」——你畀我你嘅 API endpoint,我幫你 optimize 然後收節省成本嘅分成——呢個 business model 仲未有 clear winner。入場門檻低,唔需要買 hardware,純 software play。
第三,模型路由層。 開源模型越出越多:Llama、Mistral、Qwen、DeepSeek、Phi、Gemma……對 developer 嚟講選擇困難症係真實嘅痛點。做一個 intelligent router,自動根據 task 複雜度將 query 分配去最合適嘅模型同 provider,可以幫企業慳 30-50% API cost。Apple 最近開源咗佢哋嘅 router model,證明呢個方向大公司都睇緊。做一個 dev-first、有靚 UX 嘅 routing layer 產品,market 好大。
第四,去中心化推理 Marketplace。 Mesh-LLM 嘅 concept 可以再推前一步:做一個 marketplace 連接 GPU 供應者同需求者,類似當年 Airbnb 顛覆酒店業。技術挑戰好大——latency、security、quality of service 全部係硬嘢——但正正因為難,先係 startup 嘅機會。大公司唔會碰呢啲 high-risk、低 margin 前期嘅 dirty work。
行動建議
如果你係香港開發者或者創業者,睇完呢篇文章,我建議你做三件事。
第一,親手行一次。 Clone Mesh-LLM 同 SGLang,喺你自己部機或者 cheap cloud instance 上 run 一次。親身感受吓目前嘅技術去到邊個位,乜嘢掂乜嘢唔掂。Nothing beats hands-on experience。
第二,睇清楚你公司嘅 AI 帳單。 如果你哋每月 AI API 費用超過 USD $1,000,你已經有足夠嘅 business case 去 explore 自托管或者 optimization。慳到嘅錢就係你嘅「創業學費」,用呢個 budget 去試嘢,risk 係零。
第三,揀一個 niche 鑽落去。 以上四個方向,任何一個做到極致都足夠 support 一間幾十人嘅公司。唔好貪心。Startup 死因第一位就係分散資源,focus 係生存嘅唯一法則。
AI infra 呢個賽道嘅窗口仲未關。Anthropic 嘅 70% margin 唔係 market saturation 嘅信號,而係 market inefficiency 嘅證據——而 inefficiency,就係創業者最好嘅朋友。呢個 gap 遲早會被填平,問題係:填平佢嘅人會唔會係你?