AI API 定價泡沫：你俾緊嘅錢大半係 infra premium

Anthropic 毛利率超過 70%，但佢哋嘅 API 定價每個月仍然喺度蠶食開發者嘅利潤。呢個數字意味住咩？你每俾 $100 俾 Claude API，有 $70 以上直接落入 Anthropic 嘅利潤池，得嗰 $30 左右真正用喺模型運算本身。問題係：你幾時見過一個行業，供應商賺 70% margin，但客戶仲覺得俾得合理？答案係從未——除咗 AI API 市場。你俾緊嘅錢，大部份唔係為咗 GPU 運算，而係為咗「唔使自己搞 infrastructure」呢個 premium。

七成利潤率背後嘅成本迷霧

要理解呢個 pricing bubble 有幾誇張，首先要拆解 API 定價嘅構成。以 Claude 3.5 Sonnet 為例，input $3/M tokens、output $15/M tokens。Anthropic 公開嘅毛利率喺 70-75% 之間，意味住 direct cost 只佔定價嘅 25-30%。呢個 direct cost 包括推理 GPU 折舊、電力、網絡頻寬，仲有分攤嘅模型訓練成本。

問題係 training cost 嘅攤分機制極唔透明。Anthropic 同 OpenAI 各自燒咗幾十億美金 training 下一代模型，呢筆錢自然要透過 API 定價收回來。但從客戶角度睇，你俾嘅 $/M tokens 入面，有幾多用嚟 amortize 佢哋嘅訓練開支，完全係黑箱。更矛盾嘅係，模型蒸餾同量化技術越嚟越成熟，smaller model 嘅能力已經逼近 frontier model，但 API 定價並冇跟住成本結構同步下降。LLaMA 3 405B 自建嘅 inference cost 可以做到低於 $0.5/M tokens，但同等級別嘅閉源 API 仍然收緊 $10-20/M tokens——呢個 20-40 倍嘅溢價，就係 pure infra premium。

另一個隱藏成本係 vendor lock-in。一旦你嘅產品深度整合咗某間 API 嘅 function calling、tool use、system prompt 行為，遷移成本極高。呢個 switching cost 俾咗 API provider 持續加價嘅底氣。佢哋知你唔會輕易走，所以逐年 squeeze margin。

Infra Premium 入面包含咗啲乜

你俾嘅 infra premium 大致分為五項。第一係 auto-scaling GPU cluster。API provider 要維持全球數萬張 GPU 嘅池，隨時應付你嘅 traffic spike。第二係 multi-region redundancy，確保即使 us-east-1 死咗，你嘅 request 可以 failover 去 eu-west-1。第三係 latency SLA——佢哋要保證 first token latency 喺某個 threshold 以下，呢個需要複雜嘅 routing 同預熱機制。第四係 security compliance，SOC 2、HIPAA、GDPR，每張 cert 都係錢。第五就係「唔使自己請人」嘅 convenience premium。

但對於香港嘅 startup 同獨立開發者嚟講，呢五項入面好多你根本唔需要。你做一個 MVP、一個 side project、或者一個 internal tool，你唔需要 multi-region failover，唔需要 sub-100ms latency SLA，唔需要 SOC 2。你只需要一個 reliable 嘅推理端點，可以 handle 每日幾百到幾千個 request。為咗呢啲你唔需要嘅 enterprise feature，你每個月俾緊 5-10 倍嘅溢價。

仲有一個殘酷事實：API provider 嘅 pricing 係 cross-subsidise 嘅。大客戶（銀行、保險、跨國企業）要求嚴格嘅 SLA 同支援，而呢啲 infrastructure overhead 係由所有客戶——包括你——共同承擔。換句話講，你作為獨立開發者，每個月喺度 subsidize 緊 JPMorgan 嘅 compliance engineer 人工同 Goldman Sachs 嘅 dedicated support team。

SGLang 同開源自建方案嘅成本革命

SGLang 呢類 open-source inference engine 徹底改變咗成本結構。佢核心嘅 RadixAttention 算法可以自動重用 KV cache，做到跨 request 嘅 prefix caching，喺大量 prompt 有共同 prefix 嘅場景下（例如 chatbot system prompt、RAG context），throughput 提升 3-5 倍。加上 continuous batching、FP8 量化、paged attention，同樣一張 A10G（24GB VRAM，月租約 $300-400），可以 serve 到原本需要 $2000-3000 API 費用嘅 workload。

實際數字：一個 typical RAG chatbot，每日處理 10,000 個 query，每個 query 約 2K input + 500 output tokens。用 Claude API 每月約 $4,500。用 SGLang + Llama 3 70B（INT4 quant）行喺兩張 A10G 上，GPU 月租約 $700，加埋 networking 同 storage，total cost under $1,000。成本削減超過 80%。如果用量更大，用 SGLang + Llama 3 405B（FP8 quant）行喺八張 A100 上，定點成本約 $5,000/月，但同等 quality 嘅 API 成本超過 $50,000/月。

工具鏈已經成熟到一個地步：vLLM、SGLang、TGI 三個 major engine 都支持 OpenAI-compatible API，你嘅 code 完全唔使改，只係將 endpoint URL 同 API key 換成自建 server 嘅地址。配合 BentoML、Dstack、RunPod 等部署平台，十幾分鐘就可以拉起一個 production-grade 嘅推理端點。

你應該點樣做

唔係所有 workload 都啱自建。你要根據自己嘅 usage pattern 做 decision。Rule of thumb：每月 API spend 低於 $500，繼續用 API，慳返啲時間寫 code。每月 $500-$5,000，開始認真睇 SGLang/vLLM，用 cheap GPU（A10G/L40S）serve open-source model。每月超過 $5,000，自建係必須，而且要開始 invest 喺 infra 同 optimization。

第二個建議：行 hybrid strategy。用自建 server 做日常 inference，保留 API 做 fallback 同 hard case。SGLang 嘅 Automatic Router 已經可以根據 prompt complexity 自動喺自建 model 同 API 之間切換，簡單 query 行低成本 self-host，複雜推理先 call Claude/GPT。咁樣平均成本可以再砍 30-50%。

最後，唔好 underestimates switching cost。今日開始就用 open-source model 做 prototyping，確保你嘅 code abstract 咗 model provider layer。用 LiteLLM、OpenRouter 或者自己寫一個 thin wrapper，令你未來可以隨時切換 provider 或者轉 self-host。呢個 flexibility 就係你對抗 infra premium 嘅最大武器。AI API 定價泡沫唔會自動爆破——但要有人主動去刺穿佢。